Datahub安装

1. DataHub简介

DataHub是由Linkedin开源的, 为现代数据栈而生的元数据管理平台。其目的是解决各种数据生态系统的元数据管理问题,它提供元数据检索、数据发现、数据监测和数据监管能力,帮助大家解决数据管理的复杂性。

DataHub基于Apache License 2开源。集成了大部分流行数据生态系统接入能力,包括:Kafka、Airflow、 MySQL、 Oracle、SQL Server、Postgres、LDAP、Snowflake、Hive、BigQuery等。

Github:https://github.com/linkedin/datahub

官网: https://datahubproject.io

2. DataHub 安装

2.1 硬件要求

DataHub官方要求的最低配置为:2 个 CPU、8GB RAM、2GB 交换区和 10GB 磁盘空间。

本文的示例环境为阿里云centos8云服务器

2.2 安装docker

使用官方安装脚本自动安装安装命令如下:

curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun

也可以使用国内 daocloud 一键安装命令:

curl -sSL https://get.daocloud.io/docker | sh

查看是否安装成功:

docker --version

启动 Docker:

sudo systemctl start docker

2.3 安装jq

yum install epel-release     

yum -y install jq

2.4 安装python3

DataHub要求 Python 版本3.6+,本例采用python3.8.2

1 安装必备的插件:

1.1 先升级:

# yum install -y update

1.2 再安装 gcc和make插件:

#yum install gcc gcc-c++

#yum -y install gcc automake autoconf libtool make

#yum groupinstall -y 'Development Tools'

# yum install -y gcc openssl-devel bzip2-devel libffi-devel

2. 下载和编译python3.8.2

2.1 下载python3.8.2

#wget https://www.python.org/ftp/python/3.8.2/Python-3.8.2.tgz

2.2 解压缩:# tar -zxvf Python-3.8.2.tgz

2.3 用脚本检验整个编译环境

# cd Python-3.8.2

# ./configure prefix=/usr/local/python3 --enable-optimizations

2.4 用make命令编译安装

# make && make install

2.5 修改环境变量

# export PATH=$PATH:/usr/local/python3/bin/

3. 安装PIP

# curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py

# python3.8 get-pip.py

4、测试

python3 -v

这样python3就正常安装到centos8上了

2.5 安装 DataHub CLI

DataHub CLI 是DataHub命令行工具,要求安装和配置 Python 3.6+。通过此命令行工具可以部署更新DataHub、导入元数据等。

1、升级 pip、wheel、setuptools

python3 -m pip install --upgrade pip wheel setuptools

2、卸载DataHub CLI

python3 -m pip uninstall datahub acryl-datahub || true  

3、下载安装DataHub CLI  

python3 -m pip install --upgrade acryl-datahub    

4、查看DataHub CLI版本号,验证是否安装成功

python3 -m datahub version    

2.6 部署DataHub

1、用DataHub CLI命令在docker下部署、启动DataHub。

python3 -m datahub docker quickstart

首次执行quickstart会下载安装多个docker镜像,时间会有点慢,大概需要10几分钟。如果下载失败或者长时间无法完成,请尝试添加国内docker镜像源。这里用的是daocloud国内镜像,执行以下命令:

curl -sSL https://get.daocloud.io/daotools/set_mirror.sh | sh -s http://f1361db2.m.daocloud.io

关机重启后可以再次执行quickstart命令启动datahub。

如果要升级datahub,且保留已有数据,执行以下命令:

python3 -m datahub docker nuke --keep-data
python3 -m datahub docker quickstart

2、部署启动成功后,显示DataHub is now running

执行docker container ls命令可以看到多了以下docker容器:

部署成功后打开网址(http://本地ip地址:9002),界面如下图所示:

注意:要开放外网访问端口9002和8080,9002为网站访问端口,8080为api访问端口

默认登录名和密码是 datahub、datahub