1. DataHub简介
DataHub是由Linkedin开源的, 为现代数据栈而生的元数据管理平台。其目的是解决各种数据生态系统的元数据管理问题,它提供元数据检索、数据发现、数据监测和数据监管能力,帮助大家解决数据管理的复杂性。
DataHub基于Apache License 2开源。集成了大部分流行数据生态系统接入能力,包括:Kafka、Airflow、 MySQL、 Oracle、SQL Server、Postgres、LDAP、Snowflake、Hive、BigQuery等。
Github:https://github.com/linkedin/datahub
2. DataHub 安装
2.1 硬件要求
DataHub官方要求的最低配置为:2 个 CPU、8GB RAM、2GB 交换区和 10GB 磁盘空间。
本文的示例环境为阿里云centos8云服务器
2.2 安装docker
使用官方安装脚本自动安装安装命令如下:
curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun
也可以使用国内 daocloud 一键安装命令:
curl -sSL https://get.daocloud.io/docker | sh
查看是否安装成功:
docker --version
启动 Docker:
sudo systemctl start docker
2.3 安装jq
yum install epel-release
yum -y install jq
2.4 安装python3
DataHub要求 Python 版本3.6+,本例采用python3.8.2
1 安装必备的插件:
1.1 先升级:
# yum install -y update
1.2 再安装 gcc和make插件:
#yum install gcc gcc-c++
#yum -y install gcc automake autoconf libtool make
#yum groupinstall -y 'Development Tools'
# yum install -y gcc openssl-devel bzip2-devel libffi-devel
2. 下载和编译python3.8.2
2.1 下载python3.8.2
#wget https://www.python.org/ftp/python/3.8.2/Python-3.8.2.tgz
2.2 解压缩:# tar -zxvf Python-3.8.2.tgz
2.3 用脚本检验整个编译环境
# cd Python-3.8.2
# ./configure prefix=/usr/local/python3 --enable-optimizations
2.4 用make命令编译安装
# make && make install
2.5 修改环境变量
# export PATH=$PATH:/usr/local/python3/bin/
3. 安装PIP
# curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
# python3.8 get-pip.py
4、测试
python3 -v
这样python3就正常安装到centos8上了
2.5 安装 DataHub CLI
DataHub CLI 是DataHub命令行工具,要求安装和配置 Python 3.6+。通过此命令行工具可以部署更新DataHub、导入元数据等。
1、升级 pip、wheel、setuptools
python3 -m pip install --upgrade pip wheel setuptools
2、卸载DataHub CLI
python3 -m pip uninstall datahub acryl-datahub || true
3、下载安装DataHub CLI
python3 -m pip install --upgrade acryl-datahub
4、查看DataHub CLI版本号,验证是否安装成功
python3 -m datahub version
2.6 部署DataHub
1、用DataHub CLI命令在docker下部署、启动DataHub。
python3 -m datahub docker quickstart
首次执行quickstart会下载安装多个docker镜像,时间会有点慢,大概需要10几分钟。如果下载失败或者长时间无法完成,请尝试添加国内docker镜像源。这里用的是daocloud国内镜像,执行以下命令:
curl -sSL https://get.daocloud.io/daotools/set_mirror.sh | sh -s http://f1361db2.m.daocloud.io
关机重启后可以再次执行quickstart命令启动datahub。
如果要升级datahub,且保留已有数据,执行以下命令:
python3 -m datahub docker nuke --keep-data
python3 -m datahub docker quickstart
2、部署启动成功后,显示DataHub is now running
执行docker container ls命令可以看到多了以下docker容器:
部署成功后打开网址(http://本地ip地址:9002),界面如下图所示:
注意:要开放外网访问端口9002和8080,9002为网站访问端口,8080为api访问端口