YDB基于原版Hadoop的部署

YDB基于原版Hadoop的部署

正式部署前请详细阅读基础环境这三篇,非常重要

YDB依赖的硬件环境详解

YDB依赖的操作系统环境详解

YDB依赖的软件环境详解

 

YDB软件下载

从官方 http://ycloud.net.cn/?page_id=59 下载软件

1)下载延云YDB

2)延云YDB提供的Spark

注意一定要使用延云提供的Spark,不能从其他地方下载

Spark延云修正了一些BUG,以及在SQL解析上做了处理

3)JDK1.8

 

软件解压

解压到/opt/ydbsoftware目录下,最后可以看到目录结构是这样的

conf目录是YDB的所有配置文件,bin目录是YDB的执行文件

 

配置conf目录下的ya100_env.sh环境变量

1.基本环境配置

export HADOOP_CONF_DIR=/etc/hadoop/conf

export HADOOP_HOME=/usr/hdp/current/hadoop-client

export JAVA_HOME=/usr/jdk64/jdk1.8.0_60

export SPARK_HOME=/root/software/spark-1.6.1

注意:配置过后大家一定要手工验证下,相关目录的配置文件是否真的存在

2.配置内存与启动的并发数

#为启动的进程数量,切记不要超过Yarn总的VCores的数量-1

#建议每台机器配置CPU线程数的一半,如12个;

#如果有3台机器,每台机器配置12个的话那么下面这项的值要写36,不要只写12

export YA100_EXECUTORS=12

 

#启动的进程,每个给分配多少内存

#YA100_EXECUTORS*YA100_MEMORY的大小建议为yarn总内存的3/5(剩下的留给操作系统)

#关于内存控制参数的详细说明,请阅读example下的《3.大家需要了解的几个内存控制的参数.txt》说明

#常规128G内存的机器,建议配置为6000m~7000m

export YA100_MEMORY=6000m

 

#每个进程内启动的线程数,一般不需要修改

#配置值不可超过Yarnyarn.scheduler.maximum-allocation-vcores的值

#建议默认配置为5~9

export YA100_CORES=5

#ydb JDBC接口程序分配的内存,建议6000m以上

export YA100_DRIVER_MEMORY=6000m

 

 

 

配置conf目录下的ydb_site.yaml环境变量

该文件的配置非常容易出错,要注意如下几点:

1.文件格式必须为UTF8格式,切记切记

2.每个配置项的开头必须有个空格,而不TAB

3.配置文件中别出现TAB

4.注意每个KEY : VALUE 之间是有一个空格的,如果value是字符串类型,要用双引号括起来

配置项说明如下:

1.配置 YDB的存储路径的配置 ydb.hdfs.path

注意YDB的存储路径与ya100的存储路径不是一个,要分别配置成不同的路径,不能重复

ya100的默认存储路径在conf目录下的hive-site.xml中的hive.metastore.warehouse.dir

Ya100的每张表的存储路径也可以再创建表的时候由location来指定。

2.配置Ydb在实时导入过程中,所使用的临时目录ydb.reader.rawdata.hdfs.path

3.配置ydb http ui服务的端口 ydb.httpserver.port 默认为1210

4.配置ydb依赖的zookeeperstorm.zookeeper.servers storm.zookeeper.root

 

 

 

七、其他ya100/conf目录下的配置文件的说明

hive-site.xml hive表的配置,如果想要更改Hive的一些配置,如将Hive的元数据写入到数据库里,可修改此文件。

spark-defaults.conf 用于配置Spark,如果需要修改Spark的默认调度规则,可以修改此配置。

init.sql ya100启动时候的初始化方法,如果我们的业务需要自定义UDF,可以考虑将自定义UDF语句放到这里,通过init.sh来执行

driver.log.properties为接口程序的log4j的配置,默认日志记录在logs目录下

worker.log.propertiesya100的工作进程的log4j的配置,默认记录在每台机器的Yarn的工作目录下。如果不想Yarn清理掉,可以通过改文件改变日志的存储的路径,为了日常运维调试的方便,我们都建议修改,但一定要注意每台机器目录的权限。

开始部署延云YDB-服务的启动与检查

进入bin目录,执行chmod a+x *.sh

第一:ydb

./restart-all.sh ./start-all.sh

第二:spark 服务检查:

1.tail -f ../logs/ya100.log 看是否有报错,当出现如下的日志,表示启动成功

2.打开yarn8088页面,看启动的container数量以及内存的时候是否正确

3.看下面是否有ya100 on spark的任务,点击对应的Application Master看是否能打开SparkUI页面

 

 

 

 

第三:YDB服务检查

1.通过浏览器打开:1210页面,看是否能打开

2.点开“work工作进程列表看启动的worker数量是否与在ya100_env.sh里配置的YA100_EXECUTORS数量一致

第四:服务的停止

./stop-all.sh