YDB YDB易捷版 Ypump简介

        YDB全称延云YDB,是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎,具有万亿数据规模下的秒级性能表现,并具备企业级的稳定可靠表现。

        YDB是一个细粒度的索引,精确粒度的索引。数据即时导入,索引即时生成,通过索引高效定位到相关数据。YDB与Spark深度集成,Spark对YDB检索结果集直接分析计算,同样场景让Spark性能加快百倍。

1:就是即时发生的数据即时就可以查询到,随意、即兴、条件随机、模糊的查询。

2:响应时间要求为几秒钟之内才能称为即席。

即席分析与普通分析的区别

1.普通的应用分析是定制开发的,大多是预先计算好的。

2.即席分析是用户在使用时临时生产的分析,查询条件事先未知,系统无法预先优化这些查询,在现场没法预先准备,所以即席查询的性能也是评估数据仓库的一个重要指标。

功能概述
检索过滤等值匹配,支持in操作,>,<,>=,<=,and与or的嵌套组合
统计分析排序单/多列group by,max,min,sum,avg,count,distinct,order by
复杂SQL自定义udf,udaf,udft,SQL多层嵌套,union,多表关联join
模糊查询全文检索,临近搜索,相似文本(文章)搜索,like
数据类型string,int,long,float,double,地理位置,一列多值,行存储,列存储
中文分词内嵌二元分词,IK词库分词,也可自定义或扩展第三方分词。YDB自带的ngram多元分词也更适合数字,邮箱,车牌,符号的匹配。
        按照时间逆序排序可以说是很多日志系统的硬指标。在延云YDB系统中,我们改变了传统的暴力排序方式,通过索引技术,可以超快对数据进行单列排序,不需要全表暴力扫描,这个技术我们称之为BlockSort。
amtint列筛选 筛选后条数 排列方式 YDB BlockSort Spark
无筛选 100亿 降序 3.3 1118
升序 3.6 1085
100 TO 900 80亿 降序 1.5 1093
升序 1.3 1070
100 TO 600 50亿 降序 1.53 1104
升序 1.38 867
100 TO 200 10亿 降序 7.00 1115
升序 1.11 1.31
100 TO 110 1亿 降序 2.1 1160
升序 3.44 1114
100 TO 101 0.1亿 降序 10.67 1089
升序 7.0 1110
测试环境
数据条数 200亿条
数据大小 1000G
CPU 2*6核
内存 64GB
机器台数 2台
场景测试
行车轨迹查询/重点车辆分析 0.43秒
同行车辆分析 1.56秒
区域碰撞分析 1.23秒
昼伏夜出、落脚点分析 1.5秒
陌生车辆分析 7.9秒
嫌疑车辆模糊搜索与定位 1.6秒
测试二 更新包说明文件
测试一 更新包说明文件