YDB多维检索与探索性分析

YDB多维检索与探索性分析

 

一、多维检索与探索性分析

1.IT运维日志、业务日志、交易流水日志的搜索与分析

通过方便灵活的日志搜索分析,帮助用户及时发现问题

l统一日志查询平台,程序故障定位平台

      开发与运维人员经常需要登录线上生产系统,通过greptailmorecat等命令去生产系统里查找故障原因,排查效率很慢。且在生产系统运维人员因错误的使用调试命令导致生产系统宕机的情况路见不鲜。

      组建一个统一的日志查询管理平台非常重要,开发人员可以像使用百度那样在日志平台里快速的检索与分析日志,快速定位问题。日志分析与生产系统分离,即保障了生产系统的安全,也省去了登录服务器的操作,提高了运维的效率与质量。

      一个大型的系统,会有多种不同的业务子系统,这些系统的日志散落在不同的机器的每个角落。在统一日志查询平台可以跨越多个业务子系统进行日志的关联分析,对业务整体进行全局分析。

l交易流水搜索

       物流系统,网站,运营商,证券交易所,零售商每天有大量的销售,访问日志。会有客户投诉扣费不准确,或者账户资金丢失的问题,需要客服人员对这些日志进行分析、过滤、筛选 从而追踪真实的扣费细节,在那个环境支付出现了异常,如果账户被盗,资金最终流向了哪里,尽量减少用户的损失。

l核心功能根据关键词,ID、时间等快速定位日志

1.系统问题定位 排查系统故障

2.根据日志分析,系统性能与网络瓶颈

3.如果用户投诉可以通过交易号定位用户交易日志,定位哪个环节的支付出现异常

l数据量太大,检索成难题

       现如日志分析已经不是什么新鲜事,但是数据量特别庞大,普通的传统数据库已经承受不了这么大规模的日志存储,就更别提日志分析了。以笔者成有幸在在腾讯工作期间,研发并设计了腾讯的Hermes系统,Hermes当时每天存储的日增量为每天3600多亿(截止去年1610月,为每天7000亿),总的数据存储量在万亿规模。

 

 

2.探索性即席分析之棱镜门大数据监听

棱镜计划(PRISM)是一项由美国国家安全局自2007年起开始实施的绝密电子监听计划。

根据斯诺登披露的文件,棱镜"监控的主要有10类信息:电邮、即时消息、视频、照片、存储数据、语音聊天、文件传输、视频会议、登录时间和社交网络资料的细节都被政府监控。通过棱镜项目,国安局甚至可以实时监控一个人正在进行的网络搜索内容

YDB可以为这其中的海量数据提供实时的存储以及即席的搜索服务。

YDB的数据时效性较高,并且检索速度很快,该领域未来在工信部以及公安系统上会有较大的应用前景。

3.相似近似搜索与近似特征匹配

      有些时候,我们只想找到一篇跟当前指定文章类似的文章。可能中间相差几个字不一样无所谓,或者局部的字顺序前后颠倒也无所谓。这个时候可以体验下YDB提供的近似文本匹配功能,该功能比较适合大段的文章匹配,如专利相似度匹配、网络舆情相似匹配。

      有一种搜索是这样的搜索,我指定一系列的特征,如 高矮,胖瘦,年龄段,性别,时间等一系列目击者看到的嫌疑人特征,但是有可能有些目击者描述的不准确,所以不能进行精确匹配,如果能与大部分的匹配条件都相似,一两个条件没匹配上,但已经足以相似了,那么也要返回匹配结果。