大数据江湖之即席查询与分析(中篇)–即席查询与分析的典型场景

大数据江湖之即席查询与分析(中篇)即席查询与分析的典型场景

上篇提到了大数据做数据分析的三种最为典型计算模式:批处理(Batch),即席查询与分析(Ad-hoc),流计算(Stream);对于批处理和流计算,虽然小弟也略知一二,早在Hive还没出来之前,也是从一字一句的写MapReduce代码走过来的,还有后来作为JStormCommitter,老东家阿里把JStorm贡献给了Apache基金会,也算是在这两个领域有所涉足,不过小弟是领教过一些大神的,这里就不献丑了,还是承接上篇,分享一下小弟对即席查询与分析(Ad-hoc)的理解,列举三个较为典型的项目案例,供各位围观吐槽。

一、公安交通行业机动车缉查布控即席查询与分析

我国的所有的省(区、市)都已完成了机动车卡口系统的联网,全国接入的交通卡口达到数十万个,汇聚的机动车通行数据超过万亿条。以一个相对发达的中等规模省市为例,每地市每日采集过车信息近千万条,每年采集过车数据数十亿条,全省每年将积累近千亿条的机动车通行数据。

如此海量的数据如何管好、用好是巨大挑战,也是公安交通业务创新的重大机遇。在实际项目案例中,我们看到还有较多客户采用传统的关系型数据库存储如此海量数据,由于数据过于庞大,即便在一个城市内也不得不分区分片管理,导致数据被人为地割裂,数据产生价值的基础条件被极大的破坏。行业内极度缺乏一套统一的平台对数据进行集中管理,让全量数据的价值发挥到最大化,同时也更为缺乏的是通过强而有力的技术手段对数据的价值进行深层次地分析挖掘。通过几个项目的实践,我们看到该类业务场景非常适合使用大数据对数据进行集中的存储管理,通过即席分析和流计算等技术来发现数据的巨大价值。

运用大数据即席查询与分析实现公安交通行业的深层业务需求

· 行车轨迹即席查询与分析:根据车牌号码查询某辆车在一段时间内的行车轨迹和通行数据。适用于配合地图分析目标车辆的出行轨迹及出行规律等。

· 车辆线索即席查询与分析:根据模糊的车牌号码、车辆颜色、车型、出行时间等条件查询符合规则的机动车通行数据。适用于分析逃逸车辆,根据碎片线索找到目标车辆等。

· 伴随车辆即席查询与分析:根据与目标车辆近乎同时连续地经过几个相同卡口,找到目标车辆的伴随车辆。适用于分析团伙作案跟踪盯梢等场景。

· 区域碰撞即席查询与分析:根据不同时间段的不同卡口(路段),找出在这些卡口上同时出现的车辆。适用于协助侦破连环案件等。

· 昼伏夜出车及落脚点即席查询与分析:分析车辆的出行规律,日常在每个时段的出行次数,经常出入的地点,分析其异常的出行行为。适用于协助锁定嫌疑车辆等。

· 陌生车辆即席查询与分析:用于搜寻分析某区域,某段时间,第一次出现或出现次数较少的车辆。适用于协助发现陌生车辆,为案件侦破提供更多线索等。

· 重点车辆监控即席查询与分析:实时监控某特定车辆、客运、危险品运输、特殊车辆等重点车辆通行状态,分析行驶状态违规的车辆,预期报废、未年检仍在道路上行驶的重点车辆,凌晨25点仍在道路上行驶的客运车辆等进行预警布控等。

· 交通流量即席查询与统计分析:统计某段时间,某个区域内交通流量变化,流量预警;分析指定区域,主要干道的候鸟车辆,过路车辆的数量以及按车辆类型、车辆发证地等条件进行分类统计分析等。

以上,是我们从诸多公安交通真实项目案例中选取的一部分比较典型的业务需求,随着一个个项目陆续上线,我们深刻感受到大数据技术的发展和应用为传统的政企客户的业务创新带来了无限的机遇,尤其是即席查询与分析和流计算等技术的应用,让客户能够近乎实时地感知到正在发生事情,具备了与大数据交互式对话的能力,通过不断地感知、查询、分析、发现和挖掘大数据背后的价值,极大地提升了公安交通行业的工作效率和业务水平。

二、互联网行业—DMP数据管理平台

互联网行业的小伙伴们,想必对DMP都并不会陌生。DMP是互联网公司最重要的后台系统之一,它把分散的多方数据进行整合纳入统一的技术平台,并对这些数据进行标准化和细分,进而把这些细分结果推向现有的互动营销环境里。

通俗点说,互联网公司本质上都数据公司,他们记录你在系统中任何一个操作,除了会千方百计地想了解你更多的基本信息,身高,年龄,职业,点了哪些餐,最近淘了哪些好货,他还想知道你爱吃什么口味冰激凌,喜欢听谁的曲子,看哪类电影,快进了多少次,甚至每个月你啪啪几次,他都想知道;请放心,他都有办法能够知道。其实想知道这些,也不是用来干什么坏事,基于大量真实数据,我们每个人都被打上了若干的标签,又给我们免费设计了用户画像。之后才是重点,DMP是互联网行业赚银子的重要工具,广告行业用DMP进行精准广告推送,交易类平台用DMP进行用户个性化推荐,内容类网站用DMP进行内容优化和内容推荐。

我们设想一个使用场景。我们的美女数据分析师,她有一个新的想法要验证。要验证她的想法,需要在一个上亿条数据上面,跑一个查询,看看结果和她的想法是不是一样,她可不希望等太长时间,最好几秒钟结果就出来。当然她的想法不一定完善,还需要不断调整语句。然后她验证了想法,发现了数据中的价值。最后,她可以将这个语句完善成一个长期运行的任务。

小弟有幸在阿里和腾讯参与了内部DMP系统的设计和研发,这里不像谈更多技术细节,只想举个数字,阿里有数千个店小二和数据分析师每天使用DMP做数据分析,来自淘宝,天猫,支付宝,优酷,新浪微博等上百个数据源的数据源源不断地流入DMP;在腾讯,关于你的标签多达三万多个维度,假设小米要在腾讯打个广告要求投放在:1835岁、男性、追逐功能、爱好科技、有一定的经济基础、白领或者学生、大学学历为主、分布在一二线城市,腾讯的广告部的业务员可以在一秒内完成目标客群导出,根据群体数量和投放时间等指标完成本次广告投放,呵呵,赚钱就是这么简单。

上几张通过延云YDB做的DMP Demo截图,感受更直观些。

 

DMP项目的设计和研发的主要难点在于,数据总量多达千亿甚至万亿,数据维度少则几千,多则数万,系统要具备很高的时效性,要能够做到秒级交互式查询与分析,这类探索性、验证型的数据分析的场景也尤为适用于即席查询与分析的计算模式。

三、公共安全行业《谍影重重5》中的黑科技

为保障我国经济的持续快速发展,社会的安全稳定是基础条件。我国正在投入大量资源,应用包括大数据技术在内的多种高新技术,在公共安全,社会维稳,反恐反爆,案件侦破等多个领域。事实上,出于国家安全的最高利益考虑,通过收集特定人群的通话记录,位置信息,交易记录,网络行为记录,出行记录,聊天记录等等,并运用大数据、人工智能等技术对数据加以利用,是公共安全行业信息化发展的主要方向。我们已经看到国内的一些部门和地区,在该领域取得了可观的成效,这里我们只列举《谍影重重5》中的一个片段,其实这些所谓的黑科技,可能早已经实现了,呵呵。

 

 

 

 

由于篇幅的限制,这里只列举以上几个较为典型的即席查询与分析案例,这里再上一张“YDB即席查询与分析在公安、交通、电信、金融、电商、物流等行业的典型场景分布图,如果大家感兴趣,欢迎各位加QQ群交流:171465049(验证口令为vv8086csdn博客)或在此给我评论留言,一起探讨更多行业应用场景,并在以后的博文中与大家分享。

 

俗话说:光说不练假把式,在下一篇中,小弟会选取一个真实的业务场景,从零开始,手把手教你搭建一个即席查询与分析系统,精彩不容错过,也请各位多多鼓励,小弟在此先谢过了!