世界因大数据而 改变

世界因大数据而 改变

不管你信也好,不信也好,大数据时代真的来临了。随着Hadoop技术的普及,其生态圈发展的越来越壮大,HiveHBaseSparkStorm等的一系列新名词不断的涌现在我们的眼里。似乎NoSQL一夜间,攻陷了全部的大数据阵地。

 

一、世界因大数据而 改变

1.有哪些我们所熟知的大数据?


 

 

l物联网(IOT)

       “物联网”(Internet of Things)指的是将各种信息传感设备,如射频识别装置、红外感应器、全球定位系统、激光扫描器等种种装置与互联网结合起来而形成的一个巨大网络。其目的是让所有的物品都与网络连接在一起,方便识别和管理。

l用户生产内容(UGC)

指用户原创内容,代表平台有YouTubeMySpace、社区网络、视频分享、博客等,这些都是UGC的主要应用形式。

l事务性日志(Transactions)

如银行的流水,订单数据,交易记录,浏览日志,系统LOG

2.关于大数据应用的一个通俗 小故事

      (该段内容摘自网上什么叫大数据?让我们通过这个小故事理解下大数据。)

 

某必胜客店的电话铃响了,客服人员拿起电话。

客服:必胜客。您好,请问有什么需要我为您服务?

顾客:你好,我想要一份……

客服:先生,烦请先把您的会员卡号告诉我。

顾客:16846146***

客服:陈先生,您好!您是住在泉州路一号121205室,您家电话是2646****,您公司电话是4666****,您的手机是1391234****。请问您想用哪一个电话付费?

顾客:你为什么知道我所有的电话号码?

客服:陈先生,因为我们联机到CRM系统。

顾客:我想要一个海鲜比萨……

客服:陈先生,海鲜比萨不适合您。

顾客:为什么?

客服:根据您的医疗记录,你的血压和胆固醇都偏高。

顾客:那你们有什么可以推荐的?

客服:您可以试试我们的低脂健康比萨。

顾客:你怎么知道我会喜欢吃这种的?

客服:您上星期一在国家图书馆借了一本《低脂健康食谱》。

顾客:好。那我要一个家庭特大号比萨,要付多少钱?

客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。

顾客:那可以刷卡吗?

客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。

顾客:那我先去附近的提款机提款。

客服:陈先生,根据您的记录,您已经超过今日提款限额。

顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到?

客服:大约30分钟。如果您不想等,可以自己骑车来。

顾客:为什么?

客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。

顾客:当即晕倒......

 

 

3.大数据大价值

国内BAT算是大数据应用的先驱,以阿里为例,谈谈我个人对大数据价值的理解。

l全网数据 整合

      阿里 数据一个最为重要的特点是全部数据是共享的,而不是以一个一个的小部门的形式存在的。对于一个小部门的数据来说,他们的数据只能是一个信息孤岛,数据不够全面。

   所以阿里对全网的数据进行了整合,这些数据包括:

   淘宝内:淘宝、天猫、一淘、阿里妈妈、支付宝等的支付数据

   站外有:微博、友盟、高德地图、优酷等合作伙伴,以及一些跟阿里有关联有合作的公司。

      在我的印象中,我们部门有很多这样的数据分析师,他们每天都会对这些来自不同部门、不同公司的数据进行加工整合与处理,对人群进行划分,对一类人进行打标签,将多个业务的数据进行管理,将商品进行分类,最终整理出很多个角度、不同方位的各种数据

    整合后的数据

1)不再是信息孤岛,相比那种单股数据会全面很多。PC、移动、站内、站外数据应有尽有,对小部门来说由原先的互相牵制排挤的状态到了相互合作,数据共赢的一种场面。

2)发挥大平台优势,提供统一的数据平台,改变了传统的小作坊式的各自为战、独立开发的浪费局面。

3)360度全方位的数据,打造完美的数据闭环不再像之前跨越部门那么难,数据易于跟踪,也更易于衡量与考核。

4)整合后的数据非常丰富,一个人喜欢什么东西,爱看什么电影,经常在什么位置出现,发布了那些言论,一个月花了多少钱,多大年龄,单身否,买了什么机票等,应有尽有。通过对这些数据的分析为电商以及小微金融提供了很多的商业机会。

l数据开放、平台化,打造完美生态系统

   阿里的这些数据好比是一个金矿,金子只有被挖掘出来才有 价值。这些仅仅靠阿里内部的几个分析师是不够的,所以阿里转变了一种思路。

1)统一平台化,完善平台工具,降低门槛,让普通人也能使用这些高大上的数据。这些平台包括:

                  统一的数据接入(类似我们的TDBank;

                  上万台机器的云1和云2的集群,进行离线 处理;

                  发展类似Storm的流计算 技术,提高报表的时效性;

                  提供强大的即席查询 工具来补充离线模式的不足。

2)数据开放,打造完美生态系统

      这么全方位的数据,仅仅被阿里内部的小二们使用是远远不够的,阿里还会将这些数据开放出来,交给更为专业的行业专家来使用,比如说淘宝 卖家,社会上的一些商业分析公司,通过一个生态系统来达到共赢。

   l   由此也引发了很多人专门去创业。

      阿里内部也构造了相关的开放性的产品, 比如说数据开放平台,以及数据市场DMP

3)端战略,让阿里的数据更丰富

 任何有眼球的地方(端,终端),都要有阿里。

   l  几乎每个上规模的网站,几乎没有不打阿里 广告的

   l  阿里收购了或入股了很多不同领域的明星公司,比如说高德、微博、友盟、文化中国、以及很多实体的店铺,如恒大足球

其实我的理解就是,有眼球的地方都有数据,有人的地方就有数据。通过个个行业数据的整合,阿里会有一个完美的、全属性的社会数据系统,这可要比一个银行、一个零售企业的数据全面的多的多。也意味着阿里可以渗透到个个领域。

4)利用大数据改变线下,渗透到每个行业

   O2O这个名词已经不再新鲜,但online有什么,凭什么他能改变线下。

我个人的理解是,online必须在比offline “更懂你的前提下才能成为可能

只有更懂你才能对你提供更好的服务

只有更懂你才知道你将来需要什么

只有更懂你才知道怎样的照顾好你

   但怎样才能更懂你?那就是我比你自己都更了解你,我知道你平时买什么,看什么,吃什么,穿什么,玩什么,去哪里,跟谁,几点上班,几点下班,读什么书,老家是哪里,你有多少钱,结婚没有,最近心情如何...... 你的吃喝拉撒的一切,你还能说我不了解你么?

      阿里的这种数据会开放给线下的卖家使用,卖家也就更了解你

   在你饿的时候,我给你发条短信,让你光临我的餐馆吃放。  

   在你困的时候,我告诉你,我这里有3折的大床房。

   在你高兴的时候,我告诉你,麦乐迪你现在过来我给你5折唱到通宵。

   在你想回家的时候,我告诉你,我得出租车已经拼满了3个人,可以一起送你们回家。

 

 

4.千行万业大数据,大数据下无秘密

l网络运营商

知道你每天看了哪些网站

使用了哪些APP

搜索了哪些关键词

登录了哪些邮箱

发了那些帖子,跨越几个网站比对了那些件商品。

邮箱与各大网站的登录账号与密码(明文传输)。

l联通、移动

你都给谁打了电话、几点打的、打了多久

通过基站与GPS,准确的知道你的位置,你每天都去了哪里

根据位置关系可以知道你每天经常跟随在一起,跟谁一起出入。

l机动车稽查布控

一个城市的每个十字路口设置的卡口,可以采集到你的车牌号,车辆颜色,是否违规,车速等,根绝这些信息可以有效的查处机动车违规驾驶,套牌车,假牌照,年检报废车辆,盯梢车辆,电子围栏等。

5.这些数据的特点

l超大规模

数据规模在几百G到几百TPB级别。

            据总量达到数十亿到数万亿条,日均产生数千万到千亿条数据

l超多维度

字段数达到数百个,数千个,甚至数十几万个

l无法预计算

即使分析人员从100个字段中任取5个字段做组合分析,组合数能达到75287520

每次查询耗时500毫秒,预处理也要430多天

二、大数据技术的发展的三个阶段

1.存起来-等待机遇

      2009年开始BAT大力发展Hadoop技术,这个期间主要解决海量数据的存储与简单分析问题。

      既然大数据有价值,那么就先将数据存起来。要发挥数据的价值,我们先要有数据。

n网站浏览点击行为日志存储

n简单的PVUV统计,满足基本需求

n更注重存储能力、集群规模、扩展能力

2.用起来-市场化

开始注重对大数据的整合,构成全角度的数据。

Hive技术的兴起,目前阿里腾讯的万台规模以上的集群80%以上的都是类HIVE任务。

n先将内部将数据用起来,发挥数据的价值。

n内部员工毕竟挖掘手段比较片面,进一步的将数据开放出去,让外部的用户参与进来,帮忙挖掘数据,双方均得利。

3.天下数据-唯快不破

数据的时效性与响应时间,变得越来越重要,谁的快,谁就能争夺商业上的先机。

Hadoop生态圈里的新技术 SparkImpalaKylinDruidStorm等技术,无不在快上下功夫。

n支付宝黄金策海量多维数据2秒即席分析

n腾讯广告系统,海量人群即席创建、即席广告推送