§2.大数据(1 / 1)

大数据,很大、很大的数据

有一种说法是,信息技术发展到今天,互联网的本质和核心就是“数据化”。换句话说,一切信息都以数据的形式被呈现,客观、真实、暴露无遗。

如果你是一个女性,你可能有这样的经历:使用某浏览器在淘宝、京东等购物网站上购买过一本关于怀孕的书籍后,在之后十个月左右的时间里,你的浏览器两侧的广告栏里不断出现怀孕所需要的东西,如营养食品、对胎儿无影响的孕妇用药、胎心监测仪、体温计、血压计等产品广告,登录原来的购物网站,也会在首页向你推荐这类产品。而且,在十个月之后,你会发现,以上这些广告开始变成婴儿用品了。

你以前可能对浏览器广告非常讨厌,但现在,对这类广告你却欣然接受,因为它推荐的产品正是你所需要的。颠覆传统的广告营销方式、精准投放,这实际上就是大数据应用的一个简单案例。

事实上,在你活跃于互联网的世界时,你的浏览经历、你的IP地址已经被电商默默记录,根据你浏览过哪些网站,关注过哪些新闻、资讯,你的上网时段等等,通过专业技术的数据汇总分析,坐在电脑前上网的你已经被较为准确地推断出了一些厂商所想知道的最关键信息,诸如,年龄段、性别、职业、消费水平、喜好等等个人信息。不要问这些是怎么分析出来的,除非你学过专业的统计学。那是一门通过大量提取样本数据,从而归纳出某一类特征的人会有什么样的偏好、习惯的学问。其结果会有误差,但随着统计方式的改进,结果有时会准确得吓人。

我想当任何一个广告商手中握有大量这样的用户数据,都会大喜过望。因为如上的数据不管你高矮胖瘦,直接反映你的消费倾向。而这意味着能更精准地投放广告,其广告效果和回报率比起在街边戳广告牌来说可谓呈几何倍数的增长。

当然了,上述例子仅仅是大数据应用的最初级阶段。因为它所涉及的数据的范围并不广泛,其分析原理也相对比较简单。

世界正在进入“大数据”时代,人们每天上网、玩游戏、用手机、去超市、住宾馆、买车票都会留下足迹。淘宝网一分钟就处理9万个订货单据,新浪微博高峰期一秒钟接受100万次请求,百度每天要处理60亿次搜索……每个人的搜索记录、浏览记录、社交关系、购物清单、阅读书目、旅游经历、医疗记录等等信息都会被收集,数据信息越大,测算越是准确,这些数据信息被广泛地应用到与日常生活息息相关的诸多领域。

今天的互联网巨头们,已经完全可以通过它们掌握的数以百万计、千万计甚至亿计的数据,经由“超级计算”,准确推断消费者的习惯、电影的票房、流感疫情等发展趋势。商业如此,在政治、经济、军事等方面的用途和潜在利益当然也不遑多让。

京东大数据部副总经理邢志峰言之凿凿地说:“最近刚刚上线的‘京东到家’APP,就是通过大数据挖掘,提前预判用户的消费需求,提前在离用户最近的社区储备这些商品,用户下单后,我们能保证在两小时内送达。”

记得在2014我在北京参观一家即将上市的大数据公司,乍一进去,感觉那里面就像富士康的流水线工厂一样,一排排的电脑、分析师,就像数据处理的流水线一样。他们的产品就是海量用户数据分析成果,广告主亟需要获得这些。

软银的孙正义曾说:“我想在未来的几年、十几年之间,我们所创造的信息就会超过过去300年的信息总量,或者是说一天创造的信息量就已经超越了几百年的信息总量,所以信息量或者数据的总量上升是非常快的。”

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

对天量的大数据进行“加工”的技术,是后面要谈到的云计算技术。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

大数据的魔力

大数据有数据量大、数据多样性等特征。实际是将各个维度的数据进行综合分析进而进行一定的预测。当不同的数据流被整合到大型数据库中后,预测的广度和精度都会大规模的提高。

例如,当一个数据库从不同的数据来源获得了你使用手机的时间和地点、信用卡购物、银行卡电子收费系统、使用QQ等聊天工具的对象、你的QQ好友关系图、你在新浪或腾讯微博的收听及被收听关系图谱、你交纳的水电燃气费等各方面的数据,数据分析师就能通过匹配获得你生活的不同侧面。通过大数据,数据分析可以发现各种各样的关联。通过分析,可以发现你多方面的需求,并不仅仅是诸如怀孕书籍和尿不湿之间的简单关联了。

在一篇名为《一个哲学家,帮中情局找到了本·拉登》的文章中记录了这样的事。硅谷最传奇的大数据分析公司——Palantir,从国家安全局、联邦调查局、中央情报局、国防情报局到陆军、海军陆战队、空军和特种作战司令部,美国几乎所有的情报和军事机构都在用他们的产品。2011年,在阿富汗、叙利亚和巴基斯坦,这个公司帮美国中情局找到了大量基地组织和塔利班高层,最后连本·拉登的藏身地都被他们挖了出来。

当时中情局非常依赖线人报告和无人机的侦察报告,由于判断不准无人机经常炸错人。由于类似的事一再发生,连中情局内部的人都吐槽说,“在阿富汗,长得高的人真是没法活”。而Palantir的软件能够分析比对上千个数据库内的审讯记录、财务信息、DNA样本、声音样本、视频、地图和世界各地的报告,并发现其中的关联和可疑之处,挖掘出最有价值的信息,在大海里成功捞出了缝衣针,最终协助中情局成功捕捉到了本·拉登的行踪。

有几个美国药品管制局的官员听说他们的软件很神,也跑来找他们帮忙。连本·拉登都找得到,几个小毛贼又算得了什么?Palantir的工程师只花了几天就完成了数据分析。执法人员照着他们的分析结果去调查,最后居然逮到了676个毒贩,顺便还抄出了467公斤可卡因和29公斤冰毒。

他们靠的是什么?靠的就是大数据分析技术。而你这时也能想到,大数据的核心就是巧妙、科学地根据分析技术和技能,从海量看似毫无意义的数据中,经过汇总分析,得出想要的结果。而数据的来源无所不包,从用户上网数据到消费记录、出行记录、医疗记录等等。在数据足够“大”的情况下,你生活中几乎所有的需求都可能会被预测出来。

又例如,通过分析大量用户的搜索记录,比如“咳嗽”、“发烧”等特定词条,谷歌公司能准确预测美国冬季流感传播趋势。和官方机构相比,谷歌能提前一两周预测流感爆发,预测结果与官方数据的相关性高达97%。2009年,在甲型H1N1流感爆发的几周前,谷歌的工程师们公开发表了一篇论文,不仅预测流感即将爆发,并且其预测还精确到美国特定的地区和州。这让人们感到十分震惊。准确预测流感疫情,说起来并不复杂,谷歌一直致力于对用户检索数据的分析。用户求医问药等搜索数据可谓海量,把这些数据再拿来与美国疾控中心往年记录的实际流感病例信息相比对,就帮助谷歌做出了准确预测。

对个体而言,大数据可以为个人提供个性化的医疗服务。过去我们去看病,医生只能对我们的当下身体情况做出判断,而在大数据的帮助下,将来的诊疗可以对一个患者的累计历史数据进行分析,并结合遗传变异、对特定疾病的易感性和对特殊药物的反应等关系,实现个性化的医疗。还可以在患者发生疾病症状前,提供早期的检测和诊断。早期发现和治疗可以显著降低肺癌给卫生系统造成的负担,因为早期的手术费用是后期治疗费用的一半。

再举例来说,在传统教育模式下,分数就是一切,一个班上几十个人,使用同样的教材,同一个老师上课,课后布置同样的作业。然而,学生是千差万别的,在这个模式下,不可能真正做到“因材施教”。

比如一个学生考试得了88分,这个分数仅仅是一个数字,它能代表什么呢?88分背后是家庭背景、努力程度、学习态度、智力水平等,把它们和88分联系在一起,这就成了“数据”。大数据因其数据来源的广度,有能力去关注每一个学生的微观表现——他在什么时候开始看书,在什么样的讲课方式下效果最好,在什么时候学习什么科目效果最好,在不同类型的题目上停留多久等等。这些数据对其他个体都没有意义,是高度个性化表现特征的体现。同时,这些数据的产生完全是过程性的:课堂的过程,作业的过程,师生或同学的互动过程……而最有价值的是,这些数据完全是在学生不自知的情况下被观察、收集的,只需要一定的观测技术与设备的辅助,而不影响学生任何的日常学习与生活,因此它的采集也非常自然、真实。

在大数据的支持下,教育将呈现另外的特征:弹性学制、个性化辅导、社区和家庭学习……大数据支撑下的教育,就是要根据每一个人的特点,解放每一个人本来就有的学习能力和天分。

大数据时代的隐私保护

当然,让人们担心的是,大数据包含有包罗万象的数据,其中不少数据涉及个人的职位、年龄、身体状况、消费水平、旅行习惯等隐私,那么,在大数据时代,个人隐私能够得到保护吗?这只有靠国家相关部门实时推进隐私保护、企业主动落实隐私保护责任,大数据产业在飞速发展的同时才不会对民众隐私产生威胁。

在大数据产业中,对个人隐私的保护有两个基本的作法,或者说原则:

一是符号化。符号化是指识别用户的时候,识别的仅仅是一个“符号”,这个符号与真实信息并不相关,系统通过一定的算法能够知道多次登录的是同一个用户,但并没有办法反推出这个人是谁,从而,电话、住址等信息都没法与本人关联起来。

二是用户特征。用户特征意味着在大数据时代企业感兴趣的往往是这个用户的特征,而不是家庭地址、电话号码等真正敏感的信息。例如,系统需要了解本科以上学历、月收入10000元以上、已婚等这样一个群体,只需要找出符合这些特征的人的特性,并不关心这个人是谁。这样也不会造成隐私的泄露。