欢迎光临本站!

大数据:数量真的很重要吗

来源:技术探讨    更新时间:2019-11-08 12:34:40    编辑:老王    浏览:439

  尽管我在之前的章节写了那么多,但我们不应该让自己有这样的虚幻想法:数据是万灵药,能让我们确定无疑地预测未来,以100%的保真度来帮助我们。纽约大学教授兼微软研究院首席研究员丹娜·博伊德是数字自我、社交网络和大数据方面卓越的理论家。她在2011年的文章中就正确地指出,将所有一切看作都能加以量化的企图是非常危险的:

  当研究人员尝试将社会科学的发现构建成技术系统时会出现惊人的错误。一个经典的案例是Friendster公司将罗宾·邓巴1998年的研究付诸实践。通过分析人类的闲聊现象以及猴群中梳毛的习性,邓巴发现在任何时候,人只能主动地维持150个关系。他认为这个数字代表了一个人个人网络的上限。不幸的是,Friendster认为人们在网站上会复制他们现有的个人网络,于是它们推断没有人会有一个超过150人的朋友列表。于是,它们把系统中某人可以有的“朋友”数量加上了限制。

  我们都知道Friendster后来结局如何。正如博伊德指出的,数据量大并不意味着它一定完整。真正的统计样本需要来自(随机或不随机)控制样本。大数据来自在网络上发声的数十亿人和传感器,却充满了非连续性和破碎,还有错到离谱的数据。同时,如博伊德所说,如果我们将数据图连接在一起,这些错误也能很轻易地混杂在一起。

  大数据不一定总是完整的数据。

  细心的研究人员总是会担心他们手上数据有偏差,因为他们根据数据来建立假设,设计实验。如果他们得到的数据不健全、不完整,甚至只是互联网上那些吵吵闹闹的人(设备)提供的临时数据,他们也无法知道信息的来源,那么研究人员从数据中得到的结论就很值得怀疑了。举个例子,想象一下某个系统搜集了你在台式机上某一天的所有浏览数据。它注意到你喜欢讲述意大利度假的网站。如果这就是系统的所有数据,它可能对你得出的结论(你喜欢意大利)也可能不正确。它忽略了其他设备上和你在其他日子里的浏览历史,系统给你建立的档案也就错得离谱了。

  最后,博伊德还说,大数据“......鼓动了‘关联症’的发作:在没有模式的情形下看出了模式。而这只是因为大数据能产生出方方面面的联系”。这让我们回想起那句古老的格言:“谎言!可耻的谎言!(最后变成)统计数据!”你可以利用数据,让那些根本不是那么回事的东西看起来像是那么回事。

评论区

表情

共1条评论

相关内容

点击排行

随机新闻

评论排行榜