亲爱的tl80,我听到越来越多关于“大数据”的消息。这是什么,这是我应该担心的吗?这是不是公司收集并销售我的数据的另一种方式?
真诚的,被流行语迷住了
亲爱的被流行语迷住了,“大数据”是科技行业最新的流行语。这取决于你问谁,它要么是对个人隐私的威胁,要么是数据处理和计算的革命。我们一开始就会这么说:“大数据”对那么多不同的人来说意味着太多的东西,它冒着毫无意义的风险。也就是说,有些地方大家都同意。我们潜进去吧。
Wikipedia将大数据定义为“任何如此庞大和复杂的数据集合,以至于使用现有的数据库管理工具或传统的数据处理应用程序难以处理。”这是一个有意义的定义,也是科学家、经济学家和统计学家描述它的最常见方式。简单地说,“大数据”描述的是数量庞大的信息,这些信息很容易获取,但数量庞大,足以挑战当前的计算技术。当信息来自多个来源(计算机、卫星、移动设备、照相机、麦克风等)时,大数据就是一个问题。这些信息需要移动、存储(比如说PB和EB)和处理。
如果就这些,我们就完了。不幸的是,“大数据”也变成了一个被过度使用的营销用语。软件公司和IT服务提供商使用IT向客户(以及竞争对手)传达其产品的优越性或人才的质量。初创公司和硅谷的中流砥柱喜欢宣称“我们的系统已经为大数据带来的挑战做好了准备”,或者“我们的数据科学家知道如何处理大数据”。不幸的是,这些说法并不能说明什么。
被视为“大数据”的信息也搅浑了水。许多公司在谈论他们可以收集和处理的关于人的数据时,特别是他们的用户时,都会用到这个词。这些数据有助于更好地销售产品、确定营销目标,或者只是**更好的产品来销售。隐私权倡导者也抓住了这一定义,反对“大数据”成为对人们私生活和个人数据的又一次入侵。不过,在科学界或金融界,“大数据”代表了从气象站的气象数据到全球金融交易所的市场数据等一切。所有这些数据集都符合最初的定义,但它们的用途和与收集这些信息的人相关的内涵却有根本的不同。
所以,当你听到“大数据”时,你应该怎么想呢?这取决于使用这个短语的公司。如果一些你从未听说过的科技初创公司为他们的“处理猫图片的算法意味着他们有能力管理大数据”而自豪,并且他们的服务“就像[x公司]代表[y名词]”,那么你可能应该对此持怀疑态度。很明显,赛义德公司有一种革命性的方式来整合和理解互联网上所有的猫咪图片,但更可能是一个营销口号。类似地,这个术语经常被用来迷惑您,使您认为服务不仅仅是为了营销目的而获取数据。如果你听到Acxiom、CoreLogic或DataLogix等所谓的“数据代理”使用这个短语,他们当然有大量的数据要管理,但他们用这个短语来描述他们可以从谁那里收获,如何处理,以及他们可以卖给谁。
然而,如果你听到一家医疗保健公司谈论与处理来自数千家分支医院和研究机构的病历、电子文档和实验论文相关的挑战,那么你可能在寻找一个合法的、科学的术语用法。此外,还有一些公司专门为医院、财务管理公司、研究机构和**机构提供软件,以应对其数据挑战。当你听到DARPA呼吁采用新的方法来管理大数据时,你知道他们是合法的。类似地,像NOAA、NIH或NASA这样的科学组织和研究机构谈论他们的大数据挑战时,这可能不是一个流行语。如果你在看IBM、Oracle、SAP或SAS的新数据处理技术的广告,你可能很清楚,而且他们是按照最初的意图使用这个短语的。
大数据在某个地方的数据中心可能感觉像是遥远的数字运算,但它确实具有现实意义。隐私权倡导者担心大量的信息可以存储在易于访问(通常是不安全的)数据库中,然后随意**或交易。有了一点点信息,任何公司或**机构都不难对一个人、他们的活动、他们的购买、阅读或浏览习惯等有一个完整的了解。最棒的是,他们不必自己收集任何可以识别的东西,他们可以把得到的东西用于任何他们选择的目的。
好的一面是,大数据的问题是它如此有用的原因之一。它是客观的和无背景的。仅仅因为数据是好的并不意味着使用它做出的决定同样是好的。例如,谷歌流感数据做了所有正确的事情,从所有正确的地方获取信息,但连续两年错误地预测了感染率。这意味着有人可能可以为你建立一张照片,但数据本身仍然无法准确预测你的行为或选择。大数据可能意味着有很多信息漂浮在周围,但它仍然需要具备适当技能的人来筛选信息,并根据收集到的信息做出适当的决定。时间会告诉我们这些决定的结果。
对于普通人来说,这意味着两件事:一,收集的大量关于一切的信息可以用来做好事或坏事。请注意,这场争论将在未来几年展开,它并不像“大数据坏,隐私好”那么简单,数据就是信息。争论的焦点是它的使用方式。
第二,与任**兴领域一样,对数据科学的兴趣(和机会)将会激增。当然,也会有虚假的营销,将这个短语稀释到毫无意义的地步,但这是一个新的和不断发展的技术前沿,如果你有兴趣学习这些技能,你可以参与其中。
归根结底,大数据和那些靠管理信息技术而发家的公司正在为科学、技术和医学领域的一些重大创新铺平道路。更多的信息是可用的,并正在处理比以往任何时候都要研究气候,遗传学,疾病和医学,物理学等。然而,在消费者方面,期望更多的生活和生活方式被用来做决定,否则你可能没有发言权。随着公司争相了解我们,即使看似不相关的行业也会突然变得相互有用你的购物习惯将对健康保险公司有用,你的互联网浏览习惯将对金融服务公司有用。当然,除非你采取措施保护你的隐私。
我们希望这有助于净化空气一点,魔法。这是一个很深的话题,因为它是一个新兴产业,所以一直在变化。然而,重要的是要把流行语和事实分开,把科学和营销分开。希望这有帮助。不过,要密切关注这一趋势,它不会消失,即使这个时髦词看起来很傻。
真的,生活黑客
标题图片使用卡洛斯阿马里洛(Shutterstock)和菲帕特比格(Shutterstock)。其他照片由托尼道勒,英特尔自由出版社,认知技术解决方案,和史莱扬克古普塔。
...能城市等都是物联网的应用。 目录 1. 概述和主要区别 2. 什么是大数据 3. 什么是物联网 4. 大数据与物联网的关系 5. 并列比较——大数据与物联网的表格形式 6. 摘要 什么是大数据(big data)? 数据对所有组织都很重要。因此,存...
...、高效地存储大数据的机制。 目录 1. 概述和主要区别 2. 什么是大数据 3. 什么是Hadoop 4. 大数据与Hadoop的相似之处 5. 并列比较——大数据与Hadoop的表格形式 6. 摘要 什么是大数据(big data)? 每天都会产生大量的数据。对收集到的...
... 你的网上约会成功案例是什么?你认为网上约会是未来吗?还是你更喜欢IRL约会?请在下面的评论中告诉我们! ...
...很高的希望,但是,让**知道你现在对隐私的看法并没有什么坏处——特别是考虑到****局全面的数据收集做法。
...产?好的。一个IBM键盘型号的22个不同变体的显著特征是什么?无价的资源。这还不足以解释这样一个事实:在维基的深处,有一个庞大的,几乎令人恐惧的全面收集每一个反盗版警告曾经显示在电影旁边。 FBI War...
...果是,竞选活动知道哪些美国人在去年买了枪,他们喜欢什么商店,以及大多数可以通过在线数据追踪的东西。他们知道选民在Facebook上的朋友和他们读的杂志。他们购买选民在Netflix上观看哪些节目的信息,以及他们的财务和健...
...也就是说,你上一次调查你最喜欢的电视台播放的广告是什么时候?正确的。无党派、非盈利的政治反应中心的网站opensecrets有一个工具,可以让从FCC文件中查找广告数据变得简单一点。截至本文撰写之时,该网站共收集了4995681...
大数据 大数据只是表示大量的数据集,无论是结构化的还是非结构化的,都可以进一步处理以提取信息。互联网上每秒都会产生大量的数据,一台机器不足以处理各种格式的数据。它为潜在的企业主提供了敏锐的洞察力,然后...