机器学习中最头疼的问题是什么?清除电子表格中的脏数据

如果你想象一个机器学习研究者的生活,你可能会认为它相当迷人。你将为自动驾驶汽车编程,为科技界的大牌工作,你的软件甚至可能导致人类的灭亡。太酷了!但是,一项针对数据科学家和机器学习者的新调查显示,这些期望值需要调整,因为这些行业面临的最大挑战是一些相当平凡的事情:清理脏数据。...

如果你想象一个机器学习研究者的生活,你可能会认为它相当迷人。你将为自动驾驶汽车编程,为科技界的大牌工作,你的软件甚至可能导致人类的灭亡。太酷了!但是,一项针对数据科学家和机器学习者的新调查显示,这些期望值需要调整,因为这些行业面临的最大挑战是一些相当平凡的事情:清理脏数据。

007Ys3FFgy1grqf8xxpw0j64802tcb2902

这来自数据科学社区Kaggle(今年早些时候被谷歌收购)进行的一项调查。该网站130万会员中,约有1.67万人回复了问卷,当被问及工作中面临的最大障碍时,最常见的答案是“数据不干净”,其次是该领域人才匮乏。

但究竟什么是脏数据,为什么会出现这样的问题?

说数据是数字经济的新油是不言而喻的,但在机器学习等领域尤其如此。现代的人工智能系统一般都是通过例子来学习的,所以如果你展示一只猫的大量图片,随着时间的推移,它就会开始识别构成“猫腻”的特征。这就是为什么像谷歌和亚马逊这样的公司能够建立如此有效的图像和语音识别平台:他们拥有大量来自用户的数据。

但是人工智能系统仍然是计算机程序,这意味着如果你在错误的时间按下错误的按钮,它们很容易崩溃。这种不灵活包括他们可以从中学习的数据。想想这些节目,就像挑剔的婴儿,他们拒绝吃,除非他们的香蕉是捣碎这样。但是,这一领域的工作人员不必准备香蕉,而是要对包含数十万条目的数据集进行梳理,追踪缺失的值并删除任何格式错误。当他们这样做时发出飞机噪音是可选的。

007Ys3FFgy1grqf8zqim2j61ko11sq9s02

Kaggle创始人兼首席执行官安东尼•戈德布鲁姆(Anthony Goldbloom)在接受《the Verge over email》采访时说:“有一个笑话说,80%的数据科学在清理数据,20%的人在抱怨清理数据。”在现实中,情况确实有所不同。但是,数据清理在数据科学中所占的比例要比局外人预期的要高得多。实际上,训练模型通常只占机器学习者或数据科学家所做工作的一小部分(不到10%)

卡格尔本身就是想帮忙。该网站最出名的是它的竞争对手,在那里公司发布一个特定的数据相关挑战,然后付钱给提出最佳解决方案的人(这笔钱本身并不多,但赢钱是吸引招聘人员注意的一个好方法。)这意味着Kaggle也成为了用户可以玩转的有趣数据集的存储库。从22000篇高中作文到肺癌的CT扫描,再到一大堆鱼的照片(由一家美国环保非**组织发布,希望钓到更好的鱼。)

不过,卡格尔的调查不仅仅是数据,还包括其他有趣的小道消息。首先,对于受访者来说,硕士学位是最普遍的教育水平(其次是学士学位,然后是博士学位)。Python是最常用的编程语言,也是推荐给希望进入该领域的个人的顶级语言。同样值得注意的是,尽管人们的注意力集中在像神经网络这样的新数据工具上,但大多数实践者更经常地依赖于更古老、更不光彩的统计方法。

例如,一种被称为“逻辑回归”的分析方法是最常用的(63.5%的受访者说他们使用了这种方法),而神经网络只排在第四位(37.6%)。logistic回归作为一种数学工具的根源已有数百年的历史了,它被用来寻找任何给定数据集中某个点属于某一特定类别的概率。戈德布卢姆认为,它之所以受欢迎的原因之一是它是大学课程的支柱,并应用于各种领域。

“线性回归和逻辑回归教授给每一个修统计学相关课程的本科生,”他说包括机器学习、计量经济学、心理学、生物信息学……”戈德布鲁姆指出,作为一种数学工具,它可能“脆弱而不太强大”,但学术和行业的惯性意味着它不会很快走向任何地方。正如一位高级别的卡格尔“大师”在回答调查时指出的:“30万年后,这个世界将留下石头、蟑螂和逻辑回归。”

与此同时,神经网络最受关注,因为它们特别适合处理涉及图像、视频和音频数据的任务(也就是说,现在人工智能中发生的所有很酷的事情。)但是对于文本和数字信息,旧的方法更适合。因此,如果你打算很快进入机器学习或数据科学领域,请准备好开始清理这些电子表格。

  • 发表于 2021-06-22 01:53
  • 阅读 ( 106 )
  • 分类:互联网

你可能感兴趣的文章

认知计算(cognitive computing)和机器学习(machine learning)的区别

认知计算和机器学习的关键区别在于,认知计算是一种技术,而机器学习是指解决问题的算法。认知计算使用机器学习算法。 认知计算使计算机能够模拟和补充人类的认知能力来做出决策。机器学习允许开发自学习算法来分...

  • 发布于 2020-10-18 10:57
  • 阅读 ( 618 )

机器人如何学习阅读和思考

...复杂的任务,即使对有经验的人来说也很困难,更不用说机器了。 ...

  • 发布于 2021-03-16 12:24
  • 阅读 ( 187 )

如何在mac上使用数字的条件格式

...果您想在Mac上设置数字的条件格式,我们将提供帮助。在学习本教程时,请注意,在数字中,该功能称为条件高亮显示,而不是条件格式。 ...

  • 发布于 2021-03-20 17:29
  • 阅读 ( 266 )

应安装20个microsoft office生产力加载项

...一个全球化的世界,但除非你有幸在双语家庭长大,否则学习外语是很困难的。 ...

  • 发布于 2021-03-24 14:50
  • 阅读 ( 273 )

什么是大数据,为什么重要,有多危险?

...知道的互联网是人的互联网。这是人们相互交流的地方,机器促进了交流。你可以查看人们设计的网站。你读人们输入的单词。 ...

  • 发布于 2021-03-25 07:09
  • 阅读 ( 187 )

microsoft excel入门指南

...cel指南是为那些以前从未使用过它,作为初学者正在努力学习它,或者只是想掌握基本知识然后自己学习它的人准备的。 ...

  • 发布于 2021-03-25 10:26
  • 阅读 ( 272 )

通过本课程掌握excel电子表格函数、公式和数据分析

...告和切片数据。 数据科学与股票、Excel和机器学习:本课程将教您如何将Excel知识与Python、机器学习和数据科学相结合。例如,使用Python和深度学习模型跟踪和预测股票价格。 面向初学者的机器学习...

  • 发布于 2021-03-28 03:39
  • 阅读 ( 308 )

如何像googlesheets中的pro一样对列进行排序

... 既然您已经了解了如何对列进行排序,下一步就是学习如何过滤它们。过滤与排序配合得非常好,因为它允许您搜索特定数据并限制显示的数据。 ...

  • 发布于 2021-03-29 19:56
  • 阅读 ( 183 )

什么是自然语言处理,它是如何工作的?

...种含义。自然语言处理是人工智能的一个分支,它试图在机器识别的输入和人类语言之间架起一座桥梁。这样当我们自然地说话或打字时,机器就会产生与我们所说的一致的输出。 这是通过获取大量的数据点,从人类语言的各...

  • 发布于 2021-04-02 07:29
  • 阅读 ( 188 )

如何在microsoft excel中创建支出和收入电子表格

...列表展开库。 您也可以创建自己的样式,或通过单击“清除”按钮清除当前样式。 命名表 我们将为表指定一个名称,以便于在公式和其他Excel功能中引用。 为此,请单击表中的,然后选择“表设计”按钮。从中,在“表名”...

  • 发布于 2021-04-02 10:15
  • 阅读 ( 243 )
eqelc5301
eqelc5301

0 篇文章

相关推荐