機器學習中最頭疼的問題是什麼？清除電子錶格中的臟資料

如果你想象一個機器學習研究者的生活，你可能會認為它相當迷人。你將為自動駕駛汽車程式設計，為科技界的大牌工作，你的軟體甚至可能導致人類的滅亡。太酷了！但是，一項針對資料科學家和機器學習者的新調查顯示，這些期望值需要調整，因為這些行業面臨的最大挑戰是一些相當平凡的事情：清理臟資料。...

如果你想象一個機器學習研究者的生活，你可能會認為它相當迷人。你將為自動駕駛汽車程式設計，為科技界的大牌工作，你的軟體甚至可能導致人類的滅亡。太酷了！但是，一項針對資料科學家和機器學習者的新調查顯示，這些期望值需要調整，因為這些行業面臨的最大挑戰是一些相當平凡的事情：清理臟資料。

這來自資料科學社群Kaggle（今年早些時候被谷歌收購）進行的一項調查。該網站130萬會員中，約有1.67萬人回覆了問卷，當被問及工作中面臨的最大障礙時，最常見的答案是“資料不乾凈”，其次是該領域人才匱乏。

但究竟什麼是臟資料，為什麼會出現這樣的問題？

說資料是數字經濟的新油是不言而喻的，但在機器學習等領域尤其如此。現代的人工智慧系統一般都是透過例子來學習的，所以如果你展示一隻貓的大量圖片，隨著時間的推移，它就會開始識別構成“貓膩”的特徵。這就是為什麼像谷歌和亞馬遜這樣的公司能夠建立如此有效的影象和語音識別平臺：他們擁有大量來自使用者的資料。

但是人工智慧系統仍然是計算機程式，這意味著如果你在錯誤的時間按下錯誤的按鈕，它們很容易崩潰。這種不靈活包括他們可以從中學習的資料。想想這些節目，就像挑剔的嬰兒，他們拒絕吃，除非他們的香蕉是搗碎這樣。但是，這一領域的工作人員不必準備香蕉，而是要對包含數十萬條目的資料集進行梳理，追蹤缺失的值並刪除任何格式錯誤。當他們這樣做時發出飛機噪音是可選的。

Kaggle創始人兼執行長安東尼•戈德布魯姆（Anthony Goldbloom）在接受《the Verge over email》採訪時說：“有一個笑話說，80%的資料科學在清理資料，20%的人在抱怨清理資料。”在現實中，情況確實有所不同。但是，資料清理在資料科學中所佔的比例要比局外人預期的要高得多。實際上，訓練模型通常只佔機器學習者或資料科學家所做工作的一小部分（不到10%）

卡格爾本身就是想幫忙。該網站最出名的是它的競爭對手，在那裡公司釋出一個特定的資料相關挑戰，然後付錢給提出最佳解決方案的人(這筆錢本身並不多，但贏錢是吸引招聘人員註意的一個好方法。）這意味著Kaggle也成為了使用者可以玩轉的有趣資料集的儲存庫。從22000篇高中作文到肺癌的CT掃描，再到一大堆魚的照片(由一家美國環保非**組織釋出，希望釣到更好的魚。）

不過，卡格爾的調查不僅僅是資料，還包括其他有趣的小道訊息。首先，對於受訪者來說，碩士學位是最普遍的教育水平（其次是學士學位，然後是博士學位）。Python是最常用的程式語言，也是推薦給希望進入該領域的個人的頂級語言。同樣值得註意的是，儘管人們的註意力集中在像神經網路這樣的新資料工具上，但大多數實踐者更經常地依賴於更古老、更不光彩的統計方法。

例如，一種被稱為“邏輯回歸”的分析方法是最常用的（63.5%的受訪者說他們使用了這種方法），而神經網路只排在第四位（37.6%）。logistic回歸作為一種數學工具的根源已有數百年的歷史了，它被用來尋找任何給定資料集中某個點屬於某一特定類別的概率。戈德布盧姆認為，它之所以受歡迎的原因之一是它是大學課程的支柱，並應用於各種領域。

“線性回歸和邏輯回歸教授給每一個修統計學相關課程的本科生，”他說包括機器學習、計量經濟學、心理學、生物資訊學……”戈德布魯姆指出，作為一種數學工具，它可能“脆弱而不太強大”，但學術和行業的慣性意味著它不會很快走向任何地方。正如一位高階別的卡格爾“大師”在回答調查時指出的：“30萬年後，這個世界將留下石頭、蟑螂和邏輯回歸。”

與此同時，神經網路最受關註，因為它們特別適合處理涉及影象、影片和音訊資料的任務(也就是說，現在人工智慧中發生的所有很酷的事情。）但是對於文字和數字資訊，舊的方法更適合。因此，如果你打算很快進入機器學習或資料科學領域，請準備好開始清理這些電子錶格。

發表於 2021-06-22 01:53
閱讀 ( 29 )
分類：網際網路

你可能感興趣的文章

神經網路(neural network)和深度學習(deep learning)的區別

...可以更快地完成各種計算任務，而深度學習是一種特殊的機器學習，模仿人類獲取知識的學習方法。神經網路有助於建立預測模型來解決複雜問題。另一方面，深度學習是機器學習的一部分。它有助於發展語音識別、影象識別...

發佈於 2020-10-18 10:17
閲讀 ( 58 )

認知計算(cognitive computing)和機器學習(machine learning)的區別

認知計算和機器學習的關鍵區別在於，認知計算是一種技術，而機器學習是指解決問題的演算法。認知計算使用機器學習演算法。認知計算使計算機能夠模擬和補充人類的認知能力來做出決策。機器學習允許開發自學習演算...

發佈於 2020-10-18 10:57
閲讀 ( 101 )

被監督的(supervised)和無監督機器學習(unsupervised machine learning)的區別

關鍵區別-有監督和無監督機器學習有監督學習和無監督學習是機器學習的兩個核心概念。監督學習是一種機器學習任務，學習基於示例輸入輸出對將輸入對映到輸出的函式。無監督學習是從未標記的資料中推斷出一個描述隱...

發佈於 2020-10-19 03:49
閲讀 ( 54 )

機器學習(machine learning)和人工智慧(artificial intelligence)的區別

關鍵區別——機器學習與人工智慧人工智慧是一個寬泛的概念。自動駕駛汽車、智慧家居就是人工智慧的一些例子。一些國家在醫藥、**業、軍事、農業和家庭等領域擁有智慧機器人。機器學習是一種人工智慧。機器學習和...

發佈於 2020-10-19 20:24
閲讀 ( 50 )

人工智慧的問題是：機器在學習東西，但不能理解它們

...個新的“人工智慧”功能時，通常意味著該公司正在使用機器學習來構建一個神經網路。“機器學習”是一種讓機器“學習”如何更好地執行特定任務的技術。我們不是在攻擊機器學習！機器學習是一種奇妙的技術，有很多強...

發佈於 2021-04-04 05:25
閲讀 ( 49 )

亞馬遜在印度為個人賣家開設商店，將為他們打包發貨

...對每件**的商品及其價值收取少量費用，為瞭解決小賣家最頭疼的問題之一，將從他們那裡提貨、包裝併發貨。都是交易的一部分。...

發佈於 2021-05-09 07:20
閲讀 ( 27 )

astro的目標是用ai聊天機器人修複你的電子郵件

你想要一個聊天機器人來幫助你管理電子郵件過載嗎？這是Astro在iOS和Mac上正式釋出後必須回答的問題。這是最簡單，最快的方式來描述什麼天文今天提供。當你這麼說的時候，答案幾乎肯定是“不”。但是Astro有更...

發佈於 2021-05-10 06:00
閲讀 ( 29 )

將應用程式中的資料儲存在電子錶格中

...列表、我的財務狀況、我的膳食計劃和我的健康狀況。為什麼除了自動收集生活資料的所有應用程式之外，我還要保留一個單獨的電子錶格，為什麼我要在電子錶格中手動複製這麼多資料？因為我已經知道應用程式來來往往了。...

發佈於 2021-05-13 07:18
閲讀 ( 27 )

是什麼讓我在工作中學會了學習

...作。我女朋友邀請我參加一個由當地滑稽團體“歇斯底裡機器”組織的演出。我會管理麥克風，確保每個人都有他們需要的麥克風包。我學的是電視**，所以我對這一點比較熟悉，但一到這裡，我就接了一些我完全沒有準備的其...

發佈於 2021-05-17 04:10
閲讀 ( 39 )

如何掌握microsoftofficeexcel

...如何使用函式。您還可以瀏覽Excel中內建的函式併在此處學習如何使用它們。使用資料透視表得出有意義的結論在上面的示例中，我使用函式手動建立了一個包含電子錶格資訊的表。資料透視表提供了一種更簡單的方法，無需精...

發佈於 2021-05-17 13:07
閲讀 ( 42 )