谷歌的資料集搜尋引擎“資料集搜尋”(Dataset search)已經退出beta測試,新工具可以更好地過濾搜尋和訪問近2500萬個資料集。
資料集搜尋於2018年9月推出,谷歌希望能慢慢統一線上、開放存取資料的零散世界。儘管許多機構如大學、**和實驗室在網上釋出資料,但使用傳統的搜尋通常很難找到。但是,透過在他們的網頁中新增開源後設資料標簽,這些群體可以透過資料集搜尋對他們的資料進行索引,現在的資料集搜尋覆蓋了範圍廣泛的資訊——從滑雪傷害到火山爆發,再到企鵝種群。
谷歌不願透露該搜尋引擎的具體使用資料,但表示“數十萬使用者” 自從資料集搜尋啟動以來,科學家們一直在嘗試,科學界的反應總體上是積極的。
幫助建立這一工具的谷歌人工智慧研究科學家娜塔莎·諾伊(Natasha Noy)告訴《邊緣報》:“大多數(資料)儲存庫的反應都非常迅速”,這一引擎的推出意味著,較老的科學機構現在正在“更認真地釋出後設資料”
“例如,[著名的科學雜誌]《自然》正在改變其政策,要求用適當的後設資料共享資料,”諾伊說,並強調了一項改變,這將使未來支援頂級科學研究的資料更容易獲取。
新增到資料集搜尋的新功能包括按型別(表、影象、文字等)篩選資料的能力,是否可以****,以及它所覆蓋的地理區域。該引擎現在也可以在移動裝置上使用,並擴充套件了資料集描述。
谷歌表示,搜尋引擎覆蓋的語料庫——近2500萬個資料集——只是“網路資料集的一小部分”,但仍然是一個“重要”的資料集。索引的最大主題是地球科學、生物學和農業,最常見的查詢包括“教育”、“天氣”、“癌症”、“犯罪”、“足球”和“狗”。美國也是開放**資料集的領導者,線上釋出了超過200萬條資料。
諾伊不願就資料集搜尋的未來計劃發表評論,但她表示,該團隊正在考慮一些他們希望有用的功能,包括“瞭解如何引用和重用資料集” 以及“幫助使用者在資料集搜尋中探索資料集’不一定知道他們在找什麼。”
“當然,還要繼續擴大語料庫,”諾伊說。總有更多的資料。
... 目標鳶尾屬是為了讓各行各業的人們更容易地進行科學研究。你可以是博士生,也可以是企業家,但無論哪種方式,你都無法瀏覽每年發表的數百萬篇開放獲取的科學論文,瞭解其中的...
如果你想追蹤一個人,網路上充滿了潛在的資源。在搜尋引擎、社交網路和公共記錄等工具的幫助下,你可以在網上找到任何人。 ...
...,他們就必須為使用這些內容支付網站費用。這個想法是為了阻止大公司****別人的作品。 ...
谷歌利用它收集到的關於你的資訊使你的搜尋結果更加準確和相關。但是,透過塑造你所看到的內容以符合你的感知興趣,它也會讓你陷入“過濾泡沫”,這意味著你可能會錯過谷歌演算法認為不太適合你的有用網站。 ...
...吸收儘可能多的二氧化碳,以減少氣候變化的影響。這是為了地球,為了人類,也為了動物。 該服務機構承認,樹木可以透過更新貧瘠的土壤和農林食品種植計劃,幫助弱勢群體擺脫貧困。該搜尋引擎還關注世界各地因森林砍...