機器之心報道

參與:李澤南、一鳴

公開數據集往往存在於論文和網站數據庫中,想要找到它們需要花費一番功夫。除了 機器之心 SOTA 以外,搜索公開數據集的搜索引擎仍然比較少——除了谷歌的數據集搜索工具以外。

近日,谷歌宣佈,它們的數據集搜索引擎不再是 beta 版了。這意味着該產品已經正式向用戶們開放使用。Jeff Dean 和谷歌官方都在推特上宣佈了這一消息。
谷歌數據集搜索正式版出爐:全面升級,覆蓋 2500 萬數據集
谷歌數據集搜索的 beta 版本早在 2018 年 9 月就上線了,該引擎面向「科學家、開發者、數據極客等人羣」,一直以來都是人們尋找數據集的主要方式之一。
鏈接:https://datasetsearch.research.google.com/
谷歌數據集搜索正式版出爐:全面升級,覆蓋 2500 萬數據集
在網絡中,任何你感興趣的主題都可能有無數種數據集。如果你想買一隻小狗,你可以在數據集搜索中找到小狗買家評價的數據集。如果你喜歡滑雪,也可以找到有關著名滑雪地盈利和受傷概率數字的數據集。今天,谷歌數據集搜索已經涵蓋了超過 2500 萬種不同類型的數據集,它可以幫助你輕鬆地找到所有數據集的下載鏈接。
谷歌表示,經過一年多的努力,數據集搜索功能的階段性測試已經完成。
谷歌數據集搜索正式版出爐:全面升級,覆蓋 2500 萬數據集如果你在數據集搜索上輸入「skiing」,會出現的結果:出現了從最快的滑雪運動員到滑雪地的收入數據集等不同類型。

正式版更新了什麼?
谷歌從用戶在 Beta 版的使用中獲得了很多經驗。在正式版中,你可以根據所需的數據集類型(表格、圖片、文本等),或者數據集是否可以免費獲取等條件來進行搜索。如果數據集是關於某個地區的,你也可以通過地圖進行查找。另外,現在搜索也做了移動端的適配,並大幅改善了數據及描述的質量。任何數據集發佈者都可以通過 schema.org 開放標準在自己的網站上進行規範性描述,以提高搜索結果的質量。
對於不同的學科來說,人們進行的搜索是完全不同的:科學家會尋找研究目標(如搜索催產素),學生會搜索包含自己作業主題的關鍵字,業務分析師和數據科學家會尋找移動 app 或快餐店銷售的數據……今天,所有這些內容都有數據集。
谷歌表示,目前人們在數據集搜索上查詢頻率最高的詞是「教育」、「天氣」、「癌症」、「犯罪」、「足球」以及「狗」。
谷歌數據集搜索正式版出爐:全面升級,覆蓋 2500 萬數據集搜索「快餐店」出現的結果索引。
哪些數據集可以找到?
數據集搜索引擎可以提供數據集的快照信息,特別是有關地理信息、生物和農業方面的信息。很多信息都來自於 schema.org,只要網絡上存在的數據集符合 schema 的開放標準,搜索引擎就可以搜索到。
除了公開數據之外,數據集搜索引擎還包括了很多政府公開數據,包括美國政府超過兩百萬的數據集。絕大部分的公開數據都是以表格形式存儲的,可以很容易地下載並進行處理。
使用體驗
機器之心嘗試了這一數據集搜索工具。例如,我們在搜索欄裏輸入了 CIFAR,搜索引擎很容易就提供了 CIFAR-10 和 CIFAR-100 兩個數據集的搜索結果,並附帶數據集全名、被引用數量、更新時間、提供者、下載方式、介紹和信息來源等。
谷歌數據集搜索正式版出爐:全面升級,覆蓋 2500 萬數據集
如果我們不知道數據集叫什麼名字,但是想看看有沒有某種數據的數據集呢?機器之心嘗試了一些不常用關鍵詞,如「Chinese Poem」(中國詩歌)。
谷歌數據集搜索正式版出爐:全面升級,覆蓋 2500 萬數據集
搜索結果也還不錯,提供了相當多的數據集,包括數據集所在的論文等。
下一步計劃
項目團隊表示,他們會繼續優化數據集搜索這項產品,並歡迎用戶提出進一步改進建議。
參考鏈接: https://blog.google/products/search/discovering-millions-datasets-web/
https://www.reddit.com/r/MachineLearning/comments/etdiz9/n_googles_dataset_search_is_out_of_beta/

本文爲機器之心報道,轉載請聯繫本公衆號獲得授權 。

✄------------------------------------------------
加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

投稿或尋求報道: content @jiqizhixin.com

廣告 & 商務合作:bd@jiqizhixin.com

來源鏈接:mp.weixin.qq.com