抓住碎片化信息商機,Jarvis Plus 舉辦短文本處理與計算大賽

2019 年 6 月 1 日,Jarvis Plus 在中國三亞舉行的「全球華僑 AI 高峯論壇」上宣佈「國際自然語言短文本處理與計大賽」將在今年 10 月落地中國三亞。大賽以對話系統在社羣運營場景中的真實應用爲例,希望連結對話系統領域頂尖人才,共同引領行業技術發展潮流。

在自然語言處理(NLP)領域,一般長度大於 200 的文本叫做長文本,否則視爲短文本。這樣的分類能夠使得模型從非線性的角度進行分類,大大提升模型處理複雜問題的能力。通常用神經網絡實現對長文本的分類,用循環神經網絡(RNN)獲取長文本的特徵捕獲,用卷積神經網絡(CNN)實現短文本的處理。

隨着移動互聯網的不斷髮展,互聯網中的信息開始爆炸式增長,進入了以短文本信息爲主的碎片化信息時代。短文本已經成爲用戶傳遞信息的主要載體,在新產生文本中的比例也越來越高,基於 Twitter 、即時通訊軟件、社羣溝通、評論等短文本領域經常是多人、多話題,沒有太多上下文的信息展現形式。

如果讓 NLP 處理如此快速的海量信息就必須用到深度神經網絡模式,但傳統短文本分析領域的模型都不夠深度,學術界也尚且沒有很成功的深度處理模型,所以在技術上短文本計算和分析領域有巨大的鴻溝。另一方面越來越明顯的數據「快消費」現象造成短文本的數量和分析的需求有很強的商業引用需要,特別是社羣經濟方面。

因此 Jarvis Plus 聯合包括:德國人工智能研究中心(DFKI)、北郵 AI 實驗室等學術機構,以及微軟、NGC 等企業界合作伙伴舉辦「國際自然語言短文本處理與計算大賽」,試圖能夠帶動大家對短文本分析的關注,期待分析方法上有所突破。

Jarvis Plus CEO Stephen Wu 在會上公佈了「國際自然語言短文本處理與計算大賽」議程: 6 月 1 日開始接受報名;10 月 30 日初賽排名,宣佈決賽隊伍;10 月 31 日,決賽評測,提交源代碼以及相關結果;12 月 25 日,答辯暨頒獎。

2018 年 11 月 Google 開源的 BERT 在短文本分析深度神經網絡方面以及有非常明顯的進步。Jarvis Plus CEO Stephen Wu 說,「希望以 BERT 發佈爲契機讓學術界能夠充分認識短文本分析的重要應用場景和價值,技術上突破後會給產業界帶來巨大的引爆效應」。