“語義學者”有望在不久的將來成為學術搜索的標準工具。圖片來源:Unsplash
■本報記者 張雙虎
據不完全統計,目前科學文獻數量大約每9年增加一倍,科學家讀完研究領域內的最新文獻變得越來越困難。面對浩如煙海的文獻資料,研究人員有時候甚至難以檢索到急需的文獻資料。
如果有個“學術秘書”能免費替你做些文獻方面“爬羅剔抉,刮垢磨光”的工作,你是不是想馬上“來一打”?近日,位於美國西雅圖的艾倫人工智能研究所在這方面做了些嘗試。
從搜索引擎到“語義學者”
科研人員常藉助學術搜索來尋找自己想要的資料。但有些學術搜索工具只為某一研究領域的專家服務,不同領域之間的關聯不足,難以為跨界學者提供服務。還有一些專注科研領域的搜索引擎,偶爾也會檢索出相當一部分非學術文檔。更重要的是,從互聯網上搜索到的資料容易出現令人啼笑皆非的差錯,甚至數據也面臨被篡改的風險。
針對學術搜索引擎的種種不足,2015年,艾倫人工智能研究所首次推出“語義學者”。“語義學者”本質上是一個旨在解決信息過載問題的學術搜索引擎,它能幫助用戶篩選科學論文,並在一定程度上理解檢索到的論文內容。該搜索引擎檢索的文獻庫最初集中在計算機科學,此後逐步向其他領域擴展。
2016年,該研究所更新了“語義學者”的功能。比如,它可以從文本中挑選出最重要的關鍵詞和短語,而不僅僅依賴作者或出版商所提供的論文關鍵詞。它還能幫助科學家理解論文的內容,這一功能相比此前其他的學術搜索引擎令人耳目一新。與此同時,它還可以找出論文所引用的真正具有影響力的參考文獻,並將論文中的數據呈現在搜索結果中,讓搜索者一目瞭然。
期待“智慧的靈魂”
“簡潔,是智慧的靈魂。”近日,艾倫人工智能研究所推出更新的“語義學者”系統時,引用莎士比亞劇作《哈姆雷特》中的一句話來“站臺”。
新款“語義學者”搭載人工智能並用於科學研究,可以將冗長的計算機科學論文進行一系列彙總,以節省審查此類文獻的時間。該系統新的摘要功能,可以對大量科學研究論文進行分析,並將其簡化為一句高度概括的話。
目前,“語義學者”的數據庫中有1000萬篇計算機科學論文。據該數據庫技術總監Dan Weld介紹,他們將逐步添加其他學科的論文。
研究人員經常依賴論文標題和閱讀冗長的摘要來甄別信息。在更習慣用手機、Pad等移動設備來完成各項工作的今天,“語義學者”的功能似乎更具優勢。
“經過早期測試,使用者的反饋是積極的。” 艾倫人工智能研究所研究員韋爾德說,“人們似乎很喜歡它。”
近年來,研究人員開發出各種自然語言處理程序來彙總文檔,它通常有兩種方式。抽取式著重於選擇代表性文本,並在摘要中逐字使用。例如,2018年開發的Paper Digest是提取關鍵句子,而不是自己來再次書寫。抽象式則使用自然語言生成算法來創建全新的內容摘要。近年來,人工智能自然語言技術的發展,使這種方法成為程序員的首選。
在所有具備彙總功能的搜索工具中,“語義學者”擁有最大的壓縮率。對一篇約5000單詞的科學論文來說,“語義學者”的摘要約為21個詞。其平均壓縮率為原文的1/238。目前最接近“語義學者”的競爭對手,只能將文檔壓縮到原文的1/36。
“這還不是完美的,但是朝正確方向邁出的一步。”華盛頓大學教授Jevin West對該新程序進行測試後說,“我預計,這種工具將在不久的將來成為學術搜索的標準工具。”
目前,該系統僅接受以英文撰寫的論文,程序作者希望最終能包含其他語言的文檔。艾倫研究所提供免費代碼,還建立了一個向所有人開放的示範站點。
“學術秘書”有待“實習”
“‘語義學者’的核心是從長文中挖掘和壓縮出關鍵語義,和搜索引擎的關鍵詞不太一樣。”北京理工大學自動化學院教授鄧方告訴《中國科學報》,“即使有較大壓縮率,該系統概括的準確性也可以通過大量的訓練提高,所以準確率值得期待。系統對不同語言需要進行重新訓練,所以對語言方面還有更大的改進空間。”
“(語義學者在)工作方法上並沒有太多創新。”中國科學院自動化所研究員張家俊對《中國科學報》介紹說,抽取式高效便捷,但總結能力一般;抽象式更接近人類概括大意時,先理解再總結的思路,但輸入文本長度受限。其絕大多數情況下適用於對單篇文檔做摘要總結,並且限於目標函數,導致壓縮率太高,質量無法保證。
張家俊認為,該系統一是構造了大規模的科技文本—短摘要數據集;二是利用科技論文—標題的自然標註數據作為額外的任務進行多任務學習;三是在預訓練模型BART的基礎上,針對短摘要生成任務進行微調。
“由於他們提出了自己的數據集,這個數據集對應一個新的任務,‘語義學者’在這個數據集上獲得了很好的效果,有比較好的應用。”張家俊說,“不過,也有需要改進的地方。一方面,很多文獻非常長,與之相對目前僅支持5000個詞的輸入有些捉襟見肘;另一方面,即使可以輸入5000個甚至更多單詞,在模型上進行語義編碼也有難度,這個方法的有效性還有待進一步觀察。”
來源:《中國科學報》
轉載請超鏈接註明:頭條資訊 » 語義學者:尚需進階的“學術秘書”
免責聲明 :非本網註明原創的信息,皆為程序自動獲取互聯網,目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責;如此頁面有侵犯到您的權益,請給站長發送郵件,並提供相關證明(版權證明、身份證正反面、侵權鏈接),站長將在收到郵件24小時內刪除。