機器之心原創
作者:力琴
小小詞典筆為何讓人“上癮”?機器之心試圖通過採訪,瞭解有道詞典筆背後從 0 到 1 的工程實踐。
距離有道詞典筆 2 代發佈的 1 年 3 個月之後,網易有道又推出了一款全新的有道詞典 3,區別在於,將查詞體驗從掃描的交互方式直接簡化到點一下就一秒鐘完成查詞。
網易有道產品負責人吳迎暉拿著全新的詞典筆在現場做演示,無論是當天刊發的中國日報英文版、紙質書籍,還是護手霜、藥盒,都可以快速點查陌生單詞。“‘快速點查’是讓你上癮的一個功能。”他說。
當天發佈會的產品體驗區,這款詞典筆很快引起了參會者的注意,人群熙熙攘攘地聚在體驗區周圍,迫不及待想要一睹詞典筆究竟是什麼樣。
當我拿起詞典筆想要找單詞點讀時,下意識直接將筆頭指向單詞的偏中間位置,很多未使用過有道詞典筆的參會者幾乎都犯了同樣的操作錯誤,導致識別出來的單詞大部分是不全的。
後來這種操作被現場工作人員指正,並被告知需要將筆頭垂直放在所要識別單詞的首個字母前面,才可以順利完成點查。屢試體驗碰壁,在掌握合適方法之後,我很快產生了上癮查詞的感覺。
在英語學習場景當中,輔助查詞的產品就有電子詞典、點讀筆、點讀機等。與這些傳統產品不同的是,有道詞典筆更依賴於人工智能,用技術解決場景需求。只不過,關於這款小小詞典筆背後的技術與工程實踐很少認真被討論。
作為一家技術驅動產品的教育科技公司,藉助有道詞典等產品的 8 億 + 用戶,有道詞典筆可以獲得大規模文本、OCR 圖像和語言的真實數據。自詞典筆自 2017 年推出開始,與之相應的工程也在不斷更新與迭代。
小小詞典筆為何讓人“上癮”?機器之心試圖通過採訪,瞭解有道詞典筆背後從 0 到 1 的工程實踐。
01 一件冒險的事情
“‘超快點查’是吳迎暉的個人主意。”網易有道 CEO 周楓說。“他想到這個主意的時候,整個團隊都很興奮。”
超快點查是有道詞典筆 3 的一大亮點,這將查詞體驗從掃描的交互方式直接簡化到點一下就完成查詞。
吳迎暉表示這個創新功能來自於對用戶的洞察。實際上,從有道詞典筆 1 代推出至今,產品團隊幾乎每天都能收到各種各樣用戶的反饋,這些反饋都指向一個核心問題,究竟如何更有效率。
他的點子立即點撥了團隊的所有人,於是可視化互動點讀也出來了。有道詞典筆 3 的互動點讀功能面向低年齡段兒童,將日常繪本實現動畫效果,繪本還設有互動答題,可實現一句一跟讀,AI 打分。尤其對於有孩子的用戶而言,既要買詞典,又要給孩子買點讀產品,因此有道想做一款覆蓋所有點讀場景的智能化產品,用速度換取效率,給用戶提供價值。
功能非常吸引人,但如何就需求和場景改設計、驗證,挑戰很大。“這個挺冒險的,萬一不成功,坑的是整個團隊。”有道詞典筆的解決辦法是加入超感光學系統,用視覺辦法解決點讀。
關於超感光學系統,有道官方的解釋是:它兼容了 OCR(光學字符識別)與 OID(光學辨識碼)兩大 AI 技術的自動判斷與識別,可同時識別紅外光與可見光。
超感光學系統有非常大的廣角,使其能夠識別文字的區域更大,這構成了 “超快點查” 的基礎條件。
“雖然這個功能非常實用且吸引人,但對算法挑戰非常大。”網易有道首席科學家段亦濤說。廣角鏡頭成像會產生畸變,另外,超感光學系統筆頭也會導致光照不均。兩者都會造成識別困難。
“在此條件下做 AI 模型是很難的事,業界沒有現成的參考方案。”
實際上,無論是點查還是可視化點讀,所採用的 OCR、OID 技術並不稀奇,難點在於,需要用算法挑戰不可控環境下的識別;在有限的硬件條件下,集成不同產品和模塊組合。
02 一年零三個月的改變:從模型到框架
為了解決畸變、光照不均等問題,有道開發了新的方案與模型,優化從圖像採集、檢測及識別的全過程。
直觀而言,筆頭的廣角鏡頭會在短時間內採集圖像,而圖像是畸變的,在識別之前需要將畸變圖像轉換成無畸變圖像。
為此,有道預設了理想條件圖像到實際採集圖像的變換關係,包括廣角鏡頭的徑向畸變和傾斜角度的投影畸變。
在點查功能觸發後,有道使用預設的變化參數,修正圖像的畸變;然後使用閾值化圖像技術對陰影進行補償。
所採集圖像經去畸變、去陰影后,再進行圖像增強,得到完整且可識別的圖像。隨後 OCR 負責 “看懂” 圖像識別文字,TTS 負責詞和句子的讀音。整個過程在抬筆間就能完成,實現“超快點查”。
用戶可以用詞典筆在不同的場景識別不同的文字,比如化妝品的說明書、醫藥物品曲面等等。詞典筆二代推出後,有道意識到用戶對密集、彎曲、背景干擾等掃描場景下對模型準確率有更高的期待,因此,部署了更為精細的像素級別檢測模型。
有道將圖像上的每個像素位置進行前景文字和背景的分類,使用局部特徵迴歸行高等位置信息,將所掃描的中心文字連接並組合成行,切分成用於識別的文本行。新的檢測網絡模型可將密集、彎曲的文字從各類複雜背景中檢測出來。
在 “檢測與識別” 的框架上,有道還增加了糾正模塊,用於將特殊字體、形近字、背景干擾造成的誤識別進行糾正。
基於有道海量的語言數據積累,有道針對詞典筆學習場景構建了 N-gram 語言模型。
在訓練階段,有道使用語料庫及對應圖像數據同時訓練識別模型和語言模型;在推理階段,識別模型的解碼能力易受字體和背景干擾,輸出 “錯誤” 的識別結果。
例如圖中所示的 “bredkfast”,原是錯誤拼寫。但在語言模型的加持下,“錯誤” 的預測概率將會被抑制,由語言模型輸出的轉移概率作用在解碼階段,將更加符合語言規範的結果 “breakfast” 輸出。
03 離線側端的底層工程
相較於詞典筆 2 代,詞典筆 3 代在不聯網的情況下,翻譯引擎速度提升了 20%,平均的識別準確率達到了 98.3%,最高的準確率能達到 99%。
這些數據的體現,都要歸功於詞典筆內置的離線 OCR 和翻譯模型。詞典筆中的離線模型都是從線上模型演化而來,為了保證用戶體驗效果,都需要在端上進行推斷。
點讀筆的運行流程是先要掃描文字,再進行翻譯、查詞,離線模型當中就包含視覺模型和翻譯模型。段亦濤表示,這些模型跟詞典筆 2 代相比都有了升級。
筆頭廣角鏡頭的設計,給圖像識別帶來視覺畸變上的麻煩,因此,在視覺模型方面,有道做了檢測和識別的模型的升級,並將 NLP 也融合到視覺模型中,可以幫助識別糾錯。
圖像識別後是翻譯環節。翻譯模型方面,有道做了語言的適配和優化,讓翻譯更加智能。由於翻譯模型的輸入是視覺識別模型的輸出,不可避免會出現類似標點符號、形近字等錯誤。為此,在識別模型本身具備一定糾錯能力的情況下,有道還為翻譯模型做了一些容錯的處理。
這些針對離線模型所做的優化,對詞典筆底層的算力及內存提出了挑戰。為了保證在給定算力的情況下實時運行,有道在模型上做了大量的優化。這些方法跟機器之心瞭解到的,針對詞典筆 2 代離線模型的做法大致相同,將模型壓縮滲透在訓練、預測各個階段。
有道還採用了模型裁剪、參數共享、知識蒸餾等辦法降低模型大小。通過這些方面的優化,保證在不影響性能的情況下降低對運算資源的依賴,並對結果做更加精準地預測。
除了針對模型的優化與精簡外,有道自研了離線推理框架,從以下幾個方面優化推理性能:
底層計算:手寫 ARM NEON 彙編級優化,運行 Winograd 卷積算法,網絡層合併;
數據管理:重新設計數據排布,高效向量化,支持 FP32/FP16/INT8;
異構平臺:多核並行計算,支持 CPU/GPU,模型可以一鍵轉換,自動裁剪;
在新計算引擎的支持下,整個鏈路的計算速度提升 20%。
“整個優化是從模型、框架、工程等各個層面全方位的升級。”段亦濤認為。
04 智能硬件的新變量
在升級詞典筆視覺點讀業務的同時,有道也在給其他業務提供視覺技術的支持。段亦濤向機器之心表示,有道有面向 B 端學校的項目,當中有一款硬件產品叫做有道智能學習終端,可以用於識別和收集錯題。對視覺技術的要求極大。
隨著人工智能技術對學習、教學場景的重塑日趨成熟,有道在技術方面也逐漸深入。網易有道在智能硬件相關的技術研發投入了很大的力量,在包括計算機視覺、自然語言處理、語音技術、高性能計算和異構計算,以及硬件研發方面都有深厚的積累。
目前重技術的智能硬件產品成為網易有道最為重要的業務版圖。在第三季度財報中,智能硬件為有道貢獻 1.631 億元,同比增長 289.3%,首次超過廣告業務。有道的學習型智能硬件正在爆發其巨大的商業變現潛力。
與此同時,諸如字節跳動、科大訊飛、搜狗等公司也在教育智能硬件市場展現其巨大的野心。對用戶及教育企業而言,教育智能硬件能夠有效彌補 PC 或 APP 端的交互體驗、數據採集的不足,並有利於緩解獲客成本,提高用戶留存率。
究其各家的智能硬件產品,因切入的場景不同,教育硬件產品形態各異。無論是基於怎樣的技術細節及基礎,關鍵在於都需要結合用戶需求,將場景做透,在此基礎上,AI 能力、產品能力及內容缺一不可。
當下,有道詞典筆憑藉在技術、產品及內容上的優勢已經成為萬眾矚目的硬件產品。以後,有道詞典筆會成為可複製的硬件嗎?面對機器之心的提問,段亦濤表示,“好的東西肯定會有人模仿,至少我們的先發優勢強。如果別人沒有做過這個東西,一定會付出時間的代價。我們只要做到跑得比別人快。”
網易 CEO 丁磊曾在網易有道上市,及網易在港二次上市之時,向全國英語老師免費贈送有道詞典筆,至少在這個環節,有道詞典筆已經先搶下用戶認知,讓用戶體驗小小詞典筆背後神奇的 AI 力量。
對於現在市場上推出的智能硬件產品,段亦濤有自己的理解,他拒絕從工具功能性角度解讀,而是有更長遠的認知。
“在真實學習場景中,學生需要在物理世界裡留痕,因此任何智能工具,包括軟硬件,都無法顛覆原有的學習過程。我們可以做到的是,通過智能硬件介入學生學習的物理世界中,讓學習行為更加高效。同時通過獲得學習過程中的數字化數據,逐步建立趨於成熟的數字化教學體系。”
從數字化角度看,網易有道是一家重算法的以技術驅動的教育科技公司。即使是百分之一的算法和框架優化,都能轉化為巨大的商業與教育價值。每一小步突破,就是重構教育的一大步。
THE END
轉載請聯繫本公眾號獲得授權
轉載請超鏈接註明:頭條資訊 » 重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐
免責聲明 :非本網註明原創的信息,皆為程序自動獲取互聯網,目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責;如此頁面有侵犯到您的權益,請給站長發送郵件,並提供相關證明(版權證明、身份證正反面、侵權鏈接),站長將在收到郵件24小時內刪除。