金磊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
相信在座各位網上衝浪時,總會遇到一些“葬愛家族”式的文字:
“胃”、“叩—裙”、“9え”、“發嘌”……
這些詞語的出現,不單單是追求個性這麼簡單,更多的是為了規避系統排查,以便發送成千上萬條“垃圾信息”。
這樣的情況在淘寶、旺旺等平臺上氾濫成災,堪稱互聯網時代的“牛皮癬”。
而有這麼一位叫劉翔宇的博士,他和團隊在阿裡巴巴每天的工作,便是掃除諸如此類的垃圾。
這位博士用AI“掃垃圾”
“垃圾清理人”面對的不是散兵遊勇,而是黑灰產的團夥作戰。
劉翔宇這樣介紹道:
他們應該是專業團夥,按照攻擊時間,可以看出他們每天也有固定的上下班時間,不少人應該是學計算機相關專業出身的,甚至是像我們一樣做過安全防控的人,這些人對安全防控非常瞭解,會用智能化手段對抗,比如他們會發測試信息,對我們的攔截做試探再做調整。
尤其是“雙11”大促期間,黑灰產非常瘋狂,發出的垃圾信息量比平時多幾十倍。劉翔宇說:
臨近大促節日的晚上,垃圾信息像消費者去搶‘秒殺’一樣呼地一下就上去了。他們很聰明,知道‘雙11’期間用戶最活躍,這時候騷擾用戶感覺效果最好,這就需要我們提前做好預案防控,把他們趕出去。
不僅如此,這種行徑還會像病毒一樣,發生“變異”。
也就是剛才提到的那種情況,用音近、形近或語義相近的字詞代替,讓系統無法快速識別。
面對這種情況,“垃圾清理人”也需要升級裝備,更好的清除網絡垃圾。
於是,在這些算法專家們的努力下,平臺利用神經機器翻譯和多模態詞嵌入技術,不斷增強垃圾文本內容風險識別系統的性能。
劉翔宇介紹:
基於主動生成的對抗平行語料,利用神經機器翻譯技術,構建對抗糾錯模型,可消除黑灰產發出的內容對抗擾動。
同時,利用多模態詞嵌入技術提取垃圾文本的語義、語音、字形特徵,並通過多模態融合機制有效地增強系統針對基於義近、音近、形近等文本變異的魯棒性,可進一步提供系統識別準確率。
現在,他們打造的算法已能夠自行理解某個字和與它音形義近似的字的關聯,識別準確率高於98%,可有效新增識別變異違規文本內容50%以上。
此外,算法專家還開發了“變異垃圾語言”翻譯功能,系統可以將“變異信息”翻譯回正常語句。
值得一提的是,劉翔宇和團隊成員的技術成果,還獲得了國際頂尖AI會議的承認,被USENIX Security、ACL、WWW、SIGIR、IJCAI等收錄。
關於劉翔宇
2016年,香港中文大學博士劉翔宇畢業後來到了阿裡工作。同一年,《網絡安全法》和《國家網絡空間安全戰略》正式通過,社會對於網絡環境治理和網絡安全的關注度迅速飆升。
劉翔宇隨著這股浪潮加入了阿裡安全。起初,他做著基礎安全的研究。
後來,慢慢聚焦在淘寶交互內容、旺旺、直播彈幕等的內容安全治理。
如果說阿裡巴巴是座城,劉翔宇和他的同事們就是專門為這座城“掃垃圾”的人。
對於清掃垃圾內容的“劉翔宇”們而言,城太大,人力不可能覆蓋每一個角落。
如何對這些垃圾信息做到秒級處理,同時誤判率必須在萬分之五以下,劉翔宇和一眾算法專家與不斷變異的黑灰產鬥智鬥勇。
現在,劉翔宇和阿裡安全的小二研發的阿裡新一代安全架構核心算法,每日已能清理百萬級的垃圾信息。
轉載請超鏈接註明:頭條資訊 » 博士在淘寶“掃垃圾”
免責聲明 :非本網註明原創的信息,皆為程序自動獲取互聯網,目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責;如此頁面有侵犯到您的權益,請給站長發送郵件,並提供相關證明(版權證明、身份證正反面、侵權鏈接),站長將在收到郵件24小時內刪除。