专访香侬科技:致力于让世界听到中文NLP的声音
像所有的創(chuàng)業(yè)者一樣,香儂科技的初創(chuàng)團(tuán)隊胸懷夢想,期待有一天當(dāng)人們提起香儂的時候,除了“信息論之父”,還能想起來有一家用技術(shù)在鏈接大千世界的科技公司——香儂科技。
新生的香儂科技選擇“長在云上”
香儂科技的CTO王思寬說起企業(yè)上云的歷程,“在2018年的時候,我們是一家初創(chuàng)公司,自己運營機(jī)房的成本太高了,我們決定要選一家云廠商,現(xiàn)在看來,阿里云是一個最簡單也最正確的選擇。”
從簡單的云服務(wù)器彈性使用,到數(shù)據(jù)庫服務(wù),后面香儂又在ECS上面自己搭了 K8s。隨著業(yè)務(wù)進(jìn)一步發(fā)展,阿里云的架構(gòu)師提出了進(jìn)一步降低IT運維成本的方案,香儂也直接采用了阿里云的AKS。
王思寬說,“從我角度上來看的話,阿里云的優(yōu)勢還在于服務(wù)——響應(yīng)非常及時,技術(shù)交流也比較完善,阿里云對于我們的需求能很快給出答案;其次是云功能的學(xué)習(xí)支持很省心,隨著云服務(wù)的不斷升級完善,功能越來越強(qiáng)大,對于企業(yè)方來說存在學(xué)習(xí)用云的時間成本,阿里云豐富的學(xué)習(xí)資源給了我們很大的支持。”
啟航于情懷,堅定于信仰
初次見到李紀(jì)為,是在人工智能小鎮(zhèn),香儂科技位于杭州的新辦公區(qū)。說起他的標(biāo)簽,很多人可能會知道 “斯坦福計算機(jī)用時最短畢業(yè)博士”、“《麻省理工科技評論》35歲以下科技創(chuàng)新35人”、“《福布斯》30位30歲以下精英”等等。但是,相比起炫酷的title,他個人顯得低調(diào)得多,比起一家企業(yè)的CEO,更像是一個研究型學(xué)者。這位年輕的創(chuàng)業(yè)者,是克勞德·香儂的直系弟子。2012年李紀(jì)為從北京大學(xué)畢業(yè),赴美學(xué)習(xí)生物工程,后來轉(zhuǎn)向?qū)W習(xí)人工智能,并入學(xué)斯坦福大學(xué),師從Dan Jurafsky(斯坦福大學(xué)計算機(jī)系教授、語言系主任),而Dan正是香儂的學(xué)生。
潛心前沿AI技術(shù),創(chuàng)造文字社會價值
2017年底,李紀(jì)為回國,拉上了自己曾經(jīng)的同窗,成立香儂科技,開始了NLP(自然語言分析)領(lǐng)域的創(chuàng)業(yè)。
關(guān)于公司名字的由來,李紀(jì)為說,這來源于對信息論和其創(chuàng)始人香儂的信仰。讀博期間,他曾仔細(xì)拜讀過香儂劃時代的研究論文「Prediction and entropy of printed English」,這是現(xiàn)代NLP很多理論的來源和基礎(chǔ)。出于對這位NLP先導(dǎo)的崇拜,公司便由此命名了。
2018年,香儂科技在阿里云實現(xiàn)上云第一站,用數(shù)字科技陪伴企業(yè)成長。
在整個人類歷史上以語言文字形式記載和流傳的知識占到知識總量的80%以上。就計算機(jī)應(yīng)用而言,85%左右都是用于語言文字的信息處理。自然語言處理,就是用計算機(jī)對自然語言的形、音、義等信息進(jìn)行處理,對字、詞、句、篇章進(jìn)行輸入、輸出、識別、分析、理解、生成等的操作和加工。
自然語言處理在我們生活中是怎么應(yīng)用的呢?
其實,NLP已經(jīng)在我們的日常生活和工作中隨處可見并發(fā)揮著重要的作用。小到我們常用的翻譯軟件、搜索引擎、聊天機(jī)器人,都是通過NLP技術(shù)讓機(jī)器去了解我們的訴求,再通過運算處理,反饋給我們想要的答案;大到在金融、司法、政務(wù)、工業(yè)、傳媒等行業(yè)領(lǐng)域,也在使用這項技術(shù)去處理紛繁復(fù)雜的文檔文件,從海量文字中更便捷、快速地獲得精準(zhǔn)信息。
那么,NLP技術(shù)是怎樣實現(xiàn)這些應(yīng)用的呢?香儂科技創(chuàng)始人李紀(jì)為舉了一個形象的比喻:就像是一位小學(xué)生通過學(xué)習(xí)基礎(chǔ)知識和訓(xùn)練學(xué)習(xí)方法,達(dá)到了大學(xué)生的水平,掌握了這些理論與操作技能后,投身到各行各業(yè)去工作。通過一定時間的工作實踐與加強(qiáng)學(xué)習(xí),他成長為某一垂直領(lǐng)域的“小專家”,過硬的技術(shù)加之行業(yè)經(jīng)驗的積累,便使他在所屬行業(yè)中游刃有余。用技術(shù)的思維來簡單概括,就是用算法搭建起一個“大學(xué)生”模型,通過垂直領(lǐng)域小樣本數(shù)據(jù)的不斷訓(xùn)練,便掌握相關(guān)的知識和能力,成為高效、優(yōu)質(zhì)的生產(chǎn)工具。
李紀(jì)為用香儂旗下的智能寫作產(chǎn)品——火龍果寫作做了示范:一名網(wǎng)絡(luò)小說作者完成基本的框架與前期內(nèi)容鋪墊后,系統(tǒng)可以根據(jù)當(dāng)前寫作內(nèi)容去理解和分析文章類型和主旨,自動推薦相關(guān)寫作素材;小說完成后,還可以幫助作者進(jìn)行語法糾錯、事實性核查、上下文一致性核查、標(biāo)點格式檢查等一百多種類型糾錯核查,不放過任何差錯;當(dāng)創(chuàng)作陷入瓶頸時,能夠根據(jù)當(dāng)前內(nèi)容,自動生成原創(chuàng)情節(jié)進(jìn)行續(xù)寫。除了文學(xué)創(chuàng)作以外,該產(chǎn)品也可以根據(jù)關(guān)鍵信息描述,輔助創(chuàng)作不同風(fēng)格的文體,例如學(xué)術(shù)風(fēng)格、公文風(fēng)格、社交媒體風(fēng)格等,儼然是一位文字寫作的多面手。
據(jù)悉,火龍果寫作已成為眾多學(xué)生黨、文字工作者的首選“智能助理”,僅用一年時間,注冊用戶實現(xiàn)了1500%的高速增長。
近些年,自然語言處理發(fā)展迅速。2017年,谷歌提出了全新的自然語言處理模型架構(gòu)——Transformer;2019年至2020年,大規(guī)模預(yù)訓(xùn)練模型BERT與GPT相繼被提出,大規(guī)模預(yù)訓(xùn)練模型構(gòu)建于Transformer模型架構(gòu)之上,能夠利用海量的無標(biāo)注語料完成預(yù)訓(xùn)練,從語料中建立對文本的感知并實現(xiàn)知識提取,在幾乎所有自然語言處理下游任務(wù)中取得顯著的效果提升。大規(guī)模預(yù)訓(xùn)練成為深度學(xué)習(xí)模型提升效果的必要模塊,也是當(dāng)前AI領(lǐng)域最為火熱的研究對象。,但針對中文的自然語言處理研究依然薄弱。
“相比于英文,中文語言的理解要復(fù)雜得多。同樣的一個字、一個詞、一句話,表達(dá)的語境不同,表達(dá)的方式不同,都可能存在各種不同的含義,曾經(jīng)人工智能的自然語言處理算法都是利用西方的技術(shù)為模板,基于羅馬字符的語言,而中文是象形文字,經(jīng)過漫長的歷史發(fā)展,它每個字符的造型、讀音、含義都可能蘊含著深刻的意思”。“我們之所以開始做這個事情,也是想既然在中國做這個事情,就要把中文領(lǐng)域的研究發(fā)揚光大!中文作為世界使用語言第二大的語種資源,它的前景肯定是更廣闊的。”李紀(jì)為認(rèn)為,NLP是一個廣闊的市場和空間,需要更多的發(fā)展和合作,才能把生態(tài)做起來,談及未來計劃,李紀(jì)為說,未來希望能進(jìn)一步推動“更懂中文”的新一代自然語言處理基礎(chǔ)研究,打破理論和實踐之間的壁壘,繼續(xù)在更多原創(chuàng)性、創(chuàng)新性、實用性問題中深耕、研究,加強(qiáng)人才培育與產(chǎn)學(xué)研生態(tài)建設(shè),對提升中文自然語言處理研究在國際話語體系中地位多做一些工作。
2018年,新生的香儂科技選擇了“長在云上”。
香儂科技,提供以語言理解核心的產(chǎn)業(yè)AI技術(shù)
香儂科技正在做的事情——提供以語言理解核心的產(chǎn)業(yè)AI技術(shù)。見微數(shù)據(jù)、輿情監(jiān)控系統(tǒng)、智能文檔處理平臺、智能問答引擎、智能化數(shù)據(jù)治理平臺在金融、司法、政務(wù)、新聞出版、教育各個行業(yè)遍地開花,面向企業(yè)、金融機(jī)構(gòu)、政府等行業(yè)提供一站式輿情數(shù)據(jù)知識加工服務(wù)。
持續(xù)且大量的人工神經(jīng)網(wǎng)絡(luò)計算的深度學(xué)習(xí)場景,香儂使用了阿里云推薦的GPU實例及AMD實例。搭配對象存儲OSS,在數(shù)據(jù)層面互相打通,海量訓(xùn)練數(shù)據(jù)的低成本存儲和訪問要求得到了滿足;通過EMR服務(wù)進(jìn)行數(shù)據(jù)的預(yù)處理,分析效率得到了提升;通過云監(jiān)控服務(wù)進(jìn)行GPU資源的監(jiān)控與告警,整個過程更加安全穩(wěn)定;通過ECS、負(fù)載均衡、彈性伸縮、資源編排資源的支持,香儂科技快速在云端搭建了完整AI深度學(xué)習(xí)業(yè)務(wù)系統(tǒng)。
從2018年到現(xiàn)在,香儂發(fā)布了50多篇頂會論文、70多項核心專利;建模中文的獨有特征,融入中文字形與拼音信息;提出基于機(jī)器閱讀理解的實體關(guān)系聯(lián)合抽取方法,取得世界最優(yōu)結(jié)果;基于機(jī)器閱讀理解的命名實體識別方法,大幅超越之前世界最優(yōu)結(jié)果;基于大規(guī)模圖神經(jīng)網(wǎng)絡(luò)的語義理解模型,結(jié)合圖結(jié)構(gòu)與預(yù)訓(xùn)練,大幅提升模型語義理解能力。在自然語言處理、深度學(xué)習(xí)、知識圖譜等領(lǐng)域……香儂依托多個自主知識產(chǎn)權(quán)領(lǐng)先技術(shù),打造了以自然語言處理為核心的全流程智能計算平臺。
2021年7月,香儂科技為杭州市余杭區(qū)人大辦開發(fā)了“余杭區(qū)人大建議智能分發(fā)平臺”,僅0.35秒就可以完成原本人工3分鐘的信息處理工作,總用時從原本人工處理的8小時工作時間縮短到5分鐘,準(zhǔn)確率達(dá)到了90%以上,極大提高了余杭區(qū)人大的議案處理效率和服務(wù)能力。
2022年1月,香儂科技拿到了北京市專精特新資質(zhì)。
香儂科技的未來之路
關(guān)于“下一代人工智能”
2018年以來,隨著深度學(xué)習(xí)的大范圍應(yīng)用,關(guān)于“下一代人工智能”即將到來的討論一直沒有停止過。但在李紀(jì)為看來,這個討論似乎為時過早。“下一代是怎么定義的呢?”他提出了這樣一個問題。
在他看來,目前我們還是處在技術(shù)的“窄域時代”,人工智能在我們規(guī)定的內(nèi)容里面,進(jìn)行舒展、布局、與潤色。但是未來的某一天,我們終將會突破窄域,進(jìn)入“寬域時代”,是一個非常值得期待的景象。
創(chuàng)新上云,助力中文NLP更強(qiáng)
從創(chuàng)業(yè)到今天,距離香儂科技成立已經(jīng)四年整了,從三個人到幾百人,李紀(jì)為坦言,最難的不是開始,而是現(xiàn)在和未來。從“一人吃飽,全家不餓”到仍在壯大的團(tuán)隊和客戶數(shù)量,每一步走小了都是不進(jìn)則退,走大了都是對未來和趨勢的預(yù)判,風(fēng)險與機(jī)遇并存,肩扛所有員工和客戶的信任,責(zé)任重大。
這個“難”,是每一個創(chuàng)業(yè)者共同的心路歷程。無論是“元宇宙”還是“下一代人工智能”,他們沒有想那么多,選擇一個賽道既是興趣所在,也是看到它其中的商業(yè)能力。香儂更加在意的在自己的行業(yè)領(lǐng)域里專門研究一些最頂尖科技,靠團(tuán)隊的力量去研究一代技術(shù)或者去推廣一代技術(shù),把最新研究的成果找到一個場景實現(xiàn)突破,真正地造福社會。
談起最初的創(chuàng)業(yè)選擇,用李紀(jì)為自己的話來說就是:自己的代碼變成實際應(yīng)用是每一個技術(shù)人的理想。“把研究模型變成現(xiàn)實工具,科學(xué)不是陳在紙上的,要有實際的過程應(yīng)用。”
阿里云與香儂:數(shù)字科技陪伴企業(yè)成長
數(shù)字科技陪伴企業(yè)成長,從2018到2022,阿里云底層技術(shù)與產(chǎn)品與香儂一路前行,現(xiàn)在,這條路還會繼續(xù)走下去。
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的专访香侬科技:致力于让世界听到中文NLP的声音的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度解读「无影云电脑远程办公解决方案」
- 下一篇: 形式化验证工具TLA+:程序员视角的入门