探秘云南省人工智能重點實驗室:自主研發(fā)App,實現(xiàn)108個語種互譯

10月16日,中國共產(chǎn)黨第二十次全國代表大會在北京人民大會堂開幕。云南省南亞東南亞區(qū)域國際傳播中心聯(lián)合昆明理工大學云南省人工智能重點實驗室(以下簡稱“實驗室”)、小語智能信息科技(云南)有限公司,通過人工智能翻譯,以小語AI主播形式,就緬甸讀者關(guān)注的問題進行解答。

該實驗室的前身是2005年成立的昆明理工大學智能信息處理重點實驗室,2014年、2015年先后被遴選為云南省高校模式識別與智能計算重點實驗室和云南省海量語言信息處理工程實驗室。2019年,經(jīng)由云南省科技廳批準,依托昆明理工大學建設(shè)云南省人工智能重點實驗室,成為云南省首家以人工智能為研究方向的重點實驗室,2021年省重點實驗室考核評估等級為“優(yōu)”。

在國際人才交流會召開前夕,記者來到昆明理工大學,探秘這個藏在高校里的神奇團隊。

實驗室常務(wù)副主任高盛祥介紹實驗室研發(fā)的系統(tǒng)

實驗室常務(wù)副主任高盛祥介紹實驗室研發(fā)的系統(tǒng)

邊聽邊翻譯

讓小語種交流不費力

會議室里,嘉賓正在發(fā)言,身后的大屏幕上,中越老緬柬越六種語言同步顯示著發(fā)言內(nèi)容……

在實驗室展示廳里,這套南亞東南亞多語言會議系統(tǒng)的快速反應(yīng)令人驚喜!斑@套系統(tǒng)在翻譯緬甸語、老撾語等小語種方面非常準確流暢,比谷歌等搜索平臺翻譯的準確率高很多。”實驗室常務(wù)副主任、昆明理工大學副教授、博士高盛祥滿臉自豪。

工作人員點開緬甸語網(wǎng)站上一則關(guān)于自然災害的報道,通過實驗室研發(fā)的云嶺翻譯系統(tǒng)快速地翻譯成中文,準確、流暢,一目了然。同一則消息經(jīng)過其他在線翻譯平臺翻譯,卻出現(xiàn)了斷句不當、詞不達意,翻譯出來的語句與新聞本身毫不相干,完全失真的情況。

高盛祥回憶,多年前,團隊在建設(shè)南亞、東南亞語言語料庫時,電腦鍵盤上沒有匹配的語種字符,工作起來異常困難。為了加快速度,團隊在全國尋找南亞、東南亞語言的文字識別軟件,結(jié)果發(fā)現(xiàn)根本沒有。于是,高盛祥帶領(lǐng)的團隊決定自己研發(fā)。經(jīng)過多年的積累和改進,實驗室的南亞、東南亞語言O(shè)CR文字識別系統(tǒng)越來越成熟,在許多行業(yè)里得到了很好的運用。

引進高端人才

組建語言專家團隊

高盛祥介紹,在研發(fā)過程中,實驗室也曾面臨很多難題,比如機器翻譯等人工智能技術(shù)需要大規(guī)模標注語料,而懂南亞、東南亞語言的人少,語料構(gòu)建的難度非常大,成本高。南亞、東南亞語言的形態(tài)比較復雜,相關(guān)語言信息處理的科研機構(gòu)少,詞法句法解析等關(guān)鍵技術(shù)都不成熟,研發(fā)難度大。

針對這些困難,實驗室申請了國家及省的多個項目,獲得了數(shù)十項國家及省部級科研項目的支持,同時,培養(yǎng)和引進博士10余人,形成了穩(wěn)定的南亞、東南亞語言信息處理技術(shù)團隊,并組建了一支50余人的由小語種教師及留學生組成的語言專家團隊,為語料采集、標注、語言評測、事件分析等提供語言服務(wù)支撐,還與清華大學、中科院自動化所、老撾國立大學、鵬城國家實驗室、OPPO、小牛等高校、科研院所和企業(yè)建立了長期合作關(guān)系,聯(lián)合開展研發(fā)和轉(zhuǎn)化工作,突破技術(shù)難題,取得了很好的經(jīng)濟效益。

隨著云南區(qū)位優(yōu)勢的凸顯以及“一帶一路”倡議的實施,實驗室迎來了高光時刻,“面向南亞、東南亞的交流合作,都亟需打破語言壁壘,實現(xiàn)不同國家之間的語言互通。但越、老、緬、柬、泰、烏爾都語等南亞、東南亞語言都屬于資源稀缺語言,機器翻譯、跨語言信息檢索、OCR文字識別、語音識別及合成等人工智能的關(guān)鍵技術(shù)都還不成熟,相關(guān)的軟硬件產(chǎn)品很少,對產(chǎn)業(yè)的支撐作用還不明顯!备呤⑾榻榻B,在這樣的情況下,實驗室開展語言語音信息處理研究,突破一系列關(guān)鍵技術(shù),面向跨境旅游、跨境貿(mào)易、跨境商務(wù)交流、文化產(chǎn)品譯制、國際傳播分析、跨境大數(shù)據(jù)分析等應(yīng)用場景研發(fā)智能翻譯機、多語言會議同傳系統(tǒng)等一系列軟硬件產(chǎn)品。

目前,該團隊研發(fā)的“云嶺翻譯”“小語洞聽”“小語洞見”及“小語聊聊”等系列小語種智能產(chǎn)品已投入運用。其中,越、老、緬、柬、泰5種語言語料庫規(guī)模在實驗室都達到了千萬級以上。這5國的語言翻譯,已經(jīng)完全達到實用化程度。據(jù)介紹,實驗室在機器翻譯、跨語言檢索、語音識別、語音合成、圖像OCR識別等方面開展深入研究,取得了多項研究成果,部分研究成果填補了領(lǐng)域空白,達到國際領(lǐng)先水平。基于系統(tǒng)的成熟,實驗室已開發(fā)了掃描儀、掃描筆等多個產(chǎn)品。

馳援瑞麗抗疫一線

6天研發(fā)出翻譯App

據(jù)介紹,實驗室研發(fā)的漢語—南亞、東南亞語言神經(jīng)機器翻譯平臺及系統(tǒng),填補了多項南亞、東南亞語言信息處理空白,在公安、網(wǎng)信、旅游、跨境合作、貿(mào)易談判等領(lǐng)域得到較好應(yīng)用。特別是在2021年的瑞麗疫情防控中,為當?shù)蒯t(yī)生對緬甸籍確診病例的治療,提供了強有力的支持。

自新冠疫情發(fā)生以來,瑞麗市一直處在疫情防控第一線,當?shù)氐母刹咳罕姾头酪吖ぷ魅藛T承受了前所未有的壓力。長期生活在當?shù)氐耐饧吤,有的只會簡單的中文,而當(shù)囟捳Z的工作人員卻屈指可數(shù)。溝通不暢,嚴重影響了防疫工作進展,特別是醫(yī)護人員,因為語言不通,在給外籍確診病例的治療過程中,難度加大。

2021年4月4日,在瑞麗防控一線的工作人員收到了100臺由實驗室自主研發(fā)的云嶺翻譯機。6天后,安卓版“云嶺翻譯 瑞麗抗疫專用”App(以下簡稱“翻譯App”)正式上線了。原來,智能翻譯機數(shù)量有限,不能滿足抗疫人員的翻譯需求。得知這一情況,實驗室立即展開了翻譯App的研發(fā)工作。連續(xù)幾天的研發(fā)調(diào)試后,完成了安卓版翻譯App的研發(fā)。這個專用的翻譯App,為瑞麗抗疫提供了有力的支持和保證。

據(jù)了解,該翻譯App支持漢語與緬甸語、越南語、泰語、老撾語等語種的雙向翻譯,第二代版本達到了108個語種的雙向翻譯。截至今年8月底,該款App累計翻譯次數(shù)超過3000萬次。

研發(fā)納西象形文字輸入法

保護少數(shù)民族文化

除了語言翻譯,實驗室還成功開發(fā)了云南省招生考試信息化管理與服務(wù)平臺。該平臺于2006年逐步投入應(yīng)用,完成全省高考、中考、自考、成考等各類考生的報名、考務(wù)、報志愿、錄取、報到等管理與服務(wù)功能,每年為100多萬名考生、2.5萬名管理用戶、5000余所各類學校提供服務(wù),能同時支撐39萬名用戶使用。該成果獲得了云南省科技進步一等獎。

高盛祥介紹,試驗室還制作了納西東巴文字庫,建立納西象形文字符集,研發(fā)了納西英文、納西拼音、納西中文3種納西象形文字的輸入法,這將對少數(shù)民族文化的保護與傳承起到重要作用。此外,圖像識別也是實驗室研究的方向之一。云南山體多而險峻,地形較為復雜,檢查輸電線路需要花費大量的人力、物力和財力。結(jié)合輸電路巡維智能化需求,實驗室研發(fā)的輸電線路缺陷智能識別系統(tǒng),支持輸電線路圖像質(zhì)量判斷、低質(zhì)量圖像高清化、圖像內(nèi)容校驗,以及絕緣子自爆、污染等20余種缺陷的智能標注和識別,與傳統(tǒng)人工巡檢相比,智能識別系統(tǒng)只需根據(jù)圖片就能作出正確判斷,不僅確保了工人的安全,也提升了巡檢水平。

多專業(yè)融合

培養(yǎng)信息學科人才

“愿意學、能吃苦、有鉆研精神,即便不是計算機專業(yè)的新生,我們也歡迎。”高盛祥介紹,目前團隊里的非計算機專業(yè)學生有好幾個。2019年,一名來自云南曲靖的小伙正式加入云南省人工智能重點實驗室,他叫王琳欽,本科就讀于蘭州大學化學專業(yè),跨專業(yè)考研進入昆明理工大學。經(jīng)過實驗室兩年碩士階段的培養(yǎng),因表現(xiàn)優(yōu)秀被實驗室錄取,進行碩博連讀。目前,王琳欽博士二年級,參與語音合成、虛擬主播等研究工作。

為什么選擇這個實驗室?王琳欽說:“一是實驗室在南亞—東南亞語言的自然語言處理與機器翻譯、跨語言信息檢索及輿情分析、語音圖像等方面的研究屬于頂尖水平。二是團隊的務(wù)實精神。團隊老師都是腳踏實地一步一步做起來的,所以團隊的基礎(chǔ)和底蘊都非常好,氛圍也非常好。特別是加入團隊后,每周一晚上的學術(shù)交流例會和周末課題進展討論例會,讓我受益匪淺!

王琳欽回憶,研一的時候,他參與研發(fā)云南省招生考試信息化管理與服務(wù)平臺,凌晨2點還在實驗室里與老師及其他同學一起討論研發(fā)思路,討論系統(tǒng)的開發(fā)和調(diào)試!澳嵌螘r間,我的成長與收獲非常大,真正體會到了應(yīng)該以什么樣的態(tài)度和精神去認真做一件事情!

王琳欽的經(jīng)歷也正是實驗室“模塊式教學”的實踐!芭囵B(yǎng)和科研創(chuàng)新同等重要。”高盛祥介紹,實驗室率先創(chuàng)新了“模塊式教學”,探索多專業(yè)融合的信息學科人才培養(yǎng)模式,重組和優(yōu)化專業(yè)培養(yǎng)方案,將不同專業(yè)的學生,根據(jù)能力需求進行模塊化課程教學,提升了學生的創(chuàng)新能力。該成果還獲得了云南省教學成果一等獎。

實驗室還呈現(xiàn)出有層次的“梯形結(jié)構(gòu)”,老師的學歷都是碩士及以上,而從實驗室畢業(yè)的學生,進入了阿里巴巴、百度、騰訊、搜狐、360等互聯(lián)網(wǎng)知名企業(yè)。

據(jù)悉,實驗室團隊目前共有260余人,其中教授、副教授30余人,博士、碩士研究生200余人,擁有國家及省部級人才20余人,承擔了國家及省部級項目100余項,在國內(nèi)外高水平會議及期刊發(fā)表論文400余篇,其中SCIEI檢索300余篇,授權(quán)發(fā)明專利80余項,登記軟件著作權(quán)200余項,榮獲省部級獎勵10余項。

本站轉(zhuǎn)載文章和圖片出于傳播信息之目的,如有版權(quán)異議,請在3個月內(nèi)與本站聯(lián)系刪除或協(xié)商處理。凡署名"云南房網(wǎng)"的文章未經(jīng)本站授權(quán),不得轉(zhuǎn)載。爆料、授權(quán):news@ynhouse.com。

相關(guān)資訊

猜您喜歡

參與討論

登錄 注冊

熱門評論