最新突破！科大(dà)訊飛榮獲多語言理解評測XTREME冠軍

發布時間：2022-01-03

近日，在世界權威多語言理解評測XTREME（Cross-Lingual Transfer Evaluation of Multilingual Encoders）中(zhōng)，哈工(gōng)大(dà)訊飛聯合實驗室（HFL）團隊以總平均分(fēn)84.1位列榜首，刷新世界記錄，在四個賽道中(zhōng)獲得三項最好成績。

這也标志(zhì)着科大(dà)訊飛多語言理解與跨語言遷移能力再上新台階。

這個難度有多高？先來看一(yī)段話(huà)：

The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen Fällen ist die Wärmequelle ein Atomreaktor, Erdwärme, Solarenergie oder Abwärme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.

上述這段話(huà)包含了英語、德語、西班牙語，而這隻是機器多語言理解評測的冰山一(yī)角，它要面臨的是多達40種語言的高難度理解。翻譯成中(zhōng)文就是：

讓水沸騰以提供蒸汽所需熱量有多種來源，最常見的是在封閉空間（别稱有燃燒室、火(huǒ)箱）中(zhōng)供應适量空氣來燃燒可燃材料。在某些情況下(xià)，熱源是核反應堆、地熱能、太陽能或來自内燃機或工(gōng)業過程的廢氣。如果是模型或玩具蒸汽發動機，還可以将電加熱元件作爲熱源。

最新突破：在40種語言下(xià)完成自然語言理解

XTREME評測由谷歌公司舉辦，旨在全面考察模型的多語言理解與跨語言遷移能力。該評測覆蓋了中(zhōng)文、英語、韓語、日語、阿拉伯語、越南(nán)語等40種語言，包含了句對分(fēn)類、序列标注、閱讀理解、句子檢索賽道，共四大(dà)類九個任務。吸引了國内外(wài)衆多知(zhī)名高校和研究機構參加。

XTREME評測包含4大(dà)類9個任務，分(fēn)别爲：

 句對分(fēn)類：XNLI、PAWS-X（自然語言推斷）
 序列标注：UDPOS（詞性标注）、PANX （命名實體(tǐ)識别）
 閱讀理解：XQuAD、MLQA、TyDiQA（片段抽取型閱讀理解）
 句子檢索：BUCC、Tatoeba（跨語言文本檢索）

與以往單語言自然語言理解評測任務不同的是，XTREME中(zhōng)的每一(yī)個任務都覆蓋了多種語言，評測的是模型在多種語言上的理解能力平均指标，因此對系統模型的多語言理解與跨語言遷移能力要求大(dà)大(dà)提高。

其難度可想而知(zhī)，榜單上的模型也代表了多語言模型的頂尖水平，因此獲得了衆多機構和高校的廣泛關注。

機器是怎麽做到多語言理解的？

本次哈工(gōng)大(dà)訊飛聯合實驗室提交的CoFe模型以總成績84.1分(fēn)位居XTREME評測榜首，有三大(dà)法寶：
1、加入了自主研發的跨語言對比學習技術，鼓勵模型學習不同語言中(zhōng)的語義相似性。
2、利用知(zhī)識蒸餾技術進行自監督學習和知(zhī)識遷移，進一(yī)步提升了模型在各個語言上效果的穩定性。
3、創新性地融入了細粒度的語言學特征，幫助模型克服訓練不足的困難，解決低資(zī)源語言學習不充分(fēn)的問題，同時使之适應不同語言的形态學特點。

也就是說，通過本土語言學習，機器可以在少量其他語言語料的情況下(xià)，通過“類比”學會這門語言，減少了收集語料、語音标注等大(dà)量工(gōng)作。

這就是多語言理解與跨語言遷移能力！

發布少數民族語言預訓練模型CINO

“要讓中(zhōng)文語音技術由中(zhōng)國人做到最好。”

成立至今，科大(dà)訊飛初心未改，持續關注并積極推動中(zhōng)文相關信息處理技術的研究與發展。少數民族語言處理是中(zhōng)文信息處理中(zhōng)不可缺少的一(yī)環，也是中(zhōng)文信息處理多樣性的一(yī)種體(tǐ)現。這項技術的進步将極大(dà)改善我(wǒ)國少數民族語言學習問題。

目前由于國内少數民族語言語料稀缺、獲取難度大(dà)等原因，相關技術研究相對匮乏，而主流的多語言模型也無法很好地處理國内少數民族語言文字。爲了促進中(zhōng)國少數民族語言信息處理的研究與發展，近期科大(dà)訊飛發布了首個面向少數民族語言的多語言預訓練模型CINO (Chinese mINOrity pre-trained language model)，彌補相關資(zī)源的空白(bái)，并将相關預訓練模型和任務數據開(kāi)源。希望未來能夠進一(yī)步促進業内少數民族語言相關的技術研究，推動少數民族語言相關技術的應用落地。未來支持各少數民族語言的多語言搜索引擎等文字應用工(gōng)具或将成爲可能。

返回列表

下(xià)一(yī)篇：已經是第一(yī)篇上一(yī)篇：北(běi)京2022年冬奧會倒計時10天！