發布時間:2022-01-03
近日,在世界權威多語言理解評測XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中(zhōng),哈工(gōng)大(dà)訊飛聯合實驗室(HFL)團隊以總平均分(fēn)84.1位列榜首,刷新世界記錄,在四個賽道中(zhōng)獲得三項最好成績。
這也标志(zhì)着科大(dà)訊飛多語言理解與跨語言遷移能力再上新台階。
這個難度有多高?先來看一(yī)段話(huà):
The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen Fällen ist die Wärmequelle ein Atomreaktor, Erdwärme, Solarenergie oder Abwärme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.
上述這段話(huà)包含了英語、德語、西班牙語,而這隻是機器多語言理解評測的冰山一(yī)角,它要面臨的是多達40種語言的高難度理解。翻譯成中(zhōng)文就是:
讓水沸騰以提供蒸汽所需熱量有多種來源,最常見的是在封閉空間(别稱有燃燒室 、火(huǒ)箱)中(zhōng)供應适量空氣來燃燒可燃材料。在某些情況下(xià),熱源是核反應堆、地熱能、太陽能 或來自内燃機或工(gōng)業過程的廢氣。如果是模型或玩具蒸汽發動機,還可以将電加熱元件作爲熱源。
最新突破:在40種語言下(xià)完成自然語言理解
XTREME評測由谷歌公司舉辦,旨在全面考察模型的多語言理解與跨語言遷移能力。該評測覆蓋了中(zhōng)文、英語、韓語、日語、阿拉伯語、越南(nán)語等40種語言,包含了句對分(fēn)類、序列标注、閱讀理解、句子檢索賽道,共四大(dà)類九個任務。吸引了國内外(wài)衆多知(zhī)名高校和研究機構參加。
XTREME評測包含4大(dà)類9個任務,分(fēn)别爲:
句對分(fēn)類:XNLI、PAWS-X(自然語言推斷)
序列标注:UDPOS(詞性标注)、PANX (命名實體(tǐ)識别)
閱讀理解:XQuAD、MLQA、TyDiQA(片段抽取型閱讀理解)
句子檢索:BUCC、Tatoeba(跨語言文本檢索)
與以往單語言自然語言理解評測任務不同的是,XTREME中(zhōng)的每一(yī)個任務都覆蓋了多種語言,評測的是模型在多種語言上的理解能力平均指标,因此對系統模型的多語言理解與跨語言遷移能力要求大(dà)大(dà)提高。
其難度可想而知(zhī),榜單上的模型也代表了多語言模型的頂尖水平,因此獲得了衆多機構和高校的廣泛關注。
機器是怎麽做到多語言理解的?
本次哈工(gōng)大(dà)訊飛聯合實驗室提交的CoFe模型以總成績84.1分(fēn)位居XTREME評測榜首,有三大(dà)法寶:
1、加入了自主研發的跨語言對比學習技術,鼓勵模型學習不同語言中(zhōng)的語義相似性。
2、利用知(zhī)識蒸餾技術進行自監督學習和知(zhī)識遷移,進一(yī)步提升了模型在各個語言上效果的穩定性。
3、創新性地融入了細粒度的語言學特征,幫助模型克服訓練不足的困難,解決低資(zī)源語言學習不充分(fēn)的問題,同時使之适應不同語言的形态學特點。
也就是說,通過本土語言學習,機器可以在少量其他語言語料的情況下(xià),通過“類比”學會這門語言,減少了收集語料、語音标注等大(dà)量工(gōng)作。
這就是多語言理解與跨語言遷移能力!
發布少數民族語言預訓練模型CINO
“要讓中(zhōng)文語音技術由中(zhōng)國人做到最好。”
成立至今,科大(dà)訊飛初心未改,持續關注并積極推動中(zhōng)文相關信息處理技術的研究與發展。少數民族語言處理是中(zhōng)文信息處理中(zhōng)不可缺少的一(yī)環,也是中(zhōng)文信息處理多樣性的一(yī)種體(tǐ)現。這項技術的進步将極大(dà)改善我(wǒ)國少數民族語言學習問題。
目前由于國内少數民族語言語料稀缺、獲取難度大(dà)等原因,相關技術研究相對匮乏,而主流的多語言模型也無法很好地處理國内少數民族語言文字。爲了促進中(zhōng)國少數民族語言信息處理的研究與發展,近期科大(dà)訊飛發布了首個面向少數民族語言的多語言預訓練模型CINO (Chinese mINOrity pre-trained language model),彌補相關資(zī)源的空白(bái),并将相關預訓練模型和任務數據開(kāi)源。希望未來能夠進一(yī)步促進業内少數民族語言相關的技術研究,推動少數民族語言相關技術的應用落地。未來支持各少數民族語言的多語言搜索引擎等文字應用工(gōng)具或将成爲可能。