国产日韩欧美一区二区下载,91精品无人区麻豆乱码一区,亚洲精品免费视频观看视频

　　近日，第十六屆國(guó)際語(yǔ)義評(píng)測(cè)（The 16th International Workshop on Semantic Evaluation, SemEval 2022）大賽落下帷幕，科大訊飛在三項(xiàng)主要賽道中拿下冠軍，標(biāo)志著科大訊飛在多語(yǔ)種語(yǔ)言理解領(lǐng)域持續(xù)進(jìn)階。

　　SemEval2022評(píng)測(cè)由國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)（Association for Computational Linguistics, ACL）旗下SIGLEX主辦，迄今已舉辦16屆，參賽者覆蓋國(guó)內(nèi)、外一流高校及知名企業(yè)，包括達(dá)特茅斯學(xué)院、謝菲爾德大學(xué)、華為、阿里達(dá)摩院等，代表著最前沿國(guó)際技術(shù)和水平。

　　經(jīng)過(guò)角逐，科大訊飛分別在“多語(yǔ)種新聞相似度評(píng)測(cè)任務(wù)”（Task8）、“多語(yǔ)種慣用語(yǔ)識(shí)別任務(wù)”子賽道（Task 2: Subtask A one-shot）、“多語(yǔ)種復(fù)雜命名實(shí)體識(shí)別任務(wù)”（Task11）三個(gè)子賽道中拿下冠軍。

　　新聞相似度評(píng)價(jià)：目光如炬

　　本次SemEval2022評(píng)測(cè)聚焦的Task8是多語(yǔ)種新聞相似度評(píng)價(jià)任務(wù)。科大訊飛與哈爾濱工業(yè)大學(xué)聯(lián)合組建的“哈工大訊飛聯(lián)合實(shí)驗(yàn)室”（Joint Laboratory of HIT and iFLYTEK Research，簡(jiǎn)稱HFL）以顯著優(yōu)勢(shì)摘得冠軍。

　　簡(jiǎn)單來(lái)說(shuō)，參賽隊(duì)伍需要在每組新聞中判斷是否描述了同一個(gè)事件，并以1-4分為兩篇新聞的相似度打分，其中包含了多達(dá)10種語(yǔ)言，分別為阿拉伯語(yǔ)、德語(yǔ)、英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、意大利語(yǔ)、波蘭語(yǔ)、俄語(yǔ)、土耳其語(yǔ)和中文。但新聞相似度究竟是什么？讓我們用一則示例為大家解讀。

　　圖中列舉了兩篇相似度極高的新聞稿件，參賽隊(duì)伍必須將文中相似的主要元素剝離出來(lái)并逐一分析，比如地理信息、敘事技巧、實(shí)體、語(yǔ)氣、時(shí)間及風(fēng)格，最終得出兩篇文章的相似度與差異化。

　　與普通的文章相比，該項(xiàng)比賽更強(qiáng)調(diào)跨語(yǔ)言理解能力，除了寫作風(fēng)格和敘述方式外，還需要把握文章中描述的具體事件。通俗來(lái)說(shuō)，該項(xiàng)技術(shù)可以甄別外網(wǎng)的一些新聞報(bào)道是否存在偏差與曲解，從而有效預(yù)防虛假信息、不良信息的傳播。

　　科大訊飛在這樣的賽道上拔得頭籌，充分展示了在跨語(yǔ)言理解能力上的強(qiáng)硬實(shí)力。

　　慣用語(yǔ)檢測(cè)：熟能生巧

　　哈工大訊飛聯(lián)合實(shí)驗(yàn)室拿下的第二項(xiàng)任務(wù)冠軍，便是Task2 Subtask A的慣用語(yǔ)檢測(cè)。通俗來(lái)說(shuō)，無(wú)論你是哪國(guó)人，在日常表達(dá)中都有一類短語(yǔ)的固定用法，并且該固定用法通常與短語(yǔ)的字面語(yǔ)義不同，我們會(huì)將這些短語(yǔ)稱為“慣用語(yǔ)”。想要理解包含慣用語(yǔ)的句子，首先需要判斷句子中的多字短語(yǔ)是否為慣用語(yǔ)，比如“說(shuō)曹操，曹操到。”句中的曹操是否真實(shí)存在。

　　該任務(wù)的形式便是給定一個(gè)目標(biāo)語(yǔ)句，包括其上下文和多字短語(yǔ)，繼而判斷該語(yǔ)句中的多字短語(yǔ)用法究竟是慣用語(yǔ)還是字面意思。該任務(wù)為多語(yǔ)言任務(wù)，包含英語(yǔ)、葡萄牙語(yǔ)、加利西亞語(yǔ)三種語(yǔ)言。其中加利西亞語(yǔ)沒(méi)有在訓(xùn)練集中出現(xiàn)過(guò)，因此科大訊飛代表隊(duì)需要在不同語(yǔ)言之間進(jìn)行遷移學(xué)習(xí)。

　　還是不懂？別擔(dān)心，讓我們來(lái)看一則示例。

　　如例所示，Literal表示字面意思，第一句話可翻譯為：當(dāng)你從網(wǎng)中抓一條大魚(yú)時(shí)，最好撐住它的腰。Idiomatic表示慣用語(yǔ)，所以第二句話中再次出現(xiàn)了大魚(yú)一詞，但卻不是簡(jiǎn)單的字面意思，而是“大人物”。

　　所以該任務(wù)要求參賽隊(duì)伍區(qū)分不同句子中同一個(gè)詞的不同語(yǔ)義，這需要強(qiáng)大的分析及跨語(yǔ)言理解能力。有了該項(xiàng)技術(shù)，在日常寫作和翻譯工作中，即可有效鑒別慣用語(yǔ)的表達(dá)用意，極大提高內(nèi)容準(zhǔn)確率。

　　科大訊飛不負(fù)眾望，再摘桂冠。

　　復(fù)雜命名實(shí)體識(shí)別：披荊斬棘

　　這第三冠有多難？光聽(tīng)名字就覺(jué)得復(fù)雜：多語(yǔ)種復(fù)雜命名實(shí)體識(shí)別任務(wù)（MutiCoNER）�？拼笥嶏w聯(lián)合中國(guó)科學(xué)技術(shù)大學(xué)語(yǔ)音及語(yǔ)言信息處理國(guó)家工程研究中心迎難而上，在該項(xiàng)任務(wù)中一舉拿下三個(gè)子賽道冠軍。

　　我們先拆解一下MuticoNER這個(gè)詞，Muti是multilingual(多語(yǔ)言)的簡(jiǎn)稱，Co即是complex(復(fù)雜)，而NER則是Named Entity Recognition，又稱作“命名實(shí)體識(shí)別”，是指識(shí)別文本中具有特定意義的實(shí)體，主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。

　　該任務(wù)是一個(gè)多語(yǔ)言賽道數(shù)據(jù)集，包含11項(xiàng)單獨(dú)語(yǔ)言命名實(shí)體評(píng)測(cè)任務(wù)，以及2項(xiàng)多語(yǔ)言統(tǒng)一建模的評(píng)測(cè)任務(wù)。該榜單數(shù)據(jù)來(lái)源于Wikidata（維基數(shù)據(jù)），數(shù)據(jù)量龐大且極具應(yīng)用價(jià)值。參賽團(tuán)隊(duì)需要在單個(gè)語(yǔ)言以及多個(gè)語(yǔ)言混合的文本數(shù)據(jù)中，精準(zhǔn)預(yù)測(cè)不同語(yǔ)言實(shí)體的類別標(biāo)簽。該任務(wù)采用國(guó)際通用的槽位F1評(píng)價(jià)指標(biāo)，我們?cè)诙嗾Z(yǔ)言混合、中文、孟加拉語(yǔ)賽道上，分別以92.9%、81.6%、84.2%的F1成績(jī)登頂。

　　這項(xiàng)任務(wù)究竟有多難？舉個(gè)例子：NER是指從用戶文本中按照業(yè)務(wù)需求識(shí)別出實(shí)體的類別，之前任務(wù)基本上一句話中僅會(huì)出現(xiàn)一到兩個(gè)實(shí)體，本次任務(wù)需要抽出多實(shí)體增加實(shí)體抽取難度，同時(shí)需要具備多語(yǔ)種能力，例如【(皇馬)[organization]除了首輪負(fù)于[克星拉科](organization)以外，現(xiàn)在已是四連勝。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表現(xiàn)出色。】既要識(shí)別出多個(gè)相關(guān)實(shí)體，同時(shí)是各語(yǔ)種夾雜的文本。

　　此前針對(duì)中文和英文需要單獨(dú)進(jìn)行模型建模，此次有關(guān)賽道的挑戰(zhàn)是僅使用一個(gè)模型來(lái)可以完成不同語(yǔ)種任務(wù)，能夠快速識(shí)別復(fù)雜、專有詞匯，提高準(zhǔn)確率。

（多語(yǔ)言混合榜單）

(中文榜單)

　　拒絕紙上談兵，技術(shù)應(yīng)用要落地

　　當(dāng)前，人類已進(jìn)入“人、機(jī)、物”智能互聯(lián)時(shí)代，智能語(yǔ)音是這個(gè)時(shí)代最為關(guān)鍵的入口之一，有助于實(shí)現(xiàn)語(yǔ)言大互通，建設(shè)人類命運(yùn)共同體。科大訊飛始終保持初心、堅(jiān)持源頭核心技術(shù)創(chuàng)新，在語(yǔ)音、語(yǔ)義等國(guó)際賽事中為國(guó)爭(zhēng)光。

　　在去年11月舉辦的國(guó)際低資源多種語(yǔ)音識(shí)別競(jìng)賽OpenASR中，科大訊飛參加了所有15個(gè)語(yǔ)種受限賽道和7個(gè)語(yǔ)種非受限賽道，并全部取得了第一名，而在SemEval2022多語(yǔ)種NLP領(lǐng)域中取得佳績(jī)，也標(biāo)志著科大訊飛在多語(yǔ)言理解與跨語(yǔ)言遷移能力再上新臺(tái)階，從多語(yǔ)種語(yǔ)音到多語(yǔ)種語(yǔ)言都有著頂尖技術(shù)實(shí)力。

　　而在今年的北京冬奧會(huì)和冬殘奧會(huì)上，科大訊飛作為“官方自動(dòng)語(yǔ)音轉(zhuǎn)換與翻譯獨(dú)家供應(yīng)商”，為所有觀眾展現(xiàn)了一場(chǎng)“無(wú)障礙溝通”的體育盛會(huì)。基于強(qiáng)大的多語(yǔ)種語(yǔ)音語(yǔ)言技術(shù)，我們可以做到語(yǔ)種足夠全、翻譯足夠準(zhǔn)、反應(yīng)足夠快，支持包括冬奧體育在內(nèi)的16大行業(yè)領(lǐng)域翻譯，在冬奧應(yīng)用場(chǎng)景下，中文與英/俄/法/西/日等重點(diǎn)語(yǔ)種的翻譯準(zhǔn)確率超過(guò)90%，平均每句語(yǔ)音翻譯響應(yīng)時(shí)間不超過(guò)1.5秒，一方面幫助各國(guó)觀眾、游客快速掌握賽事信息，另一方面我們特別希望幫助聽(tīng)障人士運(yùn)用科技的手段聽(tīng)得見(jiàn)奧運(yùn)文字，看得見(jiàn)奧運(yùn)聲音。

　　值得一提的是，科大訊飛AI虛擬人“愛(ài)加（i+）”也成為了冬奧會(huì)的一名“虛擬志愿者”。在北京冬奧小屋中，愛(ài)加可以用多種語(yǔ)言與各國(guó)運(yùn)動(dòng)員進(jìn)行面對(duì)面的交流，助力冬奧的無(wú)障礙溝通�？拼笥嶏w運(yùn)用語(yǔ)音識(shí)別、語(yǔ)音合成、口唇驅(qū)動(dòng)、面部驅(qū)動(dòng)、肢體動(dòng)作驅(qū)動(dòng)等多項(xiàng)核心技術(shù)，打造出虛擬形象自動(dòng)化內(nèi)容生產(chǎn)方案，讓虛擬人不僅會(huì)說(shuō)普通話，同時(shí)支持31種語(yǔ)言及方言，是不折不扣的“語(yǔ)言通”，不僅能進(jìn)行面對(duì)面的冬奧賽事、賽程實(shí)時(shí)互動(dòng)交流，還能陪你玩一把冬奧知識(shí)游戲大PK，周邊交通、文化、旅游等咨詢問(wèn)答也不在話下。

　　除此之外，在教育、醫(yī)療、司法等場(chǎng)景中的各類行業(yè)人工智能應(yīng)用中，多語(yǔ)種語(yǔ)音交互系統(tǒng)都將發(fā)揮重要作用。經(jīng)過(guò)多年的技術(shù)積累，除了中英以外，當(dāng)前科大訊飛已經(jīng)具備其他69種語(yǔ)言的語(yǔ)音識(shí)別能力，其中已經(jīng)有35個(gè)語(yǔ)種準(zhǔn)確率已經(jīng)超過(guò)90%，并已在新加坡、俄羅斯、印度、日本等國(guó)家部署了海外站點(diǎn)，將持續(xù)為海內(nèi)外開(kāi)發(fā)者提供語(yǔ)音識(shí)別、語(yǔ)音合成、機(jī)器翻譯、圖文識(shí)別等語(yǔ)音語(yǔ)言服務(wù)。

　　如何更好地研發(fā)包括中文在內(nèi)的多語(yǔ)種語(yǔ)音及語(yǔ)言技術(shù)的AI能力并實(shí)現(xiàn)大規(guī)模應(yīng)用落地，如何更好地用人工智能技術(shù)服務(wù)社會(huì)、建設(shè)美好世界，是我們不斷奮斗努力的方向。

　　未來(lái)，科大訊飛將不斷開(kāi)展人工智能源頭技術(shù)創(chuàng)新，助力中國(guó)人工智能在全球贏得話語(yǔ)權(quán)，實(shí)現(xiàn)更多人工智能創(chuàng)新應(yīng)用，真正解決社會(huì)剛需，蓬勃向上，生生不息。