當(dāng)前位置：首頁 > 新聞資訊 > 機(jī)器人知識 > 自然語言處理技術(shù)五大技術(shù)進(jìn)展和四大應(yīng)用與產(chǎn)品

自然語言處理技術(shù)五大技術(shù)進(jìn)展和四大應(yīng)用與產(chǎn)品

來源：阿里機(jī)器智能編輯：創(chuàng)澤時(shí)間：2020/6/23 主題：其他 [加盟]

在自然語言處理技術(shù)的應(yīng)用和研究領(lǐng)域發(fā)生了許多有意義的標(biāo)志性事件，我們將從“技術(shù)進(jìn)展”、“應(yīng)用與產(chǎn)品”兩大維度進(jìn)行回顧。

2019 年，技術(shù)進(jìn)展方面主要體現(xiàn)在預(yù)訓(xùn)練語言模型、跨語言 NLP/無監(jiān)督機(jī)器翻譯、知識圖譜發(fā)展 + 對話技術(shù)融合、智能人機(jī)交互、平臺廠商整合AI產(chǎn)品線。

1 預(yù)訓(xùn)練語言模型

隨著 2018 年底 Google 提出預(yù)訓(xùn)練語言模型 BERT，在多項(xiàng) NLP 任務(wù)上獲得更優(yōu)效果，預(yù)訓(xùn)練語言模型的研究與應(yīng)用被學(xué)術(shù)界和工業(yè)界視為 NLP 領(lǐng)域的一項(xiàng)重大突破，將 NLP 問題的解決方式從以往的為每個(gè)任務(wù)單獨(dú)設(shè)計(jì)復(fù)雜的模型逐漸演變成了預(yù)訓(xùn)練 + 微調(diào)的范式，讓眾多 NLP 應(yīng)用能夠享受到大語料預(yù)訓(xùn)練模型帶來的紅利，在通用的預(yù)訓(xùn)練模型的基礎(chǔ)上加入簡單的任務(wù)層，并結(jié)合自己場景的少量語料就可以獲得一個(gè)不錯(cuò)的領(lǐng)域 NLP 模型。

至此開啟了自然語言處理的新篇章。

在 2019 年，各個(gè)研究機(jī)構(gòu)和公司在 BERT 的基礎(chǔ)上進(jìn)一步創(chuàng)新，紛紛提出了自己的預(yù)訓(xùn)練模型，如：Facebook 發(fā)布的 RoBERTa，CMU 發(fā)布的 XLNet，Stanford 發(fā)布的 ELECTRA，還有百度的 ERNIE 模型，阿里的 structBERT 模型，華為的 NEZHA，哈工大和科大訊飛也都提出了自己的模型，不斷刷新 NLP 任務(wù)的最好成績。

這新的工作總結(jié)起來，主要來自訓(xùn)練任務(wù)設(shè)計(jì)和訓(xùn)練算法兩個(gè)方面。

訓(xùn)練任務(wù)設(shè)計(jì)

進(jìn)行更加精細(xì)的語義粒度建模，包括引入更細(xì)粒度的建模對象和更加精細(xì)的刻畫語義關(guān)聯(lián)。

比如 “全詞 Mask” 或者 “Knowledge Masking”，技術(shù)在 MLM 預(yù)訓(xùn)練任務(wù)中 Mask 整個(gè)詞而不是單個(gè) Token，進(jìn)而提升了任務(wù)難度使得 BERT 學(xué)到更多語義信息,哈工大和科大訊飛聯(lián)合發(fā)布的中文 BERT 模型以及 NEZHA 模型中得到了應(yīng)用；再比如引入更多類型的句間關(guān)系，從而能夠更加準(zhǔn)確描述語義關(guān)聯(lián)性，進(jìn)而提升語義匹配等方面能力，這在阿里和螞蟻團(tuán)隊(duì)的 BERT 模型中得到體現(xiàn)。

利用新的機(jī)器學(xué)習(xí)方法建模

包括 CMU 和 Google 聯(lián)合發(fā)布的 XLNet 使用了 Autoencoder 和 Auto-regressive 兩種方案；斯坦福大學(xué)提出的 ELECTRA 模型，引入對抗機(jī)制來進(jìn)行更好的 MLM 學(xué)習(xí)。華盛頓大學(xué)和 Facebook 聯(lián)合發(fā)布的 SpanBERT 模型還引入了 Span 預(yù)測任務(wù)。這些方案應(yīng)用更學(xué)習(xí)方法來建模文字之間的聯(lián)系，從而提升模型效果。

訓(xùn)練算法設(shè)計(jì)

針對模型的易用性的問題，減少模型參數(shù)，或者降低模型的復(fù)雜度，包括 Google 發(fā)布的 ALBERT 使用了詞表 embedding 矩陣的分解與中間層的共享。

提高訓(xùn)練速度的優(yōu)化

包括混合精度訓(xùn)練，用 FP16 來進(jìn)行權(quán)重，激活函數(shù)和梯度等的表示；LAMB 優(yōu)化器通過一個(gè)自適應(yīng)式的方式為每個(gè)參數(shù)調(diào)整 learning rate，模型訓(xùn)練能夠采用很大的 Batch Size; 這些方法極大地提高了訓(xùn)練速度。

阿里的 structBERT 模型通過引入更多模型和任務(wù)結(jié)構(gòu)化信息，提升語言表示能力。在Gluebench mark 上多次名列前矛和保持領(lǐng)先位置。通過蒸餾和 CPU 加速，RT 提高了 10x，finetuned 的模型給多個(gè)業(yè)務(wù)場景帶來了明顯提升，上線了 AliNLP 平臺。

預(yù)訓(xùn)練語言模型在大規(guī)模無監(jiān)督文本上進(jìn)行預(yù)訓(xùn)練，將得到的詞和句子的表示遷移到廣泛的下游任務(wù)上，包括文本匹配，文本分類，文本抽取，閱讀理解，機(jī)器問答等不同的場景。如阿里語言模型在 MS MARCO 問答評測，TREC Deep Learning 評測上都取得了第一名的好成績。

下游的任務(wù)可以在低資源的情況下快速獲得一個(gè)不錯(cuò)的解決方案，極大的提升了 NLP 算法的應(yīng)用落地能力。

2 跨語言 NLP/無監(jiān)督機(jī)器翻譯

作為預(yù)訓(xùn)練語言模型的擴(kuò)展，F(xiàn)acebook 的研究人員提出了跨語言的語言模型預(yù)訓(xùn)練 “Cross-lingual Language Model Pretraining”，僅使用單語數(shù)據(jù)的無監(jiān)督訓(xùn)練和使用平行語料的有監(jiān)督訓(xùn)練的條件下，模型有效學(xué)習(xí)了跨語言文本表征，在多語言分類和無監(jiān)督機(jī)器學(xué)習(xí)等任務(wù)上，都比之前的最優(yōu)結(jié)果有顯著的提升。

繼 2018 年 Google 預(yù)訓(xùn)練語言模型 BERT 橫掃主流 NLP 任務(wù)之后，2019 年 Facebook 發(fā)布了新型跨語言預(yù)訓(xùn)練語言模型 XLM，實(shí)現(xiàn)不同語言在統(tǒng)一嵌入空間的表征共享，并在無監(jiān)督機(jī)器翻譯任務(wù)上帶來顯著的質(zhì)量提升。在探索大規(guī)模、多語言神經(jīng)機(jī)器翻譯方向上，Google、阿里巴巴等進(jìn)行了有效探索，通過同時(shí)在數(shù)十乃至數(shù)百種語向的平行語料上訓(xùn)練一個(gè)模型，而不是對各個(gè)語向分別建模，實(shí)現(xiàn)語義映射關(guān)系共享，不僅壓縮了模型數(shù)量，同時(shí)普遍提升了小語種翻譯效果。

過去一年來，多語言 NLP 技術(shù)的研究成果主要集中在機(jī)器翻譯（特別是無監(jiān)督的機(jī)器翻譯），跨語言詞向量，多語言 NER，依存句法分析，詞對齊和多語言詞典生成等方向。

由于跨語言詞向量的學(xué)習(xí)/映射是其中的關(guān)鍵步驟，目前的無監(jiān)督/跨語言的 NLP 任務(wù)在相近的語言之間（如英語/法語，英語/西班牙語等）效果最好，在不同的語言家族間（如英語/越南語）效果還是有較大提升空間。

3 知識圖譜發(fā)展+對話技術(shù)融合

隨著數(shù)據(jù)量的積累和應(yīng)用對數(shù)據(jù)質(zhì)量和結(jié)構(gòu)要求的提升，近幾年知識圖譜又成為一項(xiàng)熱點(diǎn)技術(shù)開始被關(guān)注。

知識圖譜技術(shù)領(lǐng)域在 2019 年的發(fā)展，包括領(lǐng)域知識圖譜的構(gòu)建和整合（金融、企業(yè)等）、圖譜平臺化標(biāo)準(zhǔn)能力的建設(shè)（schema 定義 + 構(gòu)建 + 調(diào)用）、圖譜應(yīng)用算法建設(shè)（基于圖譜數(shù)據(jù)的圖模型 + 規(guī)則推理等）；并基于構(gòu)建的圖譜數(shù)據(jù)和能力，開始在更多的業(yè)務(wù)場景得到應(yīng)用（搜索推薦內(nèi)容理解和挖掘、金融風(fēng)控和決策、對話理解和內(nèi)容生成等）。

在知識圖譜和對話結(jié)合的技術(shù)方向，對話技術(shù)在問答和任務(wù)式對話近幾年已形成了一定的技術(shù)框架和業(yè)務(wù)覆蓋，開始需要解決一些對知識理解 + 答案專業(yè)性要求更高的領(lǐng)域場景（理財(cái)助理等）。

對話技術(shù)結(jié)合知識圖譜的領(lǐng)域知識完整度 + 結(jié)構(gòu)化質(zhì)量優(yōu)勢來進(jìn)行覆蓋，可以解決相應(yīng)場景下語料標(biāo)注（意圖理解）和專家配置（對話流程 + 響應(yīng)生成）上的不足，進(jìn)一步提升對話覆蓋和響應(yīng)質(zhì)量。融合知識圖譜對話這個(gè)方向，在 2020 年會有更多的真實(shí)場景落地和覆蓋。

4 智能人機(jī)交互

自然語言理解和深度問答匹配技術(shù)在學(xué)術(shù)和工業(yè)界持續(xù)發(fā)發(fā)展，并且已經(jīng)在全域業(yè)務(wù)和場景有了大規(guī)模應(yīng)用，基于預(yù)訓(xùn)練語言模型進(jìn)一步帶來性能的提升。

機(jī)器閱讀理解成為低成本通用技術(shù)，圍繞百科、政策法規(guī)、商品詳情頁、說明書等場景構(gòu)建應(yīng)用中臺能力，接入效率有了很大提升。結(jié)合圖-文的多模態(tài) VQA 問答技術(shù)在行業(yè)中率先孵化，理解商品詳情頁長圖進(jìn)行問答成為一項(xiàng)新的競爭力。

對話（Dialog）技術(shù)能力進(jìn)一步發(fā)展，但是在端到端的基于數(shù)據(jù)驅(qū)動的對話狀態(tài)跟蹤和對話策略還是只能在限定范圍內(nèi)進(jìn)行探索，工業(yè)場景基于對話平臺構(gòu)建的任務(wù)型機(jī)器人成為了主流的實(shí)現(xiàn)方案。

多語言技術(shù)實(shí)現(xiàn)新語言的快速拓展，基于 Cross-Lingual 構(gòu)建多語言語言模型，在遠(yuǎn)距離語言對在英 -> 中、英 -> 泰遠(yuǎn)距離語言對上超越 Google，拓展一個(gè)新語言從去年的 2 個(gè)月縮短到 2 周。

對話生成技術(shù)開始取得突破，基于結(jié)構(gòu)化知識的引入提升生成的可控性，賣點(diǎn)的生成帶來導(dǎo)購轉(zhuǎn)化率的提升。

5 平臺廠商整合AI產(chǎn)品線

隨著 AI 技術(shù)發(fā)展和 AI 應(yīng)用的需求，AI 技術(shù)框架的成熟（Tensorflow、PyTorch等），AI 技術(shù)能力逐漸被標(biāo)準(zhǔn)化為一系列 AI 平臺類產(chǎn)品，面向企業(yè)和開發(fā)者，提供更低門檻和更高效率的 AI 應(yīng)用支持。

對話類平臺，Google 從 2016 年開始發(fā)布 Assistant 對話助手，這幾年陸續(xù)發(fā)布了 Google Home（現(xiàn)在整合到 Nest 智能家居品牌），Duplex 語音電話，以及收購了 API.AI 對話開發(fā)平臺；今年 Google 已基本整合這些對話產(chǎn)品線，基本布局了對話現(xiàn)有的平臺 + 終端，現(xiàn)成一個(gè)整體的對話產(chǎn)品線。

AI 類平臺方面，Amazon 自 2017 年發(fā)布 SageMaker 機(jī)器學(xué)習(xí)平臺產(chǎn)品，今年進(jìn)一步基于 SageMaker 整合 AI 開發(fā)過程，同時(shí)打通下游技術(shù)框架和上游 AI 應(yīng)用，整合 AI 產(chǎn)品線。類似阿里的機(jī)器學(xué)習(xí)平臺 PAI，定位成面向企業(yè)和開發(fā)者的一站式機(jī)器學(xué)習(xí)平臺。

2019 年，應(yīng)用與產(chǎn)品方面主要體現(xiàn)在機(jī)器翻譯、對話系統(tǒng)、多輪對話智能服務(wù)、智能語音應(yīng)用持續(xù)發(fā)展。

6 機(jī)器翻譯

機(jī)器翻譯的產(chǎn)品發(fā)展延續(xù)了之前的趨勢，在通用領(lǐng)域（新聞），特定領(lǐng)域（電商，醫(yī)療等）擴(kuò)展了更多的語言方向，支持了更豐富的業(yè)務(wù)場景，并持續(xù)帶來商業(yè)價(jià)值。阿里巴巴在翻譯干預(yù)和智能泛化方向進(jìn)行了卓有成效的探索，把業(yè)務(wù)知識更好地融合到神經(jīng)網(wǎng)絡(luò)翻譯框架中，大大提升了垂直場景下關(guān)鍵信息的翻譯準(zhǔn)確率。

高價(jià)值和高敏感內(nèi)容的翻譯目前仍離不開人工，因此在計(jì)算機(jī)輔助翻譯（CAT）引入智能算法實(shí)現(xiàn)人機(jī)協(xié)同翻譯，以及機(jī)器翻譯后編輯（MTPE）等新型生產(chǎn)模式，也受到越來越多的關(guān)注。阿里巴巴、騰訊在自動后編輯（APE）、交互式翻譯（IMT）都開始有產(chǎn)品推出，并在實(shí)際業(yè)務(wù)中落地。

除了文本翻譯之外，更多的多模態(tài)翻譯應(yīng)用場景出現(xiàn)，如語音翻譯在會議同傳，雙語字幕，翻譯機(jī)硬件上的嘗試（阿里二十周年年會上馬老師和逍遙子演講也以實(shí)時(shí)雙語字幕的形式展示）。

結(jié)合 OCR，機(jī)器翻譯和合圖技術(shù)的圖片翻譯在支付寶掃一掃，微信，搜狗翻譯機(jī)上得到應(yīng)用。隨著賣家直播的興起，直播視頻翻譯的場景和需求也會越來越多。但是受限于直播場景中復(fù)雜的領(lǐng)域，專業(yè)的術(shù)語，快速的語速和有時(shí)嘈雜的背景環(huán)境，直播翻譯對于語音識別和機(jī)器翻譯的挑戰(zhàn)也是非常巨大。

7 對話系統(tǒng)

對話系統(tǒng)的語言覆蓋進(jìn)一步提升，基于多語言遷移能力快速拓展了法語、阿拉伯語、臺灣話的對話系統(tǒng)，目前已支持 11 個(gè)語種，及馬來語-英語和泰語-英語的混合語言理解，為 Lazada 和 AE 帶來解決率的大幅提升。

對話系統(tǒng)支持了更大規(guī)模的商家和企業(yè)，支撐了超過 50+ 的集團(tuán)經(jīng)濟(jì)體客戶，店小蜜拓展了通用包、行業(yè)包、店鋪包的知識定位能力，累計(jì)承載百萬級活躍商家，日均千萬級對話輪次。釘釘小蜜基于企業(yè)智能助理承載了 40W 日均活躍企業(yè)。

對話系統(tǒng)的交互形式進(jìn)一步豐富，直播小蜜實(shí)現(xiàn)了從商品相關(guān)問題的被動回答，到主動和用戶展開開放式對話的轉(zhuǎn)變，帶來 cdau 破百萬。

VQA 等多模態(tài)理解能力落地店小蜜及經(jīng)濟(jì)體小蜜，提升用戶交互體驗(yàn)的同時(shí)大幅降低商家配置成本。

熱線小蜜的語音交互能力作為典型案例獲 2019MIT Technology Reviewer 十大突破技術(shù)提名，并沉淀了面向多領(lǐng)域的外呼場景，并在多個(gè)生態(tài)輸出。

8 多輪對話智能服務(wù)

多輪交互在智能服務(wù)場景（客服機(jī)器人）在解決用戶模糊問題，提高用戶使用體驗(yàn)方面起到的重要的作用。模糊問題指用戶問題描述不完整，如 “怎么開通” ，這句話沒有說明是哪個(gè)業(yè)務(wù)，這類問題占客服機(jī)器人總提問量的 30%。

螞蟻智能服務(wù)團(tuán)隊(duì)設(shè)計(jì)了基于標(biāo)簽的多輪交互方案，首先離線挖掘標(biāo)簽，并審核，標(biāo)簽包括業(yè)務(wù)標(biāo)簽（花唄，備用金...）和訴求標(biāo)簽（怎么開通，如何還款...），通過向用戶反問標(biāo)簽列表的形式澄清用戶問題。

已有的問題澄清方法主要通過直接推薦完整澄清問題的方案，但定義什么是好的澄清問題仍然不明確，螞蟻團(tuán)隊(duì)設(shè)計(jì)了一個(gè)基于強(qiáng)化學(xué)習(xí)推薦標(biāo)簽列表的方案做問題澄清，整個(gè)標(biāo)簽推薦是一個(gè)序列決策的過程，在用戶點(diǎn)擊了標(biāo)簽之后，我們會把點(diǎn)擊的標(biāo)簽和原始的用戶問題一起作為澄清后的問題。

整個(gè)優(yōu)化的目標(biāo)是，目標(biāo)是最大化整個(gè)標(biāo)簽列表對潛在澄清問題的覆蓋率，同時(shí)保持不同標(biāo)簽對潛在澄清問題集合的有效劃分，因此，在強(qiáng)化學(xué)習(xí)過程中，相應(yīng)設(shè)計(jì)了基于信息增益的獎勵（Reward）。

基于強(qiáng)化學(xué)習(xí)方法的多輪交互上線后，螞蟻客服機(jī)器人場景共解決了 33% 的模糊問題，機(jī)器人綜合場景轉(zhuǎn)人工率絕對下降 1.2%。

9 人機(jī)對話構(gòu)建新的交互入口

場景驅(qū)動的個(gè)性化多輪對話技術(shù)，助推人機(jī)對話場景擴(kuò)充，同時(shí)語音語義一體化的上下文語義理解技術(shù)，持續(xù)提升多輪對話達(dá)成率。

天貓精靈在過去一年中，將人機(jī)對話能力擴(kuò)充到二哈電話助手，語音購物，新人使用引導(dǎo)等復(fù)雜的交互場景，更是在雙十一期間，創(chuàng)造了語音購物 100 萬訂單的記錄。

天貓精靈在去年的 315 推出了防騷擾電話助手 “二哈”，開啟了全新的人機(jī)對話交互場景：作為用戶的替身完成對話。“二哈” 的對話場景是在垂直領(lǐng)域內(nèi)的開放式多輪對話，目的是通過對話來識別來電意圖，并代替用戶來獲取必要信息。在 “二哈” 中我們提出了基于多輪對話上下文的機(jī)器閱讀理解技術(shù)，用以理解來電意圖和關(guān)鍵信息；基于對于來電內(nèi)容的理解，我們基于 Transformer 構(gòu)建了對話策略模型，用以選擇策略和生成對話。針對 “二哈” 的對話場景，我們提出使用圖靈測試通過率來衡量對話的質(zhì)量，亦即當(dāng)來電在整個(gè)對話中都沒有意識到是機(jī)器在與其通話時(shí)，可以認(rèn)為 “二哈” 通過了圖靈測試。“二哈” 目前的圖靈測試通過率達(dá)到了 87%，有效的幫助了用戶應(yīng)對陌生來電，節(jié)省用戶時(shí)間。

通過人機(jī)對話的方式去完成復(fù)雜的任務(wù)，比如點(diǎn)咖啡、購物等，往往需要機(jī)器和用戶進(jìn)行多次對話交互，同時(shí)在不同的任務(wù)場景下，對話機(jī)器人需要掌握各自領(lǐng)域的知識，才能和用戶對答如流。比如在語音購物場景，天貓精靈具備跨行業(yè)的智能導(dǎo)購員能力，吸收各行業(yè)導(dǎo)購員的銷售經(jīng)驗(yàn)，在用戶進(jìn)行語音購物的時(shí)候，以最終的成交轉(zhuǎn)化為目標(biāo)，像商場的銷售員一樣主動進(jìn)行多輪對話形式的購物引導(dǎo)，深入挖掘用戶購物需求并結(jié)合用戶畫像進(jìn)行精準(zhǔn)推薦。且對不同的用戶，天貓精靈可以采用最適合 TA 的對話方式，做到個(gè)性化多輪對話。

多輪對話的達(dá)成，是建立在一系列的單輪交互都達(dá)成的基礎(chǔ)上的，而如果整體任務(wù)的達(dá)成率是簡單的單輪達(dá)成率的乘積關(guān)系的話，多輪對話的達(dá)成率將很難提升。而打破簡單乘積關(guān)系的關(guān)鍵在于，每一輪對話理解的時(shí)候，需要充分利用上下文信息。

在天貓精靈上，我們進(jìn)行了上下文語音語義理解的探索。首先在語音解碼的環(huán)節(jié)，我們將多輪對話中，上文提到的實(shí)體信息構(gòu)建成 memory，通過 attention 機(jī)制讓解碼器網(wǎng)絡(luò)感知到這些對話場景信息，顯著提升了多輪對話場景的語音識別精度，然后在語義理解環(huán)節(jié)，我們獨(dú)創(chuàng)了具備跨輪 attention 能力的端到端上下文繼承模型，實(shí)現(xiàn)更高效的對話場景恢復(fù)的能力。從而讓線上多輪對話的錯(cuò)誤率下降了 58.5%，有效保障了復(fù)雜多輪對話場景的擴(kuò)充。

10 智能語音應(yīng)用持續(xù)發(fā)展

智能音箱，近幾年基本上國內(nèi)外大玩家都已陸續(xù)進(jìn)入市場（Amazon Alexa、Google Home/Nest、天貓精靈、小米小愛、百度小度），2019 年進(jìn)入競爭格局；2019 年智能音箱出貨量仍然在增加，但增速下降。

智能音箱仍然以音樂播放等軟件類服務(wù)為主，但進(jìn)一步應(yīng)用創(chuàng)新仍依賴智能家居和 IoT 設(shè)備的進(jìn)一步普及。

智能語音電話，2018 年 Google I/O 大會展示了 Duplex 的語音電話助手 demo。2019 年智能語音電話開始更多地應(yīng)用到真實(shí)業(yè)務(wù)領(lǐng)域，包括電銷、金融、政務(wù)等領(lǐng)域的應(yīng)用都在增長，以提升用戶服務(wù)覆蓋+降低人工成本。

螞蟻智能語音電話 2019 年也在安全（核身）、金融（保險(xiǎn)回訪、微貸催收）、支付（客戶激活）等更多金融場景應(yīng)用和落地。

智能語音類應(yīng)用，所面向的用戶場景強(qiáng)依賴對話語音交互，推動了 NLP 技術(shù)和語音技術(shù)的發(fā)展；隨著技術(shù)和產(chǎn)品的發(fā)展成熟，以及用戶接受度的提高，2020 年的應(yīng)用規(guī)模和領(lǐng)域會進(jìn)一步擴(kuò)大。