數據之戰：NLP邁向實用階段的核心所在

情感導師 2022-10-24 6386

添加導師LINE：jaqg

獲取更多愛情挽回攻略婚姻修復技巧戀愛脫單幹貨

雷鋒網AI科技評論按：隨着人工智能技術越來越多的應用到我們的工作和日常生活中，人們對與計算機交互提出了更高的要求。人們顯然已不滿足於只是簡單的人機對話，而是暢想可以達到人與人交流那樣的酣暢淋漓，就像科幻片像人們所展現的那樣。但是人類相互之間的交流不是文字或文字堆砌的句子所能表達的，而是一個微妙且複雜的過程。生活中，我們可以大量的使用語氣詞來加強你的語氣，表達你的愉悅、惱怒或者無聊。而要讓計算機真正理解人類日常交流用語，單單了解單詞的定義是遠遠不夠的，計算機還要理解人類的七情六慾，甚至潛台詞。NLP實際上就是在極其豐富的人類語言之中和機器語言之間搭建無障礙溝通的橋樑。在新的 AI 技術發展下，越來越需要巨大的數據以支撐不同的場景。AI大牛沈向洋最近就職清華演講中提到：在任何時候，構建AI都離不開數據，如何設計和構建負責任的AI，數據的來源至關重要。當下NLP的大部分應用場景都缺少足夠規模的標註數據，並且標註成本也非常高。因此準確率通常也不會很理想。那麼如何才能以低成本、時效快的高質量數據快速上手 ASR/TTS/NLP 引擎，步入NLP實用階段呢？針對這一問題，雷鋒網AI 科技評論有幸與澳鵬（Appen）中國區客戶服務副總裁段楊Danny Duan 進行了一場深度對話。Danny 指出「成品數據庫不失為一個明智的選擇。」以下為完整對話內容——

段楊Danny Duan，澳鵬（Appen）中國區客戶服務副總裁。曾歷任文思海輝總監，助理副總裁，AI數據服務部門負責人。

一個成功NLP引擎的關鍵因素是算法和高質量的數據，算法往往是公開的，差異化更多地來自於精準大量的訓練數據，定製的數據採集標註時間長，成本高。Q：目前在人機交互的人工智能中，聲稱幾乎每個決方案都利用了NLP，怎麼理解這句話的涵義？ Danny：人機交互有幾個步驟，首先你要讓機器聽懂你說的是什麼，比如智能音箱或者語音助手就是這樣一個很典型的情況。你對語音助手說了一句話，它能在計算機內部轉換為相對應的文本，因為計算機處理文本信息比較容易，這就是語音識別技術。轉成文本以後，重點就是機器要理解你想要幹什麼，才能知道該如何去應對。這就是自然語言理解或者或者叫NLP的任務。

比如我對着一個智能音箱說，「幫我打開空調。」首先，語音識別技術把我說的話轉換成文字。然後通過分析文字知道我的目的是要打開空調，這後面一步就是自然語言理解（NLP）的任務。它理解了，知道我要做的是打開空調，於是就操縱空調上的接收器去打開，包括進一步設置到某一個溫度。現在基本上各種自然語言理解引擎都是把各種各樣的輸入信息轉換成文本來進行處理、分析、切割，進行語意的提取，包括情緒的提取。可以說這是真正實現人機交互的基礎。當然整個交互的鏈條上還有一步，就是機器可能會與你對話，這裡用到的就是語音合成（TTS）的技術，相當於機器發聲。還有一個分支是跟語音交互相關的----語音翻譯，這裡面就需要再加上一個機器翻譯的環節，把人說的話轉成文本之後再轉化成另外一種目標語言，再去進行NLP的處理和人機對話。 Q：如何來定義一個成功的NLP呢？ Danny：成功的NLP其實從最終用戶角度來講很簡單，就是能夠像真人一樣知道我要說什麼，要做什麼，能夠做出正確的動作或者給出正確的反應。所謂人工智能，它的參照物其實就是人，這裡主要指人機交互這個限定的領域。而像AlphaGo下圍棋這種人工智能，與我們所說的人機交互是兩個不同的方向。人機交互就是以人的行為作為標杆，Siri的語音助手或者百度音箱，對話的時候，如果我不看見你，我是不是能夠感覺到你是一個機器，還是說我根本就分辨不出來你是機器還是真人。如果做到分辨不出來，那就說明這個NLP已經做到非常成功了，以假亂真了，當然現在的技術水平還相距甚遠。 Q：NLP的難點主要體現在轉換的過程，也就是從語音和圖像轉換成文字這一部分？ Danny：其實真正的難點不在於轉換的過程，而在於分析的過程。因為分析文本，並不是說簡單地把一些詞或者句子的內容識別出來，因為你是要識別意圖的。而最麻煩的是，人的意圖是發散的。我說「把空調開到26度」，這是一個確定的、有限的集合，作為智能家電也好或者智能音箱也好，相對比較容易應對。但更多的情況下，我說的話是模糊的，有多種可能的含義，而且往往是有上下文的，附加背景知識的，這本身就是一個開放的集合，這種情景下NLP引擎能夠做到準確分析正確應對就難度非常大了。基於以上的原因，所以各個廠家在做NLP引擎或者應用的時候，他們往往都會事先圈定好一些應用場景，比如一些最常見的設鬧鐘、設日曆、客服對常見問題的回答，或者一些常見的搜索內容，點播視頻或者找餐館這些。這樣在相對有限的一些場景裡面，它才可以對常見的意圖進行理解分析和應對。對引擎訓練範圍之外的內容，它就會說對不起，我沒聽懂你說什麼。這也是為什麼你會發現跟語音助手對話的時候，它經常會說我沒聽懂，然後把你說的話轉成文字，給你一個相當於網上搜索的鏈接，事實上這就是因為它背後的NLP引擎沒有辦法處理這一類的內容。 Q：它沒有辦法甄別像語氣這類吧，因為不同的語氣，從情緒上面可能意思會截然相反，實際上也就是無法解鎖情緒分析？ Danny：語氣是情感分析的一部分，這是很重要的一個方面，也可以說是一個難點。如果你試着用不同的語氣跟一個語音助手說話，比如用一個反問句，它很可能會給你一個錯誤的對答。目前也不是說沒辦法。一方面，需要用大量的數據進行訓練來覆蓋各種各樣的場景，包括類似的內容不同的語氣，不同的上下文所代表的不同含義；另一方面，做任何事情都有不同階段，首先要把最基本的階段夯實，然後才能再逐步疊加各種複雜的維度。比如正常對話的語氣，正常語速，沒有特別明顯的環境噪音，也沒有很多人同時在說話，也都是非常普通的內容，這種最基礎的、最常規的場景先要先訓練好，才能逐步追求更高複雜度的。 Q：目前NLP基本上還是處在一個比較常規和基礎的上面，遠沒達到對複雜維度的處理層面？ Danny：可以這樣說，就是在常規的程度上，覺得可以用，但離實際應用場景中的「好用」相對還比較遠。但是各廠家的做法不一樣。對百度、微軟、Google和Apple這種頭部大廠商來說，他們更多着眼於通用場景，而其他一些廠商則主要聚焦某些特定場景，比如在開車的時候人機交互的場景；在醫院裡跟醫生、病人對話的場景；或者客服的場景，通過縮減它的使用範圍，在有限的投入之內用有限的數據，這樣比較容易訓練出一個可用的NLP引擎。因為自然語言處理不僅僅是機械的去識別聲波，它實際上是非常模糊的去識別、去判斷人跟你交流的意圖，這個複雜度確實非常高，一旦出錯，很可能理解成相反的東西，甚至造成災難性的後果。 Q：算法對NLP是第一位的嗎？ Danny：做任何人工智能的技術或者產品的研發，其實都需要三樣東西，算法、算力和數據。算力本身就是一個支持性的東西。對於NLP而言，算法的理論突破是隔一段時間才會出現，而且現在行業內算法的研究普遍是開源性質的，各家的區別不大。所以真正核心的是數據。

而數據本身是千變萬化的。比如把NLP和語音識別相對比，關於中文的語音識別，中國字的量，包括各種各樣的口音，這些都是有限的。但是說話的內容和所表達的意圖卻是無限的，而且會有層出不窮的新內容出現。比如像新冠肺炎這種，如果引擎到今年不更新，它可能就識別不了。因此這些AI公司，就需要大量的數據去訓練，並且持續訓練他們的模型。

數據庫的優點很明顯：第一，成本低；第二，時效快。成品數據庫可極大提升以機器學習作為核心技術的創業公司的競爭力。Q：現在一些廠家如澳鵬都提供一些成品數據庫，怎麼看待數據庫對NLP引擎的作用？ Danny：數據有不同的來源，你可以花錢去採集，比如花錢請一個人錄一小時的音，也可以找一些公開的數據，比如演講視頻或者是有聲讀物，網站上的文字圖片等等。還有像語音助手、智能音箱、語音輸入法這些APP，如果經過用戶的授權，在你用這些APP時就已經把真實的用戶數據提供給開發APP的廠商了。但這些都各有優缺點，用戶數據是免費的但不可控。如果你需要一些特定的數據，你就有可能找不到你需要的數據。當然你也可以花錢去定向採集，但錢花多了能否承受，如果去找公開的數據，能找到多少是多少，又不具有系統性和針對性。數據庫有什麼存在的價值呢？第一，它是現成的，拿來就能用，而如果採集一個一千人說話的數據再進行標註，你可能需要兩個月到三個月，在當今的互聯網時代，一個產品周期都過去了。第二，數據庫成本低，因為這不是為某一個人的特定需求去定向採集的，做好了可以反覆的賣，每次賣的時候，價格就可放低，在資金有限的情況下是非常重要的因素。但是它不好的地方呢？它已經是現成的，所以不能改，它不是針對你的某一個具體的應用而特意優化的，所以數據庫是有很確定的使用場景，比如開發一個自然語言理解的引擎，或者語音識別的引擎，在早期階段用數據庫是一個非常好的方式，但是到後期針對你的應用場景再調試的時候就需要去補充其他定製的數據。所以一直以來很多做人工智能的企業，都非常願意去買數據庫。他們開發一個早期的引擎，就是希望以低成本和很短的時間快速上手進入市場。這對當下中國市場來說尤為重要，因為中國市場的迭代速度比歐美要快的多，可以說時間就是生命。所以說在國內，像澳鵬這種成品數據庫，拿來就能用的，確實非常受歡迎。

成品數據庫不僅對初創公司尤為重要，像Google、Facebook等這樣的巨頭對其需求也始終很旺盛。Q：數據庫對一些創業型公司非常適用，但對Google等這樣的頭部廠商呢？ Danny：事實上，這些大企業他們的需求可能還會更多。一方面他們會把同樣的引擎推向不同的應用場景，另一方面會推向不同國家的市場，這樣就會不斷地重複從基礎到定向開發的循環。

比如去年的一個美國英語雙人對話的數據庫，中國的客戶和美國的客戶都有大量需求，絕大部分還都是很有名的大公司，為什麼呢？因為他們進入到了一個新的階段，比如單人說話的識別引擎差不多了，要拓展到能夠識別兩個人對話，多人對話，甚至多人開會，一個人說話這樣的語音素材顯然不夠了，而是需要雙人對話的語音素材，那麼就相當於從一個較低的起點再開始，這正是數據庫最適用的地方。而另一個非常明顯的趨勢是目前中國這些領先的企業在拓展海外市場時，對中文以外的海外語言和外國人圖像的數據庫的需求也越來越旺盛。 Q：成品數據庫裡面都是一些標註好的數據嗎，還是已經訓練好的數據？ Danny：數據又可以分為訓練數據和測試數據，數據庫都屬於訓練數據。比如一個西班牙語500小時的語音識別數據庫，它最主體的內容就是500小時的可能是500個人或者800個人每個人說很多句話的錄音音頻。但是光有這些錄音往往還是不夠的，還要對這些數據進行一些加工，比如說要做轉寫，提供相對應的文字文本，要讓計算機知道每一條音頻文件裡面的波形圖對應的是什麼文本內容，這樣才能進行引擎訓練。做語音識別引擎的訓練，比如一條音頻10秒鐘長，不僅要識別出來說的話，凡是這一段音頻裡面出現的聲音都要能夠辨別，比如開門的聲音，打噴嚏的聲音，小孩在哭的聲音，放音樂的聲音，或者旁邊有汽車經過的聲音，都要能夠識別出來這是有用的聲音內容還是無用的干擾聲，所以語音轉寫它還包括區分各種各樣類型的聲音。還有一些相對比較複雜的處理，比如它還會包括時間戳，尤其是在雙人或者多人對話的情況下，每個人說話的起始位置和結束位置，包括說話人的區分。很多時候還會要附帶相應的發音詞典。整個語音數據庫，比如這500小時的音頻裡面可能出現了3700個不同的單詞，每一個單詞它按照語言學領域標準的音標表，都要把出現過的發音給標出來。

一般這樣就算是一個相對完整的語音數據庫，把這樣一套基本素材提供給客戶，讓他將這個數據集灌到模型裡面去訓練，參照對應的文本，時間戳，發音詞典，就可以做出有一定識別能力的一個引擎。而發音詞典又可以獨立出來，因為單詞的發音是比較固定的。所以澳鵬又有很多專門的發音詞典庫，近百種語言，每個語言少則幾千條詞條，多則幾十萬條詞條。Q：目前國內這些NLP在海外覆蓋的多，還是中文的多？ Danny：當然國內肯定都是立足於中文普通話和方言市場，但是國內市場現在已經競爭白日化了，國外這些行業里的巨頭也在試圖分一杯羹，因此國內的頭部企業也要尋求增長點，越來越多的是把目光投向海外市場上。比如像阿里、華為、OV、小米、科大訊飛，字節跳動這些公司這兩年海外拓展力度都很大。可以說，大家眼光一邊盯着海外市場布局，一邊繼續在國內市場深耕以堅守自己的大本營。

成本低、時效快的成品數據庫對ASR/TTS/NLP引擎開發事半功倍。Q：ASR/TTS 在難度上有差別麼？為什麼說更適合用數據庫？ Danny：其實它們是不同的應用類型，ASR就是一個語音識別。通俗說，就是把人說的內容轉換成對應的文字。比如微信語音可以直接轉換成文字，這就是一個直觀的ASR應用。TTS（Text to Speech）,就是文本到語音，在業界的一個說法就是合成語音，也就是讓機器說話。TTS實際上它是反過來的，先給機器提供文本，機器對照着這個文本，相當於念稿子一樣的，機器能夠發出對應的音來，當然TTS合成語音的做法又跟語音識別的做法不太一樣，不僅訓練方式不一樣，而且它所需要的數據也不一樣。相對而言，TTS的技術是比較容易的，而且也是目前最成熟的。如果從頭去採集做TTS引擎的數據，即使只是10個小時的音頻數據，再加上韻律標註和發音詞典的製作，兩三個月都不一定做得完，成本會相當高，這還只是數據準備的階段。如果是採購成品數據庫，拿到數據以後兩個星期就可以完成所有數據準備和引擎開發的過程，做出一個可用的TTS引擎來，這就是數據庫的好處。再比如一個500小時的西班牙語的ASR語言數據集，如果全部從頭做,跟買數據庫相比成本上至少要差到一倍以上，時間上來講連音頻的採集帶加工，附加對應文字的轉寫和發音詞典，最少需要兩至三個月。但如果是購買數據庫，今天簽合同，明天就可以傳過去了。 Q：後續是否需要提供更適合需求為具體場景而定製的數據來替代成品數據庫？ Danny：不完全是這樣，市場上一直既有成品數據庫的大量需求，也有大量需求需要定製，二者並不矛盾。任何場景都需要從基礎起步，而這個階段就是成品數據庫最能發揮優勢的階段。以前人工智能技術開發所關注的場景比較少，對數據庫需求的種類也少，隨着場景的多元化，數據庫的需求也隨之增大，只是對數據內容和精度的要求持續在變化。我們的判斷就是某一類需求僅僅是一個一次性的需求，還是說可能會有一些普遍的需求，對於可能會產生重複需求的，我們就可以把它製作成一個數據庫。比如嬰幼兒啼哭的數據，很可能做智能家居的廠家在產品研發的某一個階段就會用到，我們認為就值得去做成一個數據庫。 Q：最後，澳鵬目前也在做成品數據庫，你能介紹一下你們產品的特色？ Danny: 我們根據市場上頭部公司和創業公司的需求趨勢，及20多年行業經驗的累積，可以為我們的客戶提供豐富的成品數據庫來加快其AI產品的開發及迭代。

* 語音識別庫（ASR）64種語言， 21,000小時 * 合成語音庫（TTS）3種語言4種音色 * 發音詞典98種語言，460萬詞條 * 詞性詞典21種語言，190萬詞條 * 命名實體庫（NER）8種語言 * 詞形分析器3種語言 * 黑人面部圖片1000人13萬張 * 中國人帶口罩面部圖片1000人7000張 * OCR圖片泰語、芬蘭語、中文各5000張 * 嬰兒啼哭音頻數據300人300分鐘 * 家貓表情動作視頻1000隻除了這裡列出的數據庫以外，我們還在持續製作新的數據庫來滿足市場需求，也非常歡迎戰鬥在AI技術一線的同行們向我們提出數據庫的期望。

雷鋒網AI 科技評論註：欲了解澳鵬在成品數據庫方面的工作，可以訪問此鏈接， https://www.appen.com.cn/off-the-shelf-linguistic-resources/