新太TTS/ASR系統(tǒng)介紹
人類 花了近30年的時間才使語音識別技術得以實用化,人們可以與計算機自由地交談和溝通,實現"動口不動手"的美好愿望。尤其是近年來 Internet 的高速發(fā)展,讓語音識別技術有了更廣闊的應用前景和實用意義。
網絡時代,電話訪問WEB站 點和E-MAIL信息是一 個面向大眾提供企(事)業(yè)單位基本信息的大型資料庫,其內容十分豐富,用戶可以通過多種方式查詢到感興趣單位的信息,是企業(yè)面向市場、面向大眾提供優(yōu)質服務的增值服務。
傳統(tǒng)的電話查詢WEB信息和E -MAIL信息只能通過168臺進行,所以對大部分企業(yè)用戶來講,文本資料要首先錄制成語音 文件,然后才能提供服務,效率低 、存儲空間大,維護十分復雜,擴充困難。特別是對于一些如天氣查詢、股票行情的查詢等,對用戶來說,每查詢一個信息都要根據語音提示進行大量的按鍵操作,而且容易出錯。
而新太集團作為一個在信息 行業(yè)研究多年的服務提供 商,一直跟蹤市場、關注用戶最新需求,并敏銳地洞察到了這種信息交互的低效性后,隨組織人力進行跟蹤開發(fā)。于今年初推出了新太又一成熟的新產品TTS/ASR(文語轉換 TEXT TO SPEECH /自動語音識別 AUTOMATIC SPEECH RECOGNITION )系統(tǒng)。
文語 轉化系統(tǒng)提供了實時語音文本互相轉化的功能。通過TTS不僅節(jié)省了語音文件的空間1000 多 倍,而且解決了一些無法進行實時錄音的功能,減輕了工作量,提高了實時性(信息的時效性)。通過ASR使用戶不需進行煩瑣的按鍵操作就可快捷的查找到自己感興趣的信息。
一、系統(tǒng)總體設計
TTS是一 個專業(yè)級的中文文語轉換系統(tǒng) ,所處理的資料以中文文本文件的資料為主。新太TTS是新太根據中國人自己的語音特色和規(guī)律開發(fā)出來的,其發(fā)音語調的準確率和多音字及詞組的處理已經達到商業(yè)化的級別。
ASR 語音識別是一個較新興的技術,具有極大的發(fā)展?jié)摿蛻檬袌。目前新太科技利?/font>Philips最先進的自然語音識別平臺Speech Pearl 開發(fā)出一 套適合電信業(yè)務和一般企業(yè)具有完整語音識別功能的系統(tǒng)。目前已出的版本提供英語,普通話的識別,可根據用戶具體需求,在以后的版本中還可提供粵語及其它地方方言的識別。
新太科技將這套系統(tǒng)集成到 新太的NAP2000,IVSP聲訊平臺中, 以拓展信息交互的應用領域。應用領域包括:160/168聲訊服務系統(tǒng)、客戶服務中心系統(tǒng)、航班時刻信息查詢及股票查詢系統(tǒng)、無線尋呼、號碼查詢系統(tǒng)、天氣預報系統(tǒng)等。
1、 系統(tǒng)結構
TTS服務器
TTS網 關建立在新太NAP2000、IVSP、聲訊平臺上,是由數據庫查詢、數據組織、文語轉化、語 音文件生成等服務 構成的原型系統(tǒng)。運行系統(tǒng)包括上述4個組成部分。在實際工作中,可以在一臺NT上運行。一臺NT可以同時服務16個用戶的文語轉化,以一個聲訊系統(tǒng)同時20%的通道使用 TTS的功能,則可以服務3個E1(90線)規(guī)模的系統(tǒng)。
其功能包括:
ASR服務器
目前新太集團利用Philips最先進的自然語音識別平臺SpeechPearl 開發(fā)出一套適合 電信業(yè)務和一般企業(yè)具有完整語音識別功能的系統(tǒng)。新太集團將這套系統(tǒng)集成到新太的NA P2000,IVSP聲訊平臺中,以拓 展語音識別技術的應用領域。應用領域包括:160,168聲訊服務系統(tǒng)、客戶服務中心系統(tǒng)、航班時刻信息查詢及股票查詢系統(tǒng)、無線尋呼、號碼查詢系統(tǒng)、天氣預報系統(tǒng)等。
平臺IVR節(jié)點將用戶的語音 錄下來,將其保存在網絡文件系統(tǒng)中的一個文件中,并將該文件的絕對路徑傳給ASR網關 ,ASR網關根據其配置文件,找到其網關對應的網絡路徑,然后將該文件的 語音數據傳給ASR網關的后臺引擎,后臺引擎根據給定的語法規(guī)定將語音識別出來,識別結果返回給ASR網關存儲在網絡文件中,同時將識別結果的相關信息傳給IVR節(jié)點。
網關服務器
網關 服務器實現與其他異構網絡、專業(yè)數據庫連 接時數據的傳輸及通信。網關服務器可視業(yè)務及系統(tǒng)、數據庫的不同而采用不同的數據通訊協(xié)議轉換模塊。各網關通過在網關服務器內注冊就可接入系統(tǒng),通過網關服務器可方便地 實現與第三方數據源如氣象局、民航、銀行、證券等的數據交互。
2、新太TTS/ASR系統(tǒng)工作流程
根據用戶的具體要求目前有兩種實現流程:
適于文件比較長且文語較復雜的語音合成。
用戶打電話進入系統(tǒng),IVR 節(jié)點將用戶的語音信息錄制成語音文件存儲在網絡文件系統(tǒng)的一個文件中,并將該文件的 絕對路徑傳給ASR網關,ASR網關根據其配置文件,找到其網關對應的網絡路徑,然后將該 文件的語音數據傳給ASR網關后臺引擎,后臺引擎根據給定的語法規(guī)定將語音識別出來, 將識別結果返回給ASR網關,將其存儲在網絡文件系統(tǒng)中,同時將識別完成信息傳給IVR節(jié) 點。IVR節(jié)點根據用戶請求啟 動相應流程調用TTS網關,TTS網關根據取得的請求,向指定的數據庫進行訪問,將取得的相關信息轉化為文本信息,調用文語轉化模塊將文本信息合成語音信息播放給用戶。
適于一些簡單的文本信息及數據信息,可由系統(tǒng)調用流程自動合成。
系統(tǒng) 預先將一些 簡單信息錄制成語音文件存放在語音文件中,ASR直接將識別的用戶語音信息轉化為文本信息存儲在文件系統(tǒng)中,IVR節(jié)點根據識別結果將語音信息進行合成,再播放給用戶。
二、業(yè)務功能舉例
新太TTS/ASR系統(tǒng)是一個完 整的平臺,根據新太自身業(yè)務功能特點,我們將其建立在NAP2000、IVSP平臺上,主要是 針對原來平臺上業(yè)務的新的應用,可以支持多種數據庫和文本文件的同時訪問。系統(tǒng)能提 供集中式的文語轉 換功能、自動語音識別功能、全文檢索功能、格式轉化功能,數據庫訪問功能、以及二次開發(fā)功能等。在此系統(tǒng)平臺上可開通多種業(yè)務,目前已實現的業(yè)務如:電話聽E-MAIL 、語音查詢天氣、股票行情查詢、航班查詢等多種通過語音取代按鍵操作的自動語音播放信息查詢業(yè)務。
1、天氣查詢
與傳統(tǒng)的天氣查詢 不同的是,用戶通過撥打一特服號接入到系統(tǒng)后,不用在系統(tǒng)語音提示下進行多次按鍵選 擇,只需在系統(tǒng)語音提示下對著電話說出自己所要查詢的城市名即可查到自己所要的信息 。這種方式對用戶來說快捷方便,適于要查找多個地方的天氣情況 ,每查找完一個信息不用退出系統(tǒng)重新選擇,只需根據系統(tǒng)語音提示報出你所另外要查找的地名即可。因為每天的天氣是動態(tài)變化的,所以平臺要通過網關到氣象局實時取得數據。
2、股票行情查詢
證券交 易市場的發(fā)展伴隨著經濟的發(fā)展而發(fā)展,股市的動態(tài)牽動著千萬股民的心,為了方便股民 及時快捷的查找股市行情,提供一種實時語音交互的信息查詢是市場與客戶所迫切需要的 。股民只需對著電話簡單的說出所要查找的股票代 碼即可獲得所需的信息。股市是隨時動態(tài)變化的,對用戶的查詢信息通過網關實時到證券所數據庫取得相關信息,送往TTS文語轉換模塊轉換為語音文件通過IVR播放給用戶。
3、航班查詢
隨著 社會的發(fā)展,人們出差旅游的機會越來越多,對各地航班的查詢訪問量也更頻繁。傳統(tǒng)航 班查詢都是通過話務員或航班公司售票處座席提供服務,利用新太TTS/ASR系統(tǒng),用戶直 接對著電話說 出所要查詢的航班,平臺通過網關到航空公司數據庫查找,查找到的信息送至TTS文語合成模塊,根據ASR識別的用戶語音請求,將相應用戶信息通過IVR節(jié)點播放給用戶。
4、電話收發(fā)E-mail
用電話接收E-mail的方法可 以有兩種,傳統(tǒng)的方法是由話務員把E- mail的內容直接念給用戶聽。另一種即利用TTS技術,平臺讀取E-mail的內容,然后把文本內容送往文語轉換模塊將其轉化為語音信息,通過IVR節(jié)點播放給用戶。
用電話發(fā)E-mail業(yè)務是指用 戶通過電話接入系統(tǒng),用戶打電話告知系統(tǒng)所要發(fā)信的目的電 子郵件地址,由ASR自動識別系統(tǒng)內已定義好的IP地址,通過IVR節(jié)點錄音的語音文件以附件的方式生成Email通過Internet發(fā)送到對方的Email信箱中。
通過電話收發(fā)E-mail大大的方便了那些上網不方便,但又需要通過E-mail與外界聯系的朋友。
2001/03/30