語(yǔ)音識(shí)別，助力會(huì)議語(yǔ)音轉(zhuǎn)寫(xiě)

2023-10-23?

通常會(huì)議記錄的速度是慢于說(shuō)話速度的，而對(duì)于大部分會(huì)議而言，會(huì)議記錄內(nèi)容是參與人員復(fù)盤(pán)和會(huì)議重點(diǎn)提煉的一手材料，尤其是對(duì)于大型討論決策型會(huì)議，會(huì)議記錄的內(nèi)容準(zhǔn)確性不言而喻。

在語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)出現(xiàn)以前，會(huì)議記錄高度依賴會(huì)議記錄人員或書(shū)記員的精確錄入，后期還需要進(jìn)行大量詞匯填充工作，繁瑣且出錯(cuò)率高。

聲菲特語(yǔ)音轉(zhuǎn)寫(xiě)

科技是第一生產(chǎn)力，大數(shù)據(jù)應(yīng)用的延伸和硬件系統(tǒng)的成本降低、性能的提升，反哺了人工智能所需要的原始訓(xùn)練資料，根據(jù)相關(guān)機(jī)構(gòu)預(yù)測(cè)，中國(guó)語(yǔ)音識(shí)別的商用市場(chǎng)在2024年會(huì)達(dá)到接近300億的收入規(guī)模，而GPU的使用量與訓(xùn)練速度也在成倍增長(zhǎng)。隨著越來(lái)越多的頭部互聯(lián)網(wǎng)廠商的布局和許多新興玩家的加入，使得相應(yīng)的應(yīng)用產(chǎn)品愈發(fā)趨于成熟，開(kāi)始走向大規(guī)模的商業(yè)化，而類似于會(huì)議記錄困難這樣的問(wèn)題，自動(dòng)實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫(xiě)錄入技術(shù)的到來(lái)將會(huì)得到完美解決。

聲菲特語(yǔ)音轉(zhuǎn)寫(xiě)

Q1:語(yǔ)音識(shí)別技術(shù)是如何發(fā)展的？

主要有四個(gè)階段。第一個(gè)階段（模板匹配階段）是上個(gè)世紀(jì)50到60年代，語(yǔ)音識(shí)別尚處在萌芽階段，通過(guò)模板匹配的方式實(shí)現(xiàn)，這個(gè)階段的特點(diǎn)是只能理解有限的詞匯和內(nèi)存中的數(shù)字，并不能將語(yǔ)音信號(hào)轉(zhuǎn)化為完整的語(yǔ)句或者詞匯，且對(duì)于不同的聲音模型，機(jī)器的識(shí)別也極為有限。

第二個(gè)階段（模式和特征分析階段）是智能語(yǔ)音識(shí)別的起步階段，時(shí)間點(diǎn)是上世紀(jì)70、80年代，這一階段可以通過(guò)對(duì)聲音進(jìn)行設(shè)置特定的模式和參數(shù)，并基于大量詞匯可以進(jìn)行連續(xù)的語(yǔ)音識(shí)別。仍然處于研究和探索的階段，這一階段的成果主要出自于各高校和研究所。

第三個(gè)階段（概率統(tǒng)計(jì)建模階段）為成長(zhǎng)階段，此階段研究算法主流為概率統(tǒng)計(jì)算法建模，主要模型為HHM隱馬爾科夫模型和DMM高斯混合模型，這一階段開(kāi)始有了面向商用市場(chǎng)的初期產(chǎn)品。而神經(jīng)網(wǎng)絡(luò)模型也在這一時(shí)期穩(wěn)定發(fā)展，DBN深度置信網(wǎng)絡(luò)由HINTON在2006年提出，并頻繁出現(xiàn)在語(yǔ)音識(shí)別領(lǐng)域，開(kāi)始挑戰(zhàn)主流的算法模型。

第四個(gè)階段（深度神經(jīng)網(wǎng)絡(luò)階段）也就是2010年至今，消費(fèi)級(jí)產(chǎn)品越來(lái)越常見(jiàn)并且更加專業(yè)化，而主流算法模型開(kāi)始轉(zhuǎn)向?yàn)樯窠?jīng)網(wǎng)絡(luò)模型，語(yǔ)音識(shí)別作為AI交互的接口，應(yīng)用的場(chǎng)景也更加多樣巧妙。

聲菲特語(yǔ)音轉(zhuǎn)寫(xiě)

Q2:語(yǔ)音識(shí)別和語(yǔ)音轉(zhuǎn)寫(xiě)有什么區(qū)別？

實(shí)際上這兩種技術(shù)是包含關(guān)系，即語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)是AI語(yǔ)音識(shí)別技術(shù)的一個(gè)分支。語(yǔ)音識(shí)別的研究對(duì)象是指以語(yǔ)音為研究對(duì)象，通過(guò)語(yǔ)言處理和模式識(shí)別讓機(jī)器自動(dòng)識(shí)別理解人類口述語(yǔ)言，進(jìn)而轉(zhuǎn)化成文本或者命令的技術(shù)。從中可以看出，語(yǔ)音識(shí)別是一門(mén)涉及廣泛的技術(shù)，與聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、信息理論、模式識(shí)別理論以及神經(jīng)生物學(xué)等學(xué)科都有非常密切的關(guān)系。而語(yǔ)音轉(zhuǎn)寫(xiě)則是其中一種輸出方式，最直接的就是轉(zhuǎn)換成為可視化文本樣式輸出，即為語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)，它包含了識(shí)別與轉(zhuǎn)寫(xiě)兩個(gè)流程。

聲菲特語(yǔ)音轉(zhuǎn)寫(xiě)

Q3:語(yǔ)音識(shí)別目前存在的難點(diǎn)或者發(fā)展趨勢(shì)是什么？

都可分為三點(diǎn)闡述，難點(diǎn)可歸結(jié)為三個(gè)問(wèn)題:1.更有效的序列到序列直接轉(zhuǎn)換的模型。2.雞尾酒會(huì)問(wèn)題也就是遠(yuǎn)講拾音識(shí)別。3.持續(xù)預(yù)測(cè)和自適應(yīng)模型。這三個(gè)難點(diǎn)解決了，將會(huì)進(jìn)一步提升語(yǔ)音識(shí)別的準(zhǔn)確率和適用性與易用性。

發(fā)展的趨勢(shì)，目前來(lái)看主要分為：強(qiáng)降噪發(fā)展、語(yǔ)音鏈路整合、多模態(tài)結(jié)合，這也是頭部相關(guān)研究機(jī)構(gòu)和企業(yè)的發(fā)展的大趨勢(shì)所在。

Q4.市面上已有不少語(yǔ)音轉(zhuǎn)寫(xiě)產(chǎn)品，主要以軟件或者在線識(shí)別為主，離線和在線有何區(qū)別差異？

我們生活中其實(shí)已經(jīng)在不知覺(jué)中接觸了不少的語(yǔ)音轉(zhuǎn)寫(xiě)產(chǎn)品，例如一些手機(jī)的輸入法或者游戲中的語(yǔ)音翻譯。但是可以看到，基于單個(gè)APP類的產(chǎn)品雖然適用終端非常廣泛，但是識(shí)別率和適應(yīng)性是不具備專業(yè)化要求的。更加嚴(yán)謹(jǐn)?shù)膱?chǎng)合需要更精確、魯棒性更好的系統(tǒng)提供轉(zhuǎn)寫(xiě)服務(wù)，如正式的新聞發(fā)布會(huì)，高頻、長(zhǎng)時(shí)間的轉(zhuǎn)寫(xiě)出別字錯(cuò)字將會(huì)極大降低觀感和體驗(yàn)。

以上是軟件端的局限性，由于設(shè)備和適用環(huán)境的不同，對(duì)本身的產(chǎn)品性能要求并不高。而要求更嚴(yán)格的會(huì)議場(chǎng)景通常會(huì)適用專業(yè)會(huì)議設(shè)備配套語(yǔ)音轉(zhuǎn)寫(xiě)系統(tǒng)去完成轉(zhuǎn)寫(xiě)記錄任務(wù)，這也有區(qū)別，目前主流的方式是私有云和公有云識(shí)別服務(wù)。這兩者的異同也較大，在線（公有云）優(yōu)勢(shì)在于：消費(fèi)者使用方便，不限制命令詞，廠商開(kāi)發(fā)方便，市場(chǎng)方案很多選擇，BAT巨頭都有參與布局，提供接口可任意定制。但是它的劣勢(shì)也比較明顯：需要聯(lián)網(wǎng)，對(duì)接云端，這對(duì)信息保密要求高的企業(yè)或者單位個(gè)人都是不便的。響應(yīng)速度慢，成本高。一般都是以并發(fā)時(shí)長(zhǎng)或者引擎能力（中英文、角色區(qū)分）或者調(diào)用次數(shù)收費(fèi)，雖然初期成本投入較低，長(zhǎng)期使用則不然。

離線（私有云）的優(yōu)勢(shì)在于：響應(yīng)速度快，一般在幾百毫秒內(nèi)，可快速響應(yīng)對(duì)應(yīng)命令詞指令。即是識(shí)別系統(tǒng)故障也不會(huì)影響其他系統(tǒng)的使用，由于使用的私有服務(wù)器也不用擔(dān)心數(shù)據(jù)外泄，且對(duì)工程師而言，小模塊畫(huà)板更便捷。當(dāng)然這種形式的產(chǎn)品也有一定局限，如詞條限制，這和服務(wù)器容量與模型訓(xùn)練能力有關(guān)。

聲菲特語(yǔ)音轉(zhuǎn)寫(xiě)

Q5:目前語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)主要運(yùn)用在哪些場(chǎng)合？

語(yǔ)音轉(zhuǎn)寫(xiě)其實(shí)從字面上也很好理解其應(yīng)用場(chǎng)景和范圍，常見(jiàn)的需要做會(huì)議記錄的會(huì)議室或者演講報(bào)告廳、新聞發(fā)布需要實(shí)時(shí)轉(zhuǎn)寫(xiě)字幕投屏的場(chǎng)景，都能用上語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)，比如聲菲特智能語(yǔ)音轉(zhuǎn)寫(xiě)系統(tǒng)，配合聲菲特手拉手系統(tǒng)或及數(shù)字音頻處理器系統(tǒng)，可實(shí)現(xiàn)各類型會(huì)議室的智能化會(huì)議記錄和會(huì)議紀(jì)要輸出，各類型保密單位，即聽(tīng)即所見(jiàn)，可廣泛運(yùn)用于報(bào)告演講、活動(dòng)交流、新聞發(fā)布中的字幕投屏。更加專業(yè)化的場(chǎng)景還包括了醫(yī)療方面的識(shí)別，如病歷錄入和特殊診斷病情溝通（如雙耳失聰患者），公檢法機(jī)構(gòu)相關(guān)的有庭審記錄，目前國(guó)內(nèi)在此方面案例已經(jīng)較為成熟。監(jiān)獄系統(tǒng)里的審訊室等等。民用方面還有不少新興場(chǎng)景和系統(tǒng)也正在整合語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)，它真正的潛力還未完全展露出來(lái)。

Q6:聲菲特語(yǔ)音轉(zhuǎn)寫(xiě)系統(tǒng)的特點(diǎn)和構(gòu)成是怎樣的？

聲菲特智能語(yǔ)音轉(zhuǎn)寫(xiě)系統(tǒng)Cuckcoo使用場(chǎng)景是培訓(xùn)會(huì)議、重要會(huì)議投屏和庭審會(huì)議記錄、判決記錄等需要實(shí)時(shí)轉(zhuǎn)寫(xiě)或者語(yǔ)音識(shí)別投屏的場(chǎng)合，但是由于它還具備特殊的離線轉(zhuǎn)寫(xiě)并發(fā)流，因此也支持上傳錄音生成文本并導(dǎo)出的使用方法。這對(duì)于安裝了該系統(tǒng)的單位和企業(yè)來(lái)說(shuō)，無(wú)疑是拓展了一項(xiàng)使用方式，即是是來(lái)不及搭建系統(tǒng)的環(huán)境，只要錄音保存而后通過(guò)聲菲特轉(zhuǎn)寫(xiě)系統(tǒng)的處理也能生成對(duì)應(yīng)的會(huì)議記錄文件，極大方便了相關(guān)人員的整理工作。

主要特點(diǎn)是：1.安全：本地離線引擎，保證數(shù)據(jù)安全。2.精準(zhǔn)：轉(zhuǎn)寫(xiě)在標(biāo)準(zhǔn)普通話語(yǔ)音識(shí)別和轉(zhuǎn)寫(xiě)準(zhǔn)確率平均可達(dá) 98%以上，識(shí)別速度＜200ms，大大縮短人工記錄時(shí)間，支持語(yǔ)氣詞過(guò)濾，提高轉(zhuǎn)寫(xiě)結(jié)果可讀性。3.網(wǎng)線連接，易于部署，接口齊全，功能豐富，交互友好，支持音頻播放音字對(duì)照，方便用戶快速校正，提取會(huì)議紀(jì)要，實(shí)現(xiàn)便捷會(huì)議錄音管理。4.靈活：支持熱詞優(yōu)化、敏感詞約定，提升特定行業(yè)詞匯識(shí)別率。

聲菲特語(yǔ)音轉(zhuǎn)寫(xiě)

系統(tǒng)構(gòu)成拓?fù)鋱D：

聲菲特語(yǔ)音轉(zhuǎn)寫(xiě)

下一篇: 聲菲特智慧教學(xué)擴(kuò)聲系統(tǒng)助力教育大升級(jí)

返回列表

新聞中心