通常會(huì)議記錄的速度是慢于說(shuō)話速度的,而對(duì)于大部分會(huì)議而言,會(huì)議記錄內(nèi)容是參與人員復(fù)盤(pán)和會(huì)議重點(diǎn)提煉的一手材料,尤其是對(duì)于大型討論決策型會(huì)議,會(huì)議記錄的內(nèi)容準(zhǔn)確性不言而喻。
在語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)出現(xiàn)以前,會(huì)議記錄高度依賴會(huì)議記錄人員或書(shū)記員的精確錄入,后期還需要進(jìn)行大量詞匯填充工作,繁瑣且出錯(cuò)率高。
科技是第一生產(chǎn)力,大數(shù)據(jù)應(yīng)用的延伸和硬件系統(tǒng)的成本降低、性能的提升,反哺了人工智能所需要的原始訓(xùn)練資料,根據(jù)相關(guān)機(jī)構(gòu)預(yù)測(cè),中國(guó)語(yǔ)音識(shí)別的商用市場(chǎng)在2024年會(huì)達(dá)到接近300億的收入規(guī)模,而GPU的使用量與訓(xùn)練速度也在成倍增長(zhǎng)。隨著越來(lái)越多的頭部互聯(lián)網(wǎng)廠商的布局和許多新興玩家的加入,使得相應(yīng)的應(yīng)用產(chǎn)品愈發(fā)趨于成熟,開(kāi)始走向大規(guī)模的商業(yè)化,而類似于會(huì)議記錄困難這樣的問(wèn)題,自動(dòng)實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫(xiě)錄入技術(shù)的到來(lái)將會(huì)得到完美解決。
Q1:語(yǔ)音識(shí)別技術(shù)是如何發(fā)展的?
主要有四個(gè)階段。第一個(gè)階段(模板匹配階段)是上個(gè)世紀(jì)50到60年代,語(yǔ)音識(shí)別尚處在萌芽階段,通過(guò)模板匹配的方式實(shí)現(xiàn),這個(gè)階段的特點(diǎn)是只能理解有限的詞匯和內(nèi)存中的數(shù)字,并不能將語(yǔ)音信號(hào)轉(zhuǎn)化為完整的語(yǔ)句或者詞匯,且對(duì)于不同的聲音模型,機(jī)器的識(shí)別也極為有限。
第二個(gè)階段(模式和特征分析階段)是智能語(yǔ)音識(shí)別的起步階段,時(shí)間點(diǎn)是上世紀(jì)70、80年代,這一階段可以通過(guò)對(duì)聲音進(jìn)行設(shè)置特定的模式和參數(shù),并基于大量詞匯可以進(jìn)行連續(xù)的語(yǔ)音識(shí)別。仍然處于研究和探索的階段,這一階段的成果主要出自于各高校和研究所。
第三個(gè)階段(概率統(tǒng)計(jì)建模階段)為成長(zhǎng)階段,此階段研究算法主流為概率統(tǒng)計(jì)算法建模,主要模型為HHM隱馬爾科夫模型和DMM高斯混合模型,這一階段開(kāi)始有了面向商用市場(chǎng)的初期產(chǎn)品。而神經(jīng)網(wǎng)絡(luò)模型也在這一時(shí)期穩(wěn)定發(fā)展,DBN深度置信網(wǎng)絡(luò)由HINTON在2006年提出,并頻繁出現(xiàn)在語(yǔ)音識(shí)別領(lǐng)域,開(kāi)始挑戰(zhàn)主流的算法模型。
第四個(gè)階段(深度神經(jīng)網(wǎng)絡(luò)階段)也就是2010年至今,消費(fèi)級(jí)產(chǎn)品越來(lái)越常見(jiàn)并且更加專業(yè)化,而主流算法模型開(kāi)始轉(zhuǎn)向?yàn)樯窠?jīng)網(wǎng)絡(luò)模型,語(yǔ)音識(shí)別作為AI交互的接口,應(yīng)用的場(chǎng)景也更加多樣巧妙。
Q2:語(yǔ)音識(shí)別和語(yǔ)音轉(zhuǎn)寫(xiě)有什么區(qū)別?
實(shí)際上這兩種技術(shù)是包含關(guān)系,即語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)是AI語(yǔ)音識(shí)別技術(shù)的一個(gè)分支。語(yǔ)音識(shí)別的研究對(duì)象是指以語(yǔ)音為研究對(duì)象,通過(guò)語(yǔ)言處理和模式識(shí)別讓機(jī)器自動(dòng)識(shí)別理解人類口述語(yǔ)言,進(jìn)而轉(zhuǎn)化成文本或者命令的技術(shù)。從中可以看出,語(yǔ)音識(shí)別是一門(mén)涉及廣泛的技術(shù),與聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、信息理論、模式識(shí)別理論以及神經(jīng)生物學(xué)等學(xué)科都有非常密切的關(guān)系。而語(yǔ)音轉(zhuǎn)寫(xiě)則是其中一種輸出方式,最直接的就是轉(zhuǎn)換成為可視化文本樣式輸出,即為語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù),它包含了識(shí)別與轉(zhuǎn)寫(xiě)兩個(gè)流程。
Q3:語(yǔ)音識(shí)別目前存在的難點(diǎn)或者發(fā)展趨勢(shì)是什么?
都可分為三點(diǎn)闡述,難點(diǎn)可歸結(jié)為三個(gè)問(wèn)題:1.更有效的序列到序列直接轉(zhuǎn)換的模型。2.雞尾酒會(huì)問(wèn)題也就是遠(yuǎn)講拾音識(shí)別。3.持續(xù)預(yù)測(cè)和自適應(yīng)模型。這三個(gè)難點(diǎn)解決了,將會(huì)進(jìn)一步提升語(yǔ)音識(shí)別的準(zhǔn)確率和適用性與易用性。
發(fā)展的趨勢(shì),目前來(lái)看主要分為:強(qiáng)降噪發(fā)展、語(yǔ)音鏈路整合、多模態(tài)結(jié)合,這也是頭部相關(guān)研究機(jī)構(gòu)和企業(yè)的發(fā)展的大趨勢(shì)所在。
Q4.市面上已有不少語(yǔ)音轉(zhuǎn)寫(xiě)產(chǎn)品,主要以軟件或者在線識(shí)別為主,離線和在線有何區(qū)別差異?
我們生活中其實(shí)已經(jīng)在不知覺(jué)中接觸了不少的語(yǔ)音轉(zhuǎn)寫(xiě)產(chǎn)品,例如一些手機(jī)的輸入法或者游戲中的語(yǔ)音翻譯。但是可以看到,基于單個(gè)APP類的產(chǎn)品雖然適用終端非常廣泛,但是識(shí)別率和適應(yīng)性是不具備專業(yè)化要求的。更加嚴(yán)謹(jǐn)?shù)膱?chǎng)合需要更精確、魯棒性更好的系統(tǒng)提供轉(zhuǎn)寫(xiě)服務(wù),如正式的新聞發(fā)布會(huì),高頻、長(zhǎng)時(shí)間的轉(zhuǎn)寫(xiě)出別字錯(cuò)字將會(huì)極大降低觀感和體驗(yàn)。
以上是軟件端的局限性,由于設(shè)備和適用環(huán)境的不同,對(duì)本身的產(chǎn)品性能要求并不高。而要求更嚴(yán)格的會(huì)議場(chǎng)景通常會(huì)適用專業(yè)會(huì)議設(shè)備配套語(yǔ)音轉(zhuǎn)寫(xiě)系統(tǒng)去完成轉(zhuǎn)寫(xiě)記錄任務(wù),這也有區(qū)別,目前主流的方式是私有云和公有云識(shí)別服務(wù)。這兩者的異同也較大,在線(公有云)優(yōu)勢(shì)在于:消費(fèi)者使用方便,不限制命令詞,廠商開(kāi)發(fā)方便,市場(chǎng)方案很多選擇,BAT巨頭都有參與布局,提供接口可任意定制。但是它的劣勢(shì)也比較明顯:需要聯(lián)網(wǎng),對(duì)接云端,這對(duì)信息保密要求高的企業(yè)或者單位個(gè)人都是不便的。響應(yīng)速度慢,成本高。一般都是以并發(fā)時(shí)長(zhǎng)或者引擎能力(中英文、角色區(qū)分)或者調(diào)用次數(shù)收費(fèi),雖然初期成本投入較低,長(zhǎng)期使用則不然。
離線(私有云)的優(yōu)勢(shì)在于:響應(yīng)速度快,一般在幾百毫秒內(nèi),可快速響應(yīng)對(duì)應(yīng)命令詞指令。即是識(shí)別系統(tǒng)故障也不會(huì)影響其他系統(tǒng)的使用,由于使用的私有服務(wù)器也不用擔(dān)心數(shù)據(jù)外泄,且對(duì)工程師而言,小模塊畫(huà)板更便捷。當(dāng)然這種形式的產(chǎn)品也有一定局限,如詞條限制,這和服務(wù)器容量與模型訓(xùn)練能力有關(guān)。
Q5:目前語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)主要運(yùn)用在哪些場(chǎng)合?
語(yǔ)音轉(zhuǎn)寫(xiě)其實(shí)從字面上也很好理解其應(yīng)用場(chǎng)景和范圍,常見(jiàn)的需要做會(huì)議記錄的會(huì)議室或者演講報(bào)告廳、新聞發(fā)布需要實(shí)時(shí)轉(zhuǎn)寫(xiě)字幕投屏的場(chǎng)景,都能用上語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù),比如聲菲特智能語(yǔ)音轉(zhuǎn)寫(xiě)系統(tǒng),配合聲菲特手拉手系統(tǒng)或及數(shù)字音頻處理器系統(tǒng),可實(shí)現(xiàn)各類型會(huì)議室的智能化會(huì)議記錄和會(huì)議紀(jì)要輸出,各類型保密單位,即聽(tīng)即所見(jiàn),可廣泛運(yùn)用于報(bào)告演講、活動(dòng)交流、新聞發(fā)布中的字幕投屏。更加專業(yè)化的場(chǎng)景還包括了醫(yī)療方面的識(shí)別,如病歷錄入和特殊診斷病情溝通(如雙耳失聰患者),公檢法機(jī)構(gòu)相關(guān)的有庭審記錄,目前國(guó)內(nèi)在此方面案例已經(jīng)較為成熟。監(jiān)獄系統(tǒng)里的審訊室等等。民用方面還有不少新興場(chǎng)景和系統(tǒng)也正在整合語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù),它真正的潛力還未完全展露出來(lái)。
Q6:聲菲特語(yǔ)音轉(zhuǎn)寫(xiě)系統(tǒng)的特點(diǎn)和構(gòu)成是怎樣的?
聲菲特智能語(yǔ)音轉(zhuǎn)寫(xiě)系統(tǒng)Cuckcoo使用場(chǎng)景是培訓(xùn)會(huì)議、重要會(huì)議投屏和庭審會(huì)議記錄、判決記錄等需要實(shí)時(shí)轉(zhuǎn)寫(xiě)或者語(yǔ)音識(shí)別投屏的場(chǎng)合,但是由于它還具備特殊的離線轉(zhuǎn)寫(xiě)并發(fā)流,因此也支持上傳錄音生成文本并導(dǎo)出的使用方法。這對(duì)于安裝了該系統(tǒng)的單位和企業(yè)來(lái)說(shuō),無(wú)疑是拓展了一項(xiàng)使用方式,即是是來(lái)不及搭建系統(tǒng)的環(huán)境,只要錄音保存而后通過(guò)聲菲特轉(zhuǎn)寫(xiě)系統(tǒng)的處理也能生成對(duì)應(yīng)的會(huì)議記錄文件,極大方便了相關(guān)人員的整理工作。
主要特點(diǎn)是:1.安全:本地離線引擎,保證數(shù)據(jù)安全。2.精準(zhǔn):轉(zhuǎn)寫(xiě)在標(biāo)準(zhǔn)普通話語(yǔ)音識(shí)別和轉(zhuǎn)寫(xiě)準(zhǔn)確率平均可達(dá) 98%以上,識(shí)別速度<200ms,大大縮短人工記錄時(shí)間,支持語(yǔ)氣詞過(guò)濾,提高轉(zhuǎn)寫(xiě)結(jié)果可讀性。3.網(wǎng)線連接,易于部署,接口齊全,功能豐富,交互友好,支持音頻播放音字對(duì)照,方便用戶快速校正,提取會(huì)議紀(jì)要,實(shí)現(xiàn)便捷會(huì)議錄音管理。4.靈活:支持熱詞優(yōu)化、敏感詞約定,提升特定行業(yè)詞匯識(shí)別率。
系統(tǒng)構(gòu)成拓?fù)鋱D:
400-900-2726
地址:廣東省深圳市光明區(qū)尚智科技園區(qū)1B 9樓
電話:0755-29983191
郵箱:service@s-track.cn
微信關(guān)注
Copyright ? 深圳市聲菲特科技技術(shù)有限公司
粵ICP備15014534號(hào)