未來,百度還計劃增加對視頻文件的語音識別支持,也會添加自動插入標點符號等功能。近日,百度硅谷實驗室(SVAIL)上線了網頁應用SwiftScribe,該應用利用人工智能技術來完成傳統速記員的工作,并且可以大大縮短逐字聽寫轉錄的時間。
目前,SwiftScribe還處在內測階段,并未開放,不過你可以通過一個演示示例了解它是怎么工作的。SwiftScribe支持上傳時長1個小時以內的wav 或 mp3文件,但是目前只接受英文。接下來它需要花點時間生成文字,官方說法是,1分鐘的錄音需要不到30 秒、1 小時的錄音需要20 分鐘左右。
很快,就能夠在網頁上看到轉錄好的文字,但是,現階段文本還不會區分大小寫,而且還沒有標點符號和分段。所以,還需要人工在文本框中進行優化編輯,然后再做導出。
不過,人工操作的這一過程同樣會被百度記錄下來,用于人工智能的學習,以幫助算法糾正錯誤,提高文字轉錄的準確率。
項目主管Tian Wu說:“SwiftScribe 會在廣泛的領域內帶來積極影響,提高生產力,包括醫療機構、法律、商業和媒體。以后還會增加對視頻文件的語音識別支持,也會添加自動插入標點符號等功能!
除此之外,Tian Wu還介紹到,SwiftScribe是基于他們的最新研究成果Deep Speech 2研發而來。之后,百度還會花費更多的精力、更多的錢來進行人工智能的研究,這也是李彥宏一直在強調的未來方向。
[1]
上一篇:搜狗發布錄音新神器,速錄師和翻..![]() |
下一篇:什么是OCR光學字符識別技術![]() |