[導讀]目前,該更新只在谷歌Pixel手機上可用,但將來應該會在其他設備上使用。
目前,該更新只在谷歌Pixel手機上可用,但將來應該會在其他設備上使用。
新的AI聽寫方法逐個字符地輸入消息,而非一次一個單詞。圖片來源:谷歌
谷歌正在Pixel手機上更新其Gboard鍵盤,采用人工智能離線聽寫。谷歌表示,更新意味著用戶可以更快,更可靠地指定電子郵件和文本,而無需擔心他們是否已連接到互聯網。
谷歌語音識別和移動輸入小組的研究科學家兼組長Francoise Beaufays說:“想象一下,你正走出你的大樓,你想向某人發送一條信息,說‘我要遲到了’。這正是你無法上網的時刻,因為你正從Wi-Fi轉向蜂窩網絡計劃。”隨著Gboard的升級,Beaufays告訴Verge,“這個問題已經不存在了。”
這可能聽起來像一個微不足道的用例,但Beaufays認為語音識別的改進,將慢慢改變我們與移動設備交互的方式。她指出,雖然語音識別近年來有所改善,但它仍然是一項不成熟的技術。它是計算密集型的,這意味著大多數語音識別系統必須通過互聯網發送數據,而結果是聽寫速度緩慢且不可靠。
“如果你使用手機鍵盤,只要連接情況不好就不能點擊鍵盤,”Beaufays說。“你就是不會用那個鍵盤。”但她說,通過讓系統離線,聽寫將成為一種更自然的選擇。
為實現這一轉變,Google團隊花了五年時間研究問題并簡化應用程序用于語音識別的AI系統。例如,舊版Gboard的聽寫軟件使用三個獨立的組件來模擬音頻波形,將聲音與音素匹配,然后將這些音素組合成書面輸出,更新后的版本將所有這些工作集成到一個步驟中。
為了實現這一轉變,谷歌的團隊花了五年時間研究這個問題,并簡化了應用程序用于語音識別的人工智能系統。例如,舊版Gboard的聽寫軟件使用三個獨立的組件來模擬音頻波形,匹配聲音和音素,然后將這些音素組合成書面輸出,而更新版本將所有這些工作集成到一個步驟中。
新模型還縮小了系統的一部分,稱為“解碼器圖形”,這個組件的功能類似于書中的索引,將音頻波形與書面文字相匹配。在Gboard的聽寫模型的舊版本中,這個解碼器圖形大小為2GB,對于設備上處理來說太大了。相比之下,新版本僅為80兆字節,小25倍。
新模型還將系統中被稱為“解碼器圖”的部分縮小,該組件的功能類似于書中的索引,將音頻波形與書面文字進行匹配。在舊版本的Gboard的聽寫模型中,這個解碼器圖形大小為2GB,對于設備上處理來說太大了。相比之下,新版本只有80MB,小了25倍。
此次升級目前僅限于美式英語聽寫和Pixel手機,但Beaufays表示,未來這一功能將得到更廣泛的應用——擴展AI語音識別的范圍。“從技術的角度來看,我認為我們可以在更多的手機上做到這一點,而不僅僅是Pixel,”Beaufays說。“我認為將會發生的事情是,我們可能會在更多的設備(以及更多的語言)上啟動它。”
原標題:Google upgrades Gboard keyboard with faster and more reliable AI dictation
作者:James Vincent
編譯:鄭翊君
文章來源:
https://www.theverge.com/2019/3/12/18261444/google-gboard-keyboard-dictation-voice-recognition-pixel-ai-offline-update
評論文章