語音識別是一種可以識別口語單詞的技術,然后可以將其轉換為文本。語音識別的一個子集是語音識別,這是一種基于語音識別人的技術。全球五家頂尖科技公司Amazon,Microsoft,Google和Apple已通過Google Home,Amazon Echo和Siri等服務在各種設備上提供此功能。
隨著市場上許多語音識別產品的推出,我們決定研究語音識別的業務含義。通過研究這些公司的語音識別技術,我們嘗試為讀者解答以下問題:
語音識別如何驅動這些公司的商業價值?
他們為什么要投資語音識別?
幾年后這項技術會是什么樣?
我們從一些背景開始,探討技術巨頭如何以及為何開發語音識別技術。其次是來自亞馬遜,微軟,谷歌和蘋果的語音識別技術的衰落。
發展語音識別技術的潛在原因
技術公司正在意識到對語音識別技術的興趣,并正在努力使語音識別成為大多數產品的標準。這些公司的目標之一可能是使語音助手圍繞上下文和內容更加準確地講話和答復。研究表明,具有語音識別功能的虛擬助手的使用量預計將在明年繼續增長,從2017年的6050萬在美國增加到2018年的6240萬。到2019年,有6660萬美國人使用語音或語音識別技術。
為了建立強大的語音識別體驗,其背后的人工智能必須變得更好,以應對口音和背景噪音等挑戰。如今,自然語言處理和神經網絡技術的發展極大地改善了語音和語音技術,以至于今天據說與人類同等。例如,在2017年,該公司記錄的Microsoft語音技術的單詞錯誤率達到5.1%,而Google報告說它已將其錯誤率降低到4.9%。
研究公司Research and Markets報告說,到2023年,語音識別市場的價值將達到180億美元。隨著語音識別技術變得越來越大,該研究估計它可以應用于從電話到冰箱再到汽車的所有領域。在拉斯維加斯舉行的CES 2017年度展會上可以看到其中的一瞥,那里推出或宣布了帶有語音的新設備。
盡管所有應用程序都具有非常相似的功能和集成機會,但我們已根據我們研究的重點將它們歸類為每個應用程序的主要關注領域。
亞馬遜Echo和Alexa
直到最近,亞馬遜的語音虛擬助手Alexa僅在亞馬遜生產的商業產品上可用。但是,Amazon Web Services已將語音助手提供給其他公司。亞馬遜與英特爾合作推出了Alexa語音服務設備軟件開發套件,該套件可允許第三方公司將Alexa功能嵌入其設備。此次合作是亞馬遜“ Alexa Everywhere”戰略的結果,該公司表示,該戰略旨在使各種智能和可穿戴設備的制造商都能普遍使用Alexa背后的技術。
在拉斯維加斯舉行的CES 2018上,索尼,TiVo和海信發布了集成Alexa的智能家居技術,使客戶能夠通過語音控制電視?;荻?,三角洲,LG和海爾等家用電器制造商還增加了Alexa的語音識別技能,以幫助人們控制房屋的各個方面,從電視,微波爐到空調裝置和水龍頭。根據Amazon Alexa網站的數據,Alexa可以控制來自2500多個品牌的13,000多種智能家居設備。
包括其他公司的產品在內,Alexa現在擁有30,000種技能。盡管蘋果擁有Siri,谷歌將其未命名的虛擬助手內置在智能手機和揚聲器中,但亞馬遜將Alexa集成到了智能揚聲器Echo中。亞馬遜沒有透露最終的銷售數字,Forrester預測到2017年底將售出2200萬個Echo單元。Forrester稱,達到這個銷售數字將使Echo成為美國最大的語音助手。
作為虛擬助手,亞馬遜聲稱亞馬遜提供的Alexa for Business可以幫助專業人士管理日程安排,跟蹤任務并設置提醒。當集成到會議控制臺等設備中時,該應用程序可以通過發言人的聲音控制會議室設置。支持Alexa的設備還可以在較小的會議室中充當音頻會議設備,或者在較大的會議室中充當控制設備。
羅技將Alexa內置到其Harmony遠程裝置中,以控制家庭娛樂系統和智能家居設備。當客戶說出簡單的命令(例如“ Alexa,打開電視”或“ Alexa,播放DVD”)時,將激活遠程單元。然后,Alexa將請求發送給Harmony,后者通過紅外將請求中繼到家用設備,藍牙或IP。
據亞馬遜稱,原型團隊由羅技公司的一名高級軟件架構師組成,他花了兩個小時將Alexa集成到Harmony中。一旦原型準備就緒,羅技(Logitech)的團隊就準備了發射所需的技能。根據羅技(Logitech)的數據,亞馬遜報告說,從原型開發到生產級技能的過程不到兩周。在此案例研究中未提供其他詳細信息或編號。
在更基本的層面上,亞馬遜還提供自動語音識別(ASR)服務Transcribe,使開發人員能夠向其應用程序添加語音到文本功能。一旦語音功能集成到應用程序中,最終用戶就可以分析音頻文件,然后接收轉錄語音的文本文件。
谷歌Home and Assistant
Google Assistant是谷歌的語音虛擬助手,其技能包括諸如通過Google Pay發送和請求付款或對Pixel 手機進行故障排除之類的任務。
在Android或iOS手機,智能手表,Pixelbook筆記本電腦,Android智能電視/顯示器和Android自動啟用的汽車等設備上都可以使用Assistant。當需要在諸如庫之類的地方保持安靜時,用戶還可以在Assistant中鍵入命令。Google Assistant為兒童和家庭提供了50種與語音相關的游戲。
隨身攜帶的Google智能揚聲器包括Home。谷歌聲稱該揚聲器可與來自150多個品牌的5,000多個智能家居設備配合使用,例如咖啡機,電燈和恒溫器,其中包括索尼,飛利浦,LG和東芝。據報道,在2018年第一季度,谷歌售出了320萬臺其Home和Home Mini設備,超過了Alexa支持的Echo設備(250萬臺)。兩家公司都沒有發布官方數據。
為了使Assistant更加普及,Google通過Actions打開了軟件開發工具包,該工具包允許開發人員在支持人工智能的自己的產品中建立聲音。谷歌最近還啟動了Assistant Investments計劃,該計劃投資于致力于提高語音和輔助技術(無論是硬件還是軟件)的初創公司,并專注于旅游,游戲或酒店業。
根據該計劃,谷歌將在技術,業務開發和產品潛在客戶方面提供支持。初創公司還將獲得對Assistant的新功能和計劃的首次訪問; Google產品(包括Google Cloud)的信用; 以及潛在的聯合營銷機會。
Google的另一種語音識別產品是由AI驅動的云語音到文本工具,開發人員可以通過深度學習神經網絡算法將音頻轉換為文本。該工具可使用120種語言,支持語音命令和控制,轉錄來自呼叫中心的音頻,處理實時流或預先錄制的音頻。
微軟Cortana
微軟于2017年10月發布了自己的語音虛擬助手Cortana。
Cortana家庭揚聲器和移動設備應用程序可為用戶提供提醒;保留筆記和清單;據微軟稱,它可以幫助管理日歷。它可以從Apple Store和Google Play下載,并且可以在個人計算機,智能揚聲器和手機上運行。
在名為Invoke的Microsoft家庭揚聲器上,Cortana進行了編程,以幫助用戶語音控制音樂,將播放列表排隊,調高或調低音量。并停止或開始曲目。但是,它不支持Spotify之外的主要音樂流服務。微軟表示,智能揚聲器還可以回答各種問題。撥打和接聽Skype電話;并查看最新新聞和天氣。
微軟聲稱,在PC上,Cortana可以跨Office 365,Outlook和Gmail帳戶管理用戶的電子郵件。微軟表示,Cortana的客戶或技術合作伙伴包括Domino,Spotify,Capital One,Philips和FitBit。
微軟語音識別技術的核心是“語音轉文本”界面,該界面可將音頻流轉錄為文本。這與創建Cortana,Office和其他Microsoft產品的技術相同。微軟表示,該服務可以識別語音的結尾,并提供格式化選項,包括大寫和標點符號以及語言翻譯。
蘋果的Siri
當Apple在2011年將Siri首次集成到iPhone 4時,虛擬助手連接到了許多Web服務,并提供了語音驅動功能,例如通過TaxiMagic訂購出租車,從StubHub提取音樂會細節,從Rotten Tomatoes中查找電影評論,或篩選Yelp中的餐廳數據。
如今,Siri的功能包括翻譯,播放歌曲,預訂游樂設施以及在銀行帳戶之間轉移資金。據Apple稱,由于其具有機器學習功能,因此可以使用新命令對其進行編程。
雖然Siri在Google Assistant和Amazon Alexa之前發布,但與其他市場上的技術相比,它在響應命令或問題時的準確性仍然令人擔憂。
記者將Siri與Google Assistant和亞馬遜的Alexa進行了對比。一方面,Alexa更準確地響應命令。在我們的研究中,我們還發現了更長的視頻評論,這些評論表明Siri在對所有三種語音技術提出的問題的準確回答上均落在后面。
據預測,從2016年到2024年,價值550億美元的語音識別行業將以11%的速度增長。 該技術已經以轉錄應用的形式在規模較小,鮮為人知的公司中的其他行業中得到很好的使用。當前在醫療保健中,醫療專業人員使用語音來進行文本轉錄應用程序(例如Dolbey)來為患者創建電子病歷。
在執法和法律部門,諸如Nuance之類的公司提供了轉錄應用程序,以便準確,快速地記錄文檔是至關重要的,轉錄也用于記錄事件報告。在媒體中,記者使用Recordly等轉錄應用程序作為記錄和轉錄信息的工具,以幫助獲得更準確的新聞報道。在教育方面,Sonix幫助研究人員記錄定性訪談的內容。
在提供語音和語音識別功能的五家領先的技術公司中,谷歌,亞馬遜,微軟,蘋果都具有類似的功能,圍繞日程安排,提醒,播放列表管理,與零售商聯系,管理電子郵件,下訂單和在線搜索。
這些都是在移動,個人計算機上提供的,并且大多數以自己的品牌家用揚聲器提供。亞馬遜的Alexa在Echo上,蘋果的Siri在HomePod上,谷歌助手在Google Home上,微軟的Cortana在Invoke上。
盡管蘋果在這方面是開拓者,但事實證明,Siri比亞馬遜的Alexa和Google助手要“笨”得多,與其他產品相比功能有限。一項由近5,000個問題組成的研究表明,Google助手是這四個應用程序中最智能的。
但是,就技能而言,另一份報告顯示Alexa的技能最多,為25,785,Google Assistant為1719,Cortana為235。Siri未包含在此報告中。這些公司提供這些應用程序的商業版本的原因是技能的增長。軟件開發工具包(SDK)已提供給開發人員,使初創公司和小型企業能夠為其客戶建立定制的技能。
鈦靈AIX是一款集計算機視覺與智能語音交互兩大核心功能為一體的迷你人工智能計算機,搭載了專業AI邊緣計算芯片與多種傳感器。Model Play面向全球開發者的AI模型資源平臺,內置多樣化AI模型,兼容鈦靈AIX,支持谷歌 Edge TPU邊緣人工智能計算芯片,加速專業級開發。
此外,Model Play提供完整易用的遷移學習模型訓練工具及豐富模型實例,可與鈦靈AIX完美搭配結合,實現各類人工智能應用的快速開發?;贕oogle開源神經網絡架構及算法,構建自主遷移學習功能,用戶無需寫代碼,通過選擇圖片、定義模型和類別名稱即可完成AI模型訓練,實現人工智能的易學易開發。