烽巢網(wǎng) 北京時(shí)間4月16日早間消息,谷歌研究人員開(kāi)發(fā)了一種深度學(xué)習(xí)系統(tǒng),可以幫助電腦在嘈雜環(huán)境中更好地識(shí)別和區(qū)分一個(gè)人的聲音。
本周在谷歌研究博客中發(fā)布的文章顯示,該公司的一個(gè)內(nèi)部團(tuán)隊(duì)試圖讓人工智能(AI)像人類的大腦一樣,可以主動(dòng)關(guān)注一個(gè)聲源,同時(shí)過(guò)濾其他聲源——就像你在聚會(huì)上跟朋友對(duì)話時(shí)的做法。
谷歌的方法使用了一個(gè)視聽(tīng)模型,使之可以集中精力區(qū)分一段視頻中的聲音。該公司還發(fā)布了多段YouTube視頻,演示這項(xiàng)技術(shù)的實(shí)際效果。
谷歌表示,這項(xiàng)技術(shù)可以適用于單音軌視頻,而且可以通過(guò)算法分離出視頻中不同人的音頻內(nèi)容,也可以讓用戶手動(dòng)選取視頻中的人臉,專門(mén)收聽(tīng)此人的聲音。
谷歌表示,視覺(jué)元素是關(guān)鍵,因?yàn)檫@項(xiàng)技術(shù)會(huì)關(guān)注一個(gè)人的嘴唇運(yùn)動(dòng),從而更好地判斷某個(gè)時(shí)點(diǎn)應(yīng)該關(guān)注哪段聲音,并為一段較長(zhǎng)的視頻創(chuàng)造更精確的獨(dú)立音軌。
谷歌研究人員通過(guò)收集10萬(wàn)段YouTube“演講視頻”開(kāi)發(fā)了這個(gè)模型,總共提取了大約2000小時(shí)的內(nèi)容,然后將這些音軌混合后,添加上人工背景噪音。
谷歌之后訓(xùn)練該技術(shù)通過(guò)觀察每一格視頻中的人臉和視頻音軌的頻譜圖,把混合后的音頻進(jìn)行分割。這套系統(tǒng)可以區(qū)分哪個(gè)聲源在特定時(shí)間內(nèi)屬于哪張臉,并為每個(gè)人制作一段獨(dú)立的音軌。
谷歌認(rèn)為,隱藏式字幕系統(tǒng)會(huì)成為該系統(tǒng)的一大應(yīng)用領(lǐng)域,他們還在設(shè)想更廣泛的應(yīng)用方向,而且還在探索更多的機(jī)會(huì),希望將其整合到各種谷歌產(chǎn)品中。例如,如果把它加入到Google Home智能音箱中,便可區(qū)分出不同用戶發(fā)出的指令。
不過(guò),這個(gè)模型需要配合視頻才能更好地發(fā)揮作用,所以可能更適合亞馬遜Echo Show。谷歌今年早些時(shí)候面向Echo Show這樣的智能顯示器開(kāi)放了谷歌助手,但該公司本身尚未推出這樣的產(chǎn)品。
但這項(xiàng)技術(shù)可能也會(huì)引發(fā)隱私擔(dān)憂。雖然該技術(shù)的實(shí)際效果遠(yuǎn)沒(méi)有視頻演示得那么好,但經(jīng)過(guò)一些細(xì)微調(diào)整,的確有可能成為強(qiáng)大的監(jiān)聽(tīng)和監(jiān)視工具。
【烽巢辣評(píng)】谷歌的這項(xiàng)技術(shù),然人工智能(AI)像人類的大腦一樣,可以主動(dòng)關(guān)注一個(gè)聲源,同時(shí)過(guò)濾其他聲源,不得不說(shuō)是一項(xiàng)非常有意思,而且非常具有實(shí)用性的技術(shù)。但就像文中所說(shuō),如果這項(xiàng)技術(shù)用于竊聽(tīng),那么就會(huì)引發(fā)公眾隱私方面的擔(dān)憂,從技術(shù)層面來(lái)說(shuō),控制的準(zhǔn)確性和用途就不得不被重視了。
請(qǐng)登錄以參與評(píng)論
現(xiàn)在登錄