【烽巢網(wǎng)】
語言生成是目前人工智能領(lǐng)域最熱門的東西,從改進谷歌的搜索引擎到創(chuàng)建基于文本的幻想游戲,有一類系統(tǒng)被稱為“大型語言模型”(LLMs)。但這些項目也存在嚴重的問題,包括重復(fù)使用性別歧視和種族主義語言,以及未能通過邏輯推理測試。一個很大的問題是:這些弱點可以通過簡單地增加更多的數(shù)據(jù)和計算能力來改善嗎?或者我們已經(jīng)達到了這種技術(shù)范式的極限?
這是Alphabet的人工智能實驗室DeepMind在今天發(fā)表的三篇研究論文中要解決的問題之一。該公司的結(jié)論是,進一步擴大這些系統(tǒng)應(yīng)該會帶來大量的改進。“這篇論文的一個關(guān)鍵發(fā)現(xiàn)是,大型語言模型的進展和能力仍在增加。這一領(lǐng)域并沒有停滯不前,”DeepMind研究科學(xué)家杰克·雷在一次新聞發(fā)布會上告訴記者。
DeepMind定期將其工作輸入到谷歌產(chǎn)品中,并通過建立一個名為Gopher的具有2800億個參數(shù)的語言模型來探索這種llm的功能。參數(shù)可以快速衡量一種語言模型的大小和復(fù)雜性,這意味著Gopher比OpenAI的GPT-3(1750億個參數(shù))大,但沒有一些更具實驗性的系統(tǒng)大,比如微軟和英偉達的威斯特天模型(5300億個參數(shù))。
在人工智能領(lǐng)域,越大越好通常是事實,更大的模型通常提供更高的性能。DeepMind的研究證實了這一趨勢,并表明,在情感分析和總結(jié)等最常見的基準測試中,擴展llm確實可以提高性能。然而,研究人員也警告說,語言模型的一些固有問題需要的不僅僅是數(shù)據(jù)和計算來解決。
他說:“我認為目前看來,這種模式確實可能以各種方式失敗。“這些方法中的一部分是因為模型對它所讀取的內(nèi)容沒有足夠好的理解,我覺得,對于這類問題,我們將通過更多的數(shù)據(jù)和規(guī)模看到性能的提高?!?/p>
但是,他補充說,還有“其他類別的問題,比如長期存在刻板偏見的模型,或者被哄騙給出謬誤的模型……DeepMind沒有人認為規(guī)?;瘜⑹墙鉀Q方案?!彼赋觯谶@些情況下,語言模型將需要“額外的訓(xùn)練程序”,比如來自人類用戶的反饋。
為了得出這些結(jié)論,DeepMind的研究人員根據(jù)152個語言任務(wù)或基準評估了一系列不同大小的語言模型。他們發(fā)現(xiàn),較大的模型通常能提供更好的結(jié)果,而Gopher本身在科學(xué)家選擇的大約80%的測試中提供了最先進的性能。
在另一篇論文中,該公司還調(diào)查了部署llm所涉及的各種潛在危害。這些問題包括這些系統(tǒng)使用有毒語言、共享錯誤信息的能力,以及它們可能被用于惡意目的,比如共享垃圾郵件或宣傳。隨著人工智能語言模型(比如聊天機器人和銷售代理)得到更廣泛的應(yīng)用,所有這些問題將變得越來越重要。
然而,值得記住的是,在基準測試中的表現(xiàn)并不是評估機器學(xué)習(xí)系統(tǒng)的全部和最終目標(biāo)。在最近的一篇論文中,許多人工智能研究人員(包括來自谷歌的兩名研究人員)探索了基準測試的局限性,指出這些數(shù)據(jù)集的范圍總是有限的,無法與現(xiàn)實世界的復(fù)雜性相匹配。與新技術(shù)的情況一樣,測試這些系統(tǒng)的唯一可靠方法是查看它們在實際中的執(zhí)行情況。有了大型語言模型,我們很快就會看到更多這樣的應(yīng)用。
請登錄以參與評論
現(xiàn)在登錄