你也許用過(guò)智能助手聊天,也見(jiàn)過(guò)人工智能(AI)生成精美圖像,看過(guò)機(jī)器人跳舞……但你是否想過(guò),驅(qū)動(dòng)“聊天”“畫(huà)畫(huà)”“運(yùn)動(dòng)”的,究竟是三套獨(dú)立的系統(tǒng),還是同一個(gè)“智能大腦”的三種功能?日前,一項(xiàng)由北京智源人工智能研究院主導(dǎo)的重要科研突破在國(guó)際學(xué)術(shù)期刊《自然》發(fā)表,為實(shí)現(xiàn)真正“看得清、想得通、做得穩(wěn)”的通用人工智能指明了新方向。這也是我國(guó)科研機(jī)構(gòu)主導(dǎo)的大模型原創(chuàng)成果首次在《自然》正刊發(fā)表。
論文主要作者、北京智源人工智能研究院理事長(zhǎng)、北京大學(xué)教授黃鐵軍指出,這項(xiàng)研究的核心思想非常簡(jiǎn)潔:以統(tǒng)一架構(gòu),讓AI學(xué)會(huì)“接龍”。“無(wú)論是閱讀文字、欣賞圖片,還是觀看視頻、生成動(dòng)作,在我們新開(kāi)發(fā)的智源Emu模型的‘眼’里,都被轉(zhuǎn)換成一套‘?dāng)?shù)字積木’。模型的任務(wù),就是像我們玩歌詞接龍游戲那樣,始終預(yù)測(cè)‘下一塊積木’應(yīng)該如何出現(xiàn)。”
“這一思路有跡可循。早在2018年,美國(guó)OpenAI公司便基于‘預(yù)測(cè)下一詞’的路線訓(xùn)練GPT模型,并于2022年推出ChatGPT,實(shí)現(xiàn)了語(yǔ)言大模型重大突破?!秉S鐵軍團(tuán)隊(duì)推測(cè),“預(yù)測(cè)下一詞”的架構(gòu)或許不僅適用于語(yǔ)言,也能拓展至多種模態(tài),將圖像、文本和視頻數(shù)據(jù)在同一架構(gòu)下統(tǒng)一訓(xùn)練,從而開(kāi)發(fā)出“一腦多能”的多模態(tài)大模型。
團(tuán)隊(duì)成員介紹,此前全球范圍內(nèi)出現(xiàn)的此類模型,大多采用“專用工具組合”方式:理解語(yǔ)言與圖片、生成圖片與視頻,均由各自獨(dú)立的模型或工具各司其職。這類分工模式雖目的明確,但協(xié)同成本也隨之增加。能否訓(xùn)練一個(gè)“通才”,采用統(tǒng)一架構(gòu)處理各類數(shù)據(jù)、掌握多種技能?研究團(tuán)隊(duì)的Emu3模型給出了肯定答案。
Emu3就是這樣一個(gè)“通才”型AI:當(dāng)你給它一段文字描述時(shí),它可以生成細(xì)節(jié)豐富、結(jié)構(gòu)合理的圖像;當(dāng)你給它一張照片及相關(guān)問(wèn)題時(shí),它又能結(jié)合視覺(jué)信息與常識(shí),進(jìn)行精準(zhǔn)的圖像問(wèn)答與理解;更進(jìn)一步,它還能生成連續(xù)的視頻片段——只需給出一個(gè)開(kāi)頭,模型便能一幀一幀地輸出后續(xù)畫(huà)面,甚至還能像連環(huán)畫(huà)那樣,為每段畫(huà)面配上文字描述。
在升級(jí)版Emu3.5中,研究團(tuán)隊(duì)通過(guò)引入大規(guī)模長(zhǎng)時(shí)序視頻訓(xùn)練,使模型從“預(yù)測(cè)下一個(gè)詞元”拓展到“預(yù)測(cè)下一個(gè)狀態(tài)”,開(kāi)始學(xué)習(xí)世界隨時(shí)間演化的統(tǒng)計(jì)規(guī)律,為邁向更完整的“世界模型”探索了可行路徑。
黃鐵軍表示,這意味著,多模態(tài)模型分離的“理解”和“生成”兩類能力,首次在同一種簡(jiǎn)單而統(tǒng)一的建模范式下被系統(tǒng)性打通。
這把“統(tǒng)一建模”的鑰匙,其潛力并不止于多模態(tài)內(nèi)容生成。它可以延伸到物理世界,為機(jī)器人操作提供可行的動(dòng)作序列設(shè)想,還可以解讀腦信號(hào)等各種復(fù)雜數(shù)據(jù)。黃鐵軍介紹,“預(yù)測(cè)下一個(gè)”這一看似樸素的思想,本身蘊(yùn)含著構(gòu)建通用智能的基因?!蹲匀弧肪庉嬙u(píng)價(jià),智源Emu3這一成果對(duì)構(gòu)建可擴(kuò)展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義。
黃鐵軍表示,這項(xiàng)成果證實(shí)了生成式人工智能技術(shù)路線的普適性:人類已經(jīng)掌握了讓不同智能在同一體系內(nèi)涌現(xiàn)的方式,正穩(wěn)步走上通用人工智能持續(xù)演進(jìn)的道路。(記者晉浩天)