Meta大動作!开源多感官AI模型,不僅能看會聽,還能“感知溫度”
Meta帶着ImageBind再次衝進AI战場,當AI擁有了多種感官,且學會“腦補”,Meta的元宇宙夢還遠嗎?
前段時間,帶着开源模型LlaMA“殺的”谷歌(109.52, 1.58, 1.46%)和微軟(309.7104, 2.71, 0.88%)“措手不及”的Meta,又一次在AI战場上丟下了一顆重磅炸彈。
今天,Meta重磅开源了多感官AI模型ImageBind。以視覺爲核心,結合文本、聲音、深度、熱量(紅外輻射)、運動(慣性傳感器),最終可以做到6個模態之間任意的理解和轉換。
這也是第一個能夠整合六種類型數據的AI模型。
如何讓AI以更接近人類的方式理解這個世界?——也讓AI擁有多種感官,學會“腦補”。
一張大海的照片可以讓我們的腦海裏響起海浪的聲音,回憶起海邊腥鹹的味道。當我們聽到瀑布聲,腦海裏便會浮現恢弘的瀑布奇觀。
更接近人類感知的元宇宙?
相比Midjourney、Stable Diffusion和DALL-E 2這樣簡單的將文字與圖像配對的生成器,ImageBind試圖讓AI更接近人類的思考和感知方式:
可以連接文本、圖像/視頻、音頻、3D 測量(深度)、溫度數據(熱)和運動數據(來自 IMU),且它無需先針對每一種可能性進行訓練,直接預測數據之間的聯系,類似於人類感知或想象的方式。
ImageBind的性能有多卓越?——打敗專家模型
在Meta研究科學家於近期發布的題爲《IMAGEBIND:一個嵌入空間綁定所有模態》的論文中指出,ImageBind模型的第一大優勢在於,僅通過很少的樣本及訓練,模型性能便可提高:
此前,往往需要收集所有可能的配對數據組合,才能讓所有模態學習聯合嵌入空間。
ImageBind規避了這個難題,它利用最近的大型視覺語言模型,將零樣本能力擴展到新的模態。
Meta的模型具有小模型所不具備的出色能力,這些性能通常只會在大模型中才會呈現。比如:音頻匹配圖片、判斷照片中的場景深度等等。
Meta的研究表明,視覺模型越強,ImageBind對齊不同模態的能力就越強。
在實驗中,研究人員使用了 ImageBind 的音頻和深度編碼器,並將其與之前在zero-shot檢索以及音頻和深度分類任務中的工作進行了比較。
結果顯示,ImageBind可以用於少量樣本的音頻和深度分類任務,並且優於之前定制的方法。
而以圖像/視頻爲中心訓練好AI後,對於原始數據中沒有直接聯系的模態,比如語音和熱量,ImageBind表現出湧現能力,把他們自發聯系起來。
在定量測試中,研究人員發現,ImageBind的特徵可以用於少樣本音頻和深度分類任務,並且可以勝過專門針對這些模態的先前方法。
在基准測試上,ImageBind 音頻和深度方面優於專家模型
比方說,ImageBind在少於四個樣本分類的top-1准確率上,要比Meta的自監督AudioMAE模型和在音頻分類fine-tune上的監督AudioMAE模型提高了約40%的准確率。
Meta希望,AI开發者社區能夠探索ImageBind,來开發其可以應用的新途徑。
Meta認爲,關於多模態學習仍有很多需要探索的地方。ImageBind這項技術最終會超越目前的六種“感官”,其在博客上說道,“雖然我們在當前的研究中探索了六種模式,但我們相信引入連接盡可能多的感官的新模式——如觸覺、語音、嗅覺和大腦 fMRI 信號——將使更豐富的以人爲中心的人工智能模型成爲可能。”
本文作者可以追加內容哦 !
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。
標題:Meta重磅开源了多感官AI模型ImageBind。以視覺爲核心
地址:https://www.breakthing.com/post/57470.html