本周大模型盤點(6.4--6.10)
1年前

一、4日,谷歌公布旗下圖片類工具StyleDrop,對標Midjourney的“定制大師”,再次引爆AI藝術圈,瞬間即形成刷屏。StyleDrop可以用一張圖片作爲參考,不論多復雜的藝術風格都能復刻。憑借StyleDrop,現在AI不但可以更可控地繪畫,還可以完成之前難以想象的精細工作,比如繪制logo等精細圖案。地址:https://styledrop.github.io

點評:不論怎樣復雜或抽象的圖畫,StyleDrop都能解構再復刻。不僅可以更可控地繪畫,還可以完成之前難以想象的精細工作。此外,研究人員還拓展了StyleDrop的能力,既能定制風格,結合DreamBooth後還能定制內容。因此英偉達科學家也對StyleDrop贊賞有加,將其稱爲“現象級”成果。AI又來搶飯碗了?


二、5日,谷歌發布Google Cloud Skills Boost,從大語言模型的基礎知識講起,到如何在Google Cloud上創建和部署生成式AI解決方案,谷歌爲全球用戶提供了生成式AI學習路徑,包括大語言模型、圖像生成、編碼器-解碼器架構、注意力機制和Transformer模型等相關課程。地址:https://www.cloudskillsboost.google/journeys/118

點評:雖然看起來內容豐富,但實際情況卻不甚理想,許多課程其實只是一小個單元,裏面往往只有一到兩支視頻,並且長度還比較短,信息量可想而知。而且有些遺憾的是,課程中回避了OpenAI以及ChatGPT的相關內容。試聽了幾段後覺得谷歌可能是想在短時間內吸引盡可能多的粉絲,但內容的確有些草率。


三、5日,論文MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training(《MERT: 基於大規模自監督訓練的聲學音樂理解模型》),提出一種基於自監督學習的音樂音頻理解模型MERT,通過大規模預訓練和教師模型的引導,提高音樂音頻建模的性能,在多個任務上達到最先進水平。原文鏈接:https://arxiv.org/abs/2306.00107

點評:論文裏提出一種基於自監督學習的音樂音頻理解模型MERT,通過大規模預訓練和教師模型的引導,提高音樂音頻建模的性能,在多個任務上達到最先進水平。MERT在14個音樂理解任務上表現出色,取得了優異的綜合得分。論文提出的預訓練範式在音樂理解中取得了SOTA性能,並提供了开源的音樂預訓練模型,滿足行業和研究社區的需求。


四、7日,著名3D軟件廠商Tafi發布了文生3D角色模型的AI平台。目前,該平台目前處於申請測試階段。據悉,Tafi生成的3D模型質量很高,可與瑪雅(Autodesk Maya)、C4D(Maxon Cinema 4D)等專業3D軟件制作的作品相媲美。該產品的最大技術亮點是,生成的模型可原生直接導入到Unreal、Unity、Blender、3Dmax、瑪雅和C4D專業开發平台中,進行二次編輯。Beta申請鏈接:https://maketafi.com/ai

點評:Tafi一直致力於簡化3D模型創作流程,通過把類ChatGPT的對話功能融合到產品中,將徹底改變專業設計師、藝術家創作作品的方式。他們只需要通過文本表達自己的創意,AI便能快速幫他們完成想要的3D效果,同時使得那些沒有技術背景的普通人也能成爲3D設計師。英偉達Omniverse开發副總裁Richard Kerris表示,在生成式AI的幫助下,設計師、藝術家們可以進一步提升設計效率,獲得更高的商業機會。十多年來,Tafi一直在爲英偉達平台上的創意社區帶來最新技術產品。Tafi的最新平台,將很快可以在Omniverse平台中使用。


五、8日,谷歌大腦與DeepMind合體後首發力作AlphaDev,Alpha家族再添新成員,全新AI系統將“排序算法”提升七成。通過強化學習,AlphaDev發現了更加有效的算法,直接超越了科學家和工程師們幾十年來的精心打磨。現在新的算法已經成爲兩個標准C++編碼庫的一部分,每天都會被全球的程序員使用數萬億次。目前最新成果已發表在Nature上,地址:https://www.nature.com/articles/s41586-023-06004-9

點評:AlphaDev的一大意義在於幫助人們踏入未知領域,用AI構建AI。排序算法是一切數字化運行的基礎,從在线搜索結果,社交帖子,到計算機和手機數據處理方式。這些算法每天都要執行數萬億次,利用AI生成更好的算法,將改變電腦編程的方式,並影響數字化社會的方方面面。


六、8日,阿裏達摩院提出了Video-LLaMA,一個具有綜合視聽能力大模型。Video-LLaMA 能夠感知和理解視頻中的視頻和音頻信號,並能理解用戶輸入的指令,完成一系列基於音視頻的復雜任務,例如音/視頻描述,寫作,問答等。目前論文,代碼,交互demo都已开放。另外,在Video-LLaMA的項目主頁中,該研究團隊還提供了中文版本的模型,讓中文用戶的體驗更絲滑。Demo鏈接:https://modelscope.cn/studios/damo/video-llama/summary

點評:視頻在當今社交媒體和互聯網文化中扮演着愈發重要的角色,各大視頻平台上已經擁有數以億計用戶。達摩院的成果相當於給大模型裝上“眼睛”和“耳朵”,讓它能夠理解視頻,與用戶互動。AI對音頻視的理解與處理目前仍是一個非常復雜,尚未有成熟解決方案的研究課題,Video-LLaMA雖然有令人印象深刻的亮點,但也不可避免的存在一些局限性。


七、8日,全球網絡設備領導者思科(Cisco)宣布將生成式AI集成在Webex產品矩陣中,幫助客戶提升工作效率和體驗,預計將於今年下半年正式上线。Webex成立於1996年,2007年5月被思科以32億美元全資收購成爲其子公司。Webex是全球網絡視頻會議的鼻祖,主要提供視頻會議、雲客服、遠程辦公、即時通訊等企業服務。Webex的Catch Me Up、Vidcast和Contact Center在生成式AI助力下,將提供類ChatGPT功能,用戶通過文本便能快速生成各種內容。Cisco Webex下載鏈接:https://www.webex.com/downloads.html/

點評:根據思科發布的“2023年全球技術創新”調查數據顯示,IT領導者將生成式AI列爲最有可能對其業務產生重大影響的技術之一。85%的受訪者表示,已經准備好了全面擁抱生成式AI。思科在過去十多年的時間裏一直通過AI技術與視頻、音頻、自然語言理解和智能分析爲Webex提供智能化服務,此次的強強聯合頗有微軟將ChatGPT預置在Bing,Office全家桶的感覺,未來可期。

八、9日,全球著名連鎖超市家樂福宣布,與OpenAI合作打造了一款智能購物助手Hopla,並將其集成在自己的購物網站carrefour.fr中,目前已經提供使用。據悉,Hopla可以根據用戶的購物預算、菜單或特定飲食需求,如糖尿病或脂肪肝患者等,提供合理的購物方案。

點評:AI技術正在推動零售行業不斷變革,巨大體量也爲新興技術帶來新市場。此外隨着AI技術持續突破,尤其是以ChatGPT爲代表的大模型技術投入應用,AI+教育、金融業、醫療保健業、制造業、農業、交通、物流等多個行業變革也受到市場關注,一場新的AI催化正在酝釀進行。


九、9日,在 2023 北京智源大會上,智源發布了完整的悟道3.0大模型系列,並進入到了全面开源的新階段。此次悟道3.0包含的項目有“悟道天鷹”(Aquila)語言大模型系列FlagEval(天秤)大模型語言評測體系以及“悟道視界”視覺大模型系列。此外FlagOpen飛智也帶來了开源大模型技術體系最新進展。

點評:整體來看,“悟道天鷹”Aquila 在技術上繼承了GPT-3、LLaMA等的架構設計優點,替換了一批更高效的底層算子實現、重新設計實現了中英雙語的tokenizer,升級了BMTrain並行訓練方法,訓練效率是Magtron+DeepSpeed ZeRO-2的近八倍。此外在中英文高質量語料基礎上從零开始訓練,通過數據質量控制、多種訓練優化方法,在更小數據集、更短訓練時間下,實現比其他开源模型更優秀的性能。這次的發布會不拼參數,开源开放成爲主角,或許也不失爲吸引粉絲,乃至引領未來的一種發展方向。


十、9日,科大訊飛正式發布星火認知大模型V1.5,在此前基礎上,“星火”在开放式知識問答、邏輯推理和數學能力、多輪對話三大綜合能力方面都實現升級。其中,知識問答能力提升24%,邏輯推理能力提升10%。上月“星火”大模型一經發布便引發業內熱議。當時董事長劉慶峰公布了星火年內的三次升級時間點,還表示“今年科大訊飛持續升級大模型,10月24日要在中文上超越ChatGPT,在英文上要達到跟它相當的水平”。

點評:支撐訊飛星火持續進步的是“1+3+1”創新體系,具體是依托自主研發的安全可控大模型訓練基座,通過海量數據和知識構建、多語種多任務統一訓練,以及基於用戶數據的強化學習,構建軟硬一體化的高性能大模型推理平台。科大訊飛承建的認知智能全國重點實驗室已經在類腦智能、神經網絡大模型、博弈智能等多個領域進行布局,探索更多的潛在路徑以及前沿交叉研究的機會。未來,科大訊飛將持續聚焦技術突破和場景應用,加快星火大模型實現智慧湧現,在自主可控平台上讓行業享受更多AI紅利。

追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:本周大模型盤點(6.4--6.10)

地址:https://www.breakthing.com/post/68152.html