6月1日,阿裏雲宣布通義大模型進展,聚焦音視頻內容的AI新品“通義聽悟”正式上线,成爲國內首個开放公測的大模型應用產品。
AI新品“通義聽悟”上线
聽悟融合了十多項AI功能,可以全面提升知識從音視頻向圖文形態轉化的效率。除了“聽力好”,能高准確度生成會議記錄、區分不同發言人,這個AI助手“悟性也極高”,大模型可以一秒給音視頻劃分章節並形成摘要、總結全文及每個發言人觀點、整理關注重點和待辦事項。大模型一鍵提取PPT、針對多個音視頻內容向AI提問、概括特定段落等功能近期也將上线。
圖:阿裏雲CTO周靖人(左),聽悟技術負責人鄢志傑(右)
針對一些細分場景,聽悟還設置了不少“寶藏功能”:打开Chrome插件,外語學習者和聽障人士可以借助雙語懸浮字幕條隨時隨地看無字幕視頻,日程時間衝突時,聽悟還可成爲職場人士的“开會替身”,在靜音情況下入會AI可代爲記錄會議、整理要點;轉寫結果可下載爲字幕文件,方便新媒體從業者視頻後期制作;聽悟梳理的問答回顧可以讓記者、分析師、律師、HR等群體整理訪談更高效。
另一顯著優勢是,聽悟與阿裏雲盤打通,一鍵就能轉寫雲盤上的音視頻內容,公測期間注冊的聽悟用戶後續還將獲得更大的阿裏雲盤存儲空間,在雲盤內在线播放視頻時也可自動出字幕。
據周靖人介紹,聽悟集成了阿裏最先進的語音和語言技術。其內置阿裏新一代工業級語音識別模型,識別准確率在多個權威中文數據集上名列第一;融合自研語音語義多模態說話人算法,能對10人以上說話場景進行角分;接入通義千問大模型後,能夠對上萬字的音視頻內容進行摘要總結,事實准確與要點完備性國內領先,支持跨多音視頻內容的精准問答理解。
聽悟技術負責人鄢志傑則對記者表示,通義聽悟的前身是阿裏雲內部一個名爲“聽悟”的產品,主要爲投資部、HR等部門做項目會議的音頻轉寫功能,在2022年,這款產品的潛力逐步被挖掘,內部开始思考其工具屬性是不是要發生變化。
阿裏雲通義千問大模型特色
阿裏雲通義千問大模型是一種大規模預訓練模型,旨在解決智能對話、知識圖譜推理和其他多模態任務。大模型的一個關鍵特性是能力泛化,能夠適應各種新情景和任務,而不僅僅局限於訓練時所遇到的特定任務。這一點使得通義千問大模型在各種不同的應用場景中都可以發揮其優勢。通義千問大模型具有幾個主要特性。首先,它具有強大的知識理解和獲取能力。無論是結構化知識還是非結構化知識,模型都能有效理解和抽取,提供精確和准確的答案。其次,模型具有卓越的泛化能力,無需進行特定任務訓練即可進行多模態理解和推理。此外,模型還能夠根據給定的情境理解用戶的需求,提供相關的、准確的答案。最後,模型具有顯著的自適應能力,可以根據不同的應用場景和用戶需求進行自我調整。
動輒超千億參數的大模型研發,不是單一的算法問題,也不是靠簡單堆積GPU就能實現的,這是囊括了底層算力、網絡、存儲、大數據、AI框架、AI模型等復雜技術的系統性工程,需要AI-雲計算的全棧技術能力。阿裏是全球少數在這幾個領域都有深度布局、長久積累的科技公司之一,也是爲數不多擁有超萬億參數大模型研發經驗的機構。
算力層面,亞洲第一、全球第三的雲計算服務商阿裏雲,爲阿裏大模型的研發提供了國內實力最強的算力體系支撐。阿裏雲擁有中國唯一自研雲操作系統飛天,單集群可達10萬台規模,千億級文件數,EB級別存儲空間。阿裏雲已在全球建立了28個數據中心,是亞洲規模最大的雲計算平台。2021年12月,國際權威機構Gartner發布報告,全面評估全球頂級雲廠商整體能力。阿裏雲IaaS基礎設施能力拿下全球第一,在計算、存儲、網絡、安全四項核心評比中均斬獲最高分。
周靖人稱,各行各業的生態夥伴都可以結合自己的行業知識及場景需求,對千問大模型進行再訓練和精調,打造專屬大模型,並集成進自己的行業整體解決方案中。千問專屬大模型具有定制化、易集成、可微調、強安全等特點。
專屬大模型訓練過程中,阿裏雲如何保障夥伴和企業的數據安全?周靖人表示,阿裏雲將提供安全可隔離的專屬數據存儲空間,通過服務器端加密機制,實現高安全性、高合規性的數據保護。夥伴和企業可以上傳自己的行業數據,並調用千問進行重新訓練。這些數據不會被用於訓練通用版的千問大模型,阿裏雲和任何第三方都無法觸碰。
訓練完成後,通過完善前端提示工程,專屬大模型還可以通過Web界面和專屬API向垂直領域的各類企業、开發者提供應用服務,比如通曉行業知識的智能客服、導購、咨詢專家、創作助手、工業機器人等。
文章由芯榜獨家報道
本文作者可以追加內容哦 !
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。
標題:國內首個开放公測的大模型應用產品:阿裏雲“通義聽悟”正式上线
地址:https://www.breakthing.com/post/64135.html