以視覺爲核心大模型“兔靈”首次揭开面紗，聚...

相關報導

創業邦

以視覺爲核心大模型“兔靈”首次揭开面紗，聚焦內容生產精准可控

1年前

以視覺爲核心大模型“兔靈”首次揭开面紗，聚焦內容生產精准可控

來源丨創業邦（ID：ichuangyebang）

作者丨巴裏

編輯丨信陵

題圖丨創業邦

2013年，國內第一個用HTML5語言編寫的微樓書在北大宿舍裏誕生。

其創造者是來自山東萊陽的89後小夥董少靈，他從高中時期就开始創業，幹過本地信息分類網站、蛋糕坊、電商網站、翻譯服務公司，直到微信公衆號的興起讓他看到了巨大的商機。

當時，他發現，大多數企業並不能很好地運營公衆號，又恰逢有客戶提到“能不能把公司宣傳冊搬到微信上”？

於是，命運的齒輪开始轉動。

第二年，還在北大國際法學院攻讀碩士的他正式成立兔展智能，僅靠着H5制作平台，半年就獲客600萬。9年來，他帶領團隊自主研發了新一代內容引擎、傳播大數據工具、營銷雲平台、數字人工具等產品，如今企業用戶規模已經突破4000萬，涵蓋金融、醫藥、零售、地產、美妝等行業。

業務高速發展的同時，公司也頗受資本市場青睞，目前已獲得9輪融資，其中不乏招商局、深創投、投控東海、越秀產業基金等頭部投資機構。

日前，在創業邦主辦的2023AIGC技術應用大會上，兔展智能入選2023值得關注的AIGC公司（模型層）榜單。同時，兔展智能正式對外發布以圖像視覺爲核心的多模態大模型“兔靈”，與多數語言單一模態爲核心的模型形成差異化優勢。

兔展智能創始人、董事長兼CEO董少靈表示，相較於ChatGPT、Claude等更多以語言爲核心的多模態產品，兔靈大模型是一個視覺佔7成、語言佔3成的全新混合體。“兔展在研發大模型之初，就沒想做到全知全能，而是只聚焦於解決垂直領域的問題，也因此可以更好地防幻覺。”

那么，兔靈大模型到底有何獨特之處？又將會誕生出哪些殺手級應用？採用什么樣的商業化策略？我們一一揭开。

以視覺爲核心，兔靈大模型首次揭开面紗

兔展智能從最早推出H5工具，到如今的基於全球第四代前端三劍客的數字內容引擎，客戶一直以來所希望的無非是更低成本、更快捷、更多元、更豐富地把內容生產出來，並且無需手寫前端代碼就能夠快速生成精美的移動端富媒體頁面，這也是他們一直以來使用兔展的原因。

面對這一波生成式AI浪潮，圍繞人類敘事的三個環節：交互體驗、感官和知識理解，經過不懈的努力，兔展智能不斷做精、做深中國新一代AI數字內容總裝线，最終形成了基於兔靈多模態大模型的AIGC內容引擎。

基於DragonDiffusion的AI圖像引擎是兔靈多模態大模型的關鍵核心，用戶只需要進行框選和拖拽，就可以輕松實現AI圖像編輯和再生成，配合用於文本到圖像擴散模型的控制器DragonAdapter，即可實現圖片生成精准可控，滿足商用場景訴求。

據悉，DragonDiffusion，由北京大學張健老師團隊VILLA（Visual-Information Intelligent Learning LAB），依托北京大學深圳研究生院-兔展智能AIGC聯合實驗室，聯合騰訊ARC Lab共同帶來。

DragonDiffusion和DragonAdapter均屬於兔展智能在圖像視覺領域的原創技術成果Dragon系列，其中還包括業界首個能精准高效生成創意中文字體的技術Dragon CN Encoder、智能排版布局技術Dragon Layout等，Dragon系列與FreeDoM（免訓練條件擴散模型）共同構成了兔展智能圖像視覺素材生成高效、精准、可控的技術框架。

董少靈提到，“語言領域，我們在科研上重點就做了一件事，也就是‘防幻覺’這一基礎的機理——如何進行下一個詞的預測及其概率可行，讓機器不會對這世界上不存在的法律和案例胡編亂造，這也是ChatGPT在很多垂直領域的應用中，很多專業人士最核心的苦惱。”

以ChatLaw爲例，作爲經過防幻覺技術約束過的模型，其在多個法律測試機上跑分均超越GPT4。“這跟我們在視覺模態裏核心關注精准控制生產，是一脈相承的。”

應用層面，分別包括以下三個環節：

在交互環節，兔展智能基於全球第四代底層前端架構，推出了DragonCode智碼，促進开發環節大幅提效，爲數字化內容生產插上騰飛翅膀；

在視覺環節，Chat&Drag-Image智圖提供多種圖片再生成能力，Drag&Chat交互模式助力圖片生成精准可控；

在理解環節，致力於用大語言模型技術讓復雜知識變簡單的ChatKnowledge項目，涵蓋了法律垂直領域跑分第一的法律大模型產品ChatLaw，以及即將陸續發布的支持用戶在微信生態下搭建屬於自己知識庫的文件理解大模型產品ChatDocument、和輔助用戶金融研究與決策的金融研究領域語言大模型產品ChatFinance。

董少靈認爲，在這一波生成式浪潮中，會誕生一批出彩的殺手級應用，而“Magic Point是成爲爆款應用不可或缺的因素，要讓用戶覺得就如同變魔術一樣。”他指出，兔展智能之所以在創業之初半年獲得600萬用戶，到如今突破4000萬用戶，就是踩准了用戶這一心理。

“十年前，在別人發給你的都是PPT、Word文檔，你卻能做出帶音樂和動畫效果的H5，會不會覺得很驚訝？”因此這就是當年的Magic Point。

再如，多年來，設計藝術字、個性籤名是一門生意，在淘寶上甚至有店鋪月銷20萬單，而作爲業界首個能精准高效生成創意中文字體的技術，Dragon CN Encoder則可以讓用戶只花費極低的成本就可以快速生成創意中文字體。董少靈指出，目前市面上99%的工具都是套殼Stable diffusion，還沒有任何一款能夠自動生產中文字體的大模型。

這樣一款應用配合國慶節或新聞熱點事件營銷就很容易破圈。例如，中國大模型終於解決了中文字體的自動生成問題，每個人都可以擁有自己的一款獨創字體，很容易點燃用戶的民族自豪感。

如今，ChatDocument每天可以幫用戶節省30分鐘，ChatFinance可以成爲用戶的金融顧問，ChatLaw則可以成爲用戶的法律顧問，這些都已經具備成爲爆款的要素。“而接下來，誰能幫助設計師解決精准生圖的問題必火，誰能做到第一個生成中文字體，也有可能會火。”

保持克制，聚焦於垂直領域大模型

爲了達成讓人類敘事更生動高效的愿景，兔展智能之所以既做大模型的上層也做底層，是由於用別人的底層一方面實現不了自己的想法，另一方面也解決不了金融客戶的合規、自主可控需求。董少靈透露。

同時，在底層配比上，兔靈大模型的多模態也是一個獨特的存在。

ChatGPT、Claude、Cohere更多的是以語言爲核心的多模態，先做語言，再做視覺，其語言佔比可能達到了8成，而兔靈大模型則是一個視覺佔7成、語言佔3成的全新混合體。同時，兔展在研發大模型之初，就沒想做到全知全能，而是只聚焦於解決垂直領域的問題，也因此可以更好地防幻覺。

兔展智能战略與投融負責人董應賽表示，不少公司擁抱大模型，一开始往往並沒有想好落地場景和應用，只是很堅定地要投入到這件事中來。但兔展智能一直以來的風格是相對務實的，往往會從一些比較具象的客戶需求和場景入手進而形成商業閉環。

對於這一波生成式AI，兔展智能更多的是“扎硬寨，打呆仗”，在應用層的推出上一直比較克制。

董少靈說到，“去年，很多人忽悠我們做元宇宙，我們並沒有頭腦一熱扎進去，只挑選了既不眩暈且信息傳遞效率夠的一個細分場景推出了產品——MR短視頻。”今年春節期間，兔展還推出了AI數字人拜年小程序，只需上傳個人照片就可以一鍵生成自己數字人形象的拜年視頻。

盡管這款小程序在春節期間一度火爆，但董少靈仔細研究抖音後發現，平台不給數字人直播流量，從本質上來說還是一個fake story（虛假的故事）。因此，他建議創業者，在一些火熱的風口面前還需要有自己一定的判斷和堅守，若是不符合公司的長期價值就不能做，不如把更多的精力投入在團隊認可的事情上。

相比元宇宙等風口，這波生成式AI一個非常重要的特徵就是能夠讓更多人享受到AI的普惠化。

例如，中國內地Photoshop的活躍用戶僅爲300萬人，兔展目前用戶數量爲4000萬，而借助生成式AI，以往沒有富媒體表達手段的人都將會是用戶，他們不再需要繪畫、PS等技能，一樣能夠做出精美的富媒體頁面。此外，在公共法律服務方面，即便是一個毫無法律知識的人也可以利用ChatLaw把訴狀生成出來，找到法援律師籤名蓋章後就可以遞交訴狀了。

這顯然是一個更加龐大的增量市場。

董少靈感慨道，創業就像一個萬米長跑，有的人短期內掙錢可能沒問題，但在這個時代最終能夠贏得比賽的還是會屬於認真做事的創業者。

“百模大战”從未發生，應用層機會不可低估

今年以來AI熱度持續攀升，近半年內全球近百家公司、機構相繼發布大語言模型相關產品。國內也正面臨着“百模大战”，有數據顯示，全國有至少130家公司研究大模型產品，其中做通用大模型的有78家。

董少靈則認爲，“百模大战”從未發生，從資金、數據、算力這三要素上都難以支持。

巧婦難爲無米之炊，算力可以看作是火，數據是米，算法是巧婦，如果一家大模型公司沒有一個相當體量的某一領域領先的數據集就很難成事。哪怕算法人員都是頂級，沒有火和米，也同樣煮不出來飯。

他直言，國內真正在認真投資源做底座的大模型公司不會超過20家，但應用層能看到很多機會，未來甚至能長出上百上千個應用，並且存活率會很高，因此用“百用大战”來形容更加貼切。

電的發明和使用引發第二次工業革命，給人類帶來巨大的福祉和財富。董少靈指出，這一波生成式AI是對生產力、生產關系的系統性重塑，也是對人類理解智能、理解人、理解自己的一個重塑，是一場啓蒙運動+工業革命。未來應用層的繁榮是必然，會有非常多有價值的應用出現，甚至是未曾涉及的空白領域（例如ChatDocument），並且成功率不會低，可能更多需要的是耐心。

尤其是，與SaaS更多解決的是公司問題不同，這一波生成式AI切實解決的是個人問題，因此用戶付費習慣天然會變好，這就爲應用的存活率提供了有利的條件。

董少靈認爲，若是把大模型當成某種類型的IaaS，在中國能夠真正掙錢的IaaS廠商只是極少數，但是在IaaS之上卻能夠長出抖音、滴滴等無數個殺手級應用。雲計算廠商甚至不敵這些應用公司的估值，所以，大模型應用層的機會完全不可低估，是一個真正能夠大批量產生機會的地方。同時，不要過度誇張大模型本身的商業價值，除非某家公司能夠在商業變現裏做到壟斷級別，否則都不會太好掙錢。

回顧近一年來的研發歷程，他坦言，做大模型更多的是焦慮與興奮並存。焦慮在於做大模型就意味着會對短期的營收、資源的投向造成一定影響，而興奮就在於其對於社會價值是不可同日而語的。“我們內部很少討論是與否的問題，更多討論的是how，而不是why，如何更科學地投入才能讓成功率最高，才能夠抓住這波洪流一般的機遇。”

作爲擁有多年創業經驗的老兵，董少靈也對大模型創業者給出了自己的建議。

他談到，對於創業公司來說，先要學會“扎硬寨，打呆仗”，三要素（資金、數據、算力）中至少要具備其二，並且至少在兩個垂類裏要具備數一數二的要素，再去拼自己所缺少的一項，才有可能真正坐上大模型競爭的牌桌。

對於投資人來說，各家創業公司都有愿景和雄心壯志，短期可能看的是誰家熱鬧，冷靜下來看的是誰更具備能力。例如，一家缺少數據、從0獲客的公司就很難贏過擁有900T數據、已經佔據場景，有用戶飛輪和數據飛輪的公司。

而兔展智能顯然是後者，董少靈相信：萬事都有因，只要因是對的，果自然就會來。

追加內容

本文作者可以追加內容哦 !

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標題：以視覺爲核心大模型“兔靈”首次揭开面紗，聚焦內容生產精准可控

地址：https://www.breakthing.com/post/96793.html