從草根社區到20億美金估值,Hugging Face爲什么敢开源?
1年前

內容摘要:

1.Hugging Face的开源精神起源於創始人23歲的大學時代。

2.發布自定義版本BERT模型的嘗試,讓Hugging Face轉型开源社區。

3.AI原生創業公司將顛覆舊有的公司。

4.AI發展太快,現有的盈利方式可能3-5年後就不適用了。

5.非典型創始人:投資人不該搶創業者的活。

HuggingFace是一家估值20億美元的AI獨角獸,有24個投資人,包括LuxCapital,紅杉資本等。

在大模型領域,我們已經看多了巨額融資,例如OpenAI獲得微軟的百億美元投資,以及最近InflectionAI獲得微軟和英偉達的13億美元融資。

但是HuggingFace這家估值“僅20億美元”的公司,卻是目前AI領域的創造力中心之一。

因爲它是一個“構建未來的AI开源社區”,被稱爲“AI領域的Github”,不僅有人數衆多的开發者和產品經理在它的社區裏研究和發布自己訓練或微調的AI模型,客戶也超過5000個(其中3000個是付費客戶)。

HuggingFace的一個重要組成部分是名爲Transformers的自然語言處理庫,其Transformers庫在GitHub上擁有62000顆星和14000個分叉。這意味着开發人員和數據科學社區正在積極使用和改進HuggingFace的技術。

根據HuggingFace的說法,Transformers提供了API,可以輕松下載和訓練最先進的預訓練模型。使用預訓練模型可以降低計算成本、減少碳足跡,並節省大量訓練模型的時間。

HuggingFace提供了一個免費增值模型,客戶可以使用其推理API,獲得基礎的AI推理能力以及免費的社區支持;其付費服務允許客戶輕松訓練模型,提高推理API的性能等。

它的其他產品和服務還包括Datasets(應用於多模態模型的數據集),Hub(模型和數據集的托管服務),Tokenizers(高速分詞器,幫助把數據轉化成模型能理解的形式)等。

這家具有巨大潛力的AI开源獨角獸,由一位出身法國小鎮,在都柏林大學上學的極客ClemDelangue創立。正是他在大學時期就具備的極客精神和开源精神,讓他在機器學習的道路上探索,並最終形成了HuggingFace獨特的社區文化和企業文化。

這位非典型的創業者對於AI本身有深刻理解,也對創業,开源社區以及融資有自己的意見。

本文結合HuggingFace的投資人紅杉資本對它的深度報道以及創投圈著名播客20VC的主理人HarryStebbings對ClemDelangue的深度訪談,梳理出HuggingFace從0到1的進化道路,以及ClemDelangue的創業故事。

適道注:20VC是創投圈著名的播客,主理人HarryStebbings與美國最熱門的創投大佬都有過對話。(比如Benchmark的BillGurley,ARKInvest的CathieWood,Accel創始人ArthurPatterson/JimSwartz,以及紅杉資本的DougLeone。)

1 Hugging Face的开源精神 起源於創始人23歲的大學時代

當Clem Delangue還是都柏林大學的學生時,就打造了一個叫UniShared的教育平台,它旨在解決學習資源全球性分配不公問題,向全球每個人提供大學教育的好處。這使23歲的Clem Delangue登上了TEDx的講台。

在Delangue的少年時代,他的世界並沒有超出法國北部小鎮La Basse的邊界。在Delangue的家鄉,年輕的他探索機會有限,然而互聯網的到來打破了這一切。“當我得到自己的第一台電腦時,它就像一扇窗戶,讓我看到了更大的世界,那種感覺真是令人震驚。” 他回憶道。

Delangue的UniShared並沒有改變世界,但這爲他種下了开源和分享的精神種子,也讓Google向他遞上了橄欖枝。不過Delangue拒絕了這個機會,因爲他覺得在小型、靈活的環境中更加舒適。

他爲一家名叫Moodstocks的巴黎計算機視覺創業公司工作。Moodstocks开發一款應用,當用戶掃描物品就能立即查看相關評論和電商門戶。這是Delangue與機器學習的初次接觸,他感到十分震撼。

在巴黎的一次會議上,Delangue偶遇了著名的Apple市場營銷專家Guy Kawasaki(他打造了當年十分著名的麥金塔電腦系列廣告),Delangue走近正在籤名的Kawasaki,並向他介紹自己和他的應用。

Kawasaki對這項技術表示懷疑,尤其是對它隨機識別野生物種的能力。因爲在當時,機器學習仍需依靠工程師指定相對短暫、固定的定義列表和規則才能獲得准確的結果。“他說的大意是,你無法創建規則來識別世界上所有的物體。”Delangue回憶道。

於是,Delangue給Kawasaki做了一個演示,他將智能手機對准Kawasaki的水瓶。令Kawasaki驚訝的是,應用正確地識別了品牌並提取了社交媒體上的評論。

對於Delangue,那一刻真正的激動人心的不僅僅是他的應用程序的工作效果,更重要的是他看到了機器學習以新方式連接人與人的潛力。

“兩個從未見過面的人——一位法國極客工程師和這位美國硅谷的家夥——他們因爲機器學習發現他們其實喜歡同一個飲料品牌。” Delangue說。毫無疑問,機器學習有巨大的潛力——但是當與用戶社區一同开發時,它的潛力更大。

在離开Moodstocks之後,Delangue在一些初創公司中負責產品和市場營銷工作。

2016年,他渴望再次爲自己做點什么。在紐約,他與Julien Chaumond(一位在法國經濟部門工作的計算機工程師)聯系上了。他認識Julien多年,Julien是一位精英數學家,也是他的朋友,兩人長久以來都對彼此有着專業上的認可與尊重。

兩人決定一起參加斯坦福大學的在线工程課程,並如他們一貫的方式,聚集了三十多人的學習小組,Thomas Wolf(一位受過科學訓練的專利律師)就是其中之一。在課程結束時,Julien和Delangue邀請Thomas與他們一起工作。

他們共同設定的目標是解決機器學習領域中一個最爲棘手的問題:利用NLP技術,構建一個开放領域的、會話式的AI聊天機器人。一個可以和你談論任何事情的機器人。Siri從2011年开始出現;Alexa從2014年开始。“它們極其無聊,只會做生產力相關的事情。我們對建立一個有趣的會話式AI感到興奮。”Delangue說。

在2023年,打造一個人性化的聊天機器人聽起來像是一個顯而易見的目標。但在2016年,依賴深度神經網絡進行學習的NLP領域(與過去基於統計、規則的NLP相比)還處於萌芽階段,他們的目標幾乎接近科幻。聊天機器人需要整合多種學習模型,進行信息提取,理解情感,並生成答案。

這些模型需要對大量的數據進行訓練,而管理這些數據(包括如何收集足夠的數據,標記它,托管它)是他們面臨的首個重大挑战。正是對不可能的挑战,使得Hugging Face走上了當前的軌道,成爲全球最大的开源AI社區。

從一开始,Hugging Face團隊就展現出屬於开源社區特有的慷慨和民主精神,Delangue和他的聯合創始人賦予員工權力,擁有他們自己的產品,爲他們的聊天機器人創建和發布功能。

最終,這個機器人活躍在社交網絡、移動APP上,用戶們發送了超過十億條信息。隨着時間的推移,它採用了开源的策略。

2  發布自定義版本BERT模型的嘗試 讓Hugging Face轉型开源社區

沒有什么時刻能比Hugging Face發布其自定義版本的機器學習模型BERT(一種基於Transfomer的變種模型)更好地體現這種精神了。

當時,機器學習的進步常常通過冗雜、理論性的學術文章傳達。例如,當Google在2018年10月首次發布BERT時,它對大多數用戶來說過於復雜,而且BERT只在Google的TensorFlow平台上可用。

Hugging Face團隊希望BERT能被更多开發者和用戶使用。一周內,他們創建了一個可以使用PyTorch機器學習框架的BERT工作版本。然後,他們將其轉化爲开源,並在Github上免費贈送給任何想要使用或進一步微調和修改它的人。

“那是個分水嶺時刻”, Hugging Face在紅杉資本的主管投資人Pat Grady說,“人們都在說,‘我的天,我可以使用一個最新的語言模型。’以前這是不可能的。這讓Hugging Face在當時規模還很小的自然語言處理人群中成爲了英雄。” 當Grady後來問Delangue是什么激發他們把BERT發布給全世界的,他被他的答案的直接性所打動。“我們只是覺得,這是許多人會喜歡使用的東西”,Delangue回答。

Delangue也在與20VC主管人Harry訪談時聊到了开源對AI的重要性:“AI的大部分進步都是基於开放科學和开源的,因爲AI的开放,所有人都能用最新算法搭建應用,這形成了非常有趣的正反饋和改進,專家實驗的循環使我們能夠非常快速的推進AI的發展。沒有开放科學,沒有开源,沒有Google分享他們的《Attention Is All You Need》論文,分享他們的Bert論文,也許AI發展的進度會比現在慢很多年。

機器學習社區對自定義版本BERT模型的反應證實了Delangue多年前在都柏林大學時的感覺——分享知識對每個人都有益。那時,Hugging Face的使命改變了。Delangue和他的聯合創始人決定开始分享他們在構建聊天機器人過程中學到的關於機器學習的所有東西。漸漸地,他們开始成爲工程師、研究人員和機器學習領域愛好者的首選資源。

在構建他們的BERT適配版的過程中,Delangue和他的團隊成爲Transformer模型的專家。所有的AI模型都接受大量數據的訓練,Transformer能從未標記的數據中產生優秀的結果。這種無監督學習形式爲數據管理員節省了大量的時間,並使更多的數據可用於訓練機器學習系統。

Hugging Face團隊看到了Transformer的潛力,並將Hugging Face建立爲开發它們的首選开源中心。機器學習社區也注意到了這一點——編程者和研究者开始湧向Hugging Face,他們帶來新的洞察和專業知識,使大量的機器學習項目和工具互相影響。

如今,任何想要使用Transformer的人都可以在Hugging Face訪問約20萬種不同的公共模型。

Delangue意識到,鑑於這些工具的巨大潛力,理解它們需要一個社區:圍繞共同目標、需求和價值觀組織起來的人們。

隨着他們轉向开源,Hugging Face正开始成爲Delangue希望能夠建立的社區。

紅杉資本合夥人Sonya Huang說:“真正善於創建社區的人實際上非常少。Delangue理解用戶——他就是用戶——並且他對草根社區有直覺。他以極其真實的方式培育它。”

Huang還被Delangue展現出來的开源精神所打動。她指出,Delangue沒有僱傭專職社區經理與Hugging Face的用戶接觸,而是自己做這件事,經常在Twitter上發布bug修復信息,與超過1000名AI研究人員和追求生物技術、影像和語言處理領域AI突破的10000多家公司一起解決功能問題。

至今,Hugging Face不僅沒有單一的社區經理,還期望其160名員工每個人都積極參與這個在线社區。“我們覺得如果我們开始擁有社區經理,那就是將所有成員都應負的責任外包出去。” Delangue說。爲此,每個員工都可以訪問公司的官方Twitter和LinkedIn账戶。如果AI的未來要依賴衆包,Delangue正在確保Hugging Face將自己定位爲衆人的來源。

今天, Hugging Face社區的龐大規模推動了其战略地位的慣性,使它成爲機器學習的進化策源地,例如,視覺大模型Stable Diffusion選擇將其模型、數據集和演示發布到Hugging Face時,它激發了用戶引領的活動,修改和改進模型(在他們的演示空間裏產生了如“一個橡皮鴨在講台上發表演講”和“在被輻射的皮卡丘”等傑作)。

2023年3月,Delangue在推特上宣布他將在即將到來的舊金山之行中與Hugging Face的用戶舉行一個臨時聚會。在幾小時內,超過400人使用他在推特上分享的密碼ossftw(开源軟件永遠勝利)進行了注冊。

到了正式舉行時,它已經贏得了“AI的伍德斯托克”的稱號。大約5000人(和三頭羊駝)參加了活動。從活動的視頻中,你可以看到一種類似於狂歡派對與機器人競賽交叉的氛圍。AI公司擁擠在攤位中。其中一家,在幾天前的黑客馬拉松中組建的AI教育公司,在此活動上進行了公开發布。

Delangue和一個身穿亮黃色緊身衣,身體是一個巨大的Hugging Face表情符號的吉祥物跳舞。他向推動AI前進的每一個人(所以,基本上是全場的人)表示感謝。“這個活動是對开源力量的慶祝,”Delangue告訴他們。“記住,在AI領域,我們所處的位置全都歸功於开放科學和开源。”

3  AI原生創業公司將顛覆舊有的公司

在短時間內,人工智能已經疾速發展。大型語言模型已經從幫助Gmail爲用戶提供建議的簡短回復的後台技術,演變成了一些更奇妙(在某些情況下,也更可怕)的東西。文生圖工具和ChatGPT在短時間內擴大了我們對可能性的想象,而ChatGPT成爲了歷史上增長最快的應用程序。

數以百萬計的开發者和產品經理湧入AI領域,擠滿了這個長期以來只有博士和工程師出入的空間。我們現在都在使用AI,而這群終端用戶即將在整個空間上施加更大的影響。

在Delangue的觀點中,任何對AI未來有所投資的人都應該成爲Hugging Face社區的一部分。“如果用戶不理解這項技術是如何構建的,”他說,“它會帶來很多風險,很多誤解。”

Delangue認爲,對尚未實現的通用人工智能的崛起的擔憂是錯位的。

他同意Andrej Karpathy,(前特斯拉AI總監,現在是OpenAI的人工智能專家)於2017年提出的觀點——AI是Software 2.0。在這個觀點中,AI是現代世界運作方式的重大進步,它也已經开始塑造經濟。但是,它不是萬能的。

“AI是構建所有技術的新範式,但它不是新的人類形式,它不是超級感知生物。但它確實擁有龐大的潛力,它會比互聯網大,比傳統軟件大。它將爲技術創造新的能力,與大多數技術公司編寫軟件一樣,大多數技術公司將編寫AI。” Delangue說。

Delangue從他的經驗談通用大模型與开源小模型的適用性問題:“有兩種AI世界觀,一種是一個通用的大模型解決所有問題,另一種是許多开源小模型解決不同的問題。選擇哪一種路线,取決於你的使用情況,限制情況和你想做什么。

如果你是Facebook,那一個巨大的模型能爲你的用戶做任何你想幫他們做的事情;如果你是一個消費品公司,那么你需要針對你的實際場景選擇和優化AI模型,這些模型要更快,更便宜,更高效。所以,如何選擇,取決於你如何定位你自己。“

對於企業是直接使用大公司模型的API還是自己訓練和微調开源模型,Delangue的觀點是:“直接使用OpenAI的API在开始階段更快,更容易,但是從長期來看,創業者面臨的挑战更大,因爲你沒有真正建立核心競爭力。

如果一個使用AI的創業公司沒有能力優化模型,那么它面臨的風險是在與競爭對手競爭時,無法使自己脫穎而出。如果創業公司想讓自己具有差異化競爭能力,就必須針對它的用戶做一些真正有價值的事情,並能持續進行優化。就像傳統軟件公司需要編寫代碼來構建技術產品一樣,AI公司也要在機器學習範式中訓練或定制自己的模型。“

Delangue進一步指出,這是新公司顛覆舊有企業的巨大機會:因爲舊企業會選擇容易的解決方案,而其他更需要AI的公司會選擇更具顛覆性的方式,這就是具有模型訓練能力的AI原生創業公司的機會。它們自己訓練模型,自己微調模型,它們在同樣的任務上可以比只使用現成API的公司好得多,它們就有很大機會顛覆舊有的解決方案。

4  AI發展太快  現有的盈利方式  可能3-5年後就不適用了

對於Hugging Face的商業模式,Delangue介紹道:“我們就是經典的免費+增值付費模式(一種經典的开源軟件商業模式,基礎版本免費,更高級的功能收費)。“他還透露公司目前已經有包括Bloomberg, Grammarly在內的3000家付費客戶。

對於公司目前的第一要務,Delangue認爲並不是盈利:“我們的主要優先事項是作爲一個具有網絡效應的平台,被更多人採納和使用, 這也是我們的KPI。

“在AI這樣的領域,你期望公司愿意爲AI付費,所以如果Hugging Face繼續成爲公司使用的第一AI平台,很明顯我們將能夠從中獲得大量的收入,並建立一個好的業務。”

“對於盈利,我們必須把它看作是逐步解鎖一些學習的階段。從六位數的收入开始,公司成員從中學習,看看它是如何運作的,然後是七位數、八位數和九位數的收入。每一步你都在學習,特別是在AI領域,因爲底層技術的發展速度非常快,可能我們今天賺錢的方式在三年後或五年後就不適用了。”

5  非典型創始人:投資人不該搶創業者的活

在與20VC的訪談中,Delangue還介紹了自己的融資原則。

首先,在兩輪融資之間,他不會與任何外部投資者交談。因爲建立公司已經足夠困難,必須百分之百的專注於這件事。

第二,當他融資時,通常會進行得非常快,一旦已經獲得足夠公司發展的資金,就不再與不熟悉的新投資人接觸。因爲很多投資人並不真的對創業者正在建立的業務足夠了解或感興趣。尤其是像Hugging Face這樣在種子輪時做聊天機器人,之後又开源社區的,這兩輪的投資人,是完全不同的。

第三,他在選定投資人後,會與這位投資人共度3天時間,深度地互相了解和盡調,並且搞清楚一些重要問題:我們的目標一致嗎?我們的期望相似嗎?我們能在之後保持一個良好的互相支持的關系么?

對於風險投資人,Delangue認爲部分投資人遺忘了風險投資對於創業公司的幫助首先是財務幫助,而把大部分時間都花在了其他事情上,有時甚至表現得像CEO,他認爲這其實並不是他們的工作。

“更糟糕的是,我感覺有時候創業者是爲投資者而建立公司,而投資者表現得像創業者。有時這上會導致公司崩潰,因爲不幸的是,與創業者相反,投資人會同時管理很多不同的被投公司,所以他們只能在每家公司上花費很短的時間。即使他們是世界上最聰明的人,由於時間的限制,他們對技術的理解有時可能過於簡單化,例如對公司和其他事物的理解。”他這么表述自己對於風險投資人的不同看法。

而對於自己最喜歡的投資人,Delangue表示是Richard Socher:他是NLP領域最傑出和最有影響力的研究者之一,現在是You.com的創始人。Richard和Delangue相識很早,在很多方面都幫助過Delangue和Hugging Face,無論是科學,商業還是創業方面。

追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:從草根社區到20億美金估值,Hugging Face爲什么敢开源?

地址:https://www.breakthing.com/post/76099.html