醫療GPT，硅谷又跑在了前面？

相關報導

新眸深度

醫療GPT，硅谷又跑在了前面？

1年前

醫療GPT，硅谷又跑在了前面？

作者｜錢德新

今年2月，哈佛醫學院教授Tiffany H. Kung給ChatGPT出了一套美國醫學執照考試。

得出的結論是，ChatGPT在三個專家級知識的標准化測試中能夠達到或接近60%的准確度，其輔助診斷的表現已經接近醫生。

另一教授Ateev Mehrotr也對ChatGPT進行了測試。

結果顯示，ChatGPT在45個案例中的39個診斷正確，正確率87%（超過了現有機器診斷率的51%），並爲30個案例提供了適當的分診建議。

而ChatGPT在醫療領域的應用，在GPT-4發布後再次成爲焦點。

據OpenAI的內部評估，GPT-4在產生事實回復時其性能比GPT-3.5好40％，在參加爲人類設計的考試中表現比之前版本更好（例如醫學知識自我評估計劃（75％vs 53％））。以及，多模態輸入也讓GPT4能夠直接轉錄手寫紙質處方。

甚至，未來有一天給你开診斷書的可能不是醫生，而是AI。

硅谷巨頭們都在做什么？

谷歌可能是極少數意識到GPT對醫療領域重要程度的巨頭之一。

在ChatGPT發布後僅幾周，谷歌就公布了Med-PaLM，一個在更窄的參數範圍內運行的，專門用於回答醫療保健相關問題的大型醫用語言模型。3個月後，谷歌就馬不停蹄的公布了Med-PaLM 2。

但微軟想要更快。

Med-PaLM 2發布幾天後，Nuance（被微軟2021年收購）發布了一款讓醫生臨牀記錄“iPhone化”的殺手級AI應用，也是醫療行業第一款結合GPT-4模型的應用。

巨頭緊鑼密鼓地在醫療領域落地GPT，很大程度源自醫療是一個高度垂直的行業。

有券商曾在今年2月的一份研報中，詳細列出了以ChatGPT爲代表的AI技術的四條應用推演路线，其中除了獨立工具、深度嵌入生產力工具和與服務型應用結合，還有一條就是垂直領域。

由於醫療領域的專業性和特殊性，其對語言模型的質量要求遠高於市面上任何一種通用語言模型。所以，雖然比爆火的ChatGPT來得晚了一些，但生成式AI在醫療上有着充分的發揮空間。

而這場馬拉松比拼的不是誰先起跑，而是怎么跑。

知乎上曾有答主將ChatGPT與醫療從業人員的學習路徑做了一個比較，如果單從時間跨度來看，一個基於GPT-3.5模型的醫療大模型，可能在幾天或者幾周內即可完成培訓，而一個專科專家即便按照最短耗時計算，也要20年。

這相當於論證了GPT應用到醫療領域的廣闊前景。

具體來說，復旦大學附屬華山醫院信息中心主任黃虹就曾表示，醫療GPT重要的應用場景可以是就醫導診、醫院內部知識庫的構建和輔助醫生提升電子病歷的書寫效率。

醫聯創始人、CEO王仕銳先生近日也公开表示，AI醫生與互聯網醫院的結合，將爲醫療領域帶來前所未有的化學反應。

巨頭們忙於訓練AI醫療大模型的目的

券商對於AI技術落地垂直領域的推演，其中值得關注的一點在於，垂直領域大模型與通識大模型是不相同的。

在涉及專業知識的領域，ChatGPT爲代表的大語言模型通過與搜索引擎結合能對專業信息進行匯總、檢索，並附上來源，但模型本身在專業領域尚無法提供精准的回答，也無法運用專業知識解決綜合性的專業問題。

不過，大模型最重要的一個步驟在於，需要用專業的數據投喂、訓練、迭代，才能越來越契合垂直領域。Med-PaLM 2在被訓練近3個月後，表現提高了18%就能說明一些問題。

未來隨着更多的專業Know-how注入，以ChatGPT爲代表的AI技術有望在需要較強專業知識的垂直領域得到進一步的應用。

中科院院士、中山醫院心內科主任葛均波就明確表示過，AI臨牀應用結合大數據，將會極大延伸醫療服務“上下遊”，實現全生命周期管理。“AI助力將可爲患者從預防、發病、診斷、治療到院外康復的疾病管理全流程提供智能解決方案。”

事實上，忙於訓練AI醫療大模型的硅谷巨頭，已經在开發上述其中一個環節的落地產品了。

比如在最簡單的臨牀記錄生成層面，依靠GPT-4強大的生成式大語言模型和推理能力，DAX Express將這個過程從4個小時縮短到僅僅幾秒鐘。

英偉達則通過NVIDIA AI Foudations雲服務，以幫助需要構建、完善和運行自定義大型語言模型及生成式AI的客戶加速生成式AI的引入。這一服務包括用於自然語言處理的Nemo、圖像處理的Picasso，以及針對制藥業的BioNeMo。

AMD在收購賽靈思後，後者的FPGA芯片也在規劃在輔助病情診斷（慢性病篩查和風險評估）等場景，通過學習過往慢性病患者數據可以預測未來患病風險。這類場景使用FPGA也可實現模型訓練、推理性能的提升。

當然，國內也有相關公司意識到醫療GPT的價值。4月28日，醫聯就對外公布了國內首款大語言模型驅動的AI醫生——MedGPT，該產品目前已進入內部測試階段，並計劃於5月份正式發布。

醫療GPT，要腳踏實地

硅谷巨頭的技術和產品，雖然按照過往的邏輯可能會很快傳到大洋彼岸，但今天往後也可能不會。

由於衆所周知的原因，AI本身就是一個被限制的技術。更重要的是，大模型的本質是通過概率最大化不斷生成數據，而不是完全通過邏輯推理對問題進行解答的算法模型。

換言之，對一個大模型來說，數據和技術同樣重要。其中數據的大小、提煉程度，又決定了大模型的能力。美國的醫療數據不一定適合中國人，地理位置、氣候、飲食習慣等等諸多的不同，導致問題也會不同。

並且，若是基於邏輯推理對問題進行解答的邏輯，目前搜索引擎出現的問題，也仍將存在。今年ChatGPT針對算法錯誤修復的版本更新，便明確了這一問題的存在。如果直接把這項技術丟進互聯網醫院進行應用，後果可想而知。

所以要考慮GPT技術在醫療場景的應用，就要跳脫出固有思維。

首先，一定要有專門的數據喂養。更多專業Know-how的注入，以及專家進行語料標注，不斷清洗數據，才能提高模型的准確度。

以醫聯的MedGPT爲例，醫聯作爲一家互聯網醫院，其本質就是醫患關系鏈，以及在關系鏈上發生的醫療決策、服務和商品。這意味着，基於醫聯超過150萬的注冊醫生和2000萬患者深度互動而沉澱出來的專業數據，足夠投喂一個醫療大模型。

同時，醫聯專業的疾病全流程管理能力，針對各個疾病病種研發的專業SOP，以及智能化的患者疾病管理功能，也爲沉澱數據，最終訓練出這樣的醫療大模型提供了重要的醫療底層能力基礎。

其次，只有從業者才能做得更好，也就是需要最好的技術+最好的醫療能力。

醫聯自研的MedGPT採用了大模型技術，基於醫療知識圖譜爲模型提供豐富、准確、結構化的醫療知識、並收集整理接近20億條真實醫患溝通對話、檢驗檢測和病例信息進行深度訓練學習，同時利用醫生真實反饋進行強化學習，用以保障模型的推理質量、准確性與可靠性。值得一提的是，醫聯MedGPT首次突破了AI醫生無法與真實患者連續自由對話的難點，並實現了醫療問診場景中支持多模態的輸入和輸出。