百度AI進階:從生活智能到科研全景
1年前


來源 | 產業科技


作爲一種前沿通用技術,AI對現實世界的滲透和改變,不止於末端的生活體驗創新,更在於高階的科學研究賦能。


在一些AI實力靠前的科技公司战略圖景中,可以看到它們的錨點已經從生活智能向基礎科學研究進階。例如百度近期舉辦的Create大會-技術开放日媒體溝通會,向外界披露了百度最新技術進展,分層次展示百度AI解決方案,對智能生活、產業智能和科學研究的助推能力。


具體來看,百度相關技術負責人輪番介紹了智慧出行的自由語音交互,自動駕駛的核心技術Bev,以及人工智能科學計算與超大規模圖學習訓練技術。這些AI黑科技已處於行業領先水平,而技術的終極目標均指向“用科技讓復雜的世界更簡單”的愿景。


如果說提升衣食住行的智能體驗,是AI技術的初級能力,那么當AI在足夠的數據、靈活的算法和巨大算力支撐下,技術趨向成熟,也應具備更高層次的服務能力。回歸到科學研究的基本盤,AI向技術上遊滲透的趨勢顯現,助力科學研究成爲衡量頂尖AI價值的新標尺。


不過,要想實現技術生態外延,必然需要科技企業建立一支強大的人才團隊,並持續投入技術研發,只有這樣才保證創新能力不斷迭代,產出更多前沿解決方案,進而在多場景落地。


據了解,百度在技術研發上的累計投入已超過1000億元,开發了大量業界領先的技術。在語音交互、自動駕駛和科研場景之外,百度正在續寫更多技術創新推動增長的可能性。


破解語音交互回聲消除


語音交互的回聲消除難題,一直是手機App語音識別服務的痛點。尤其在使用手機導航軟件時,手機一邊實時播放導航語音認路,一邊在聽外界語音信息,很可能反應不過來,最終會出現識別自己說的話及其他錯誤信息。


對於導航應用而言,信息誤判甚至會關系到交通安全問題。同時,爲了安全起見,一些用戶往往會選擇先把車停下,待語音播報停止時重新發布語音指令,規劃行程路线等。很明顯,這樣會大大降低出行效率。


對此,百度語音首席架構師賈磊說,在世界範圍內,很長時間都沒有一個方案能普適的支持在手機上實現全雙工的語音交互。所謂全雙工語音交互,通俗的解釋就是在手機播放導航提示的同時,也能夠聽清用戶的指令,甚至像真人對話一樣可以被用戶隨時打斷,並對新的語音指令給予反饋。


雖然全雙工語音交互方案能實現手機導航等場景的實時交互效果,但技術突破存在諸多難點。首先,就是要做到語音交互的回聲消除,才能避免手機終端識別自己播放的聲音。


按照軟件性質劃分,回聲消除的落地難度也不盡相同。對於前裝軟件的音箱、車載系統,可以通過硬件適配算法,提前保證回聲消除的效果。


而對於手機App這種純軟件後裝方案,需要讓軟件算法適配不同型號的終端硬件。一般來講,手機上喇叭距離麥克風的距離比較近,並且手機終端款式多樣,復雜的硬件環境決定了聲音信號的回聲消除會出現各種各樣的問題。再加上手機硬件的迭代頻次高,回聲消除效果就更加難以保證。


值得一提的是,百度在手機語音交互場景中的回聲消除上率先找到了答案。百度技術團隊融合了傳統信號處理和深度學習模型的優點,基於語音識別目標,實現端到端地進行回聲消除和信號增強,解決了手機場景下的回聲消除難題。


一個形象的概括是,即使手機音量开到最大,回聲消除量也能達到40分貝,使得手機APP的語音識別功能能夠正常工作。據了解,這是世界範圍內第一個能在手機上實現純軟件方案回聲消除的技術。


另外,對於多場景下的智能語音識別,百度研發出的基於SMLTA2的多場景統一預訓練模型,解決噪聲、用戶口音和回聲消除殘余吸收等難題。


在日常使用過程中,語音交互的使用場景其實非常復雜,如在交互中常常面臨音樂、闲聊、環境噪聲、內噪殘余等與交互內容無關的其他信息幹擾,從而給傳統語音識別技術帶來極大的識別難度。有了SMLTA2大模型加持,各場景下識別率相對提升超過20%,在業界同類技術中准確率最高。


搭配語音語義一體化的置信技術,百度的語音交互技術方案還可以降低錯誤響應,支持交互過程中的引導和澄清,讓人機交互更智能順暢,最大化接近真人之間的交流溝通。


目前,百度全雙工語音交互技術已經應用於手機端,真正實現自然流暢的全雙工語音交互,下一步還可能被用到更多產品中。


解鎖自動駕駛“千裏眼”


無論是低階智能駕駛還是高階自動駕駛,感知技術都是最底層的邏輯支撐。汽車自動駕駛水平的高低,關鍵在於系統感知識別能力的強弱。


在傳統駕駛場景中,駕駛員主要依靠視覺觀察道路和周邊情況,而遷移到自動駕駛場景,激光雷達、毫米波雷達和高分辨率攝像頭等傳感器,逐漸代替人類的視覺,它們決定了自動駕駛系統能獲得什么環境、路況信息。


因此,建立高效精准的感知方案,是自動駕駛從實驗室走向量產的前提。從自動駕駛感知路线演變來看,經歷了一場從低維到高維的過程。


以往,自動駕駛所依靠的傳統圖像空間感知方法,是將汽車上的雷達、攝像頭等不同傳感器採集來的數據分別進行分析運算,然後把分析結果融合到統一的空間坐標系中,再去規劃車輛的行駛軌跡。


問題顯而易見。傳統方案的感知過程中,每個獨立傳感器收集到的數據往往受到特定視角的局限,經過各自的分析運算後,融合階段容易發生誤差疊加,最終導致真實路況難以輸出,路线規劃決策自然存在偏差。


隨着自動駕駛技術演進,感知方案的痛點也逐漸被破解。近年來,行業中提出了BEV(Bird's Eye View,視覺爲中心的俯視圖)自動駕駛感知方案。該方案就像俯瞰全局的“上帝視角”,通過車上多個傳感器採集的數據,輸入到一個統一模型進行整體分析推理生成鳥瞰圖,有效避免誤差疊加。


BEV感知方案還能夠做到時序融合,不僅收集分析一個時刻的數據,而且支持把過去一個時間片段中的數據都融合進模型做環境感知建模,時序信息的引入讓感知到的結果更穩定。感知結果越穩定,車輛對於道路情況的判斷就會更加准確,也會讓自動駕駛成爲一項更安全的技術。


作爲全球自動駕駛技術第一梯隊的玩家,百度在高級別自動駕駛模型方面取得較多成果。除了BEV自動駕駛感知方案,百度還在業內首次提出車路一體的解決方案UniBEV,該方案集成了車端多相機、多傳感器的在线建圖、動態障礙物感知,以及路側視角下的多路口多傳感器融合等任務。


據百度技術團隊介紹,基於統一的BEV空間,UniBEV 車路一體大模型更容易實現多模態、多視角、多時間上的時空特徵融合。百度借助大數據+大模型+小型化技術閉環,在車端路側的動靜態感知任務上快人一步。


助推科學研究智能化


若問AI未來的歸宿是什么?答案顯然要從AI的第一性原理出發,即作爲先進生產力的代表,AI有沒有場景限制。從手機語音交互到自動駕駛感知模型再到人工智能科學計算(AI for Science),百度證明了AI的全景服務能力。


就在百度把AI解決方案輸送到科學研究領域,幫助科學家們加速科學研究時,AI事實上已經在科學研究中扮演着越來越重要的角色。


例如,在氣象領域,AI實現更快更精准的數值天氣預報,包括預測強對流天氣的短時臨近降水情況和揭示大尺度的台風形成和演變規律。在生命科學領域,傳統的科研方法面臨生物類型實驗數據少、計算任務復雜、學科交叉多等挑战,如今AI應用已逐漸在藥物篩選、藥物設計、靶點研究、合成生物學、疾病機理研究等方面落地,幫助生命科學研究增效提質。


AI 具備服務科研上遊的能力背後,是一場AI技術的迭代與升級。以工具角色參與科學研究,勢必對工具的精准程度和效率提出更高要求,這樣才能與嚴謹的科研項目相適配。拆解AI助推科研場景下的技術底座,最核心的支撐便在於AI基礎軟硬件能力。


首先,深度學習平台需要具備更加豐富的各類計算表達能力,如高階自動微分、復數微分、高階優化器等;其次,科學問題求解需要超大規模的計算,這對深度學習平台與異構超算/智算中心適配及融合優化,神經網絡編譯器加速和大規模分布式訓練提出了新的要求。此外,如何實現人工智能與傳統科學計算工具鏈的協同,也是需要解決的問題。


着眼科學研究對AI的能力要求,過去幾年,百度飛槳團隊持續攻關並取得不少成果。作爲國內首個自主研發、开源开放的產業級深度學習平台,飛槳研發了一系列用於科學研究的工具組件,比如賽槳PaddleScience、螺旋槳PaddleHelix、量槳Paddle Quantum等,支持復雜外形障礙物繞流、結構應力應變分析、材料分子模擬,廣泛應用於AI加計算流體力學、生物計算、量子計算等前沿方向的科研探索和產業應用。


對於科學領域大規模計算的需求,飛槳推出了超大規模圖學習訓練技術PGLBox。這項技術是業界首個同時支持復雜算法+超大圖+超大離散模型的大規模圖學習訓練技術,通過顯存、內存、SSD三級存儲技術和訓練框架的性能優化技術,單機即可支持百億節點、數百億邊的圖採樣和訓練,並可通過多機擴展支持更大規模。


衡量一項技術的價值前景,關鍵標准在於產學研的有效落地,以及技術生態的共生共榮。目前,百度飛槳已經與高校、科研機構等开展了計算流體力學、分子動力學、動力氣象學等方面的範例建設,並形成了一些开放性的、多學科交叉的生態社區,包括飛槳特殊興趣小組(PPSIG)、共創計劃等,多方協同強化AI的科研創新底色。


押注 AI for Science 賽道,對百度飛槳而言有難度,但很值得。每一次技術突破,都加深了百度飛槳對AI的洞察力和號召力,置身科學全景,百度飛槳不做旁觀者,而是科技文明的推動者。


追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:百度AI進階:從生活智能到科研全景

地址:https://www.breakthing.com/post/39930.html