國家級表彰 | 小米人工智能實驗室聲學語音團隊榮獲“全國工人先鋒號”榮譽稱號
1年前

小米人工智能實驗室聲學語音團隊代表王育軍接受央視採訪


4月27日,小米集團技術委員會人工智能實驗室聲學語音團隊榮獲由中華全國總工會頒發的“全國工人先鋒號”榮譽稱號。頒獎典禮在人民大會堂舉行,小米聲學語音技術總監王育軍參加本次活動並代表團隊領獎。這是對小米人工智能實驗室聲學語音團隊取得的科技成果的肯定,也是對小米公司持續推動科技創新之路的激勵。

王育軍在接受央視採訪時表示,爲智能生活助手小愛同學裝上“耳朵”和“嘴巴”,讓它能聽會說,是小米語音工程師的使命。這不僅給用戶帶來了智能生活的全新體驗,同時賦予了聽障人群同樣的聲音感知能力,爲語音科技注入了溫度。

截至2022年底,小米人工智能實驗室聲學語音團隊已將自研聲學語音技術全面應用於小米手機、音箱、電視、耳機、手表、機器人等79個品類,共計5312款智能產品中。小愛同學月活躍用戶數量爲1.15 億,是世界上最忙的語音助手之一。聲學語音團隊承接了小米手機AIoT設備上日均12.6億次請求,爲4.59億設備累計提供了2158億次交互語音服務。

01  乘勢而起:

鑄就頂尖語音團隊

2017年,在時代浪潮推動下,小米順勢成立人工智能實驗室,下設聲學語音技術等多個研究方向。小米聲學語音團隊憑借真實的用戶剛需和龐大的用戶體量,一直和世界優秀團隊並駕齊驅。團隊成員中,有 5位工作 20 年以上的語音信號處理專家和20 名博士。

一直以來,團隊不斷迎接挑战,並在該領域持續創新。在語音識別、拾音喚醒、超級擬人語音合成、聲音分析與重建、聲紋識別、自動聲學測量、獨立空間音頻技術中,產出了大量學術成果和工業最佳實踐,回饋工業界和學術界。

團隊將工作中積累的經驗總結成學術論文,截至2022年,共有43篇被世界語音技術頂會收錄。在國際語音技術挑战賽中,團隊拿下了 6 項國際冠軍、2 項亞軍和2 項季軍。2022年,團隊《個性化情感化語音交互關鍵技術及產業化》獲得北京市科技進步二等獎;《小米智能語音技術在手機實時通信中的應用》獲得深圳人工智能行業應用獎……這些成績的取得,不僅證明團隊在和聲音交互業務緊密相關的技術領域領先世界,同時也爲小米和中國智造行業贏得了榮譽。

02  能聽會說: 打造智能生活助手小愛同學

小米人工智能實驗室聲學語音團隊在對語音技術不斷深耕的過程中,不僅推出了語音識別技術和語音生成技術,使小愛同學從語音助手升級爲具備“耳朵”和“嘴巴”的智能生活助手,還爲障礙人士和老年人全力打造了小米聞聲技術,不僅可以實現對話場景中實時語音和文字的互轉,還讓他們能夠“看見”周圍環境中的聲音,助力無障礙交流。

|語音識別技術,讓耳朵聽得更准

語音識別技術是指讓小米的智能產品擁有麥克風陳列設計的“耳朵”,可以傾聽用戶的指令和訴說。

小米的設備,無論是電視這樣的大型家用設備,或是音箱、手機這樣的小型或便攜設備,都擁有多顆麥克風。利用這些麥克風組成的陣列,團隊設計了利用聲音波束指向目標說話人的算法和利用聲源分離提升目標說話人聲音質量的算法,最終形成了小米特有的中遠距離(即60釐米到5米)清晰拾音算法。

麥克風陣列拾音算法包含:通過關鍵詞叫醒語音助手的語音喚醒、識別哪位用戶在說話的聲紋識別、識別說話內容的語音識別、感知語音中蕴含的情緒、檢測用戶正在用哪種語言說話的語種識別、評價用戶發音水平的口語評測、探究語音信號中的成分,並提高每種成分質量的語音成分分析與還原技術等。

    在語音識別領域,聲學語音組也在衆多賽事中奪冠:

      2019年AIShell基金會CCF遠場聲紋挑战賽雙冠軍; 2020年國際中文處理大會個性化語音喚醒上兩項賽事冠軍以及2022年IEEE多模態喚醒第一名; 2021年國際口語技術大會兒童語音識別挑战賽冠軍; 2022年MagicHUB中文重口音語音識別冠軍。

|語音生成技術,讓嘴巴說得更好

在聽得懂的基礎上,團隊爲小米智能設備打造了和用戶講話的“嘴巴”,即語音生成技術。可以實現將文本轉化成語音、 自動譜曲和編曲、歌曲合成等功能。

其中,小米自研的超級擬人語音合成技術能夠模擬真人說話方式,復刻人類語音中的猶豫、停頓、變速等習慣,完美保留原始錄音數據中的細微語氣表達,使語音合成效果更加自然流暢。目前,該技術已經應用於無障礙領域,幫助語言障礙者打开了“有聲”世界。

而個性化歌唱技術依托AI語音的技術創新,通過復雜的語言和聲學建模,使用戶能夠通過Text to speech引擎構建自己的聲音個性,以此幫助不擅長、不敢唱歌的人克服障礙,讓他們可以用歌聲表達自己的情感。

有了“耳朵”和“嘴巴”,小愛同學就能夠像人一樣能聽會說。例如,小米手機或者音箱有了“耳朵”,用戶可以跟他們說“打开臥室空氣淨化器”,設備會用他們的“嘴巴”回復用戶 “已爲您打开淨化器,不早了,早些休息”,省去了5次屏幕點擊。

爲了打造小愛同學靈敏的“耳朵” 和精致的“嘴巴”,團隊進行了190多次語音喚醒建模,270多次語音識別聲學和語言建模,110 多次語音合成建模……小米算法優化工程師爲 55 類設備交付了 400 多個不同平台的模型和170版引擎。

03  科技向善: 讓技術更有溫度

同時,小米一直致力於中國智能設備無障礙建設,語音團隊爲聽障用戶开發的“聞聲技術”。通過小米聞聲功能,一方面,可以讓手機或平板電腦幫助他們“看到”其他人說話,另一方面也可以幫他們“看見”周圍環境中的聲音,例如警報聲、敲門聲等,賦予了聽障用戶同樣的聲音感知權利。

小米聞聲的使用界面(左側爲對話模式,右側爲字幕模式)

除了小米聞聲技術,讀屏技術可以幫助視障人群“看到”屏幕上的內容;“聆聽”技術爲構音困難用戶提供了個性化的語音識別,讓他們能通過自己的聲音和設備溝通;聲音定制技術,爲失去語言能力的用戶捐獻聲音……作爲語音合成技術在無障礙領域的典型應用案例,聲音配型捐贈曾榮獲2022年北京信息通信行業適老化及無障礙服務優秀案例,並獲得“iF DESIGN AWARD 2023”服務設計類別的肯定。

未來,小米將不斷打磨小愛同學的語音技術,繼續奮進、追求卓越,以平凡的工作成就不平凡之技術,讓用戶樂享智慧生活,感受科技帶來的便捷與趣味。


追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:國家級表彰 | 小米人工智能實驗室聲學語音團隊榮獲“全國工人先鋒號”榮譽稱號

地址:https://www.breakthing.com/post/55235.html