科技日報記者 吳長鋒
想足不出戶游覽祖國大好河山?與表情豐富、情感細膩的虛擬人對話,無需穿戴設備就能開啟一場身臨其境的沉浸式“云旅游”。
(相關資料圖)
這個AI能力“硬核”的虛擬導游,集成了“訊飛超腦2030計劃” 的多模感知、多維表達、深度理解等多項前沿技術,讓真人和虛擬人可以非常自然地“穿越”不同場景對話,給人機交互帶來全新的沉浸式體驗。
11月18日,2022科大訊飛全球1024開發者節正式啟幕,在發布會上,科大訊飛AI研究院副院長高建清以“AI新紀元,訊飛超腦2030”為主題,詳解“訊飛超腦2030計劃”階段性技術突破,一大波“預演未來”的創新應用將走入生活。
2022年科大訊飛正式發布“訊飛超腦2030計劃”,要讓人工智能“懂知識、善學習、能進化”,讓機器人走進每一個家庭,讓機器遠不止具備“你問我答”的基礎智能,還擁有更強的交互、運動能力,以解決未來社會重大剛需命題。
高建清表示,實施“訊飛超腦2030計劃”,要突破人工智能共性基礎算法,攻克多模態感知、多維表達、認知智能、運動智能等核心技術,也要研究軟硬一體的機器人關鍵技術。此外,要探索虛擬人交互、機器人等方面的示范應用。
“AI超腦”更懂知識
“支撐‘訊飛超腦2030計劃’的發展,有兩個關鍵算法亟待突破,無監督學習和知識推理?!备呓ㄇ逭f,前者要實現實用化、場景化的預訓練技術,后者要構建基于知識檢索、決策以及融合的推理系統。
科大訊飛設計了基于無監督學習的預訓練框架,并創新使用了少量有監督數據進行優化,大幅提升訓練效率。高建清說,“預訓練模型支持語音識別、聲紋識別、情感識別、多模態語音識別等多個任務,參數量遠遠少于業界公開的模型,但效果卻達到了業界最優?!?/p>
以回答“面包在低溫下會馬上發霉嗎”為例,機器要理解“低溫變質慢”等常識,在引入海量知識的基礎上,要用預訓練模型進行知識重要性排序,也要融合知識與問題進行推理,才能與人暢聊“面包變質的二三事”。
科大訊飛還探索將神經網絡與符號推理相結合,實現了推理過程的可解釋性。應用于小學平面幾何題上,這個推理系統讓AI答題的正確率從完全不可用,提升到了90%的水平,顯著優于傳統推理系統。
“唇形+語音”多模態感知
環境太吵、人聲太多,語音交互怎么辦?在“訊飛超腦2030計劃”中,“唇形+語音”的多模態語音增強技術,喚醒智能語音交互新模式。
“機器想更自然地與人類進行交互,需要通過聽覺、視覺、語義以及各種傳感器的組合去獲取更多的有用信息,AI感知方式必然要從單模態發展到多模態,逐步擬人化?!备呓ㄇ灞硎尽?/p>
一個典型的場景是,當你在嘈雜的環境中通話,旁邊其他人也在說話,搭載了多模感知技術的應用系統只“聽”到你的聲音,不受旁邊嘈雜音干擾,從而非常順利地完成溝通?!斑@一方案,從用戶主觀理解度層面有了極大改善,是真正站在用戶體驗的角度優化系統的一種方法”,高建清表示,這個算法主要解決“語音識別準確率高,但用戶體驗不好”的現實問題。
虛擬人有溫度有個性
如何讓機器的聲音媲美人類?高建清分享了科大訊飛在語音合成技術領域的新突破——多風格多情感合成系統SMART-TTS,語音合成從簡單的信息播報“變身”具備喜怒哀樂情感的語音助手。
高建清介紹,SMART-TTS系統可提供“高興、抱歉、撒嬌、嚴肅、悲傷、困惑、害怕、鼓勵、生氣、安慰、寵溺”等11種情感,每種情感有20檔強弱度不同的調節能力;也能提供聲音的創造能力,如停頓、重音、語速等,可以根據自己喜好調節,真正實現了合成系統媲美具備個性化特點的真人表達能力。
當你漫步林蔭路,TA可以用字正腔圓的“播音腔”為你讀新聞;當你結束一天工作準備入睡,TA可以輕聲細語讀為你散文;當你驅車去公司上班,TA可以用你最喜歡的歌手聲音告訴你走哪條路不堵車;當你和家人一起觀看紀錄片,TA可以為紀錄片不同人物配音,人機交互表達自然、情感飽滿。
目前,訊飛有聲APP和訊飛開放平臺都開放了SMART-TTS語音合成系統,開發者可以在訊飛有聲直接下載體驗,或在開放平臺進行調用。高建清透露,訊飛開放平臺將開放500個虛擬合成的聲音。
用AI解決社會剛需命題
基于多模態交互,以及醫療認知技術, 訊飛研發了一套抑郁癥定量篩查系統?!翱赡M心理醫生的問診思路進行交互設計,用戶通過與機器聊天的方式即可初步實現病情的定量評估,篩查效果達到91.2%?!?/p>
據悉,這一系統已經在北京安定醫院等醫療機構進行了試點應用?!拔磥?,基于定量篩查基礎能力,我們將研發抑郁癥篩查平臺,向更多的學校推廣,助力青少年的心理成長。”高建清表示。
作為“訊飛超腦2030計劃”的階段性成果,今年訊飛打造了多款專業虛擬人,分別用于客服、助理、招聘、財務、法務等行業的工作,目前已為金融、電信、媒體等多行業提供專業虛擬人解決方案,為“數字經濟”服務。
(科大訊飛供圖)
關鍵詞: