一、課題來源與背景
1、課題來源
當前人工智能產(chǎn)業(yè)快速迭代升級,語音大模型在辦公、教育、政務等多領域應用廣泛且深入,市場對一體化、垂直化專業(yè)語音解決方案需求日益迫切。本項目源于這一核心需求,針對傳統(tǒng)語音技術成本高、體驗不佳的突出短板,采用全自主研發(fā)模式,專項攻關高性能軟硬一體化智能語音交互終端關鍵技術,打造面向AI辦公場景的終端及配套AI Agent GUI技術體系,填補辦公場景語音交互一體化技術空白。
2、背景
當前辦公場景的語音交互能力,多以單一軟件插件、云端接口或分散硬件形式存在,未形成系統(tǒng)高效的交互體系,主要存在三大問題:一是復雜噪聲、遠場拾音等實際辦公場景中,語音識別準確率不足,難以兼顧實時性與精準度,影響辦公效率;二是語音能力與常用辦公終端割裂,缺乏統(tǒng)一交互入口,操作繁瑣,無法實現(xiàn)設備協(xié)同高效運作;三是傳統(tǒng)方案依賴GPU及復雜部署環(huán)境,私有化落地、適配及運維成本偏高,制約技術廣泛推廣。
二、技術原理及性能指標
1、技術原理
語音私有化部署:以統(tǒng)一底層硬件平臺為核心,采用Freqchip、Telink高性能主控芯片及自研語音前端方案,配置I2S/PDM數(shù)字麥克風陣列、BLE 5.x + 2.4G雙模通信等核心模塊;端側引入輕量化前端算法與離線識別能力,可穩(wěn)定實現(xiàn)200條常用辦公指令本地識別,協(xié)同云端大語言模型,兼顧隱私安全、設備功耗與交互效率,實現(xiàn)多維度優(yōu)勢統(tǒng)一。
語音能力生成與圖形界面感知:構建以語音驅(qū)動為核心的AI辦公綜合平臺,疊加AI Agent GUI核心能力,集成語音識別、大語言模型等關鍵能力,實現(xiàn)語音轉寫、PPT生成、會議速記等多樣化辦公功能;通過標準化SDK/API接口及智能調(diào)度系統(tǒng),使各類辦公設備共享統(tǒng)一軟件平臺與控制邏輯,實現(xiàn)協(xié)同聯(lián)動。
三、技術的創(chuàng)造性與先進性
1、創(chuàng)造性
(1)語音驅(qū)動辦公內(nèi)容生成:將語音識別與大語言模型深度融合,面向多領域?qū)崿F(xiàn)語音轉寫、PPT生成、會議紀要及圖表生成的連續(xù)化應用,大幅提升辦公創(chuàng)作效率與質(zhì)量。(2)軟硬協(xié)同系統(tǒng)級語音控制:通過終端、軟件與接口協(xié)同,實現(xiàn)應用打開、文檔編輯等系統(tǒng)級控制,可延展至跨應用任務,打破交互壁壘。(3)語音+GUI桌面智能體:依托AI Agent GUI技術,串聯(lián)語音理解、屏幕感知等環(huán)節(jié),支持跨平臺復雜辦公任務自動化,解放人力。
2、先進性
采用Freqchip、Telink高能效主控平臺及多類核心模塊,實現(xiàn)辦公終端高度集成,縮小設備體積、降低硬件成本。SoC/NPU側集成AEC、VAD、Beamforming等核心技術,穩(wěn)定實現(xiàn)200條本地離線指令精準識別,協(xié)同多模態(tài)交互,提升操作靈活性。軟件與終端協(xié)同層引入窗口識別、OCR等模塊,與語音識別聯(lián)動,使終端具備桌面GUI感知與精準操作能力,適配多場景需求。
四、技術的成熟程度,適用范圍和安全性
1、成熟程度
三大核心技術已完成小試、中試及量產(chǎn)轉化,工藝參數(shù)固化,性能穩(wěn)定,批次間波動≤5%,滿足大規(guī)模生產(chǎn)需求。建成超五千平方米標準化生產(chǎn)線,實現(xiàn)全流程自動化生產(chǎn),配備高精度檢測與質(zhì)量控制體系,產(chǎn)品良率≥98%,具備批量供貨能力;產(chǎn)品通過專業(yè)檢測與客戶驗證,應用于聯(lián)想、百度等企業(yè),反饋良好、認可度高。
2、適用范圍
核心應用于AI智能語音鼠標、鍵盤等辦公硬件,為用戶提供高效便捷的語音交互體驗,提升辦公效率;拓展應用于語音大模型部署、Agent軟硬件一體平臺等領域,適配多行業(yè)個性化需求,應用前景廣闊。
3、安全性
語音硬件生產(chǎn)采用環(huán)保工藝,污染物排放遠低于國標,廢氣經(jīng)凈化后達標排放,固廢規(guī)范處置,符合綠色生產(chǎn)理念。生產(chǎn)車間溫濕度可控,設備與工藝符合安全規(guī)范,定期檢修維護,無安全隱患,保障生產(chǎn)有序進行。
五、應用情況及存在的問題
應用上,已與百度、華為、聯(lián)想等知名企業(yè)建立深度戰(zhàn)略合作,提供技術配套與產(chǎn)品供應,合作成效顯著。2023-2025年銷售收入年均增長率超100%,2025年約1.6億元,市場占有率穩(wěn)步提升。通過參加行業(yè)展會,核心技術拓展至多領域,形成多元化應用格局,為后續(xù)市場拓展奠定基礎。
存在三大問題:一是國際市場拓展不足,海外渠道薄弱、份額偏低,需加強布局與推廣;二是特定場景專用產(chǎn)品研發(fā)不足,極端工況適配有優(yōu)化空間,需提升環(huán)境適應性;三是技術迭代速度需加快,加大研發(fā)投入,以應對行業(yè)多元化、私有化、個性化發(fā)展需求。
1.洪青陽 2.韓國仕 3.王曄晗 4.班榮軍 5.馮疏桐 6.姜躍猛 7.黃波錦
| |
評價單位: |
中國電子節(jié)能技術協(xié)會、工業(yè)和信息化部國際經(jīng)濟技術合作中心 |
報告編號: |
中電節(jié)評字[2026]第CG044號 |
評價日期: |
2026-04-27 |
| |
組織單位: |
中國電子節(jié)能技術協(xié)會、工業(yè)和信息化部國際經(jīng)濟技術合作中心 |
項目負責: |
班榮軍 |
成果管理: |
13956971233 |
1.提供的資料基本齊全,符合評價要求。
2.該科技成果的關鍵技術及主要創(chuàng)新點:
(1)通過窗口識別、界面區(qū)域感知、控件定位、屏幕OCR與鍵鼠事件執(zhí)行模塊,采用語音識別、離線指令識別和多模態(tài)輸入方式聯(lián)動技術,實現(xiàn)GUI感知與多模態(tài)執(zhí)行模塊整合,實現(xiàn)硬件終端與桌面GUI的狀態(tài)感知與操作執(zhí)行。
(2)通過采用I2S/PDM 數(shù)字麥克風陣列、語音前端 Codec、BLE 5.x + 2.4G雙模通信、語音交互物理按鍵及AI陀螺儀動作識別技術,實現(xiàn)語音硬件平臺低功耗、高集成化。
(3)通過圍繞DoA聲源定位、多聲源跟蹤、MVDR/GSC波束形成、回聲消除、混響抑制及說話人分離等算法鏈技術,實現(xiàn)會議速記、場景交互和復雜噪聲環(huán)境的語音前端處理。
(4)通過ONNX int8量化模型與CPU VNNI加速技術,采用綠色版解包即運行、標準接口和集群化部署技術,解決了私有化部署成本和運維的問題,實現(xiàn)CPU側私有化部署與高并發(fā)運行。該技術符合智能化、綠色化發(fā)展方向,應用前景良好。
3.該項目技術已獲得國家發(fā)明專利,具有自主知識產(chǎn)權。
4.評價委員會認為該項目技術達到國際先進水平,一致同意通過科技成果評價,予以科技成果登記。
| 姓名 |
工作單位 |
職稱 |
從事專業(yè) |
| 黃利斌 |
工業(yè)和信息化部節(jié)能與綜合利用司 |
正高 | |
| 許國祿 |
工信部經(jīng)濟運行局 |
正高 | |
| 羅俊章 |
工信部中小企業(yè)發(fā)展促進中心 |
正高 | |
| 劉永東 |
工信部一所 |
副高 | |
| 張玉軍 |
中科院計算機所 |
正高 | |
| 崔志廣 |
工信部賽迪研究院 |
正高 | |
| 趙謖玲 |
北京交通大學教育部重點實驗室 |
正高 | |