一、課題來(lái)源與背景
1、課題來(lái)源
當(dāng)前人工智能產(chǎn)業(yè)快速迭代升級(jí),語(yǔ)音大模型在辦公、教育、政務(wù)等多領(lǐng)域應(yīng)用廣泛且深入,市場(chǎng)對(duì)一體化、垂直化專業(yè)語(yǔ)音解決方案需求日益迫切。本項(xiàng)目源于這一核心需求,針對(duì)傳統(tǒng)語(yǔ)音技術(shù)成本高、體驗(yàn)不佳的突出短板,采用全自主研發(fā)模式,專項(xiàng)攻關(guān)高性能軟硬一體化智能語(yǔ)音交互終端關(guān)鍵技術(shù),打造面向AI辦公場(chǎng)景的終端及配套AI Agent GUI技術(shù)體系,填補(bǔ)辦公場(chǎng)景語(yǔ)音交互一體化技術(shù)空白。
2、背景
當(dāng)前辦公場(chǎng)景的語(yǔ)音交互能力,多以單一軟件插件、云端接口或分散硬件形式存在,未形成系統(tǒng)高效的交互體系,主要存在三大問(wèn)題:一是復(fù)雜噪聲、遠(yuǎn)場(chǎng)拾音等實(shí)際辦公場(chǎng)景中,語(yǔ)音識(shí)別準(zhǔn)確率不足,難以兼顧實(shí)時(shí)性與精準(zhǔn)度,影響辦公效率;二是語(yǔ)音能力與常用辦公終端割裂,缺乏統(tǒng)一交互入口,操作繁瑣,無(wú)法實(shí)現(xiàn)設(shè)備協(xié)同高效運(yùn)作;三是傳統(tǒng)方案依賴GPU及復(fù)雜部署環(huán)境,私有化落地、適配及運(yùn)維成本偏高,制約技術(shù)廣泛推廣。
二、技術(shù)原理及性能指標(biāo)
1、技術(shù)原理
語(yǔ)音私有化部署:以統(tǒng)一底層硬件平臺(tái)為核心,采用Freqchip、Telink高性能主控芯片及自研語(yǔ)音前端方案,配置I2S/PDM數(shù)字麥克風(fēng)陣列、BLE 5.x + 2.4G雙模通信等核心模塊;端側(cè)引入輕量化前端算法與離線識(shí)別能力,可穩(wěn)定實(shí)現(xiàn)200條常用辦公指令本地識(shí)別,協(xié)同云端大語(yǔ)言模型,兼顧隱私安全、設(shè)備功耗與交互效率,實(shí)現(xiàn)多維度優(yōu)勢(shì)統(tǒng)一。
語(yǔ)音能力生成與圖形界面感知:構(gòu)建以語(yǔ)音驅(qū)動(dòng)為核心的AI辦公綜合平臺(tái),疊加AI Agent GUI核心能力,集成語(yǔ)音識(shí)別、大語(yǔ)言模型等關(guān)鍵能力,實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)寫(xiě)、PPT生成、會(huì)議速記等多樣化辦公功能;通過(guò)標(biāo)準(zhǔn)化SDK/API接口及智能調(diào)度系統(tǒng),使各類辦公設(shè)備共享統(tǒng)一軟件平臺(tái)與控制邏輯,實(shí)現(xiàn)協(xié)同聯(lián)動(dòng)。
三、技術(shù)的創(chuàng)造性與先進(jìn)性
1、創(chuàng)造性
(1)語(yǔ)音驅(qū)動(dòng)辦公內(nèi)容生成:將語(yǔ)音識(shí)別與大語(yǔ)言模型深度融合,面向多領(lǐng)域?qū)崿F(xiàn)語(yǔ)音轉(zhuǎn)寫(xiě)、PPT生成、會(huì)議紀(jì)要及圖表生成的連續(xù)化應(yīng)用,大幅提升辦公創(chuàng)作效率與質(zhì)量。(2)軟硬協(xié)同系統(tǒng)級(jí)語(yǔ)音控制:通過(guò)終端、軟件與接口協(xié)同,實(shí)現(xiàn)應(yīng)用打開(kāi)、文檔編輯等系統(tǒng)級(jí)控制,可延展至跨應(yīng)用任務(wù),打破交互壁壘。(3)語(yǔ)音+GUI桌面智能體:依托AI Agent GUI技術(shù),串聯(lián)語(yǔ)音理解、屏幕感知等環(huán)節(jié),支持跨平臺(tái)復(fù)雜辦公任務(wù)自動(dòng)化,解放人力。
2、先進(jìn)性
采用Freqchip、Telink高能效主控平臺(tái)及多類核心模塊,實(shí)現(xiàn)辦公終端高度集成,縮小設(shè)備體積、降低硬件成本。SoC/NPU側(cè)集成AEC、VAD、Beamforming等核心技術(shù),穩(wěn)定實(shí)現(xiàn)200條本地離線指令精準(zhǔn)識(shí)別,協(xié)同多模態(tài)交互,提升操作靈活性。軟件與終端協(xié)同層引入窗口識(shí)別、OCR等模塊,與語(yǔ)音識(shí)別聯(lián)動(dòng),使終端具備桌面GUI感知與精準(zhǔn)操作能力,適配多場(chǎng)景需求。
四、技術(shù)的成熟程度,適用范圍和安全性
1、成熟程度
三大核心技術(shù)已完成小試、中試及量產(chǎn)轉(zhuǎn)化,工藝參數(shù)固化,性能穩(wěn)定,批次間波動(dòng)≤5%,滿足大規(guī)模生產(chǎn)需求。建成超五千平方米標(biāo)準(zhǔn)化生產(chǎn)線,實(shí)現(xiàn)全流程自動(dòng)化生產(chǎn),配備高精度檢測(cè)與質(zhì)量控制體系,產(chǎn)品良率≥98%,具備批量供貨能力;產(chǎn)品通過(guò)專業(yè)檢測(cè)與客戶驗(yàn)證,應(yīng)用于聯(lián)想、百度等企業(yè),反饋良好、認(rèn)可度高。
2、適用范圍
核心應(yīng)用于AI智能語(yǔ)音鼠標(biāo)、鍵盤(pán)等辦公硬件,為用戶提供高效便捷的語(yǔ)音交互體驗(yàn),提升辦公效率;拓展應(yīng)用于語(yǔ)音大模型部署、Agent軟硬件一體平臺(tái)等領(lǐng)域,適配多行業(yè)個(gè)性化需求,應(yīng)用前景廣闊。
3、安全性
語(yǔ)音硬件生產(chǎn)采用環(huán)保工藝,污染物排放遠(yuǎn)低于國(guó)標(biāo),廢氣經(jīng)凈化后達(dá)標(biāo)排放,固廢規(guī)范處置,符合綠色生產(chǎn)理念。生產(chǎn)車(chē)間溫濕度可控,設(shè)備與工藝符合安全規(guī)范,定期檢修維護(hù),無(wú)安全隱患,保障生產(chǎn)有序進(jìn)行。
五、應(yīng)用情況及存在的問(wèn)題
應(yīng)用上,已與百度、華為、聯(lián)想等知名企業(yè)建立深度戰(zhàn)略合作,提供技術(shù)配套與產(chǎn)品供應(yīng),合作成效顯著。2023-2025年銷售收入年均增長(zhǎng)率超100%,2025年約1.6億元,市場(chǎng)占有率穩(wěn)步提升。通過(guò)參加行業(yè)展會(huì),核心技術(shù)拓展至多領(lǐng)域,形成多元化應(yīng)用格局,為后續(xù)市場(chǎng)拓展奠定基礎(chǔ)。
存在三大問(wèn)題:一是國(guó)際市場(chǎng)拓展不足,海外渠道薄弱、份額偏低,需加強(qiáng)布局與推廣;二是特定場(chǎng)景專用產(chǎn)品研發(fā)不足,極端工況適配有優(yōu)化空間,需提升環(huán)境適應(yīng)性;三是技術(shù)迭代速度需加快,加大研發(fā)投入,以應(yīng)對(duì)行業(yè)多元化、私有化、個(gè)性化發(fā)展需求。
1.洪青陽(yáng) 2.韓國(guó)仕 3.王曄晗 4.班榮軍 5.馮疏桐 6.姜躍猛 7.黃波錦
| |
評(píng)價(jià)單位: |
中國(guó)電子節(jié)能技術(shù)協(xié)會(huì)、工業(yè)和信息化部國(guó)際經(jīng)濟(jì)技術(shù)合作中心 |
報(bào)告編號(hào): |
中電節(jié)評(píng)字[2026]第CG044號(hào) |
評(píng)價(jià)日期: |
2026-04-27 |
| |
組織單位: |
中國(guó)電子節(jié)能技術(shù)協(xié)會(huì)、工業(yè)和信息化部國(guó)際經(jīng)濟(jì)技術(shù)合作中心 |
項(xiàng)目負(fù)責(zé): |
班榮軍 |
成果管理: |
13956971233 |
1.提供的資料基本齊全,符合評(píng)價(jià)要求。
2.該科技成果的關(guān)鍵技術(shù)及主要?jiǎng)?chuàng)新點(diǎn):
(1)通過(guò)窗口識(shí)別、界面區(qū)域感知、控件定位、屏幕OCR與鍵鼠事件執(zhí)行模塊,采用語(yǔ)音識(shí)別、離線指令識(shí)別和多模態(tài)輸入方式聯(lián)動(dòng)技術(shù),實(shí)現(xiàn)GUI感知與多模態(tài)執(zhí)行模塊整合,實(shí)現(xiàn)硬件終端與桌面GUI的狀態(tài)感知與操作執(zhí)行。
(2)通過(guò)采用I2S/PDM 數(shù)字麥克風(fēng)陣列、語(yǔ)音前端 Codec、BLE 5.x + 2.4G雙模通信、語(yǔ)音交互物理按鍵及AI陀螺儀動(dòng)作識(shí)別技術(shù),實(shí)現(xiàn)語(yǔ)音硬件平臺(tái)低功耗、高集成化。
(3)通過(guò)圍繞DoA聲源定位、多聲源跟蹤、MVDR/GSC波束形成、回聲消除、混響抑制及說(shuō)話人分離等算法鏈技術(shù),實(shí)現(xiàn)會(huì)議速記、場(chǎng)景交互和復(fù)雜噪聲環(huán)境的語(yǔ)音前端處理。
(4)通過(guò)ONNX int8量化模型與CPU VNNI加速技術(shù),采用綠色版解包即運(yùn)行、標(biāo)準(zhǔn)接口和集群化部署技術(shù),解決了私有化部署成本和運(yùn)維的問(wèn)題,實(shí)現(xiàn)CPU側(cè)私有化部署與高并發(fā)運(yùn)行。該技術(shù)符合智能化、綠色化發(fā)展方向,應(yīng)用前景良好。
3.該項(xiàng)目技術(shù)已獲得國(guó)家發(fā)明專利,具有自主知識(shí)產(chǎn)權(quán)。
4.評(píng)價(jià)委員會(huì)認(rèn)為該項(xiàng)目技術(shù)達(dá)到國(guó)際先進(jìn)水平,一致同意通過(guò)科技成果評(píng)價(jià),予以科技成果登記。
| 姓名 |
工作單位 |
職稱 |
從事專業(yè) |
| 黃利斌 |
工業(yè)和信息化部節(jié)能與綜合利用司 |
正高 | |
| 許國(guó)祿 |
工信部經(jīng)濟(jì)運(yùn)行局 |
正高 | |
| 羅俊章 |
工信部中小企業(yè)發(fā)展促進(jìn)中心 |
正高 | |
| 劉永東 |
工信部一所 |
副高 | |
| 張玉軍 |
中科院計(jì)算機(jī)所 |
正高 | |
| 崔志廣 |
工信部賽迪研究院 |
正高 | |
| 趙謖玲 |
北京交通大學(xué)教育部重點(diǎn)實(shí)驗(yàn)室 |
正高 | |