一、課題來源與背景
大數(shù)據(jù)時代,面對數(shù)據(jù)類型和來源的多樣化,企業(yè)需要充分利用自然語言處理、音頻、視頻等領(lǐng)域的交叉融合技術(shù),實現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一處理和分析。針對上述需求,本項目提供了有效的解決方案并完成了多模態(tài)語料數(shù)據(jù)智能平臺的產(chǎn)品研發(fā)。
二、技術(shù)原理及性能指標(biāo)
多模態(tài)語料數(shù)據(jù)智能平臺是一款能在保證數(shù)據(jù)安全的基礎(chǔ)上具備結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的全鏈路實時的采集、處理、存儲、分析等功能的智能化數(shù)據(jù)管理產(chǎn)品。
1.在數(shù)據(jù)平臺開發(fā)、分析等各環(huán)節(jié)引入大語言模型,省去人工配置的繁瑣工序。
2.在結(jié)構(gòu)化數(shù)據(jù)處理環(huán)節(jié)中,采用數(shù)據(jù)湖技術(shù)(Iceberg)作為結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一表格式,比傳統(tǒng)的hive表格式有更強的先進性;采用存算分離架構(gòu),有利于降低成本。
3.針對多模態(tài)數(shù)據(jù)的不同特點,選擇對象存儲作為平臺的底層存儲系統(tǒng),成本低廉,且使用協(xié)議統(tǒng)一規(guī)范(S3協(xié)議),在云上容易獲取,具備不同類型數(shù)據(jù)存儲的特點,冷熱數(shù)據(jù)分離既提高了存儲效率也保證了存儲容量的幾乎無限制擴展。
4.云原生化能帶來資源良好的隔離性和彈性,底層硬件和操作系統(tǒng)的適配標(biāo)準(zhǔn)化,具備了一處打包,多處運行的特質(zhì),使得平臺的可移植性得到提高。
三、技術(shù)的創(chuàng)造性與先進性
1.主要創(chuàng)新點
(1)研發(fā)了一種數(shù)據(jù)全鏈路實時處理架構(gòu),實現(xiàn)了數(shù)據(jù)的實時抓取和智能分析;開發(fā)了冷溫?zé)釘?shù)據(jù)自動分區(qū)的輕量級智能遷移技術(shù),提高了多模態(tài)語料數(shù)據(jù)的實時存取效率。
(2)在原有的NLP to SQL基礎(chǔ)上,結(jié)合企業(yè)級數(shù)據(jù)平臺較為完整的指標(biāo)體系特點,提出了Metric Query Language架構(gòu),實現(xiàn)了基于自然語言的多模態(tài)語料數(shù)據(jù)統(tǒng)一分析處理。
(3)研發(fā)了小文件動態(tài)智能合并子系統(tǒng),提升了存儲效率和查詢速度。
(4)研制了結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的語料數(shù)據(jù)智能平臺,在湖倉一體的架構(gòu)里實現(xiàn)對多模態(tài)數(shù)據(jù)的動態(tài)存取和分析,支撐基于數(shù)據(jù)的業(yè)務(wù)決策場景。
2.主要技術(shù)優(yōu)勢
(1)該平臺解決了大型央國企的核心數(shù)據(jù)平臺多級管理的問題,采用了多湖聯(lián)邦的技術(shù)架構(gòu),可以大幅降低數(shù)據(jù)ETL成本,減少數(shù)據(jù)遷移,實現(xiàn)多級數(shù)據(jù)湖之間的跨湖訪問及管控治理。
(2)該平臺采用體系化的湖倉一體的架構(gòu),實現(xiàn)了Direct lake方式降低出湖建倉成本,資源利用率從30%提升到60%,并以多云存儲的技術(shù)架構(gòu)來實現(xiàn)流批統(tǒng)一存儲,降低數(shù)據(jù)存儲成本;并基于Data Fabric的技術(shù)架構(gòu)理念,實現(xiàn)一站式的數(shù)據(jù)開發(fā)治理分析平臺,降低維護成本。
(3)該平臺支持了Gateway智能路由計算網(wǎng)關(guān),在此基礎(chǔ)上實現(xiàn)了支持分布式和多租戶,統(tǒng)一SQL接口對接不同工作負(fù)載,用于在Lakehouse上提供Serverless SQL,為用戶提供更好的數(shù)據(jù)服務(wù)。
(4)多模態(tài)語料數(shù)據(jù)智能平臺在技術(shù)架構(gòu)上提供了統(tǒng)一的用戶體驗,以低代碼方式開發(fā)指標(biāo),實現(xiàn)業(yè)務(wù)和數(shù)據(jù)的口徑一致;并實現(xiàn)開發(fā)治理一體化,從根源上保障數(shù)據(jù)質(zhì)量;在智能化方面通過大模型智能助手實現(xiàn)語義化智能分析。
四、技術(shù)的成熟程度,適用范圍和安全性
經(jīng)過三年的科學(xué)研究與技術(shù)創(chuàng)新工作,該技術(shù)性能指標(biāo)達到任務(wù)書要求,創(chuàng)新使用多模態(tài)數(shù)據(jù)源安全沙箱,實現(xiàn)了數(shù)據(jù)安全、模型安全、應(yīng)用安全,產(chǎn)品授權(quán)了20余項技術(shù)專利、擁有25項軟件著作權(quán)登記、獲得了中國信通院“可信研創(chuàng)”認(rèn)證,代碼自主率達到94.31%;并具備云原生、低成本存儲、高性能計算、簡單易用、安全可靠等特點。該產(chǎn)品已達到成熟應(yīng)用階段,應(yīng)用于200+大中型企業(yè)。
五、應(yīng)用情況及存在的問題
目前,該產(chǎn)品已經(jīng)在大型國央企、裝備軍工、半導(dǎo)體、能源、工程設(shè)計、基礎(chǔ)制造、商業(yè)綜合等行業(yè)領(lǐng)域超200+企業(yè)實現(xiàn)了產(chǎn)品配套及應(yīng)用落地,為企業(yè)數(shù)字化轉(zhuǎn)型搭建了數(shù)據(jù)智能基礎(chǔ)設(shè)施。
(1)大型國央企:如華潤、交通集團、深圳/佛山/無錫市區(qū)大數(shù)據(jù)局等地方國企數(shù)據(jù)平臺底座;
(2)裝備軍工:如航空發(fā)動機的設(shè)計(624)、發(fā)動機的生產(chǎn)制造(420)、航發(fā)維修(5719)等軍工裝備產(chǎn)業(yè)鏈企業(yè),貫穿從需求、設(shè)計、制造、供應(yīng)鏈、銷售到售后全業(yè)務(wù)過程;
(3)能源行業(yè):中石油、中海油、中石化全面進入,從勘探開發(fā)、煉化、銷售、運營等能源全鏈條產(chǎn)業(yè)的數(shù)據(jù)智能服務(wù);
(4)基礎(chǔ)制造:如長安新能源汽車、巴扎海船舶、納愛斯集團、四川重慶機電、陜藥集團、威高集團等企業(yè)全鏈路業(yè)務(wù)數(shù)據(jù)管理與分析服務(wù)。
六、歷年獲獎情況
2023大數(shù)據(jù)“星河”案例獎、2022年中國北京創(chuàng)新創(chuàng)業(yè)大賽第十一屆中國創(chuàng)新創(chuàng)業(yè)大賽北京賽區(qū)成長組一等獎、國家標(biāo)準(zhǔn)企業(yè)競爭力5A級、2019及2020年中關(guān)村前沿大賽第四名、HICOOL2023全球創(chuàng)業(yè)大賽優(yōu)勝獎等。
1.趙杰輝 2.楊磊 3.王兵 4.柏海峰 5.馮森 6.馬歡 7.馮吉坤 8.張趙中 9.劉波 10.許俊雄 11.俞志剛 12.王永進 13.王琳 14.紅樂 15.李暢
| |
評價單位: |
中國民營科技促進會 |
報告編號: |
中促會評字[2024]第044號 |
評價日期: |
2024-04-02 |
| |
組織單位: |
中國民營科技促進會科技成果轉(zhuǎn)化辦公室 |
項目負(fù)責(zé): |
張研 |
成果管理: |
18911978313 |
1.項目提供的評價資料齊全,符合評價要求。
2.項目的創(chuàng)新點和技術(shù)特點如下:
(1)研發(fā)了一種數(shù)據(jù)全鏈路實時處理架構(gòu),實現(xiàn)了數(shù)據(jù)的實時抓取和智能分析;開發(fā)了冷溫?zé)釘?shù)據(jù)自動分區(qū)的輕量級智能遷移技術(shù),提高了多模態(tài)語料數(shù)據(jù)的實時存取效率。
(2)在原有的 NLP to SQL基礎(chǔ)上,結(jié)合企業(yè)級數(shù)據(jù)平臺較為完整的指標(biāo)體系特點,提出了Metric Query Language架構(gòu),實現(xiàn)了基于自然語言的多模態(tài)語料數(shù)據(jù)統(tǒng)一分析處理。
(3)研發(fā)了小文件動態(tài)智能合并子系統(tǒng),提升了存儲效率和查詢速度。
(4)研制了結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的語料數(shù)據(jù)智能平臺,在湖倉一體的架構(gòu)里實現(xiàn)對多模態(tài)數(shù)據(jù)的動態(tài)存取和分析,支撐基于數(shù)據(jù)的業(yè)務(wù)決策場景。
3.項目產(chǎn)品已通過中國賽寶實驗室軟件測試。
4.該項目已獲得發(fā)明專利授權(quán)20件,軟件著作權(quán)25項。
5.該技術(shù)成果已在中國航發(fā)成都發(fā)動機公司、中核裝備技術(shù)研究(上海)有限公司、重慶長安新能源汽車科技有限公司、四川九洲電器集團有限責(zé)任公司、四川航天烽火伺服控制技術(shù)有限公司(國營7111廠)、中航工業(yè)燃?xì)鉁u輪研究院(624所)、航天工業(yè)發(fā)展股份有限公司、上海集成電路研發(fā)中心、北京奕斯偉科技集團有限公司、廣汽集團等應(yīng)用。
評價委員會認(rèn)為該項目綜合技術(shù)達到國內(nèi)領(lǐng)先水平,一致同意通過科技成果評價。
| 姓名 |
工作單位 |
職稱 |
從事專業(yè) |
| 張向陽 |
中國科學(xué)院北京軟件工程研制中心 |
正高 | 軟件 |
| 宮云戰(zhàn) |
北京郵電大學(xué)計算機學(xué)院 |
正高 | 軟件 |
| 李紅輝 |
北京交通大學(xué)網(wǎng)絡(luò)管理研究中心 |
正高 | 軟件 |
| 周迎 |
科技部火炬中心 |
正高 | 科技管理 |
| 張序國 |
北京大學(xué)國家高新區(qū)發(fā)展戰(zhàn)略研究院 |
正高 | 科技管理 |