中新網北京電(記者 吳濤)當人工智能的浪潮席卷全球,其背后的“燃料”——數據,正成為競相爭奪的戰(zhàn)略資源。然而,并非所有數據都能加速AI的發(fā)展。一場從“海量數據”向“高質量數據集”的變革正在發(fā)生。
何為高質量數據集?
2024年12月,國家發(fā)展改革委、國家數據局等部門印發(fā)《關于促進數據產業(yè)高質量發(fā)展的指導意見》,首次明確提出“高質量數據集”概念,支持企業(yè)面向人工智能應用創(chuàng)新,開發(fā)高質量數據集,大力發(fā)展“數據即服務”“知識即服務”“模型即服務”等新業(yè)態(tài)。
近日發(fā)布的《高質量數據集建設指引》指出,大模型參數規(guī)模指數級增長與多模態(tài)能力的拓展,數據需求從“量級積累”轉向“量質并重”。
官方數據顯示,截至2025年6月,全國建設高質量數據集超3.5萬個、總量超400PB;數據交易機構掛牌高質量數據集3364個,作為交易流通中的關鍵商品,累計交易額近40億元,規(guī)模達246PB。
在近日舉行的一場論壇上,中國信息通信研究院院長余曉暉表示,放眼全球,有大量的私域數據,在場景、行業(yè)、政府中,這部分數據能夠釋放出來,是構成高質量數據集非常重要的一個方向。
高質量數據集和AI發(fā)展相輔相成
因為AI大模型的訓練會用到海量數據,所以,市場一直有觀點認為,未來將無數據可用,或者不得不用大量的合成數據。在這種情況下,高質量數據集無疑成為數據流通的“硬通貨”。
清華大學數字政府與治理研究院院長、教授張小勁表示,人工智能大模型走到哪里,高質量數據集就走到哪里,反之,高質量數據集走到哪里,人工智能就走到哪里,這是相輔相成的,是雙輪驅動的格局。
中國工程院院士吳世忠指出,數據集建設的質量和安全,是大模型發(fā)展的生命線,要完善分級分類的數據安全制度,強化全流程的技術防護手段,筑牢防篡改的底層技術能力。在數據集建設中,還要主動融入中華優(yōu)秀傳統(tǒng)文化,避免模型成為利己主義的工具。
目前高質量數據集建設如火如荼,深圳市政務服務和數據管理局黨組書記、局長周劍明在國家數據局官網發(fā)文分享,深圳市結合公共數據資源授權運營和可信數據空間建設探索,支持高質量公共數據和企業(yè)數據等融合應用,已在征信金融、氣象、商保理賠等領域開展試點,取得較好成效。(完)
(責任編輯:蔡文斌)