高質量數據集和AI共振成為數據流通“硬通貨”

2025年09月04日 09時45分人民網

中新網北京電(記者吳濤)當人工智能的浪潮席卷全球，其背后的“燃料”——數據，正成為競相爭奪的戰(zhàn)略資源。然而，并非所有數據都能加速AI的發(fā)展。一場從“海量數據”向“高質量數據集”的變革正在發(fā)生。

何為高質量數據集？

2024年12月，國家發(fā)展改革委、國家數據局等部門印發(fā)《關于促進數據產業(yè)高質量發(fā)展的指導意見》，首次明確提出“高質量數據集”概念，支持企業(yè)面向人工智能應用創(chuàng)新，開發(fā)高質量數據集，大力發(fā)展“數據即服務”“知識即服務”“模型即服務”等新業(yè)態(tài)。

近日發(fā)布的《高質量數據集建設指引》指出，大模型參數規(guī)模指數級增長與多模態(tài)能力的拓展，數據需求從“量級積累”轉向“量質并重”。

官方數據顯示，截至2025年6月，全國建設高質量數據集超3.5萬個、總量超400PB；數據交易機構掛牌高質量數據集3364個，作為交易流通中的關鍵商品，累計交易額近40億元，規(guī)模達246PB。

在近日舉行的一場論壇上，中國信息通信研究院院長余曉暉表示，放眼全球，有大量的私域數據，在場景、行業(yè)、政府中，這部分數據能夠釋放出來，是構成高質量數據集非常重要的一個方向。

高質量數據集和AI發(fā)展相輔相成

因為AI大模型的訓練會用到海量數據，所以，市場一直有觀點認為，未來將無數據可用，或者不得不用大量的合成數據。在這種情況下，高質量數據集無疑成為數據流通的“硬通貨”。

清華大學數字政府與治理研究院院長、教授張小勁表示，人工智能大模型走到哪里，高質量數據集就走到哪里，反之，高質量數據集走到哪里，人工智能就走到哪里，這是相輔相成的，是雙輪驅動的格局。

中國工程院院士吳世忠指出，數據集建設的質量和安全，是大模型發(fā)展的生命線，要完善分級分類的數據安全制度，強化全流程的技術防護手段，筑牢防篡改的底層技術能力。在數據集建設中，還要主動融入中華優(yōu)秀傳統(tǒng)文化，避免模型成為利己主義的工具。

目前高質量數據集建設如火如荼，深圳市政務服務和數據管理局黨組書記、局長周劍明在國家數據局官網發(fā)文分享，深圳市結合公共數據資源授權運營和可信數據空間建設探索，支持高質量公共數據和企業(yè)數據等融合應用，已在征信金融、氣象、商保理賠等領域開展試點，取得較好成效。(完)

（責任編輯：蔡文斌）

【關閉窗口】

精品久草,亚洲综合精品香蕉久久网97,国产精品一色哟哟,91在线看片,国产成人精品三级,亚洲国产一区二区av,午夜精品极品粉嫩国产尤物