近年来,人工智能大模型快速迭代与深度应用,正加速重塑各行业发展模式,数据作为人工智能核心三要素之一,其质量直接决定模型的训练效果与应用价值,高质量数据集已成为驱动AI模型性能提升、赋能千行百业的关键基础资源。
根据国家数据局指导发布的《高质量数据集建设指引》,高质量数据集是指:经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型表现的数据的集合。数据显示,截至2025年年底,全国范围内已建成的高质量数据集超过10万个,总体量突破890PB,这一方面彰显了国家在高质量数据集建设上的坚定决心,另一方面也预示着高质量数据集未来将在各领域发挥更多作用。
为加快推动高质量数据集建设,充分发挥我国海量数据资源和丰富应用场景的优势,国家和地方层面纷纷发力,密集启动高质量数据集征集、典型案例评选及先行先试项目,旨在汇聚一批具备先进性、创新性、示范性、合规性的数据资源,总结推广先进建设经验,进一步释放数据要素价值。据湖南国脉原道数据科技有限公司研究团队不完全统计,截至目前网上公开的高质量数据集征集材料涵盖国家及40余个地区,共计60余份。为帮助相关单位精准掌握各地高质量数据集申报要求,规避申报过程中的难点痛点,研究团队对申报主体资质、征集方向、数据集要求等核心要点进行系统梳理、提炼汇总,并提出了几点申报建议,供各相关单位申报参考、借鉴使用。
通过公开渠道共收集涵盖国家、省、市、县(市)四个层级,合计42个地区的69份高质量数据集征集文件,具体情况如下:
1.从发布机构来看,近80%的征集文件由各级数据部门发布,体现了数据主管部门的核心统筹推动作用,工信、住建部门主要发布与其相关专项行业领域高质量数据集征集文件,呈现出“数据部门主导、行业部门协同”的特点。

2.从发布时间来看,2024年为启动阶段,征集量较少,湖北省、山东省、广东省、河北省4个地区共计发布了7份征集文件;2025年进入发布高峰期,国家数据局综合司于当年6月发布了《关于征集高质量数据集典型案例的通知》,地方层面也积极推进,全年共发布44份征集文件,成为高质量数据集征集工作的核心推进期;2026年征集工作持续深化,截至4月初已发布18份征集文件,展现出良好的延续性与深入态势。

3.从发布地区来看,湖北省、广东省、山东省发布的征集文件数量较多,且三地均从2024年就率先启动征集工作;其次为福建省、浙江省、江苏省等地。总体而言,东部沿海区域征集文件发布最为密集,其发布数量占总数的50%以上,与该区域数字经济发展水平高、数据资源富集、政策推进力度大密切相关。
1.主体资质:大部分要求申报主体为对应申报地辖区注册登记的企事业单位、科研机构、高等院校、社会组织等,具有独立法人资格,个别地区未限制主体性质,如海南省住建厅、湖北省住建厅2026年2月份发布的征集公告明确单位和个人均可;此外,部分地区还要求税务征管关系或生产经营活动在辖区范围内。
2.经营与信用状况:大部分要求近三年经营状况良好,在信用、质量、安全、环保等方面无不良记录,部分地区还要求财务管理制度健全,近三年未发生重大网络、数据安全事件等。
3.能力与资源:部分地区对申报主体专业能力与资源保障提出要求,如申报单位应从事数字经济领域研发、制造或应用,或具备行业领先的数据汇聚能力、技术先进的数据治理能力,配备稳定专业的技术团队、具备持续的资金投入等。
4.申报形式:允许联合申报为多数地区通行规则,须明确牵头单位及各成员权责分工;个别地区对联合体成员数量提出限制要求,如江苏省数据局2026年征集文件要求联合申报成员单位最多3家;少数地区不接受联合申报,如上海市数据局2025年征集文件、湖南省数据局2026年征集文件。
5.其他限制性要求:一是重复申报限制,江苏省、上海市等地区明确,已入选2025年度国家数据局行业高质量数据集先行先试项目的,不得在本批次重复申报;二是申报数量限制,部分地区对同一单位在同一批次申报中牵头或参与项目数量设上限,如北京市不超过5个、宁波市仅限1个,避免过度申报挤占资源。
1.核心征集领域:以“数据要素×”12个重点行业为核心征集领域,包括工业制造、现代农业、商贸流通、交通运输、金融服务、科技创新、文化旅游、医疗健康、应急管理、气象服务、城市治理、绿色低碳,加上教育教学、智慧能源、人力资源、公共安全等常驻领域。
2.创新热点领域:创新热点征集方向集中在低空经济、具身智能、智能驾驶、生物制造、智慧海洋等新兴领域,各地也会结合本地产业特色(如上海市“五个中心”相关行业领域、湖南的“4×4”现代化产业体系、苏州的“1030”产业、广州的“12218”体系)细化细分领域,贴合区域产业布局。
3.行业专项征集:部分行业开展了专项高质量数据集征集,精准破解重点行业数据供给不足问题,提升数据集的针对性和应用价值。目前已开展专项征集的行业为住建行业(围绕城市治理、住房与房地产、城乡建设、建筑业等细分领域)和工业和制造业领域(围绕行业研发设计、中试验证、生产制造、经营管理、产业协同等关键场景)。
1.实施进程:各地对数据集建设阶段要求存在差异化标准,以已建成并具备常态化更新能力为核心导向。多数地区要求申报数据集已完成建设,建立稳定、可持续的定期更新机制;部分地区允许在建或拟建数据集申报,但需明确建设计划与完工时限,如温州市要求2026年6月底前完成,武汉市要求2026年10月31日前完成。
2.规模量级:整体以实用够用、支撑应用为原则,多数地区未设置硬性数据条数或体量门槛,统一强调数据集需达到一定规模与量级,可满足模型训练、算法验证、业务落地等实际使用需求。下表整理了部分明确数据规模地区的要求:
3.数据质量:大部分地区未提出明确数据质量要求,普遍要求数据在真实性、完整性、规范性、准确性、及时性、一致性、相关性方面达到较高水准;少数地区明确量化要求,如北京市工信局2026年高质量数据集需求清单按领域细分质量标准,贵州省大数据局2025年征集文件要求数据重复率≤5%、近5年数据占比≥50%;宁波市发布《高质量数据集建设评价体系指引(试行)》,对真实性、完整性、规范性、准确性等维度制定具体评价细则。
此外,根据全国数据标准化技术委员会2025年8月发布的《高质量数据集质量 评测规范》,高质量数据集质量评测涵盖三大维度:说明文档、数据质量和模型应用。每个维度下设若干子指标,采用百分制评分,要求各维度得分均达到90分及以上方可认定为高质量数据集。
4.应用价值:申报数据集需场景落地、价值可证、示范可推。应具有实际的业务应用场景,具备一定的先进性、创新性、规模性和示范性,并取得了一定的经济效益或社会效益,成果可复制、可推广,能够支持开展人工智能大模型开发训练或支撑专业算法应用,具备可持续更新或服务能力。
5.安全合规:合规性是申报的第一生命线,所有数据集建设必须严格遵守《数据安全法》《个人信息保护法》等法律法规要求;数据来源合法,权属清晰,申报单位对申报项目所用的技术、产品拥有明晰的知识产权,无知识产权纠纷;不涉及个人隐私、商业秘密、国家秘密;不得包含违反社会主义核心价值观的内容。
6.测试样本:部分地区要求随申报提供测试样本,数量要求100-1000条不等,如北京市要求不少于1000条样本数据,安徽省要求200-500条,湖北省要求不少于100条。
1.政策密集,窗口期有限:各地征集公告发布时间申报窗口通常较短,通常为15~30天,部分紧急征集甚至不足一周,对申报单位的响应速度提出了挑战。有意向的单位提前准备,建立常态化跟踪机制,密切关注属地大数据局、工信部门、发改部门及国家级相关平台的官方通知。
2.标准趋严,质量优先:从规模要求到质量评测,各地对数据集的“量”和“质”均提出更高门槛。建议申报单位在数据清洗、标注、合规审查等环节引入专业评测工具或第三方服务,确保达到高质量标准。同时,建立质量自评体系,留存数据溯源、清洗日志、抽样检验等过程记录。对于涉及敏感信息的数据,还需完成脱敏处理及合规性审查。
3.场景驱动,价值导向:单纯“堆数据”已不具竞争力,“数据+场景+应用+成效”成为评审核心,能支撑大模型训练、解决行业痛点、产生实际价值的数据集更易入选。申报材料需突出实际业务场景、落地成效、可推广性,提供量化成效数据,如模型精度提升比例、效率提升幅度、成本降低金额等,附上应用案例、用户证明、合作协议、获奖证书等材料,增强说服力。
4.合规先行,规避风险:数据来源合法性、知识产权归属、隐私保护及安全合规是评审中的“一票否决项”。建议提前开展数据资产盘点与合规审计,确权、授权、溯源全程留痕,完善授权协议、采购合同、知识产权证明;建立数据安全管理制度,完成等保备案、数据分类分级、隐私保护认证,配备安全防护措施。
5.联合申报,优势互补:高质量数据集的构建往往需要数据资源、行业知识、技术能力等多方协作,对于数据资源丰富但技术能力不足,或技术领先但数据分散的单位,可考虑联合体申报,整合互补资源,提升数据集综合质量,但需注意,各地对联合申报的成员数量、牵头单位资质的限制。
来源:湖南国脉原道数据科技有限公司研究团队
更多精彩,请关注“官方微信”

国脉,是营商环境、数字政府、数字经济、低空经济、民营经济、产业发展、数字企业等领域的专业提供商。创新提出"软件+咨询+数据+平台+创新业务"五位一体服务模型,拥有营商环境督查与考核评估系统、政策智能服务系统、数据资源目录系统、数据基因、数据母体、数据智能评估系统等几十项软件产品,长期为中国城市、政府和企业提供专业咨询规划和数据服务,广泛服务于发改委、营商环境局、考核办、数据局、行政审批局等政府客户、中央企业和高等院校。
