高质量数据集是指经过专业采集、清洗、标注和处理,可直接用于人工智能模型训练或数据分析,且具有高准确性、完整性、一致性和场景适配性的数据集合。经过系统性处理,可直接用于训练和优化人工智能模型的数据集合,被誉为驱动AI发展的“燃料”。高质量数据集的核心特征:多模态与全维度覆盖,严格标注与清洗,动态优化机制。高质量数据集是指具有一定主题,可以标识并可以用于人工智能训练、验证及测试等处理过程的数据形式,并且在完整性、规范性、准确性、均衡性、及时性、一致性、相关性等多个方面都达到了较高标准的数据集合。能够帮助研究人员、工程师和人工智能在开展数据分析、机器学习和模型计算时获得更可靠的结果。

数据集是人工智能“学习”的基础和源泉。根据《面向人工智能的数据集通用评估方法》,面向人工智能应用的数据集质量评估需要遵循科学的评估方法,基于人工智能应用需求与数据集质量目标选取合适的评估指标和相应的评估准则。人工智能数据集的评估主要分为定量、定性以及将前两者有机集合起来进行综合分析的方法。人工智能数据集的质量评估主要包括完整性、规范性、准确性、均衡性、及时性、一致性、相关性和其他等维度。

《人工智能高质量数据集建设指南》是由中国信息通信研究院人工智能研究所联合清华大学计算社会科学与国家治理实验室、中国人工智能产业发展联盟数据委员会于2025年9月2日发布的行业指导文件,旨在为人工智能领域高质量数据集建设提供实践参考。该文件由浪潮卓数大数据、标贝科技共同参与编制 。界定高质量数据集为用于训练、验证和优化人工智能大模型而收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动信息的数据资源集合,具有高价值应用、高知识密度、高技术含量的"三高"特征。

2025年6月23日,北京市政务服务和数据管理局副局长彭雪海在2025全球数字经济大会新闻发布会上宣布该指南。文件提出人工智能数据工程"五大核心要素"(涵盖管理体系、开发维护、质量控制、资源运营、合规可信五个层面)和企业建设"三步走"战略(包含体系规划、工程建设、质量检测三个阶段),分析了高质量数据集建设的核心技术,系统梳理"三大建设难点"并展示科学、通信、交通、铁塔、医疗、文化等领域的建设实践 。指南明确高质量数据集建设需经历数据设计和采集、治理、标注、质检、运营等流程,类似于石油"炼化"过程中的勘采、粗炼、精炼、质检、运营环节,从工程能力、技术创新、质量评估、版权合规、基础制度创新等维度对未来发展趋势作出展望,提出系统化、标准化、规模化的建设要求,并为政府部门和企业机构提供实施建议。

下面这个表格可以帮助你快速把握高质量数据集的核心特征和分类。
特征维度 | 核心内涵 | 说明 |
高质量
| 数据具有高价值、高密度、真实性、准确性、多样性 | 确保数据能有效提升模型性能,减少偏差。 |
精准标注
| 通过人工、半自动或自动方式为数据添加机器可理解的标签 | 是数据能否被模型正确学习的关键环节。 |
严苛标准
| 遵循统一的格式与质量规范,具备完整的说明文档 | 保证数据的规范性、一致性和可复用性。
|
主题明确 | 围绕特定目标系统化组织,而非数据简单堆砌 | 使数据集能够精准服务于特定场景或任务。 |
即用性强
| 经过采集、清洗、标注等处理后,可直接用于模型开发 | 降低了数据预处理成本,提升了研发效率。 |

高质量数据集的分类。根据全国数据标准化技术委员会提出的指南,高质量数据集通常被划分为三个层次,以适应不同的应用需求:通识数据集:涵盖日常生活、基础科学、文化艺术等领域的通用知识,例如互联网百科和新闻语料。这类数据集主要用于训练通用型AI模型,帮助模型掌握基础的语言和理解能力。行业通识数据集:聚焦特定行业(如医疗、金融、工业)的通用术语、标准流程和基础规范,需要一定的专业背景才能理解和处理。它们是构建行业大模型的基石。行业专识数据集:针对特定业务场景(如某种罕见病的病例数据、某条生产线的检测数据),包含深度的、独特的专业知识。这类数据集是打造具有核心竞争力的垂直领域模型的关键,壁垒最高。

如何构建高质量数据集。构建高质量数据集是一个系统性的“炼化”过程,主要包括数据设计和采集、数据治理、数据标注、质量检验以及持续运营等环节。其中,数据标注是核心步骤,其主要方法包括:人工标注:由专业人员凭借知识和经验进行,准确性高,能处理复杂场景,但成本和耗时较高。半自动标注:利用自动化工具或算法进行初步处理,再由人工进行审核和修正,能在保证质量的同时显著提升效率。自动标注:完全依靠训练好的算法模型进行标注,效率极高,但对模型性能要求苛刻,若模型不佳则质量难以保证。

发展现状与挑战。当前从国家到地方都在积极推动高质量数据集建设,并已在多个领域取得进展。但业界仍面临一些突出挑战,主要体现在数据汇聚产量低、供给质量低、利用效率低这三大难题上。例如,中文数据在全球网络语料中占比较低;不同来源的数据格式各异,质量参差不齐;同时,大量数据被存储后未能得到有效利用。高质量数据集的价值正通过其在多个关键领域的具体应用实践得到充分体现。

下面这个表格梳理了几个当前表现突出的领域及其核心价值。
应用领域 | 核心价值 | 典型案例简介 |
医疗健康
| 提升诊疗精准度,优化公共卫生防控 | 浙江EDR数据集实现传染病早期预警;武汉血小板数据集助力癌症风险评估;AI数据标注推动中医药智能化。 |
金融风控
| 破解信息不对称,提升金融服务可得性 | 浙江金融平台通过数据增信,累计支持金融服务超11.5万亿元;企业征信数据集助力智能风控。 |
城市治理
| 实现精准预警与科学决策,提升运行效率 | 武汉利用城市风险预警数据集,对交通拥堵等事件智能研判,准确率达85%以上。 |
工业与农业 | 驱动供应链优化与生产智能化 | 武汉“门店动态补货决策数据集”助力企业显著节省成本;贵州“植物保护数据集”赋能智慧农业。 |
智能驾驶 | 加速技术研发与商业化落地 | 湖南的智能驾驶数据集整合多源场景数据,降低企业研发成本。 |
如何判断一个领域是否具备应用潜力。综合来看,一个领域的高质量数据集应用能否产生巨大价值,通常取决于以下几个关键因素:数据基础与整合潜力:该领域本身是否积累了足够规模、且具有潜在价值的数据资源。同时,能否通过技术或机制创新,打破原有的“数据孤岛”,实现多源异构数据的有效汇聚与融合。无论是通过构建统一数据平台、建立安全可信的数据空间,还是利用联邦学习等技术在保护隐私的前提下进行协同计算,都是重要的整合路径。

业务痛点与需求匹配度:该领域是否存在明确的、迫切的业务痛点,而高质量数据集的应用能提供可见、可衡量的解决方案。例如,金融领域的中小微企业贷款难、医疗领域的传染病早发现、城市治理中的风险预警等,高质量数据集的价值在于能精准地解决这些核心问题。技术实现的可行性:这包括数据治理与标注的技术成熟度。对于医疗等专业领域,专家参与的精准标注至关重要。同时,也需要有合适的AI算法模型能够对高质量数据进行有效的学习和应用。政策与生态支持:国家和地方政策的引导与支持为高质量数据集的建设提供了重要推动力。同时,产业链上下游的协同合作,形成健康的生态,也是推动数据要素价值持续释放的关键。

高质量数据集与场景应用之间存在着深刻的共生关系:场景需求为数据集建设指明方向、提供价值验证的舞台,而高质量数据集则是解锁复杂场景智能化的关键钥匙。下面这个表格梳理了它们互动的核心维度。
互动维度 | 高质量数据集对场景的价值 | 场景培育对数据集的要求 |
需求牵引
| 为解决场景具体问题提供精准的“数据燃料” | 需求明确、边界清晰,能够定义所需数据的类型与标准 |
价值验证
| 其效果可通过场景应用的成本降低、效率提升等指标来量化衡量 | 提供真实的业务环境,以便评估和迭代数据质量与模型性能 |
持续迭代
| 在场景反馈中不断优化,形成动态增强的闭环 | 具备反馈机制,能将应用结果反哺至数据集,推动其进化 |
知识嵌入
| 将领域专家知识(如工业机理、医疗经验)固化到数据标签中 | 需要深度结合专业知识和业务逻辑,而不仅仅是原始数据的堆砌 |
主要的实践模式与典型案例。在实践中,这种共生关系催生出不同的模式,并在多个领域结出硕果。模式一:场景痛点驱动数据集建设。这是目前最常见且有效的模式。当某一行业或业务环节存在明确的效率提升或成本优化需求时,针对性地构建数据集便水到渠成。例如,良品铺子为破解库存管理难题,打造了 “门店动态补货决策数据集” ,通过精准分析价格周期波动来提升库存周转效率,最终实现了可观的成本节约。同样,泉州交发集团构建的 “公交车辆时空轨迹与刷码乘车数据集” ,直接服务于公共交通线网优化和智能排班,有效提升了运营效率。

模式二:数据集的构建与场景赋能深度绑定。在一些专业领域,数据集的构建过程本身就是对行业知识的系统化梳理,其应用也更为深入。例如,武汉市在医疗健康领域建设的 “人群血小板全景多模态数据集” 和 “蜱媒病原宏基因组测序数据集” ,不仅服务于肿瘤风险评估模型,降低晚期癌症确诊率,也加速了病毒诊断试剂与疫苗的研发,直接惠及公共健康。在工业领域,智能运维场景的数据集构建需要融合设备运行数据、故障记录和专家知识,形成能够支持故障预测与诊断的“知识库”。

模式三:城市治理与产业发展的规模化赋能。政府部门也积极推动公共数据与行业数据的融合,以数据集赋能更广泛的场景。亳州市通过建设公共安全视频监控数据集,实现了如走失老人智能寻回等城市治理场景的智能化。武汉市发布高质量数据集应用典型案例,覆盖工业制造、交通物流、医疗健康等九大领域,这些数据集推动了多个行业领域垂直大模型的开发,赋能了大量应用场景,取得了企业降本增效、民生改善、城市治理水平提升的综合性成效。

当前面临的挑战。尽管前景广阔,但高质量数据集与场景的深度融合仍面临不少挑战。数据标准与质量不一:各行各业数据标准不一,存在分布偏差、颗粒度不一、采集缺失等问题,大量数据沉淀却难以直接使用,需要投入大量资源进行治理和标注。技术与知识双重门槛:尤其在专业领域,数据集建设不仅需要智能化的标注工具提升效率,更依赖行业专家的深度参与,以确保标注的准确性和知识嵌入的有效性,技术门槛和知识门槛都较高。商业模式与政策待完善:高质量数据集的开发周期长、成本高,但其价值评估和回报机制尚不清晰,影响了市场主体的投入积极性。同时,在数据确权、流通交易、收益分配等方面的政策法规也有待细化,以保障可持续的供给生态。

未来发展路径。推动高质量数据集与场景培育应用的深度融合,需要系统性的布局和努力。坚持场景牵引,避免盲目建设:未来应重点围绕医疗、教育、工业制造、城市治理等需求迫切、易产生实效的关键领域,优先突破其高质量数据集的建设,确保“建有所用”。强化技术攻关与生态协同:需加大在智能标注、多模态数据融合、数据合成等关键技术上的研发力度。同时,积极构建政、产、学、研、用多方协同的创新生态,鼓励模型企业、数据企业、行业企业和科研机构联合共建数据集。完善制度保障与政策支持:应加快制定高质量数据集在格式、质量、流通等方面的标准规范。探索建立数据确权、价值评估和流通交易的新机制,并通过财政资金、产业基金等方式,引导社会资本有序参与,为数据集建设提供坚实的制度与政策支撑。

医疗健康领域的高质量数据集通过整合多源医疗信息,为临床诊断、公共卫生管理以及新药研发等场景提供了关键的数据支撑,正在深刻改变医疗服务的模式与效率。
应用场景 | 核心价值 | 典型案例(地点/机构) |
临床诊疗智能化 | 提升诊断效率与规范性,降低医生工作负荷 | 温州市医学AI集成平台、诸暨市AI临床辅助决策系统 |
公共卫生监测与预警 | 实现传染病早期发现和主动防控 | 浙江省电子疾病档案(EDR)数据集 |
医学研究与新药研发 | 加速科学发现,缩短研发周期 | 北京市计算中心“高质量药物数据集” |
医疗数据要素化与生态构建 | 探索数据资产价值实现,促进产业集聚 | 福州市医疗数据交易“首单”、济南市数据集发布 |

数据采集与治理的关键环节。高质量数据集的建设始于数据的汇聚与治理,这是释放数据价值的基础。多源数据汇聚:为了形成全面的健康视图,需要打破医疗机构、公共卫生系统乃至其他部门(如气象、教育)之间的“数据孤岛”。例如,温州市通过“数据高铁”接入了252家公立医疗机构的诊疗、公卫等数据;浙江省EDR数据集则整合了临床诊疗、公共卫生和部门协同数据。标准化处理与标注:原始数据必须经过清洗、脱敏和标准化,才能成为可用的“燃料”。更重要的是,需要结合医学专业知识进行精准标注。温州市的做法是将数据在封闭环境中由专业医生参与标注,形成可训练数据集。诸暨市建立了“数治、数知、数智”三层治理体系,让数据从“可用”升级为“用好”。

典型应用场景与价值体现。经过严格治理的数据集在具体场景中催生了显著成效。提升诊疗效率与质量:AI辅助诊断能大幅缩短分析时间。温州的项目将脑卒中CT影像分析时间从1小时缩短至5-15分钟;智慧病历系统将病历书写时间从10分钟降至30秒,成本降低超90%。在诸暨,AI临床辅助决策系统使基层医疗机构的病历规范率、诊断符合率和用药合理率均得到显著提升。变革疾病监测模式:浙江省利用EDR数据集构建的预警模型,实现了从被动报告向主动智能预警的转变,使突发公共卫生事件报告数和传染病发病人数大幅下降。赋能科研与产业创新:北京市计算中心的“高质量药物数据集”已辅助100余项新药研发项目,有效预测靶点,缩短了研发周期。武汉市入选国家案例的多个医疗高质量数据集,已支撑9个垂类大模型的研发,带来直接经济效益约1.8亿元。

保障措施与未来发展。安全与合规是医疗数据应用的生命线。安全与隐私保护:各地普遍采用数据脱敏、加密传输、隐私计算等技术,并构建严格的数据安全体系,确保数据“可用不可见”,保护患者隐私。创新流通机制:福州市完成了全国首单医疗数据资产使用费国库收入,通过建立全流程管理平台,探索数据资产化路径。济南市则通过建设城市可信数据空间等措施,推动数据资源合规高效流通。总体而言医疗健康高质量数据集的应用核心在于以具体业务场景为导向,通过系统性数据治理将原始数据转化为可信、可用的战略资源,最终在提升医疗服务效能、革新公共卫生模式及激发产业创新活力等方面释放巨大价值。
高质量数据集与标准化建设是相互依存、共同促进的关系。标准化为高质量数据集的建设提供了方法论和质量准绳,而高质量数据集的应用实践又反过来推动标准的持续优化。下面这个表格梳理了高质量数据集的核心特征与标准化的关键交点。
高质量数据集的核心特征 | 标准化建设的关键作用 |
精准标注 (数据可被模型正确学习的基础) | 制定《高质量数据集数据标注规范》,统一标注流程、质量要求和人员资质标准,确保标注的准确性和一致性。 |
格式规范 (保证数据可被识别、流通和使用) | 规定统一的元数据框架(如数据标识、内容、标注信息、版本、授权等),实现数据集的规范描述和高效复用。 |
科学分类 (使数据能够精准匹配应用场景) | 建立“通识-行业通识-行业专识”的“3+7”分类框架,为数据的组织、查找和应用提供清晰路径。 |
质量可控 (确保数据能有效提升模型性能) | 构建超越传统维度、新增“场景适用性”的评测体系(如模型适配性),确保数据能为AI模型提供真正价值的“燃料”。 |

为什么要推进标准化建设。推进标准化建设并非为了增加限制,而是为了系统性地解决当前数据要素利用中面临的三大核心难题,从而释放数据的真正价值。破解“数据孤岛”,促进流通共享:各行各业的数据格式千差万别,如同不同语言造成交流障碍。标准化通过统一数据的“语言”(格式和接口),为数据跨部门、跨地区的顺畅流通奠定基础,打破“数据孤岛”。应对“质量参差”,建立可信基准:原始数据常存在缺失、错误、尺度不一等问题。标准化建立了公认的质量评测规范,为数据集的“高质量”提供了明确、可衡量的基准,增强了数据使用方的信任度。扭转“低效利用”,赋能AI应用:在人工智能领域,数据质量直接决定模型智能水平。标准化建设确保了数据能够精准满足模型训练的需求,特别是通过关注“场景适用性”,使数据能有效提升模型在特定任务上的性能,避免资源浪费。

如何构建标准化体系。高质量数据集的标准化建设是一个覆盖数据“生命周期”的系统工程。根据《高质量数据集建设指南》等标准,其全生命周期主要包括从需求到验证的多个阶段,而标准化贯穿始终。建设过程标准化:标准为数据集建设提供了从数据需求、规划、采集、预处理、标注到最终的模型验证的全流程方法论和规范要求,确保建设过程有章可循。分类体系标准化:“3+7”分类框架(三个知识类别,七个描述维度)实现了对数据资源的全方位、标准化描述,使得数据集能够被快速准确地定位和应用于合适的场景。质量评测标准化:质量评测规范构建了三维度的评测体系,特别是指明了高质量数据集应具备完整的说明文档,其数据质量需满足AI模型开发的基本要求,并最终要能有效支撑目标模型的开发和训练(模型应用)。

当前的挑战与未来方向。尽管标准化工作已取得重要进展,但当前仍面临一些挑战。例如,数据汇聚产量低、供给质量低、利用效率低的“三低”问题仍较为突出。同时,各行业主流价值数据集的引领带动作用仍有待加强,数据标注产业也正经历从劳动密集型向知识密集型的转型,对专业人才提出了更高要求。未来,标准化建设将更侧重于动态适应与持续优化,例如研究基于实时反馈的动态质量评估模型,以实现数据集的自适应更新与完善。此外,深化国际合作,推动中国标准与国际接轨,也是构建全球数据基础设施的重要方向。
新质生产力与高质量数据集之间存在着深刻的共生关系:高质量数据集是培育新质生产力不可或缺的“优质土壤”和“创新燃料”,而新质生产力的发展又反过来对数据资源的规模、质量和应用效能提出了更高要求,共同推动经济社会向更高质量、更高效率发展。新质生产力与高质量数据集的内在联系。新质生产力作为以科技创新为主导的先进生产力质态,其核心内涵包括技术革命性突破、生产要素创新性配置和产业深度转型升级。在这一过程中,数据作为新型生产要素的作用空前凸显。数据重塑生产力要素:在数字经济背景下,数据不仅自身是关键的新型生产要素,还能赋能劳动者、劳动资料和劳动对象这三大传统生产力要素,实现其优化组合的跃升。例如,数据要素有助于塑造具备数字素养的优质劳动者,催生智能化的新型劳动资料,并孕育出算法模型、数据平台等新型劳动对象。

高质量数据集是赋能基石:新质生产力的发展高度依赖于高质量、可信可用的数据要素。特别是高质量数据集,它通过系统性处理,具有格式统一、质量可控、场景适配性强的特点,能为人工智能模型训练、科学研究提供精准的“燃料”。国家数据局提出,“‘人工智能+’到哪里,高质量数据集就建设到哪里”,充分说明了其基础性地位。高质量数据集如何驱动新质生产力发展。高质量数据集主要通过以下关键机制,赋能新质生产力的形成与发展:提升全要素生产率:数据要素具有非竞争性、无限增长性、规模收益递增等特点。它通过优化生产要素配置、促进科技创新,从而大幅提升全要素生产率,而这正是新质生产力的核心标志。加速技术创新与产业升级:驱动科研范式变革:海量高质量数据推动了科学研究范式从传统假设驱动向数据密集型科学发现转变,加速了在生物医药等领域的科研进程。
深化产业赋能:在工业领域,面向研发设计、生产制造、运维服务等关键环节构建高质量数据集,是推动人工智能赋能新型工业化、提升国际竞争力的关键。中央企业的实践表明,高质量数据集已在超过500个场景中实现AI深度赋能。激发乘数效应与融合应用:数据要素在使用过程中能产生乘数效应。通过与资本、劳动、技术等传统生产要素的协同,数据渗透到各行各业,催生了智能制造、智慧农业等新产业、新业态、新模式。当前面临的挑战与推进路径。尽管前景广阔,但高质量数据集的建设与应用仍面临挑战,需要通过系统性的举措来推进。
主要挑战 | 具体表现 |
数据供给“量质齐缺”
| 全球高质量中文语料占比低(如在某全球大模型训练集中中文语料仅占1.3%),专业垂类数据集不足,存在“量大质低”现象。 |
流通与市场机制不完善
| 数据产权、定价、收益分配等基础制度有待健全;“数据孤岛”现象普遍,行业数据交易规模占比低(如工业数据交易占比不足7%)。 |
技术与管理短板
| 数据加工处理自动化水平不高,高端数据服务产业生态不健全;跨部门、跨行业的协同机制不足,导致重复建设与资源分散。 |

技术与管理短板。数据加工处理自动化水平不高,高端数据服务产业生态不健全;跨部门、跨行业的协同机制不足,导致重复建设与资源分散。为应对挑战,可重点从以下路径着手推进:强化优质数据供给与基础设施建设:由国家层面统筹,推动气象、交通、医疗等关键领域的公共数据在安全前提下有序开放,打造具有竞争力的国家级人工智能公共训练数据集。适度超前建设数字基础设施,如优化算力布局,建设全国一体化大数据中心,为数据处理和分析提供强大支撑。完善制度标准与市场生态:加快完善数据产权、流通交易、安全治理等基础制度,探索建立公允的数据定价与利益分配机制。鼓励数据要素服务商发展,推动数据清洗、标注等流程智能化,培育繁荣的数据产业生态。坚持场景驱动与创新引领:聚焦工业、医疗、金融等重点行业需求,开展试点示范,形成可复制的成功模式。加强核心技术攻关,如智能数据标注、多源异构数据融合、工业数据合成等,并完善覆盖数据集全生命周期的标准体系。

新质生产力与高质量数据集是数字时代相辅相成的一对核心概念。高质量数据集通过提升全要素生产率、驱动技术创新和产业升级,为新质生产力提供基础支撑和发展动能;而新质生产力发展的内在需求,又为高质量数据集的建设指明了方向,并持续创造着应用场景和价值空间。未来,随着数据基础制度的不断完善、数据基础设施的持续优化以及数据与实体经济的深度融合,高质量数据集必将在培育和发展新质生产力、推动经济高质量发展方面发挥更加重要的作用。



