浙江省人工智能领域数据知识产权登记申请
指引(2025版)
(征求意见稿)
为贯彻落实《浙江省人民政府印发关于支持人工智能创新发展若干措施的通知》《浙江省人民政府办公厅关于深化数据知识产权改革推动高质量发展的意见》精神,进一步深化数据知识产权改革,推动人工智能领域数据知识产权登记保护,提高人工智能数据供给质量,助力打造人工智能创新发展高地,根据《浙江省数据知识产权登记办法(试行)》等有关规定,制定本指引。
一、适用范围
本指引所指人工智能领域数据知识产权登记对象包括:
(一)基于人工智能大模型,通过预训练等方式形成适配专项能力或特定任务解决能力要求,所形成的算法、参数、模型等数据处理规则和数据集合,符合数据知识产权登记要件的;
(二)基于人工智能相关技术,通过智能体、脑机接口、具身智能、生物启发等应用创新技术,所形成的算法、参数、模型等数据处理规则和数据集合,符合数据知识产权登记要件的。
二、登记前存证公证
(三)以xls、csv等表格文件格式存储的数据。数据为结构化数据,存证时申请人应根据数据结构规模,列举数据字段名称、并辅以示例。数据集合字段较为复杂的,应说明字段间的关联关系。数据规模以“条”为单位进行记录。
(四)以非表格文件格式存储的数据。数据可以为结构化或非结构化数据,存证时申请人应清楚描述数据结构并辅以示例。数据规模以“KB”“MB”“GB”“TB”等为单位进行记录。数据结构的描述主要包括:
1.数据形态。如文本、图像、语音、视频等;
2.基础元数据。如存储格式、数据量、关键指标、读取方式等;
3.主关键字段等。
(五)多模态异构数据组合。存证时申请人应根据数据存证要求进行操作,同时清楚描述各类数据结构,并记录数据规模。
涉及不同数据格式、数据规模和动态数据集合(过程数据)的,数据结构描述信息应能够准确反映数据集合的核心特征。
申请人也可以对人工智能领域的数据进行公证存证,以公证书作为数据存证公证的内容提交数据知识产权登记申请。
三、登记申请
(六)申请主体。申请登记人工智能领域数据知识产权的数据处理者包括但不限于:原始数据采集方、加工处理方,以及在数据处理全流程中投入实质性技术资源或智力劳动的模型开发者、服务提供者等。
(七)登记申请相关业务平台。申请登记人工智能领域数据知识产权,应通过登记申请相关业务平台提交申请,如实填写登记申请表并提供必要的证明文件。申请人可以登录浙江省数据知识产权一体化服务平台(数知通)提交人工智能领域数据知识产权登记申请。
(八)与数据知识产权一体化服务平台贯通的相关平台。数据知识产权一体化服务平台现已与科学数据银行、中国科学院科学数据总中心知识产权登记服务平台、浙江省财政厅数据资源治理实验平台、阿里云平台等实现互联互通,并作为中国科学院计算机网络信息中心科技资源标识服务平台节点单位对外提供科技资源标识赋码服务。
(九)登记申请表主要内容。登记申请表主要包含以下内容:
1.数据知识产权名称。名称格式为“应用场景+数据”。
例1:某科研机构申请的主要用于地学领域大语言模型训练的数据知识产权名称为“多语言、高精度的地学大模型训练语料数据”。
例2:某企业申请的主要用于AI大模型领域中代码生成大模型训练的数据知识产权名称为“代码生成大模型训练用代码编程题算法数据”。
例3:某企业申请的能有效缩小CCTV探测范围,提高CCTV探测工作效率的数据知识产权名称为“降低CCTV探测成本的管道淤积负荷预测大模型分析数据”(注:?CCTV探测(Closed Circuit Television Detection)?是一种利用闭路电视技术对地下管道进行检测的方法)。
2.所属行业。按照国民经济行业分类,选择数据知识产权所属行业,如“信息传输、软件和信息技术服务业”“科学研究和技术服务业”等。
3.应用场景。说明与人工智能相关的数据知识产权适用的条件、范围、对象,清楚反映数据知识产权应用所能解决的主要问题,包括已有场景和预期场景。
例4:某企业申请的名称为“低空经济轨道保护巡检数据”的数据知识产权,应用场景为:通过无人机结合AI算法针对轨道沿线的工程车辆、施工人员安全帽、烟火识别以及轨道人员入侵检测等业务场景,判断工程车辆是否正常、人员是否佩戴安全帽、是否发生烟火及是否发生人员入侵等状态,可以实现轨道区域内的状态预警与报警,减少人工巡检的风险并降低运营维护成本。
例5:某企业申请的名称为“基于医学视觉大模型的息肉影像分割数据”的数据知识产权,应用场景为:基于视觉大模型的图像分割技术,能够精准地从医学图像中提取息肉等病变区域,对医生的诊断决策具有重要意义。此技术可广泛应用于胃肠道疾病的筛查、临床辅助诊断、自动化影像标注和健康管理等方面。
4.数据来源。说明数据类型属于个人数据、企业数据或公共数据。注明数据来源属于自行产生、协议获得、公开收集、公共数据授权、多来源或其他来源。
(1)数据来源为自行产生,需要严格保证数据集搜集过程符合《数据安全法》《个人信息保护法》等相关法律法规,确保数据采集的合法合规,必要时需提供相关采集能力证明材料(如说明数据采集的具体方法、工具和技术手段以及数据采集过程中的质量控制措施等);
例6:某公司申请的名称为“某省网格化机会挖掘数据”的数据知识产权,数据来源为自行产生(企业数据)。
(2)数据来源为协议获得,若数据处理者非共同申请人,需提供相关协议进行证明,协议中可以约定数据使用范围、期限、数据权益或数据知识产权权属等相关事宜;
例7:某公司申请的名称为“医学影像教学病例题库数据”的数据知识产权,数据类型为企业数据,数据来源为协议获得,提交申请时上传了数据转让协议等相关授权材料。
(3)数据来源为公开收集,一般基于人工智能相关公开数据集、开源社区、竞赛平台等公开渠道获得,可以采取以下方式处理:
1)对于能够明确说明采集渠道的,需提供数据集实际权益人的数据使用许可证(如CC协议、Apache License等)作为授权证明。
例8:某单位申请的名称为“大规模、多模态、多任务的天基遥感大模型指令微调数据”的数据知识产权,数据类型为企业数据,数据来源为公开收集,提交申请时上传了列明的各数据集持有方的数据使用许可证。
2)对于合法利用公开数据进行处理生成的数据集合,需在应用场景等中进行公开声明。
数据知识产权审查员应重点审查数据来源合规性。对于申请人提供的数据使用许可证、爬虫协议、网站链接、公开声明等材料,核实验证其内容是否与采集渠道数据使用条款相符。
(4)数据来源为公共数据授权,应当提供公共数据开放利用协议或授权运营协议等可以表明数据合法来源的证明材料;
例9:某公司申请的名称为“个人信贷宝数据”的数据知识产权,数据类型为公共数据,数据来源为公共数据授权,申请时提交了公共数据授权运营协议等相关材料。
(5)数据来源为多来源,需明确数据来源的具体情况,并提交各数据来源对应的相关证明材料。
5.结构规模。说明数据知识产权的数据结构(数据字段名称、格式)、数据结构的描述、数据规模等内容。目前对于数据规模原则上要求达到500条及以上,或者50MB及以上。数据规模少于500条或50MB的,省数据知识产权登记中心可以要求申请人补充数据稀缺性的说明文件。
根据《人工智能生成合成内容标识办法》等规定,对于涉及人工智能技术生成、合成的文本、图片、音频、视频、虚拟场景等信息的,应在数据结构对生成合成内容添加显示标识或在文件元数据中添加隐式标识。数据知识产权审查员应当核验其生成合成内容标识相关材料。
例10:陈某申请的名称为“面向某省旅游大模型的知识注入数据集”的数据知识产权,数据规模为:共计81万余组三元组,涉及3万余个实体和10余种关系类型(具体数字编写时已进行处理);数据结构如表2-1所示。因数据结构中数据字段表征模糊、数据规模错误以及数据知识产权名称错误等原因,数据知识产权审查员发出不予登记通知书进行处理。
例11:某企业申请的名称为“图像生成AI定制平台线上推广ROI分析数据”的数据知识产权,数据规模为:650条;数据结构显示包含“策略优化结论”在内的11个字段,数据知识产权审查员进行审查后,认为符合数据知识产权登记要件,审查予以通过。
6.更新频次。说明数据或部分数据、部分数据单元的更新频率、更新期限,如“每月更新”“每年更新”等。
基于数据的动态变化特性,申请人可以从已存证公证的数据及发展趋势两个角度阐述更新频次,也可对更新时间的不确定性或依据需求更新作出说明。对于有明确的数据失效时间或不涉及数据更新的,也应当作出说明。
7.算法规则简要说明。简要说明数据处理过程中算法模型构建、处理规则等情况。算法规则要与数据结构、应用场景所解决的主要问题等要件相对应,清楚表述将原始数据转变为数据集合的过程。
对于使用支持向量机、决策树、贝叶斯网络、神经网络等算法,应说明所用算法在业内公开发表的中英文标准名称及关键结构参数,如还涉及特定处理规则、策略的,应一并说明。
对于涉及大模型等生成式人工智能处理的数据集合,应明确训练数据来源、模型名称、特征工程处理及参数调优过程记录等,以证明其与通用模型存在显著差异性。若仅直接使用模型生成数据且未附加创造性处理,一般不予登记。
根据《生成式人工智能服务管理暂行办法》《互联网信息服务算法推荐管理规定》等规定,对于涉及具有舆论属性或者社会动员能力的生成式人工智能服务或深度合成服务的,应就相关备案情况进行说明,注明模型名称、备案号或上线编号等信息。
数据知识产权审查员可根据审查需要,重点核实数据来源、模型建模或相关技术说明是否清晰,以及对于不同领域的数据处理是否符合其特定领域安全定级标准等。必要时可以进行电话沟通和实地审查。
例12:某企业申请的名称为“某市包装企业管道蒸汽用量智慧管控数据”的数据知识产权,算法规则简要说明中提到的“神经网络模型”的主要描述为:
构建神经网络模型,步骤1:采用多层感知机(MP)结构,包括一个输入层、两个隐藏层和一个输出层。输入层节点数为9,分别对应时间、总累积质量、总累积热量、瞬时流量、瞬时热量、瞬时温度、瞬时压力、密度、输入电流。两个隐藏层分别有64个和32个节点,激活函数采用ReLU。输出层节点数为1,对应预测的蒸汽用量。
步骤2:选择损失函数和优化算法。使用均方误差(MSE)作为损失函数,优化算法选择Adam,学习率设置为0.001。
步骤3:将数据集划分为训练集、验证集和测试集,比例为7:2:1。使用训练集对神经网络进行训练,设置训练轮数为100轮,批次大小为32。在训练过程中,实时监控验证集的损失,当验证集损失连续10轮没有下降时,提前停止训练,防止过拟合。
步骤4:对模型进行超参数调整,尝试不同的隐藏层节点数、学习率和批次大小等参数,找到最佳的模型性能。
步骤5:神经网络模型输出预测蒸汽流量值和最高临界值为17.12t/h,当预测蒸汽流量值>17.12th,管道状态显示“管道异常”,当0≤预测蒸汽流量值≤17.12t/h,显示“管道正常”。
8.存证公证情况。根据存证证书、公证文书相关信息自动生成或填写,对已存证的数据说明存证途径、存证编号、哈希算法、哈希值等,对公证存证的数据说明公证机构、公证书文号等,并提供公证文书的复印件或扫描件作为附件,必要时数据知识产权审查员可以联系申请人查阅公证书正本。如写明存证平台为“浙江省知识产权区块链公共存证平台”、数据存证编号为“CZ20240221XXXXXX”、哈希算法为“SHA-256”、并注明哈希值。
9.其他需要说明的情况。申请人对数据的合规性及申请信息的真实性作出承诺,并从已存证公证的数据中选取样本数据,作为登记审核的样例数据。样例数据要符合登记申请表中对数据结构的描述。
申请人可以对所登记申请数据知识产权主要贡献人员,登记后的交易、许可、融资等转化运用的意向等事项的说明。数据知识产权一体化服务平台将根据申请人转化运用意向推送服务信息、提供增值服务。
申请人还可对其他必要信息进行说明:
(1)申请人认为其登记申请内容涉及核心算法敏感参数,可作出说明并申请不对外公开;
(2)针对个人数据、公共数据以及金融数据等特定领域的数据处理,需补充说明数据合规情况,申请人可提供伦理审查证明、合法数据授权证明、基准模型测试及性能报告等材料进行佐证。
四、集合申请
(十)集合申请的适用。为便利登记申请,提高审查效率,根据人工智能领域数据创新特点,在单个数据知识产权申请基础上开设集合申请通道。集合申请主要适用于以下几个方面:
1.同一个数据知识产权构思方案下,多个登记申请具有关联性的且具有相对独立的实用价值的数据字段或描述,不同登记申请间既相互具有关联性且具有独立存在的价值,算法规则基于同一个思路的。
2.同一个数据知识产权构思方案由于数据采集地域、型号、技术领域等不同,放在同一个登记申请中有利于数据关联利用,算法规则基本相同的。
3.数据知识产权登记申请基于同一个数据存证公证结果,集合申请有利于节俭申请手续,算法规则有一定差异的。
4.源于同一个源数据,初步处理和深加工处理的数据集合分别有不同实用价值,算法规则有相互关联度的。
(十一)集合申请的提出。符合人工智能领域数据知识产权集合申请要求的,申请人可以通过数据知识产权一体化服务平台、省数据知识产权登记中心电话(0571-87356595)等提出需求、预约申请。
(十二)集合申请服务。为便利企业申请、提高登记效率,省数据知识产权登记中心推出集合申请点对点服务机制,依申请为申请人提供实地走访、申请指导和“审查前置”等专门服务。
五、登记审查
(十三)部门协同。省知识产权局将会同省经信厅、省财政厅、省数据局、浙江金融监管局等部门,加大对人工智能领域数据知识产权资产化、市场化、价值化推广力度。为提高人工智能领域数据知识产权登记质量,根据涉人工智能领域数据知识产权特点,完善登记审查规则。
(十四)数据内容的校验。省数据知识产权登记中心加强对人工智能领域xls、csv等格式的数据存证进行内容校验,包括但不限于:无效字段检测验证、样例数据抽样核查等。校验结果将作为数据规范性检测、存证质量、数据知识产权价值度等评价内容的参考依据。
(十五)必要的实地核验。省数据知识产权登记中心根据数据存储规模大小、数据存证公证情况、登记申请信息等,对人工智能领域非xls、csv等格式的数据信息进行必要的实地核实或验证。
附件1:
数据知识产权相关平台链接
1.数据知识产权一体化服务平台(数知通)
https://zscqyjs.zjamr.zj.gov.cn/dip/official/home
https://zjdip.cn/
2.科学数据银行
https://www.scidb.cn/
3.中国科学院科学数据总中心知识产权登记服务平台
https://dataip.casdc.cn/home
4.浙江省财政厅数据资源治理实验平台
https://dataexp.orginone.cn/#/auth
5.阿里云平台
https://wanwang.aliyun.com/qualificationrec/registration?spm=5176.27804673.sub-nav-dropdown-wanwang-menu-5.d_main_3_1.379a1f584Ks9m6