李志起 杨明川 姚 佳编者的话:人工智能(AI)大模型的演习、进化都离不开数据。外媒近日宣布称,科技公司利用语音识别工具转录视频网站上的视频,形成对话文本数据来演习AI,也有公司用社交媒体上具有版权争媾和隐私权争议的数据来演习AI——这些“捷径”是否合法?合规、高质量的AI演习数据该当从哪里来?普通人的数据安全如何保障?合规性、高质量与多样性的平衡 李志起随着AI技能的不断进步,大模型演习对高质量数据的需求日益凸显。如何确保演习数据的合规与高质量并重?三个原则应遵守。第一,坚守合规底线,明确数据来源。任何数据的采集和利用都必须遵守法律法规,尊重原创精神和知识产权。合规的数据来源不仅是对创作者权柄的保障,也是AI技能康健发展的基石。合规数据首先该当从公开数据集中获取,这些数据集常日由学术机构、政府组织或大型企业公开拓布,如ImageNet等图像数据集就为图像识别技能的发展供应了有力支持。其次,用户在社交平台上产生的内容,如文本、图片等,也是宝贵的演习资源,但在利用时需确保得到必要的授权。此外,企业还可以通过与互助伙伴共享数据、购买专业数据做事等办法获取演习数据。这些路子虽然可能须要更多本钱投入,但能有效规避法律风险,同时也更有可能得到高质量的数据资源。第二,合法获取信息,保护知识产权。企业首先应建立一套完善的信息获取流程,通过定期的培训,提高员工对法律法规的认知和遵守意识,以确保任何信息的采集都应在明确的目的和合法的框架内进行,避免盲目和过度的数据采集。其次,要尽其可能确保隐私保护与数据安全,涉及个人隐私的数据,如用户的身份信息、联系办法等,都须要进行严格的匿名化和加密处理。第三,在利用他人的知识产权时,如专利、牌号、著作权等,企业应严格遵守干系法律法规,确保得到权利人的明确容许,并按约定支付相应的利用用度。第三,看重数据质量,提升AI性能。数据质量是演习AI模型的关键成分之一。高质量的数据不仅可以提高模型的准确性,还能增强模型的泛化能力,使其更好地适应各种场景。此外,AI企业必须把稳加强数据标注的准确性,以免影响模型的演习效果。标注缺点的数据会导致模型学习到缺点的信息,从而降落其性能。数据的多样性和代表性也不应被忽略。可以通过网络不同来源、不同类型的数据来增加数据的多样性,同时还可以通过数据增强技能来扩充数据集,提高模型的泛化能力。与此同时,数据的时效性和更新频率也显得尤为主要。应定期更新数据集,确保模型的时效性和准确性,适应新的寻衅和需求。(作者是北京市政协经济委员会副主任,振兴国际智库理事长)三种办法获取演习数据杨明川常规的AI演习数据可以来自组织生产环境中的数据积累、开源数据集和人工标注数据。对付百亿、千亿参数规模的大模型而言,演习数据来源广泛且规模弘大,大模型厂商每每不会详细透露其演习数据来源或公开其演习数据的详细组成。对付企业而言,合法得到演习数据授权的办法紧张有三种。一是网络开源数据集。常日由学术机构、政府组织或企业公开拓布,涵盖各种类型,如图像、文本、音频、视频等。可在此根本上进行二次处理、洗濯加工和人工抽检标注,形成高质量的演习数据集;二是充分挖掘自身场景中积累下来的数据。以笔者供职的企业为例,公司积累了大量专业运维案例、专业报告、日志和专业问题回答等数据,可以在担保脱敏和遵守数据容许协议的条件下,用于大模型的连续演习和精调;三是来自行业互助伙伴的高质量数据。常日以“合规数据授权+收益分成”的模式,形成协力共建具备行业数据上风的大模型底座。须要关注的是,随着大模型飞速迭代,公共数据正在被快速耗尽。随之而来的是私有数据合法利用的难题。用户天生内容,包括公开拓表的内容、点赞转发等记录数据,对付数据中保持最新信息、拓展知识范围具有主要意义。但需建立相对健全的机制,在遵守干系法律法规、担保隐私安全、防止滥用的条件下,为用户生产内容供应共享或有偿交易的可能性。目前面临的寻衅如下:首先,高质量数据非常昂贵。伴随着公开数据的“枯竭”,如何网络和利用更多的高质量数据,并进行加工和标注,依然是一个绕不开的选择。须要企业投入更多本钱,并协同更多专业人士参与风雅的标注事情。其次,大模型演习周期较长,且外部知识飞速更新。如何办理“知识过期”的问题,须要以检索增强天生的办法,即在大模型做出回应之前,通过检索干系知识,供应参考信息,为大模型回答的过程补充新知识。第三,由于数据量弘大且来源多样,数据中存在自相抵牾、不合规、偏见搪突等情形的内容将难以全部检测出来并剔除。会导致演习得到的模型底座存在输出带有偏见、透露隐私信息的可能性。企业需重视对模型数据的审查和脱敏事情,综合考虑技能、政策、伦理和法律法规多方成分,持续改进干系流程。(作者是中国电信研究院大数据与人工智能研究所所长)企业要发展,也应重履责姚 佳无数据,不AI。AI大模型的迭代发展离不开大体量优质数据“喂养”。由此,“数据淘金”成为AI家当高质量发展的必由之路,优质数据也成为家当竞相争取的稀缺资源。优质的数据不仅关乎发展,更关乎安全。2023年11月,多国签署的《布莱奇利宣言》,个中提到AI可能会天生欺骗性内容,可能产生被故意误用或无意掌握等风险。针对上述风险的破解之道同样来自于数据——我们可以通过得到“金子”一样的好数据来演习大模型等路子,来进行干系破解或应对。然而,AI的发展并非是伶仃的。只管在发展天生式AI市场之时,存在过多限定数据利用,导致“市场失落败”的可能性。但从目前看,科技公司为了更好地演习大模型,侵害他人隐私和知识产权的风险不容忽略。举例来看,美国近年来的几起诉讼,无论是针对OpenAI、GitHub的集体诉讼,还是针对Stability AI,以及美国万名作家签署作家协会信函呼吁AI行业保护作者权柄等,这些诉讼和事宜均指向利用未经授权利用作品演习AI产品或者在开源社区中可能侵害他人版权的问题,且至今仍在激烈谈论,未能形成定论。隐私风险也同样值得关注。比如,科技公司未经用户许可,就从手机运用程序中网络用户的音乐偏好、图像信息、位置信息、财务数据乃至私人对话等,用以进行AI数据演习。这些行为都存在侵权风险。上述案例和争议,哀求干系企业在发展的同时,严格遵照现有法律规则。我国于2023年7月颁布《天生式人工智能做事管理暂行办法》,个中第7条规定了天生式人工智能做事供应者的演习数据处理活动哀求,即应利用具有合法来源的数据和根本模型;涉及知识产权的,不得侵害他人依法享有的知识产权;涉及个人信息的,应该取得个人赞许或者符合法律、行政法规规定的其他环境等等内容。企业作为AI大模型演习的主体,需更加看重责任和履责,充分考虑对付已有著作权人和个人信息主体的权利保障与利益平衡。须要关注的是,干系企业责任是全方位、体系化的,包括不局限于隐私保护责任、个人信息保护等责任、数据安全保障责任、数据质量保障责任等。(作者是中国社会科学院法学研究所教授)▲
上一篇