到有效的贯彻。
生成式人工智能语料库的构建与更新可以分为被动和主动两种类型。被动的语料库构建与更新指大量用户通过对话框自行输入信息,系统自动将该类信息保存并纳入语料库。生成式人工智能技术的高度自动化和复杂性特点使得其难以在自动收录用户个人信息时向信息主体提供充分、全面的告知,让信息主体完全了解个人信息的处理过程和结果,从而造成对告知同意规则的违背。以ChatGPT为例,OpenAI的服务条款规定OpenAI可以广泛使用用户输入和输出的内容,将其纳入语料库并用于改进ChatGPT。ChatGPT用户在首次注册账号时将收到来自系统的个人信息收集提示,用户点击弹窗下方“下一步”即视为对其个人信息收集的同意许可。然而,从弹窗提示和OpenAI隐私政策具体内容来看,均只涉及到基本的信息收集事项,不涉及具体的个人信息处理方式和算法规则,而这恰恰是生成式人工智能个人信息处理中最为关键的内容。尤其是在语料库模型训练方面缺乏透明度和公开性,这导致用户无法全面了解其个人信息的处理流程、用途、保存期限等关键信息,从而无法判断自己的信息是否被合理使用和保护。可见,OpenAI在收集用户个人信息时未完全履行告知义务。同时,由于用户只能选择接受隐私政策并同意信息处理,否则将无法享受由ChatGPT提供的服务,用户的同意实际上并不是真正的自主选择,往往只是一个形式上的程序。
小主,这个章节后面还有哦,请点击下一页继续后面更精彩!
主动的语料库构建与更新则包括数据爬虫、图书数字化、收集学术文献数据等方式,其中以数据爬虫为主。OpenAI官方网站的“我们的方法”页面表明,为支持其人工智能系统的训练和发展,OpenAI使用数据爬虫技术来获取大量的文本数据。这些数据来源包括博客、Bing搜索引擎、维基百科等公共网站和在线资源,以及专业非营利性组织如Common Crawl通过其他渠道获得的数据。数据爬虫技术可以通过程序自动地收集互联网上的大量数据,这种收集方式的优点在于其能够快速、高效地获取大量的数据,使得模型的训练和表现更加准确和可靠。然而,这些数据中可能存在个人信息,其来源难以追溯和验证。生成式人工智能通过“灌入”这些数据,未经告知和征得信息主体同意,直接架空个人信息处理的告知同意规则。可见,在生成式人工智能语料库构建与更新的过程中,无论是被动的个人信息“输入-收录”还是主动的数据爬取,告知同意规则均在一定程度上处于缺位状态。
(二)最小必要原则被虚置的风险
最小必要原则要求信息处理者在处理个人信息时,必须有明确、合理的处理目的,并且该目的必须与个人信息的处理直接相关,同时采用对个人权益影响最小的方式进行处理。该原则包括三方面的内容,即最小化、相关性和合比例性。最小必要原则源自传统的比例原则,是国内外法律实践中被普遍接受的个人信息处理原则,我国个人信息保护法草案历次审议稿中均包含关于最小必要原则的规定。然而,在生成式人工智能应用实践中,存在着信息收集超出必要范畴、信息处理期限不明、信息用途不清晰等问题,这些问题导致最小必要原则难以得到有效的贯彻。
首先,最小必要原则中的信息处理最小化要求个人信息处理应限制在为实现特定目的所必不可少的范围内,即离开某项个人信息的处理,就无法合理地通过其他手段实现目的。信息处理最小化可进一步细化为最少数量、最少类型、最短存储时间、最小共享范围、最低处理频率等具体内容。生成式人工智能作为一个超大型语言模型,通常需要逾亿万单词的人类语言数据支持。海量训练数据的收集是其获取