返回

入编的那些事儿

首页
关灯
护眼
字体:
第307章 风险与控制:论生成式人工智能应用的个人信息保护(2/10)
   存书签 书架管理 返回目录
    阅读提示:为防止内容获取不全,请勿使用浏览器阅读模式。

不涉及具体的个人信息处理方式和算法规则,而这恰恰是生成式人工智能个人信息处理中最为关键的内容。尤其是在语料库模型训练方面缺乏透明度和公开性,这导致用户无法全面了解其个人信息的处理流程、用途、保存期限等关键信息,从而无法判断自己的信息是否被合理使用和保护。可见,openAI在收集用户个人信息时未完全履行告知义务。同时,由于用户只能选择接受隐私政策并同意信息处理,否则将无法享受由chatGpt提供的服务,用户的同意实际上并不是真正的自主选择,往往只是一个形式上的程序。

    主动的语料库构建与更新则包括数据爬虫、图书数字化、收集学术文献数据等方式,其中以数据爬虫为主。openAI官方网站的“我们的方法”页面表明,为支持其人工智能系统的训练和发展,openAI使用数据爬虫技术来获取大量的文本数据。这些数据来源包括博客、bing搜索引擎、***等公共网站和在线资源,以及专业非营利性组织如oncral通过其他渠道获得的数据。数据爬虫技术可以通过程序自动地收集互联网上的大量数据,这种收集方式的优点在于其能够快速、高效地获取大量的数据,使得模型的训练和表现更加准确和可靠。然而,这些数据中可能存在个人信息,其来源难以追溯和验证。生成式人工智能通过“灌入”这些数据,未经告知和征得信息主体同意,直接架空个人信息处理的告知同意规则。可见,在生成式人工智能语料库构建与更新的过程中,无论是被动的个人信息“输入-收录”还是主动的数据爬取,告知同意规则均在一定程度上处于缺位状态。

    (二)最小必要原则被虚置的风险

    最小必要原则要求信息处理者在处理个人信息时,必须有明确、合理的处理目的,并且该目的必须与个人信息的处理直接相关,同时采用对个人权益影响最小的方式进行处理。该原则包括三方面的内容,即最小化、相关性和合比例性。最小必要原则源自传统的比例原则,是国内外法律实践中被普遍接受的个人信息处理原则,我国个人信息保护法草案历次审议稿中均包含关于最小必要原则的规定。然而,在生成式人工智能应用实践中,存在着信息收集超出必要范畴、信息处理期限不明、信息用途不清晰等问题,这些问题导致最小必要原则难以得到有效的贯彻。

    首先,最小必要原则中的信息处理最小化要求个人信息处理应限制在为实现特定目的所必不可少的范围内,即离开某项个人信息的处理,就无法合理地通过其他手段实现目的。信息处理最小化可进一步细化为最少数量、最少类型、最短存储时间、最小共享范围、最低处理频率等具体内容。生成式人工智能作为一个超大型语言模型,通常需要逾亿万单词的人类语言数据支持。海量训练数据的收集是其获取语言生成能力、上下文理解能力和世界知识能力的关键前提,但也可能因此在信息处理数量、频率、类型等方面违背信息处理最小化要求。例如,在生成式人工智能应用实践中,由于其数据处理方式的复杂性和不确定性,往往难以确定个人信息的处理期限。当生成式人工智能的应用场景发生变化或数据集需更新时,信息处理者可能需要重新处理之前收集的个人信息。这种情况可能会导致信息主体只同意了一次处理,却面临自己的个人信息被无期限处理的情形,这与个人信息处理的最小必要原则不相符。其次,根据《个人信息保护法》第6条第1款,最小必要原则中的相关性要求必须是直接相关,即实现处理目的与个人信息处理之间具有必然的、紧密的联系。在语料库构建过程中,生成式人工智能有时会收集与处理目的无关的个人信息,例如用户的搜索记录、设备信息、通信信息,用户的时区、地点、国家、日期和具体接触时间等。这些信息的收集与最终的文本生成服务之间缺乏必要联系,违背
本章未完,请点击下一页继续阅读》》
上一页 目录 下一页