整理|褚杏娟、核子可乐
近日,三星员工在使用ChatGPT处理工作时,无意间泄露了公司的绝密数据。
据悉,三星允许半导体部门的工程师使用ChatGPT参与修复源代码问题。但在过程当中,员工们输入了机密数据,包括新程序的源代码本体、与硬件相关的内部会议记录等数据。不到一个月的时间,三星曝出了三起员工通过ChatGPT泄露敏感信息的事件。
由于ChatGPT会保留用户输入数据以进一步训练自身,因此三星的这些商业机密现已被掌握在ChatGPT背后的AI服务商OpenAI手中。作为回应,三星公司现正开发自己的内部AI产品供员工使用。
三星保密数据泄露
据悉,起初三星全面禁止使用ChatGPT,自3月11日开始才部分开放给DS部门使用,却没想到在短短时间内就传出机密外泄。
三起泄密事件均发生在三星电子半导体暨装置解决方案(DeviceSolutions,简称“DS”)部门。其中,两起与半导体设备有关,另外一起与会议内容相关。
在设计晶片设备的事件中,三星半导体事业暨装置解决方案部门(DeviceSolutions,即DS)的一名员工在测试设备下载软体的过程中,将出现问题的原始代码复制到ChatGPT,并向其请教解决办法,但这一操作反而让三星设备测量相关的原始码成为ChatGPT学习资料。另一起则是有员工为了解设备良率等相关资讯,将程式码输入ChatGPT,要求其优化代码。
虽然是保密工作,但为了尽量提高效率、为公司节约时间以测试和验证处理器,最终降低开发成本,三星还是决定允许员工使用外部AI服务。
第三起则是,有员工使用ChatGPT将会议记录转换成演示文稿,但其中却涉及大量三星明显不希望对外透露的内容。
由于三星员工在使用ChatGPT查询问题并验证答案时,不慎将这些资讯添加到ChatGPT的学习资料库里,日后若有其他使用者在ChatGPT上提出相关问题,可能导致三星企业机密外泄。
据悉,三星正在制定相关保护措施,并进一步加强内部管理和员工训练,目前也已将每次向ChatGPT提问限制在1,024byte以内。若采取信息保护紧急措施后又发生类似事故,三星内部很有可能会切断ChatGPT服务,更不排除对相关人员做出处罚。
外媒称此类数据已经无法检索,因为其现被存储在属于OpenAI的服务器上。在竞争激烈的半导体行业,任何形式的数据泄露都可能给厂商带来灾难性打击。而三星似乎没有任何办法要求OpenAI检索或删除当前持有的敏感数据。
有人认为这意味着ChatGPT并不符合欧盟的GDPR,代表管理方存在收集和使用其核心租户数据的行为。也正因如此,目前意大利正在全国范围内禁止使用ChatGPT。
数据安全风波不断
3月31日,意大利数据保护局Garante宣布暂时禁用ChatGPT,并对其涉嫌违反隐私规则展开了调查。目前,OpenAI已在意大利下线ChatGPT,意大利也成为了全球首个封禁ChatGPT的国家(部分国家和地区在一开始就无法使用ChatGPT。)
意大利数据保护局Garante认为,ChatGPT平台曾在3月20日出现了用户对话数据和付款服务支付信息丢失情况。此外,平台没有就收集处理用户信息进行告知,缺乏大量收集和存储个人信息的法律依据。
意大利个人数据监管局(GPDP)指出,由于违反欧盟的《通用数据保护条例》(GDPR)和意大利的数据保护法,他们将立即对涉及意大利公民的“个人数据处理做临时限制”。
GPDP强调,“OpenAI对其收集用户及各相关方数据的行为缺乏清晰说明。”另外,ChatGPT对用户数据的处理还可能造成错误印象,“因为ChatGPT提供的信息并不一定与真实数据相对应。”
GPDP还对OpenAI忽略用户年龄审查表达了担忧。作为微软的投资对象,OpenAI曾提到其ChatGPT是专为13岁或以上的用户群体所设计。但这项服务在发布后并没有对用户做年龄验证,GPDP认为“考虑到其发展程度和自我意识,未成年人在使用时可能接触到绝对不合适的答案。”
此外,据报道,非营利组织人工智能与数字政策中心(CAIDP)不久前向美国联邦贸易委员会(FTC)投诉,要求FTC调查OpenAI违反消费者保护规则的行为,该组织认为GPT-4具有偏见性、欺骗性、对隐私和公共安全构成风险。
CAIDP认为,OpenAI违反了FTC对人工智能产品的指导,并违反了FTC法案第5条,该法案禁止不公平和欺骗性的商业行为。CAIDP敦促FTC对OpenAI进行调查,并暂停其大型语言模型的商业部署,包括ChatGPT的最新版本。
OpenAI:AI安全需要技术和制度双重创新
显然,最近不断爆出的数据安全事件和意大利政府明确禁用的态度,已经引起了OpenAI的高度重视。4月5日,OpenAI发布了一篇文章来解释自己实行的安全措施,文章试图对业界GPDP担忧的问题作出回应。
根据OpenAI的说法,在发布新系统之前,其会开展严格测试,聘请外部专家提供反馈,通过人工反馈强化学习等技术改进模型的行为,并构建起广泛的安全与监控系统。例如,在最新模型GPT-4完成训练之后,OpenAI投入6个多月时间在整个组织内开展工作,以保证其工作效果更安全、更一致。
OpenAI表示,强大的AI系统应当接受严格的安全评估。“这方面保障还需要监管的协助,因此我们与政府积极合作,希望制定出最佳监管形式。”
从实际经验中改进安全系统
尽管进行了广泛的研究和测试,但OpenAI也称自己无法预测人们使用其技术的所有方式,也无法预测其对技术的滥用思路。因此OpenAI认为,从现实世界的使用方式中学习,才是随时间推移构建并发布更加安全的AI系统的关键前提。
“我们谨慎地逐步向更广泛的人群开放最强大的模型,并根据我们吸取的教训不断做出改进。我们通过服务和API对外开放最强大的模型,以便开发人员能够将这项技术直接构建至自有应用程序当中。这让我们得以监控滥用行为并采取行动,不断建立缓解措施以响应人们滥用我们系统的真实方式。这样安全工作才能不止于理论演绎,更要联系现实案例。”
OpenAI表示,真实案例促使了其制定越来越细致的政策,以应对人们可能引发风险的行为。“更重要的是,我们认为社会必须有时间来更新和适应愈发强大的AI,而且受到这项技术影响的人们也应对AI的下一步发展方向拥有发言权。有了第一手经验的指引,我们能够通过迭代部署更有效地将各个利益相关方引入关于AI技术应用的对话当中。”
关于儿童和隐私
OpenAI强调,保护儿童是安全工作的一大重点。OpenAI明确表示,要求用户必须年满18岁,或者至少年满13岁并得到父母同意后,才能使用其AI工具。OpenAI表示正在研究可验证用户年龄的工具,同时OpenAI声称已经建立起强大的滥用监控系统。据悉,与GPT-3.5相比,最新一代模型GPT-4响应禁止类请求的可能性降低了82%。
除了默认的安全护栏之外,OpenAI表示还与非营利性组织KhanAcademy等机构的开发人员合作,比如为KhanAcademy开发出的AI助手提供量身定制的安全缓解措施。
OpenAI的大语言模型训练自广泛的文本语料库,这些文本包括公开可用素材、许可内容以及由人工审阅者生成的内容。OpenAI表示不会使用这些数据来销售公司服务、做广告宣传或者建立个人档案,并承诺只利用这些数据来改进模型,比如ChatGPT会通过与用户间的对话不断训练和改进自身。
OpenAI承认,其部分训练数据可能包含来自公共互联网的个人信息,但声称不希望自己的模型来非跟踪个人,因此会努力在可行的情况下从训练数据集中删除个人信息,微调模型以拒绝对个人信息的请求,并响应用户提出的从系统中删除其个人信息的请求。“这些举措最大限度减少了我们模型可能在响应内容中,包含个人信息的可能性。”
在提高事实准确性方面,OpenAI表示这已经成为OpenAI及其他各AI开发商的关注重点。OpenAI通过被用户标记为不正确的主数据源的ChatGPT输出及反馈,提高了GPT-4的事实准确性。据悉,GPT-4生成符合事实内容的可能性比GPT-3.5高40%。
解决AI安全问题,需要更多投入
OpenAI认为,解决AI安全问题的切实方法,是投入更多时间和资源来研究行之有效的缓解与对齐技术,并测试它们在现实世界中被滥用的情况。
“我们认为AI的安全性与功能性发展应当齐头并进。截至目前,我们最重要的安全工作就集中在最强大的模型上,它们更善于遵循用户指示,但也更容易被操纵或‘引导’。我们将以愈发谨慎的态度构建和部署更加强大的模型,也会随着我们AI系统的发展而持续加强安全预防措施。”
OpenAI认为,虽然自己投入6个多月才在部署之前大致把握住GPT-4模型的功能、优势和风险,但未来AI系统的安全提升恐怕还需要更长的时间。因此,政策制定者和AI厂商都应保证全球范围内的AI开发和部署活动得到有效管理,确保各方不会为了快速成功而偷工减料。“这是一项艰巨的挑战,需要技术和制度的双重创新。”
“安全问题的解决还需要广泛的讨论、实验和参与,包括AI系统的行为边界。”OpenAI最后表示,“我们已经并将继续促进各利益相关方之间的合作和公开对话,努力打造一个更加安全的AI生态系统。”