谷歌在10月23日宣布,SynthID现已向任何想要尝试的人开放。这项用于验证AI生成内容的真实性的系统,会在生成的图像、视频和文本中嵌入不可察觉的水印,使用户能够验证某件内容是否由人类或机器生成。谷歌表示,“我们将开源SynthID Text文字水印工具。该工具可供开发人员和企业免费使用,帮助他们识别由AI生成的内容。”
SynthID于2023年推出,作为一种为AI生成的图像、音频和视频打水印的方法。它最初被集成到Imagen中,随后该公司在2024年5月的I/O大会上宣布将其整合到Gemini聊天机器人中。
SynthID系统通过在文本生成过程中对生成的tokens进行不可察觉的水印编码来工作。DeepMind今年5月表示,该系统通过在生成点引入额外信息,并调节生成tokens的可能性来实现这一点。
通过将模型的单词选择及其调整概率分数与加了水印和未加水印的文本的预期分数模式进行比较,SynthID可以检测出该句子是否是人工智能写的。
据10月23日发表在《自然》杂志上的一项研究表述,这一过程不会影响响应的准确性、质量或速度,而且也不容易被绕过。与标准元数据不同,标准元数据可以很容易地被删除,SynthID的水印即使在内容被裁剪、编辑或其他方式修改后仍会保留。
美国马里兰大学副教授索海尔·费齐(Soheil Feizi)在接受麻省理工学院科技评论采访时表示:“实现对AI生成文本的可靠且不可察觉的水印技术在根本上具有挑战性,尤其是在大型语言模型输出接近确定性的情况下,比如事实问题或代码生成任务。” 费齐教授同时指出,其开源特性允许社区在不同的环境中测试这些检测器并评估它们的鲁棒性,有助于更好地理解这些技术的局限性。
然而,SynthID系统并非万无一失。尽管它能够抵抗篡改,但如果将文本通过语言翻译应用程序处理或经过大幅改写,SynthID的水印就会被移除。对于较短的文本片段,SynthID系统效果不佳,也无法确定基于事实陈述的回复是否由AI生成。比如对于“法国的首都是什么?”这个问题,只有一个正确的答案,无论是人类还是AI都会告诉你是巴黎。
如果用户想亲自尝试SynthID,可以从Hugging Face上下载,这是谷歌更新后的负责任人工智能工具包的一部分。
论文地址:https://www.nature.com/articles/s41586-024-08025-4
开源地址:https://github.com/synthid-text
SynthID-Text 是一种可立即投入生产的文本水印方案,可保持文本质量并实现高检测精度,同时将延迟开销降至最低。并且,SynthID-Text 不影响 LLM 训练,仅修改采样程序;水印检测计算效率高,无需使用底层 LLM。
SynthID-Text 建立在以前生成水印组件的基础上,并引入了一种新型采样算法,即 Tournament 采样。SynthID-Text 可以配置为非失真(保留文本质量)或失真(以牺牲文本质量为代价提高水印可检测性)。在这两种设置中,SynthID-Text 都提供了更高的检测率。
简单举个例子,对于短语「我最喜欢的热带水果是__」,LLM 可能会使用 token「芒果」、「荔枝」、「木瓜」或「榴莲」来完成句子,并且每个 token 都会给出一个概率分数。当有一系列不同的 token 可供选择时,SynthID 可以调整每个预测 token 的概率分数,以免影响输出的质量、准确性和创造力。
谷歌通过对来自 Gemini 实时互动的近 2000 万条响应进行了大规模用户反馈评估,结果表明:非失真 SynthID-Text 可以保持文本质量。因此,SynthID-Text 已被用于为 Gemini 和 Gemini Advanced 添加水印。这证明生成文本水印可以成功实施并扩展到现实世界的生产系统,为数百万用户提供服务。
此外,谷歌还提供了一种将生成水印与投机采样(speculative sampling)相结合的算法,允许将 SynthID-Text 集成到大规模生产系统中,而额外的计算开销可以忽略不计。
不过,SynthID-Text 目前仅可以处理短至三句话的文本,以及经过裁剪、解释或修改的文本,但却很难处理短文本、被重写或翻译的内容,甚至是对事实问题的回答。
谷歌表示:「SynthID 并不是识别人工智能生成内容的灵丹妙药,但 SynthID 将是开发更可靠人工智能识别工具的重要组成部分。」