声明:本文来自于微信公众号 深思SenseAI,作者:深思SenseAI,授权Soraor转载发布。

莱昂纳多扮演的小弗兰克在《猫鼠游戏》中凭借着高超的假币伪造技术骗过了一众警察。现实中,AI领域的《猫鼠游戏》正在上演,一场有关人工制作内容和 AI 生成内容的判定成为越来越重要的议题。

Human or AI,这是一个问题。

本文介绍了 GPTZero 这款用户量突破400万的 AI 文本内容检测工具,详细拆解了 GPTZero 的创立历程、分类器工作原理、以及当前的应用进展。

同时,我们观察到 Stability AI 核心成员创立的 Flux AI 近期在外网发布的 AI 生成 TED 演讲图片将图像领域的“真假莫测”推到了一个新高度。本文补充了目前在多模态 AI 检测领域的创业项目,并更新介绍了 OpenAI 在 AI 内容检测领域的最新进展。

01.

GPTZero,

两位20+岁创始人的创业

2022年底,普林斯顿的大学生 Edward Tian 在咖啡店里花了一个寒假的时间研发出了 GPTZero,23年1月推出后迅速走红,成为了教育界和科技界关注的焦点。目前,GPTZero 用户规模已增长到400万,ARR 在六个月内增长了500%并实现盈利。

GPTZero 的创业想法源于 Tian 的一段实习经历,Tian 在《纽约时报》的实习期间,他编写了帮助记者识别人工智能生成内容的代码,后来创办了 GPTZero。

在他的首款网络应用获得热烈反响后,向好友 Alex 寻求帮助,本科毕业于加州理工学院,研究生毕业于多伦多大学。在看到 GPTZero 的广阔前景后,Alex 放弃了博士课程,选择成为高中同学 Tian 的联合创始人,担任 CTO 角色。

最初 Tian 在推出 GPTZero 时,只有一个简单的功能,即根据用户输入的内容,返回该内容由 AI 生成的概率有多大。

image

GPTZero的早期版本是一个文本检测器的简单UI界面

经过一年半的发展,GPTZero 产品已经基于 AI 内容检测模型能力构建出了丰富的产品线,包括:

1)Chrome 插件:安装后只需要在浏览器上划线,即可快速检测内容是否由AI生成。

2)Word 插件:可帮助用户识别正在阅读的 Word 文档是否部分由 AI 编写。

3)抄袭检测器:将用户输入的文本与数据库和互联网上的数百万份文档进行匹配,帮助用户检测内容是否抄袭。

4)人工写作认证:专有的写作模式分析器,认证文档确实由人工写作,而非AI生成。

image

GPTZero 目前针对多个入口和使用者进行了产品设计

GPTZero 最初的产品 Go To Market 专注于教师群体,旨在帮助教师检测人工智能生成的学生作业,并且与美国教师联合会达成协议。

随着发展,GPTZero 的客户群体已经扩大,现在包括政府采购机构、拨款组织、招聘经理、人工智能训练数据标注员等。

除了文本检测领域,GPTZero 的远期目标定位于研究 AI 幻觉检测,由于幻觉是 GenAI 行业的祸根,公司决定推出LLM 训练数据集的免费 AI 文本版权检查,帮助他们生成更广泛的幻觉检测训练数据。

02.

GPTZero 的工作原理

AI 在某些领域的文本生成效果已经达到了真假难辨的程度,GPTZero 是如何构建自己的检测模型来对抗 LLM 模型的快速迭代呢?

GPTZero 模型采用了多层方法和端到端深度学习模型,核心技术包括困惑度检测、突发性检测等。核心都是利用目前 LLM 模型的生成原理或者弱点来进行突破检测。

困惑度检测

困惑度检测衡量了模型对文本的“困惑”或“惊讶”程度,人类编写的文本通常具有更高的困惑度,因为它的可预测性较差,而 AI 生成的文本往往具有较低的困惑度,因为它根据 AI 模型的训练更容易预测。

GPTZero开发了一款类似于 ChatGPT 的 LLM,在文本中的每个单词之后,模型都会提出下一个单词的建议,它会检查建议是否与文本中的实际情况相符,若相符则说明困惑度较低,可能是AI生成的。

突发性检测

突发性检测是指整个文本中困惑度的变化。作为人类,我们倾向于改变我们的写作模式。从哲学上讲,我们的短期记忆会激活并阻止我们重复写类似的东西。

相反,语言模型具有显著的“AI 印记”,它们的写作水平与 AI 非常相似。虽然一个人很容易偶然写出类似 AI 的句子,但人们往往会在整个文档中改变他们的句子结构和措辞。另一方面,模型会公式化地使用相同的规则来选择句子中的下一个单词,从而导致突发性较低。

GPTZero基于数据积累的检测模型

GPTZeroX 是一个逐句分类模型,允许混合文本突出显示。该模型在文档的更大背景下分析文本中的每个句子,并确定每个句子由 AI 创建的概率。

GPTZero 还推出了一个专属教育领域的教育模型,该模型使用的数据比常规模型包含更多学生作业,提高了检测教育用途 AI 的准确性。该模型也非常适合区分 ESL 和 AI 编写的文本。

除此之外,互联网文本搜索也被 GPTZero 视为一种追溯内容源头的方式,模型的这一部分会检查文本和互联网档案中是否存在此文本。与其他 AI 检测服务不同,GPTZero 会确保常用文本不会被错误分类。

GPTZero 盾是一层防御其他试图利用 AI 检测器的工具,GPTZero 维护着一个数据库,其中包含绕过 AI 检测的最常见方法,例如同形字和空格攻击等。

基于这些不同的技术栈,GPTZero 使用深度学习算法构建了一个端到端的 ML 管道,使用来自网络的大量文本语料库、来自合作伙伴的教育数据集以及从一系列语言模型(包括最近的 Llama 和 GPT4)生成的合成 AI 数据集进行训练,从而构建出一个可以随着AI改进而改进的强大模型。

image

GPTZero 端到端模型的检测原理

03.

文本检测产品

的猫鼠游戏

GPTZero 的原理并不复杂,也远非唯一一家致力于识别 AI 生成内容的公司。其他公司包括 AI Writing Check、Copyleaks、GPT Radar、CatchGPT 和 Originality.ai。但是,许多工具的准确率极低。OpenAI 于2023年初推出了自己的人工智能检测器,但在大约七个月后的7月,该工具因其效果不佳而受到广泛批评,因此被关闭,近期 OpenAI 又发布了他们最新的 AI 内容检测研究成果,小编也会在后文介绍。

准确率,成为这些检测器产品最核心的竞争优势。techcrunch 曾使用 Claude 生成了8种不同风格的写作样本,其中包括:

1)知识类:中美洲的百科全书条目;

2)学术类:关于罗马陷落的大学论文;关于枪支管制优点的论文提纲;

3)新闻类:关于2020年美国总统大选的新闻文章;

4)营销类:鞋油营销电子邮件;

5)求职类:律师助理职位求职信;软件工程师的简历;

实验发现,Claude 在生成社交媒体文案、营销类邮件内容时,基本没有明显迹象表明是 AI 生成的,甚至在当时难道了所有的检测器。同时,这些 AI 检测器在处理相对较长的文本样本时表现更好,因为文本中的模式更加明显。

从检测原理来说,这些 AI 内容检测器本质是人工智能语言模型,它使用来自互联网的大量公开文本示例进行训练,并经过微调以预测一段文本由人工智能生成的可能性。在训练过程中,AI 内容检测器会将文本与来自网站和其他来源的人工书写文本进行比较,以尝试学习能够揭示文本来源的模式。

问题在于,人工智能生成的文本的质量在不断提高,检测器很可能是在大量老一代样本上进行训练的。除非近乎连续地重新训练,否则分类器模型的准确性会随着时间的推移而降低。

同时,通过修改人工智能生成的文本中的一些单词或句子,可以轻松规避 AI 内容检测器。对于坚定的学生和欺诈者来说,这很可能成为一场猫捉老鼠的游戏。

04.

图片、视频、音频

AI 检测不止文本

AI 文本内容的生成量是巨大的,但除了文本模块,图片内容、视频内容、音频内容的篡改和伪造也面临着巨大的监管压力和风险。在这个领域,同样存在旺盛需求和巨大潜力。

最近,Stable Diffusion 核心高管出走创业成立的 Flux 又输出了一波真假难辨的 AI 图片,把 AI 生成图片的真实感带到了新的高度,甚至解决了 AI 在手部生成、文本生成等领域的瑕疵。

Flux 生成的超写实 TED 演讲图正在社交媒体上爆火,已经达到了真假难辨的效果。有网友提出了通过观察发丝、吊牌金属结构合理性、图片背景文字、调整饱和度等方式来判断图片是否由 AI 生成。但这样的判断方式很难形成系统,毕竟不同的 AI 绘图工具,特点也都不尽相同。

多模态内容领域的 AI 检测器公司有的来自已有的内容审核公司转型,有的则是新的创业组织。多模态 AI 内容的检测需求要比文本类 AI 内容更加旺盛,小编整理了看到的几个创业项目,看看他们切入这个赛道的产品逻辑。

Hive AI

Hive AI 是一个社交媒体内容自动化审核产品。Hive 早期是一家计算机视觉技术公司,通过众包的方式,组织全球劳动力进行视频和图片的标注,并基于此开发了一套 API,用于识别视频片段和广告中出现的徽标。早期 Hive 通过和自动驾驶算法公司合作的方式,售卖 API。

在积累了200多万用户和大量的标注数据后,Hive 开始向检测工具转型。目前 Hive AI 每月处理数十亿次 API 调用,处理包含图片、视频、文件、网页、音频、直播等在内的多种内容形态和媒体类型,并获得了包括Reddit、Canva、沃尔玛、Visa 等在内的100多名 KA 客户。Hive AI 在2021年完成了8500万美金的 D 轮融资,估值超过20亿美金,并在2023年进行了下一轮融资(信息未公开)。

image

Hive 早期

在 AI 生成内容量激增的今天,Hive 发布了 AI 内容分类 API,对文本、图片和音频内容进行检测。

image

Hive AI 发布的 AI 内容检测工具

AI or Not

AI

orNot 是一款已经吸引了10万用户的 AI 多模态内容检测产品,产品轻量易用,用户可以免费检测10张图片是否由 AI 生成,基础版本只需要5美金/月就可以检测100张图片,高级版本250美金/月,实现1万张图片检测,还可以调用 API 用于企业级用途。

在产品设计上,AIorNot 提供简洁的 AI 检测报告,包含对图片质量、NSFW 内容、是否为 AI 生成内容以及 AI 生成图像工具的判定。产品基于大型数据集进行训练,该数据集包含数百万张人工生成的图像和人工创建的图像,例如照片、数字和传统艺术以及来自网络的 meme。

image

AIorNot图像检测界面

Nuanced

Nuanced 是 YC W24的一个项目,其专注于检测图像领域的 AI欺诈、深度伪造和虚假信息。帮助约会应用程序、广告平台、市场和新闻网站等公司保持信任和真实性。

Ayman 是 Nuanced 的联合创始人兼首席执行官,她曾在在 GitHub 工作了7年多,其硕士就读于牛津大学计算机专业,论文研究涉及创建一种用于恶意软件检测的新型机器学习技术。

Nuanced 旗帜鲜明的表示,虽然 Meta 和 OpenAI 等大型企业正在采用水印的方式检测 AI 生成内容,但只靠这种方式存在局限性。Nuanced 在Dalle-3、Midjourney 和 SDXL等不同图像生成架构进行训练,并不断集成来自最新AI 图像生成器的数据。针对最新的由 SD3生成的示例,Nuanced 的准确率达到了97%。

image

Nuanced 内容检测示例

AI 图像的检测重要性被社交媒体平台提到了新的高度。在 Meta 推出的第一个版本的检测中,用户发布 AI 生成的内容后,平台算法会给内容打上一个 “Made with AI”(使用AI制作)的标签,但由于用户投诉 Meta 将一些真实的内容错误的判定为 AI 制作,Meta 近期将该标签改为了更模糊的 “AI Info”标签。

image

Meta 错误的将 Cosplay 内容判定为 AI 制作;

目前将 “Made with AI” 标签调整为“AI Info”标签

Nuanced 致力于帮助这些平台更精细的识别 AI 生成的内容,例如使用 PS生成填充功能进行的细微编辑被错误地标记为 AI的内容,消除 AI 增强、AI 生成和AI 修复之间的歧义。

05.

了解我们网上看到和听到的内容来源

8月5日,OpenAI 在新修订的一篇博客文章《了解我们在网上看到和听到的内容的来源》中透露,它一直在研究使用分类器、水印和元数据来识别人工智能创造的产品。《华尔街日报》的一篇报道称,“OpenAI 有一种方法可以可靠地检测出何时有人使用 ChatGPT 撰写论文或研究论文”——准确率为99.9%。但OpenAI还没有发布它。“

从目前的博客内容来看,OpenAI 在文本领域做了广泛的研究,并探讨出了分类器、水印和元数据等解决方案。其中将元数据用作文本来源方法的有效性还比较早期,但非常有前景,和水印不同,元数据是经过加密签名的,这意味着不会出现误报。

文本水印方案在抵御局部篡改(例如释义)方面具有很高的准确性,但是对全局篡改的防御能力较弱。同时文本水印方法可能会对一些非英语母语人士产生不成比例的影响。

在检测 AI 图像内容的研究中,相比 OpenAI 五月份的研究,也取得了新的进展。在早前时候,OpenAI 通过 C2PA 元数据(一种数字内容标准)来标记和识别图像,但是当图像进行一些微小的修改,就可能会扰乱工具的可靠性。而在最新研究中,OpenAI 可以保证用户编辑、操作和修改时的详细信息,跟踪和显示图像的整个历史记录。

image

OpenAI 使用可追踪的水印记录图像历史

在音频水印方面,虽然 OpenAI 已经将水印功能整合到了我们的自定义语音模型 Voice Engine 中,但他们认为目前该模型仍处在有限的研究预览阶段。

未来,了解我们网上看到和听到的内容来源至关重要,AI 模型层公司、社交媒体、金融科技平台、新闻媒体、身份验证等领域玩家都会为 AI 内容的审核和判定贡献力量。

随着 AI 生成能力的进一步加强,以假乱真的内容会越来越多,识别互联网信息来源和真实性的需求会一直存在。这场“AI版猫鼠游戏”会持续上演。