AI“社死现场”：一个破折号，暴露你的“机器本色”？！

TL;DR：

别以为AI写得天衣无缝，一个小小的破折号就可能让你“社死”！从固定套路到“水印”暗号，AI和检测工具的猫鼠游戏正火热上演，这届“AI特工”们，招数可不少。

最近江湖上流传着一个“都市传说”：如果你写的东西里破折号（em dash）用得特别多，那恭喜你——你可能被AI检测工具盯上了！这可不是开玩笑，有消息说，AI写手们偏爱这个看起来有点“高级”的标点符号，结果一不小心就成了它们暴露身份的“指纹”。¹ 听到这儿，各位AI的“忠实用户”们，你们的AI文案是不是有点“危”了？

AI“破绽”大起底：不只破折号，还有这些“小秘密”

话说，AI这玩意儿，就像个披着人皮的“学霸”。它能把你的草稿润色得漂漂亮亮，用词造句那叫一个滴水不漏，逻辑更是清晰到让你怀疑人生。但问题是，它终究不是人，写出来的东西总带着那么点“AI味儿”。就像一个熊孩子玩亮片胶水，虽然作品闪闪发光，但总得有人盯着点，不然一不小心就搞得满屋子都是“AI指纹”。¹

西湖大学文本智能实验室的博士生鲍光胜老师就一针见血地指出，虽然大模型一天天在进化，但AIGC（AI生成内容）和人类创作之间，在用词、逻辑、语法上还是有“亿点点”区别的。² 比如：

用词偏好“固定”：英语学术论文里，AI特别喜欢用“delve”（深入研究）这个词，频率高到离谱。就像AI心里有个小本本，记录着“我最爱的词库”，每次润色都从里面掏。
逻辑套路“僵硬”：给AI一些材料让它扩写？它每次都用一样的招数——先把材料拆解成若干点，然后逐一论述。这种**“万能模板”式的写作方式，在人类看来就是“僵”得可以。北京大学的研究也发现，AI生成的中文论文摘要，那叫一个同质化高、逻辑性强**，惯用“归纳总结”等学术套话。而人类呢？个性化差异明显，更喜欢用“接地气”且与政策相关的词语。²

所以，破折号只是冰山一角。AI的“破绽”藏在它那看似完美的逻辑里，藏在它对特定词语的“执念”里，更藏在它千篇一律的**“套路化”行文模式里。毕竟，人类的创作是灵动的，没那么多“条条框框”，AI嘛，就是个“模范生”**，规矩得让人觉得少了点“灵魂”。

“火眼金睛”如何炼成？AI检测器背后的“黑科技”

既然AI写手有“马脚”，那总得有“柯南”来抓吧？于是乎，各种AI检测工具应运而生，上演了一出精彩的“AI检测AI”大戏。这就像一场**“矛与盾”的较量**，AI大模型这把“矛”越来越锋利，而检测技术这面“盾”也在不断加固。²

目前，检测AI内容主要有三种“独门绝技”：

模型训练分类器法（监督分类器法）：
- 原理：简单粗暴，先收集一大堆人类写的和AI写的东西，然后用这些数据训练一个“鉴别专家”。就像给一个AI看无数张猫狗照片，让它学会区分猫和狗。
- 优点：在训练数据覆盖的领域，准确率还挺高。
- 缺点：成本高昂，数据有限，遇到没见过的新风格就抓瞎了。² 就像一个只见过中华田园犬的“专家”，突然来了只柯基，它可能就蒙圈了。
零样本分类器法：
- 原理：这个就高级了，它不需要提前训练，而是直接利用已有的强大大模型，去抽取文本的“语言模型特征”。听起来有点玄乎？简单说，它会计算一段文字在某个大模型里出现的“概率”（似然函数），这个概率高低就能体现是不是AI生成的。² 此外，还会分析文本的“困惑度”（Perplexity）和“突发性”（Burstiness），这些都是AI写手们难以伪装的“指纹”。³
- 优点：覆盖面广，在不同领域和语言上表现稳定。就像一个经验老道的侦探，不用事先踩点，也能从蛛丝马迹中发现端倪。
- 缺点：依赖生成文本的“源模型”，如果是个“野路子”AI写的，就难搞了。而且为了提高准确率，计算成本不低。²
文本水印法（主动方法）：
- 原理：这招更绝，不是等AI写完再去检测，而是在AI生成内容的时候，偷偷给它打上“水印”。这水印人类肉眼看不见，但技术手段一扫就能发现。
- 优点：准确率相当高，直接从源头“锁死”。
- 缺点：水印可能被“有心人”弱化甚至移除。而且，如果你无法接触到大模型的内部结构，这招就没法用了。²

别看这些方法各有优劣，但现在的商用AI检测软件，大多都是**“组合拳”高手**，融合多种技术来提升准确性。比如西湖大学的Fast-DetectGPT，就在速度上提升了340倍，检测准确率也提升了约75%！² 简直是给AI写手们来了个“降维打击”。

“猫鼠游戏”永不止歇：未来，谁能“笑到最后”？

面对越来越聪明的AI和越来越精明的检测工具，这场“猫鼠游戏”简直是科技界最精彩的连续剧。有人悲观地认为，未来AI写出来的东西会和人类创作无限趋近，检测工具根本分不清。但也有人乐观地觉得，随着检测技术的不断进步，它终将超越大模型技术，实现对AIGC的“精准打击”。²

现在看来，无论是文字、图片还是视频，AI生成的作品都还在技术的“可识别范围”之内。甚至在图片和视频领域，专业的“老法师”们肉眼都能直接识别出AI的痕迹。² 这说明，AI要真正达到以假乱真的地步，还有很长的路要走。

所以，各位“AI搬运工”们，别指望**“一键生成”就能高枕无忧了。未来，也许一个不经意的标点符号，一段过于“规矩”的排比句，甚至你那句常用的“综上所述”，都可能成为你的“社死”现场。毕竟，AI再聪明，也还是那个有点“僵”、有点“套路”的“学霸”，而人类的创作，永远充满着不可预测的“野性”和“灵光一闪”**。这场“人机大战”的悬念，才刚刚开始！

引用

Busted by the em dash — AI’s favorite punctuation mark, and how it’s blowing your cover·（2024/08/16）·检索日期2024/08/16 ↩︎ ↩︎
AI检测AI：“矛”更利还是“盾”更坚·新华网·科技日报·吴叶凡（2024/08/16）·检索日期2024/08/16 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
zejunwang1/GPTDetector: AI生成内容检测分类器 - GitHub·GitHub·（2023/06/07）·检索日期2024/08/16 ↩︎