为什么SEO的AI检测是割韭菜行为？

老阎杂货铺 2024.04.14

阅读 418

从去年11月份开始到今年三月份，谷歌的Helpful Content Update更新让很多网站中招，其中有不少网站被谷歌直接从搜索引擎除名。这里边不乏已经运营很长时间，有很大流量的网站。于是很多人就开始把这个更新与AI生成内容进行等值替换，认为谷歌是在处罚AI生成的内容。殊不知，这次相当一部分网站的内容不是AI生成的，而是真实的人写的内容。

自从有了AI生成内容，就有了另外一个很有意思的产品类型，也就是AI检测产品。比较知名的包括了GTPZero、ZeroGPT、CopyLeaks, Originality等等。而相当一部分都在宣传一个点，也就是说AI检测结果如果是AI写的，就会被谷歌处罚。而如果AI检测结果是人写的，就不会被谷歌处罚。

这次三月份的谷歌算法更新，更是让很多做SEO的朋友开始依赖这些产品做AI检测。不过让人比较崩溃的经常是，这些不同产品的检测结果还不相同，到底相信谁就是一个问题了。

另外，有了魔法就有用魔法来对抗魔法的产品。比如现在又有了让AI来改写使得你文章能够通过这些检测工具的产品，比如undetable等等。可是这些工具对于你做SEO是否真的有意义？大家却没有去认真的进行思考过。

我们先来分析一下这些AI检测工具的工作原理，然后再看看如何做才能防止被识别为AI。

AI检测工具基本原理

我们都知道这一轮AI的大发展都来自于一个基础的概念，也就是大模型。英文简称是LLM，是Large Language Models的缩写。其底层的算法则是来自于一个叫做Transformer的模型。我这里不去介绍更细节的算法知识，主要来简单介绍一下大模型的基本原理。

对于我们现在使用的这些大模型，实际上就是基于大量的文本数据，进行大量的训练。这些文本数据一般情况下都是人做过选择的高质量的文本数据。通过大量的训练，就会形成一个推理模型，也就是我们最终调用的大模型。这个推理模型基本上是根据每个词对下面可能出现的词做概率预测，选出可能出现高的概率的词进行输出。拿个最通俗的例子，比如大家初中学英语，都学过如下对话：

A: How are you.

B: I am fine, thank you!

对于大模型来讲，如果遇到你输入How are you的时候，他的概率模型可能就会判断，I 应该是第一个最高概率出现的词，然后紧接着是am，再后边是fine概率高。基于这个概率模型，就会有后续的输出。

因为大模型训练阶段基于互联网上大量高质量的文本数据做了训练，然后在推理模型又有人来进行结果的反馈来提高模型的准确性，因此能够非常好的解决了现在内容生成的问题。

也正是因为这个原因，做大模型生成的内容的AI识别本身就不是那么复杂。最简单的就是你调用大模型生成足够多的文本做训练数据，去训练一个模型。这个模型就有了这个大模型推理的概率分布，然后对于任何一个文本，去跟这个训练好的模型的结果做拟合，如果拟合的非常接近，那就是AI生成的了。

如何防止AI检测

那么如何防止AI检测呢？现在市场上的AI改写防止检测的工具有不同的方法。不过基本的做法都是破坏生成的内容的文字推理概率，比如可以引入拼写错误。因为现在大模型都是基于非常高质量的数据训练的，你在生成的内容中引入错误，就破坏了这个概率分布，这些做AI检测的就不能识别AI了。不过这显然是个黑魔法，因为这明显的把一个高质量的内容变得低质量了。

还有一个做法就是做模型的微调了，比如你可以把你自己写的文章当作数据给大模型做微调，这个时候的推理过程就不是大模型的通用的概率，而是基于你的风格的写作模型。当然，有可能你自己写作的文字水平一般，那么这个文章出来的文字水平就非常一般了。

AI检测对SEO有意义吗？

现在回到主题，那么AI检测对于SEO有意义吗？我认为完全没有意义。谷歌作为一个人工智能公司，对AI的态度肯定不是否的，而是欢迎的。但是从搜索引擎的角度看，现在AI生成太方便了，随便一个人用个网上公开的prompt就能写作一篇文章，这文章对用户可能就没任何价值，谷歌毕竟要去花成本爬取、解析和索引这些内容。网上充斥着大量的这些没有任何价值的文章，对谷歌是成本，对最终用户也没意义，所以谷歌反对的实际上是对用户没有价值的内容。

谷歌不会用这些AI检测算法去检测一篇文章，所以这些AI检测对于SEO完全没有意义。但是谷歌会有自己的算法去判断一篇文章是否对用户有价值，而这些算法显然是不对外开放的。

但是回归到写作本身，在有互联网以前以及有互联网以后，我们一般正常写作的逻辑实际上没有变化。一般步骤都是：

1，确定想要写作的主题。

2，查询资料，没有互联网的时候去图书馆，有了互联网之后用搜索

3，提取这些对自己写作有用的资料，做笔记。

4，基于这些资料创作内容，增加自己的观点。

在AI时代，我们还是可以用这个过程来创作，而且这个过程出来的内容显然是对谷歌来讲就是有帮助的内容，也符合E-E-A-T的要求。

实际上，我们从3月份之后的结果看，我们自己的网站的内容都是用我们的AI引擎写作的，但是没有受到任何影响，甚至一直在增长。

而我们也让不同的客户去拿我们生成的内容和他们自己人写的内容做对比，结论是比普通的人写的还要有深度。

我们继续回来另外一个话题，需不需要对AI生成的内容做进一步改写使结果更有风格，甚至让AI识别工具识别不出来是AI呢？这个问题也要根据场景来判断。比如一个客户已经有了非常好的品牌，并且企业有非常有自己风格的内容在互联网上。那么为了保证企业内容的品牌调性和风格，实际上是可以去投入一定成本做个针对自己企业的微调内容生成模型，然后基于这个模型去做内容的生成，这样起码人读起来的效果就更好。

对于中小型企业，我觉得完全不需要去花这些投入，因为有你自己的独特见解，然后产品能承接流量才是王道。毕竟谷歌SEO不仅仅是靠你文章内容本身，还是要靠你自己网站的业务能够留住客户，有高留存，低跳出率。如果观察这次谷歌处理，大部分清零的都是纯纯的内容站，如果有业务承载的网站，谷歌还是给予了一定容忍度。

来源公众号：老阎杂货铺（ID：gh_59d2a9b32af1）分享一些个人的技术的研究。

本文由 @老阎杂货铺原创发布于奇赞平台，未经许可，禁止转载、采集。

该文观点仅代表作者本人，奇赞平台仅提供信息存储空间服务。