怎么屏蔽chatgpt抓取你的网站?(禁止chatgpt爬虫)

时间：2024-09-14作者：九维分类：建站教程评论：1

OpenAI旗下的人工智能聊天机器人ChatGPT,其训练过程中使用了大量网络信息,包括许多网站的内容。作为网站运营者,如果不希望自己的内容被ChatGPT等爬虫抓取,可以通过一些设置加以阻止。那么，从我们站长的角度来讲，肯定不愿意自己的内容随意被别人抓取的，我们该怎么做才能方式自己的网站内容被chatgpt抓取呢？今天小编带大家实操一下。

ChatGPT的爬虫：GPTBot

ChatGPT使用名为“GPTBot”的爬虫程序来抓取网络内容以改进AI模型。它会遵循robots.txt规范,通过在该文件中进行设置,可以告知GPTBot不要访问整个网站或特定路径。

GPTBot作为ChatGPT的爬虫工具,会自动抓取网络内容以丰富ChatGPT的知识图谱,提升其对话能力。但作为网站运营者,有时候会不希望自己网站的原创内容被其抓取使用。这时可以通过robots.txt文件进行设置,因为大多数爬虫包括GPTBot会遵循这个标准。在robots.txt文件中,可以通过User Agent识别出GPTBot,然后使用Disallow命令表示不允许其抓取任何内容。或者也可以用Allow命令指定允许抓取的目录,Disallow其余目录。这可以有效地阻止GPTBot获取网站的数据。

实操步骤

根据OpenAI的说明文档,他们的网页爬虫User Agent和字符串标识符分别如下:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

允许GPTBot访问你的网站,有助于提高AI模型的准确性和整体性能及安全性。如果用户不希望网站被GPTBot访问,也可以在robots.txt中进行设置,禁止其访问整个网站或特定路径。

禁止GPTBot访问整个网站(在robots.txt中加入):

User-agent: GPTBot
Disallow: /

自定义GPTBot可访问的路径:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

此外,OpenAI还公布了GPTBot使用的网络网段,用户也可以通过阻断这些IP地址来防止ChatGPT访问网站内容。需要注意,这些网段可能会变化,需要定期核查最新的IP网段信息。

GPTBot使用的网络网段:

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

屏蔽ChatGPT浏览器插件访问你的网站

前面提到的是ChatGPT网络爬虫GPTBot,对于用户在ChatGPT中的浏览器插件,使用另一个爬虫ChatGPT-User。根据文档,后者代表用户的直接操作,不会自动爬取网站内容。

ChatGPT-User的User Agent和字符串标识符如下:

User agent token: ChatGPT-User
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

如果要允许ChatGPT插件访问网站,可以在robots.txt中加入ChatGPT-User。

允许访问特定路径,禁止其他路径的设置方法类似。

完全禁止ChatGPT插件访问网站,可以在robots.txt中添加: