ChatGPT是美国人工智能研究公司OpenAI开发的智能聊天机器人。这套AI系统瞬间秒杀市面上所有AI功能,几乎完美突破了以往所有同类软件的瓶颈。它可以走向人工智能技术,更加自然和精致。实现各种语言的处理。 ChatGPT官方网站: 什...
Tag:ChatGPT网页版登录入口
OpenAI旗下的人工智能聊天机器人ChatGPT,其训练过程中使用了大量网络信息,包括许多网站的内容。作为网站运营者,如果不希望自己的内容被ChatGPT等爬虫抓取,可以通过一些设置加以阻止。那么,从我们站长的角度来讲,肯定不愿意自己的内容随意被别人抓取的,我们该怎么做才能方式自己的网站内容被chatgpt抓取呢?今天小编带大家实操一下。
ChatGPT使用名为“GPTBot”的爬虫程序来抓取网络内容以改进AI模型。它会遵循robots.txt规范,通过在该文件中进行设置,可以告知GPTBot不要访问整个网站或特定路径。
GPTBot作为ChatGPT的爬虫工具,会自动抓取网络内容以丰富ChatGPT的知识图谱,提升其对话能力。但作为网站运营者,有时候会不希望自己网站的原创内容被其抓取使用。这时可以通过robots.txt文件进行设置,因为大多数爬虫包括GPTBot会遵循这个标准。在robots.txt文件中,可以通过User Agent识别出GPTBot,然后使用Disallow命令表示不允许其抓取任何内容。或者也可以用Allow命令指定允许抓取的目录,Disallow其余目录。这可以有效地阻止GPTBot获取网站的数据。
根据OpenAI的说明文档,他们的网页爬虫User Agent和字符串标识符分别如下:
User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
禁止GPTBot访问整个网站(在robots.txt中加入):
自定义GPTBot可访问的路径:User-agent: GPTBot Disallow: /
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
此外,OpenAI还公布了GPTBot使用的网络网段,用户也可以通过阻断这些IP地址来防止ChatGPT访问网站内容。需要注意,这些网段可能会变化,需要定期核查最新的IP网段信息。
GPTBot使用的网络网段:
20.15.240.64/28 20.15.240.80/28 20.15.240.96/28 20.15.240.176/28 20.15.241.0/28 20.15.242.128/28 20.15.242.144/28 20.15.242.192/28 40.83.2.64/28
前面提到的是ChatGPT网络爬虫GPTBot,对于用户在ChatGPT中的浏览器插件,使用另一个爬虫ChatGPT-User。根据文档,后者代表用户的直接操作,不会自动爬取网站内容。
ChatGPT-User的User Agent和字符串标识符如下:
User agent token: ChatGPT-User Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
如果要允许ChatGPT插件访问网站,可以在robots.txt中加入ChatGPT-User。
允许访问特定路径,禁止其他路径的设置方法类似。
完全禁止ChatGPT插件访问网站,可以在robots.txt中添加:
User-agent: ChatGPT-User Disallow: /
继续浏览有关 ChatGPT 的文章