“这基本上是一次DDoS攻击。”
几天前,乌克兰一家专注于人体3D模型的网站Trilegangers突然崩了,这让整个团队以及老板都有些措手不及。起初,该公司CEO Oleksandr Tomchuk只是收到一则警报,进而发现公司的电子商务网站已完全瘫痪了。
一经排查,殊不知,该团队发现,罪魁祸首竟然是——OpenAI此前研发的一款机器人GPTbot。
7人花了十余年时间构建的网站,差一点毁于一旦
据悉,Trilegangers是一个销售3D扫描数据的网站,这家拥有七名员工的公司花了十多年时间,建立了所谓的网络上最大的“人体数字替身”数据库,即从真实人体模型扫描而来的3D图像文件。
Triplegangers提供从手、头发、皮肤到完整身体模型的3D对象文件和照片,一应俱全。其处理的数据涵盖多个类别,如“脸部”、“全身”、“带姿势的全身”、“全身情侣”、“手部”、“手部雕像”等,网站展示的内容正是其业务核心所在。
具体来看,以“脸部”数据为例,这一类别中有1509人的数据,每个人注册了大约20种不同的面部表情。在其他类别中,每个产品至少有三张图像,因此总数据据说有数十万个点。
这一点也得到CEO Oleksandr Tomchuk的证实,其表示,“我们有超过65000种产品,每种产品都有一页内容介绍,每页至少有三张照片。”
Trilegangers所做的业务就是面向3D艺术家、视频游戏开发者,以及任何需要数字化再现真实人类特征的人群销售这些数据。
然而,Oleksandr Tomchuk称,不久前OpenAI GPTBot发送了“数万”个服务器请求,试图下载全部内容,数十万张照片及其详细描述。
这有一种,但凡Trilegangers有的,OpenAI都要的感觉,可是这些内容实则为付费产品。“OpenAI使用600个IP来抓取数据,我们仍在分析上周的日志,也许更多,”该团队在谈到机器人试图访问其网站的IP地址时说道。
“他们的爬虫程序正在摧毁我们的网站!”Oleksandr Tomchuk说,“这基本上是一次DDoS攻击。”
那么GPTbot究竟是什么?
不难回忆起来,GPTbot是OpenAI在2023年8月推出的一款网络爬虫机器人,用于抓取互联网数据,为训练和改进大模型(如ChatGPT)提供素材。
它会自动访问公开可用的网站,收集文本数据来增强模型能力。
OpenAI此前表示,GPTBot会严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。即遵循网站的robots.txt文件中明确标示的规则。如果网站配置了禁止GPTBot抓取的标签,它理论上会停止访问该网站。
而robots.txt是一个用于网站管理的文本文件,它告诉搜索引擎爬虫(如Googlebot、Bingbot或GPTBot)哪些网页可以或不可以被抓取。这是一种被广泛接受的网络标准,称为机器人排除协议(Robots Exclusion Protocol,REP)。
简单来看,如果你不想让GPTBot访问你网站的任何内容,可以将以下代码添加到目录中robots.txt里面:
User-agent:GPTBot
Disallow:/
如果你想要允许访问网站上的某些内容(例如特定目录或文件),可以用以下代码对robots.txt进行以下更改:
User-agent:GPTBot
Allow:/directory-1/
Disallow:/directory-2/
除此之外,OpenAI还公布了OpenAI使用的爬虫IP地址,也可以根据IP地址来拒绝访问。
OpenAI公开了以上这些方式,并声称会遵守规则,显得诚意满满。
然而,令人无奈的是,一切的前提是得正确配置好“robots.txt”文件,才可以尽可能地避免被爬虫。
这一次Trilegangers就落到了“robots.txt”的坑中。虽然其在官网“使用条款”的第5条行为准则中清清楚楚地写着:
未经TG明确事先书面同意,不得使用任何机器人、爬虫、网站搜索/检索应用程序或其他手动或自动设备来检索、索引、抓取、挖掘数据或以其他方式收集网站内容,也不得复制或绕过网站的导航结构或展示方式。尽管有上述限制,在遵守我们网站根目录中robots.txt文件中发布的任何指示的前提下,TG授予公共搜索引擎的运营者权限,允许其使用爬虫从我们的网站复制材料,但仅限于为创建这些材料的公开可用、可搜索索引的唯一目的(且仅限必要范围内),不得缓存或存档这些材料。TG保留随时和不经通知撤销此权限的权利,无论是一般性撤销还是针对特定情况。
未经TG许可,禁止执行以下行为:
1.将本网站上展示的任何内容或图像用于人工智能或机器学习(“AI/ML”)研究或研究;
2.提取、复制、分发或向任何第三方提供本网站展示的任何内容或图像,用于AI/ML算法的训练、测试或开发;
3.参与任何涉及利用本网站内容或图像的AI/ML相关活动,包括但不限于数据集编制、模式识别、神经网络训练或任何形式的计算分析。
任何试图在未经TG有效许可的情况下将本网站内容或图像用于AI/ML目的的行为,均被视为违反本网站条款及我们的供应条款与条件,可能导致法律诉讼,并寻求适用法律下的一切补救措施。
但如今看来,仅凭这一点的声明毫无作用,GPTBot还是爬取到了其网站的内容,还让网站整个宕机了。
对此,据Techcrunch报道,此次Trilegangers并没有正确使用robot.txt,其中的标签没有明确告诉OpenAI的机器人GPTBot不要爬取该网站内容。这就意味着OpenAI和其他公司就会认为他们可以随心所欲地抓取数据。
更令人气愤的是,即使Trilegangers告诉了GPTBot不要抓取自家网站的内容,谁能料到,OpenAI还有ChatGPT-User和OAI-SearchBot机器人用来做爬虫工具。
还值得注意的是,即使更新了网站的robots.txt,也不要掉以轻心,因为OpenAI的系统可能需要大约24小时才能才能识别更新的robot.txt文件。
https://platform.openai.com/docs/bots
正所谓爬虫的工具千千万,企业有时根本防不胜防。
“如果爬取的数据少一点,或许都发现不了”
就像这一次,如果不是OpenAI的GPTBot爬取的数据过于庞大,也许Trilegangers可能还发现不了。Tomchuk在接受外媒Techcrunch采访时表示,「如果爬虫更加“温和”地抓取,他可能永远都不会发现。」
“这令人害怕,因为这些公司似乎钻了一个漏洞,声称‘你可以通过更新带有我们标签的robots.txt文件选择退出抓取’,”Tomchuk说,但这实际上把责任推给了网站所有者,让他们必须了解如何屏蔽这些爬虫。
更可怕的是,Tomchuk称他们连GPTBot究竟是从何时开始抓取的都不知道,更不要说OpenAI具体抓取了哪些内容。
这也让Tomchuk有些担心,“我们的业务对权利要求非常严格,因为我们扫描的是实际的人体,按照欧洲的GDPR等法律,他们不能随便拿网络上的任何照片使用。”
事件发生后,Triplegangers的网站不仅因OpenAI的爬虫被迫下线,CEO Tomchuk还预计将收到一份因爬虫导致的高CPU消耗和大量下载活动而产生的高额AWS账单。
同时,Tomchuk称他也没找到可以联系OpenAI的方法,也无法让他们删除这些素材。为此,Tomchuk无奈之下选择用Trilegangers官方Twitter账号发了一条致OpenAl、Microsoft、Meta、Google和其他使用爬虫程序的公司的官方声明:
除用于搜索目的的页面索引外,严禁在我们的网站上使用爬虫程序。未经有效许可,产禁将我们网站上的任何公开内容用于AI或ML应用程序。
截至目前,Triplegangers配置好了正确的robots.txt文件,并创建了一个Cloudflare账户,用于阻止GPTBot以及他发现的其他爬虫,例如Barkrowler(一个SEO爬虫)和Bytespider(TikTok的爬虫)。
引发争议的数据爬取
Triplegangers的经历引发了广泛关注,其公开此事后,不少其他网站运营者纷纷表示也曾遭遇类似情况。
markerz:
我的其中一个网站曾被Meta的AI爬虫Meta-ExternalAgent完全摧毁。这个爬虫似乎有些“天真”,没有像Google Bot那样进行性能回退(performance back-off)。它不断地重复请求内容,直到我的服务器崩溃,然后短暂停止一分钟,再次发起更多请求。
我的解决方法是添加了一条Cloudflare规则,直接屏蔽该User-Agent的请求。我还为链接增加了更多nofollow规则,并更新了robots.txt文件,但这些规则仅仅是建议,某些爬虫似乎会忽略它们。Cloudflare还有一个功能可以屏蔽已知的AI爬虫,甚至怀疑是AI爬虫的请求:https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/。尽管我不喜欢Cloudflare的集中化,但这个功能确实非常方便。
griomnib:
我从事网站开发已经数十年,同时也从事过爬取、索引和分析数百万个网站的工作。只需遵循一个黄金法则:永远不要以比你希望别人对待你的网站更激进的方式加载其他网站。
这并不难做到,但这些AI公司使用的爬虫既低效又令人厌恶。
作为一个网站所有者,这种行为让我觉得他们对网络的基本礼仪毫无尊重。而作为一名从事分布式数据采集的工程师,我更是被这些爬虫的糟糕和低效深深冒犯了。
至此,Tomchuk也分享了他想把这一经历公开的原因,他希望其他小型在线企业了解,发现AI爬虫是否在抓取网站的版权内容的唯一方法就是主动检查日志。他并不是唯一一个受爬虫“侵害”的人,也绝非最后一个。
Tomchuk警告道:“大多数网站甚至不知道自己被这些爬虫抓取了。现在我们不得不每天监控日志活动,以发现这些爬虫。”
本文来源:36氪
文章转载于其他网络,如有侵权请联系我们及时删除!
