当前位置:首页 > 建站优化 > 正文内容

robots.txt 子域名(txt有什么用)

zhuangbi888.com2021-08-11 00:20建站优化128

外媒 VentureBeat 报道称,谷歌希望将发展数十年的 robots.txt 解析器开源,以推动 REP 成为搜索引擎爬虫的行业标准。

机器人排除协议(REP)是荷兰软件工程师 Martijn Koster 于 1994 年提出的一个标准,几乎已经成为了网站不希望被搜索引擎收录的注释的事实标准。

(截图 via VentureBeat)

比如谷歌爬虫(Googlebot)就会在索引某个网站时扫描 robots.txt 文件,以确定其应该忽略掉哪些部分。如果根目录中未包含该文件,那搜索引擎就会默认索引(index)全站内容。

值得一提的是,,该文件不仅可以用于提供直接的爬虫索引,还可以被用来填充一些关键字,以实现“搜索引擎优化”(SEO)。此外,并非所有抓取工具都会严格遵从 robots.txt 文件。

比如几年前,互联网档案光就选择了为其“时光机”(Wayback Machine)归档工具提供支持,另外一些恶意抓取工具也会有意忽略 REP 。

不过需要指出的是,即便 REP 已经成为了默认的实施标准,但它实际上从未成为真正的互联网标准,正如互联网工程任务组(IETF - 一家非营利性开放标注组织)所定义的那样。

为了推动这项转变,谷歌正在积极参与行动。这家搜索巨头表示,当前的 REP 可以被“解释”,但并不总是涵盖边缘化的案例。

作为补充,谷歌提出了更全面的“未定义场景”。比如在执行一次“扫描已知内容”的任务时,爬虫该如何处理“服务器出现不可访问故障”的 robots.txt 文件、或者有拼写错误的规则?

谷歌在一篇博客文章中写到:“对于网站所有者来说,这是一项极具挑战性的问题。因为模糊的事实标准,让他们很难恰当地编写规则”。

我们希望帮助网站所有者和开发者在互联网上创造出令人惊叹的体验,而无需担心如何对抓取工具加以限制。

于是谷歌与 REP 原作者 Martijn Koster、网站管理员、以及其它搜索引擎合作,向 IETF 提交了一份关于《如何在现代网络上适用 REP》的提案。

该公司尚未公布该草案的全貌,但却是提供了一些指引。比如任何基于 URI 的传输协议,都可以适用 robots.txt 。且其不再局限于 。

据悉,开发者必须至少解析 robots.txt 的前 500 KB 内容。定义文件的大小,可确保每个连接的打开时间不会太长,从而减轻不必要的服务器压力。

另外,新的最大缓存时间被设置为 24 小时(或可用的缓存指令值),使得网站所有者能够随时灵活地更新他们的 robots.txt,且爬虫不会因此而让网站超载。

例如,在 文件由于服务器故障而变得不可用时,则会在相当长的时间段内不再检索该网站。

这里需要点明的是,抓取工具可以用不同的方式去解析 robots.txt 文件中的说明,这可能会导致网站所有者的混淆。

为此,谷歌特地推出了 C++ 库,其支持 Googlebot 在 GitHub 上给出的解析和匹配系统,以供任何人访问。

根据 GitHub 上的发布说明,Google 希望开发者构建自己的解析器,以更好地反映 Google 的 robots.txt 文件的解析和匹配。

相关文章

什么是店铺优化流量(大流量网站怎么优化)

什么是店铺优化流量(大流量网站怎么优化)

建网站的确是一件比较复杂的事情,即使是利用现在很便利的自助建站平台,也难免会有一大堆事情需要我们操心。不过,相信这个分享可以帮助大家解答各种建站疑问,让大家忍不住马上亲手制作一个属于自己的网站。 因为...

请问网站的数据库在哪查看?(网站数据库地址一般是多少)

请问网站的数据库在哪查看?(网站数据库地址一般是多少)

1.可以来我们华尔街见闻上啊!请记住网址 华尔街见闻是中国领先的互联网金融服务提供商,为用户提供金融资讯、数据、策略、和交易服务,旨在帮助中国投资者理解世界,做投资决策。 2.各家券商的研报。做行研...

灰色系网站(十二种颜色纯图片)

灰色系网站(十二种颜色纯图片)

今年 灰系发色 继续大热…… 对了,染过发的人都知道,灰色用的是偏蓝的染剂,天生黑发的人要漂得比较「透」才会上色,而漂得透,根本就是与伤头发划上绝对的等号!想紧贴潮流又不想令头发变成一堆又烂又干的杂...

织梦网站首页标签-织梦标签生成器

你能后台账号密码吗,有的话就可以修改,织梦后台提供了文件管理器,你登录后台--模块--文件管理器,里面可以对文件进行修改,首页图片修改在模板里面,模板--默认模板管理,如果你是该logo,去替换log...

安装iis系统将自动建立一个默认网站?

安装iis系统将自动建立一个默认网站?

IIS的网站默认路径是:C:\inetpub\ 修改的方法是: 打开 IIS 管理器。 有关如何打开 IIS 管理器的信息,请参阅 打开 IIS 管理器 (IIS 7)。 在“连接”窗格中,展开树中...

html5企业网站 源码(html个人网页完整代码)

  下面是HTML5的一些关键的好处: 新标签允许分类的重要信息和内容的开发; 提供改进的用户体验; 对于拥有丰富的音频和视频的网站很有用,尤其是移动设备不支持Flash; 标签对于搜索引擎很...

百度竞价落地页域名(阿里云域名竞价太假)

百度竞价落地页域名(阿里云域名竞价太假)

如今,PPT模板下载网站越来越多,有免费也有收费的。 但充哥不提倡收费网站,毕竟单个模板下载可能花费20-30元,但能使用到的可能只有封面、目录、图表页面,购买的话并不划算,甚至有些免费模板质量比收费...

国际性组织顶级域名为(什么代表商业组织的顶级域名)

国际性组织顶级域名为(什么代表商业组织的顶级域名)

目前一共有252个域名后缀,但是,其中只有3个可以在全球范围内使用,它们是:.com,.net和.org。最流行的域名后缀是.com,目前已经有2000万个左右使用.com的域名。在244个地区性域名...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。