您在这种特定情况下忘记了

规则的结束也很重要,尤其是在使用小丑的情况下。根据您的需要,最后一个字符定义机器人要遵循的规则。 * 替换字符串,因此可以位于规则的末尾。在这种情况下,这意味着所有以定义的字符开头的 URL 不应被索引:

Disallow : /page-fraises*

如果您的语句以“/”结束,则无需在其后面添加“*”。斜杠意味着第一个语句的所有子页面也不会被索引:

Disallow : /accueil/

相当于

Disallow : /accueil*

但是,您可能决定仅对第一页建立索引,而不 Telegram 数字数据 对固  有的目录 URL 建立索引。在这种情况下,您将使用“$”指定事物:

Disallow : /accueil/
Allow : /accueil/$

如果顺序无关紧要,“$”的作用就很大。如果,您就会向爬虫发出两个相互矛盾的命令。

区分大小写

大小写仅在两种情况下很重要:

  • 在 robots.txt 文件名中(没有大写字母!没有!);
  • 在有关访问路径的说明中(避免使用大写字母的 URL,这会让事情变得更加困难)。在这种情况下,必须在 robots.txt 文件中重现准确的 URL。

如果 robots.txt 文件的表达式中存在未遵守的情况,机器人将无法找到它。对于 URL 上不尊重大小写的情况也是如此,机器人将无法对其进行索引。

对于其余的,关于用户代理类型指令没有问题。你这样写:

User-agent : Googlebot

或者像这样:

User-agent : googlebot

或者像这样:

User-agent :googlebot

没关系。机器人将知道如何阅读命令。

使用 robots.txt 文件优化带宽

如果您监控网站的统计性能,您可能会遇到一些意外情况,例如流量来自没有您的企业潜在客户的位置。然后看看这些意外访客来自哪些搜索引擎。假设您的网站被百度收录得很好,但您在中国境内没有任何事情可做,那么您可以禁止百度收录您的网站。因此,在您的 robots.txt 文件中,您将使用以下指令:

User-agent : /Baiduspider
Disallow : /

您因此向百度表明整个网站被禁止索引。不要忘记为所有搜索引擎衍生品复制相同的命令:

User-agent : /Baiduspider-image
User-agent : /Baiduspider-mobile
User-agent : /Baiduspider-news
User-agent : /Baiduspider-favo
User-agent : /Baiduspider-video
Disallow : /

这样,您就可以为潜在客户节省服务器带宽,他们更有可能对您的产品做出积极的反应。

保护您的秘密目录

冒着重复的风险,robots.txt 文件在任何情况下都不能充当您网站的防火墙或安全机构。它唯一的作用是向搜索引擎发出指令,使网站更易于阅读,甚至稍微优化其 SEO。当然,我们处理的这些搜索引擎配备了友好的机器人。但对于网络上的所有机器人来说,情况远非如此。其他人则有更多的恶意。以至于指定您希望隐藏秘密文件不让网络看到的简单事实成为黑客真正的灯塔。请记住,robots.txt 文件对每个人来说都很容易看到。互联网用户只需在站点 URL 末尾添加 /robots.txt/ 即可获得访问权限。因此,您的所有秘密都可以轻松访问,即使它们没有被搜索引擎索引。

非常适合将您的秘密文件隐藏在您的站点内,而无需在屋顶上大声喊叫;

Disallow : /fichier_secret

这是为了选择 /secret_file 目录中的 .htaccess 文件。通过在此 .htaccess 文件中键入以下命令:

<IfModule mod_headers.c>
Header set X-Robots-Tag "noindex, nofollow"
</IfModule>

您会自动触发目录每个页面中标签的注册。这段代码:

 

电报号码数据,
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

将向搜索引擎表明他们无权索引您选择的目录 选择适合您目标的 SEO 工具 的页面,与 ‘Disallow’完全相同,但不同的是,这一次,并不是每个人都精通。而且,由于您没有声明任何要隐藏的内容,因此好奇的人来访的风险会减少,他们并不是在寻找您不必隐藏的内容,但您仍然隐藏了这些内容……

特殊字符和 robots.txt 文件

 

 

 

 

有时,爬虫程序并没有真正遵循 robots.txt 文件提供的 美国 b2b 列表 说明。并不是这些小机器人试图通过不遵守规则来激怒我们,而是很有可能错误已渗透到 URL 中。我们常常将其归功于所谓的特殊字符。特殊字符都是 ([!% ?)] 等等。这些可以简单地被爬虫识别……或者根本不能识别。

处理带参数字符串和不带参数字符串的 URL

没有参数字符串的 URL 很乐意接受一个或多个特殊字符。 robots.txt 文件中传递的指令已正确应用。但当 url 包含参数字符串时,一切都会改变。在那里有必要对特殊字符进行编码。您仍然需要了解相关代码,才能将空格或挂钩转换为机器人可以理解的语言。

解释特殊字符

既然我们已经在这个问题上徘徊了,那么我们不妨一路向您提供特殊字符的解释;

您可能会注意到,某些特殊字符不需要任何编码,无论其位置如何,带或不带参数字符串。我们发现它们在 REQUEST_URI 和 QUERY_STRING 中是相同的。相反,其他的则需要永久编码。最后,仅当括号出现在参数字符串中时才进行编码

[终极表1/]

重音字符

这是毫无疑问的。所有重音字符无论出现在何处  都必须进行 url 编码。否则,机器人将不会接受该指令。

结论

通过允许我们控制搜索引擎蜘蛛和爬虫的永久入侵,robots.txt 文件提供了巨大的服务。这件事很简单,可以编码,只需要一些自动化,就可以让你与 Google、Yahoo、Bing 和其他公司一起玩。虽然两个搜索引擎可能不会以完全相同的方式读取指令,但所有  搜索引擎都按照相同的原理进行校准。十有八九,对谷歌有利的事情也对其他人有利。因此,对处理 robots.txt 文件以及理解允许引擎进行搜索和索引优化的完整过程至关重要。剩下的就是处理站点地图以进一步优化 SEO。

 

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注