(*Meta 的产品,在俄罗斯被认为是极端主义组织)和广告网络 - 它们只能通过使用特殊规则的特殊代币受到影响。 每个机器人都提供自己的用户代理令牌。 爬网程序首先考虑最具体的指令(用连字符分隔),然后再考虑更全面的指令。
因此,bot News 将首先遵循用户代理“bot-news”的说明,然后是“bot”,最后是“*”。 俄罗斯市场最常见的机器人是: 谷歌机器人 媒体合作伙伴- 扬德克斯 *(*Meta 的产品,Meta 被认为是俄罗斯的极端组织) 当然,这个列表远非详尽无遗。
要熟悉搜索引擎和其他系统使用的机器人的完整列表,最好阅读他们的文档。 robots.txt 中的机器人名称不区分大小写。 “bot”和“bot”可以互换。 地址模板 无需指定要阻止的大量最终 URL,只需指定地址模式就足够了。
要有效地使用此功能,您将需要两个字符: * - 该分组符号代 格鲁吉亚区号 表任意数量的字符。最好将其放在地址的开头或内部,但不要放在结尾。您可以同时使用多个通配符 - 例如,“Disallow: */notebooks?*filter=”。具有完整地址的规则不应以此字符开头。
$ - 美元符号表示地址的结尾。因此,“Disallow: */item$”将匹配以“/item”结尾的 URL,但不匹配“/item?filter”或类似的 URL。 请注意,这些规则已经区分大小写。如果您使用“搜索”参数禁用地址,机器人仍会查看包含“搜索”的地址。
这些指令仅适用于地址正文,不包括协议或域本身。地址开头的斜杠表示该目录紧接在主目录之后。例如,“Disallow: /start”将对应于“ www.site.ru/start ”。 除非您将*或/添加到指令的开头,否则它不会匹配任何内容。 “禁止:开始”没有意义——机器人不会理解它。
为了清楚地演示该规则,下面是一个示例表: 站点地图.xml robots.txt 中的站点地图指令告诉搜索引擎在哪里可以找到 XML 格式的站点地图。这将帮助他们更好地浏览页面结构。 对于站点地图,您必须指定完整路径,就像我们所做的那样:“站点地图: https: //www.calltouch.ru/sitemap.xml ”。
|