我只向我的CDN提供图像。
我在我的CDN域中设置了robots.txt文件,该文件与我的“普通”www域中设置的文件分开。
我想格式化CDN中的CDN robots.txt文件…
如果您拥有某些文件夹中的所有图像,则可以使用:
仅限谷歌机器人:
User-agent: Googlebot-Image Allow: /some-images-folder/
对于所有用户代理:
User-agent: * Allow: /some-images-folder/
此外,谷歌还增加了灵活性 robots.txt文件标准通过使用星号。禁止模式 可以包括“*”以匹配任何字符序列,并且模式可以 以“$”结尾以表示名称的结尾。
要允许特定的文件类型(例如.gif图像),您可以使用以下robots.txt条目:
User-agent: Googlebot-Image Allow: /*.gif$
信息1:默认情况下(如果您没有robots.txt),将抓取所有内容。 信息2:Allow语句应该在Disallow语句之前,无论你的语句有多具体......
信息1:默认情况下(如果您没有robots.txt),将抓取所有内容。
信息2:Allow语句应该在Disallow语句之前,无论你的语句有多具体......
这是一个wiki链接 机器人的排除标准 有关更详细的说明。
根据这个,你的例子应该是这样的:
User-agent: * Allow: /*.jpg$ Allow: /*.jpeg$ Allow: /*.gif$ Allow: /*.png$ Disallow: /
的 注意: 强> 正如nev在他的评论中指出的那样,在扩展结束时注意查询字符串也很重要,比如 image.jpg?x12345 ,所以也包括
image.jpg?x12345
Allow: /*.jpg?*$
是啊!禁止是对的!允许也是对的! 就像一个提示指定一个站点地图一样! :)