欢迎光临
我们一直在努力

檀烟喊你来改robots.txt

起因

昨天刚好檀博主管理的一个word press交流群里边有群有问到word press怎么写robots.txt文件,本着乐于助人的方面,推荐这位朋友直接抄我的,因为本人纵横SEO届这么多年还是小有心得的!(别扔烂菜叶臭鸡蛋啊,我只想淡淡的装个逼!),但是这个朋友将我的直接复制过去却说不对!!!!“纳尼?”我当时就懵逼了这是是么情况?然后开始了探索之旅也就有了这篇文章。

过程

不信邪的我直接给这位朋友截取了本站的谷歌、百度、360的收录结果截图告诉他你看我的合适,我的收录没有问题的你看吧!这不是合适呢吗?但是这个朋友又给了我一个截图就是下边这个
这个图是什么呢?这是谷歌站长工具里模拟谷歌蜘蛛视野的一个工具。从图中我们可以看到谷歌爬虫看到的是没有css以及图片的。。。好难看啊!檀烟任然不以为然的说你看我的收录不挺好的啊!没啥问题>_>………,结果他给我的另一张图彻底惊醒了我。这出大问题了啊!请看下图!

上边看到自适应网站不能自适应了这就问题大了啊!移动端不受到推荐这个流量可谓跑的刷刷的?那么该怎么办呢?檀烟直接就帮这个朋友改了!

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /*?*
Disallow: /attachment/
Sitemap:https://cs.deroc.cc/sitemap.html
// 这是我们原先的,可以看出我的网站由于没有使用RSS订阅一些东西已经禁止抓取了
// 下边是修改后的
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /*?*
Disallow: /attachment/
Sitemap:https://cs.deroc.cc/sitemap.html
// 仔细思考之后这样还是有问题因此写了加强版的更完美了!
User-agent: Googlebot
Allow: /
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /*?*
Disallow: /attachment/

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /*?*
Disallow: /attachment/
Sitemap:https://cs.deroc.cc/sitemap.html

这样属于最完美的版本了,当然如果有欠缺的可以在下边给博主留言!
上边作者不承认robots.txt的价值这点我认为是谬误,首先不论搜索引擎发展到何种程度,robots文件代表的站长权益,以及可以帮助搜索引擎加快收录速度,从这点上讲这是亲搜索引擎的,相信谷歌爬虫还是挺有原则的爬虫会充分尊重网站主。因为我们的网站后台这些东西是坚决不能被抓的!以及保护网站安全的部分!
比较认同的是他不让把地图写在robots.txt里边因为谷歌站长工具里边有提供提交地图的地方。提交之后你有更新蜘蛛能更快的得知,然后来抓取
个人推测:建议吧robots.txt的链接写在地图首条这样蜘蛛能够更快更方便爬取!

赞(0) 打赏
未经允许不得转载:编程之路 » 檀烟喊你来改robots.txt

评论 12

  1. #-49

    这样会不会太复杂了,我一般都是 屏蔽动态链接 屏蔽不需要抓取的目录 如admin就ok了,其它都 不用鸟的。

    晨风8年前 (2017-06-30)回复
    • 比如屏蔽订阅是为了防止被爬虫抓取的,虽然繁复但是效果不错!

      檀烟8年前 (2017-07-10)回复
      • 你这邮箱样式怎么改的

        晨风8年前 (2017-07-10)回复
        • 你是说那里的?

          檀烟8年前 (2017-07-10)回复
          • 评论之后邮箱提醒的格式

            晨风8年前 (2017-07-12)
          • 这是主题自带的!

            檀烟8年前 (2017-07-12)
          • 我怎么没有,我也是买的。

            晨风8年前 (2017-07-12)
          • 你问下作者呗!

            檀烟8年前 (2017-07-12)
  2. #-48

    必须给你个666

    小萝博客8年前 (2017-07-12)回复
  3. #-47

    好是好,禁止复制。大半夜的哭瞎~ ❓

    南歌鹿人7年前 (2018-11-13)回复

登录

找回密码

注册