- N +

新浪博客更新robot文件“屏蔽门”误会消除

导读 : 前几日有文章称由于众多站长滥发信息做外链,导致垃圾博文充斥新浪博客,因此新浪博客开始屏蔽百度蜘蛛,有网友发现大部分新浪博客快照在百度中已经没有更新,通过查看新浪robots文件(http://blog.sina.om.c... [...]


新浪博客更新robot文件“屏蔽门”误会消除


前几日有文章称由于众多站长滥发信息做外链,导致垃圾博文充斥新浪博客,因此新浪博客开始屏蔽百度蜘蛛,有网友发现大部分新浪博客快照在百度中已经没有更新,通过查看新浪robots文件(http://blog.sina.om.cn/robots.txt)发现其内容为:

#####################################################

# SINA BLOG 禁止搜索引擎收录配置文件

# 文件: ~/robots.txt

# 编写: 阿狼

# 日期: 2005-03-24

#####################################################

#开放百度的搜索引擎的User-Agent代码,*表示所有###########

User-agent: Baiduspider

#限制不能搜索的目录,Disallow: 为空时开放所有目录####

Disallow: /admin/

Disallow: /include/

Disallow: /html/

Disallow: /queue/

Disallow: /config/

#限制的搜索引擎的User-Agent代码,*表示所有###########

User-agent: *

#临时限制对所有目录的禁止抓取

Disallow: /

由于该文件中有一句:User-agent: Baiduspider 由此很多站长判定,新浪已经彻底屏蔽百度蜘蛛,今后靠养新浪博客做外链的方法已经不可行了。

看到这则消息后,我感觉有几个疑点:

1、新浪作为世界知名的中文门户网站,其数据处理能力,违规内容管理方法,都足以应付目前的垃圾信息,而屏蔽百度蜘蛛会导致流量大减,这与新浪的发展战略不符。

2、该robots文件的日期为:2005-03-24,似乎是新浪博客刚上线的时候建立的文件,如果近期新浪的网管修改过robots的话,日期应该更改为新的日期。

3、熟悉robots写法的朋友都知道,该robots.txt文件中仅仅是是设置了禁止百度蜘蛛访问后台文件夹,并没有其他限制。

基于以上几点疑虑,我感觉文章中的观点有失误的地方,事情应该没有那么糟糕,果然在8月18日有网友发现新浪博客悄悄更换了robots.txt文件,内容改为:

#开放百度的搜索引擎的User-Agent代码

User-agent: Baiduspider

#限制不能搜索的目录,Disallow: 为空时开放所有目录####

Disallow: /admin/

Disallow: /include/

Disallow: /html/

Disallow: /queue/

Disallow: /config/

#开放bing.com的搜索引擎的User-Agent代码

User-agent: msnbot

#限制不能搜索的目录,Disallow: 为空时开放所有目录####

Disallow: /admin/

Disallow: /include/

Disallow: /html/

Disallow: /queue/

Disallow: /config/

User-agent: bing

#限制不能搜索的目录,Disallow: 为空时开放所有目录####

Disallow: /admin/

Disallow: /include/

Disallow: /html/

Disallow: /queue/

Disallow: /config/

#限制的搜索引擎的User-Agent代码,*表示所有###########

User-agent: *

#临时限制对所有目录的禁止抓取

Disallow: /

#限制不能搜索的目录,Disallow: 为空时开放所有目录####

##Disallow: /admin/

##Disallow: /include/

##Disallow: /html/

##Disallow: /queue/

##Disallow: /config/

#开放搜索的目录有####################################

# /

# /advice/

# /help/

# /lm/

# /main/

# /myblog/

可以看出新修改的robots.txt文件中的写法已经完全支持各类主流搜索引擎抓取博客内容,一个开放的新浪博客又回来了!

针对前几日出现的情况,个人猜测可能是由于以下几种原因:

1、前几日大部分新浪博客被K,可能是由于百度调整算法所导致的。

2、原来的robots.txt文件很可能是新浪博客刚上线得到时候建立的,由于当时google还没有正式进入中国,中文搜索还是百度一家独大,因此设置的内容主要针对百度,此后该文件一直没有修改,直到最近被网友发现,新浪工作人员才想起重新修改。

虽然这次”屏蔽门“只是一场虚惊,但是也给各位站长敲响了警钟,不要一味的盲目滥发垃圾信息,及污染了互联网环境又耗费了网络服务商的资源,小心竭泽而渔!培养10个高质量的博客比养100个垃圾博客更有效!

以上是我的一点见解,希望有朋友转载的时候保留我的一个链接http://www.85999985.com/多一份保留 多一倍运气,多一份口碑,多一份成功,谢谢!



返回列表
上一篇:谈谈如何选择及分析关键词之策略
下一篇:详解:21700型电芯的优势与硬伤