Robots协议初衷保护站内部信息保护服iyiou.com

2019年03月12日 来源:

Robots协议:友好沟通工具而生命只是沧海之一栗不是竞争武器

Robots协议(也称为爬虫协议、机器人协议等)的全称是络爬虫排除标准(Robots Exclusion Protocol),站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。

在2012年由中国互联协会举行的《互联搜索引擎服务自律公约》签约仪式上,百度、即刻搜索、奇虎360、搜狗等12家搜索引擎服务企业签署公约,共同承诺:互联站所有者设置Robots协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用Robots协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。

Robots协议初衷:保护站内部信息,保护服务器流量平衡

在互联发展早期,搜索引擎还没有为站带来明显的商业价值,搜索引擎爬虫也没有受到站的普遍欢迎,主要有如下原因:

一、快速抓取导致站过载,影响站正常运行;

二、重复抓取相同的文件,抓取层级很深的虚拟树状目录,浪费服务器资源;

三、抓取站管理后台等内部敏感信息,或抓取临时文件等对用户没有价值的信息;

四、抓取会对投票等CGI脚本造成负面影响,可能出现虚假的投票结果。

Robots协议正是针对搜索引擎爬虫的这些弊端而设计的约束措施。1994年,Robots协议由荷兰籍络工程师Martijn Koster首次提出,Martijn Koster也因此被誉为Robots之父。之后直到2008年6月,Yahoo、Google和MSN Live Search共同通过非官方途径宣布采纳该标准,各大搜索引擎公司开始对Robots协议进行商业研究,各种公司标准的Robots协议开始产生。

对于站来说,设置Robots协议主要有三个目的,首先是保护站内部信息不被搜索引擎爬虫抓取;其次是引导爬虫不要抓取对用户没有价值的信息;是为了保护中小站的流量平衡,避免爬虫快速抓取给站服务器带来过大压力。

但通常来说,用户在利用搜索引擎检索到内容站时,对内容站并不构成伤害,反而会为内容站带来更多用户。绝大多数站非但不会使用Robots协议禁止搜索引擎抓取,反而希望自己的站内容能够更快、更全面地被搜索引擎收录,并展现在搜索结果的前列,由此也催生出搜索引擎竞价排名、SEO(搜索结果优化)等商业模式。

Robots协议使用现状:绝大多数站对搜索引擎一视同仁

Robots协议也就是t文本文件,当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在t。如果存在,搜索爬虫就会按照该文件中的内容来确定访问的范围;如果t文件不存在,搜索爬虫将会抓取站上所有没有被口令保护的页面。

商业站大多会在t中提供SiteMap文件链接地址,为搜素引擎指路,方便爬虫更好地抓取站内容。此外,站也可以使用t屏蔽站中一些比较大的文件,如:视频、图片等,节省服务器带宽,也可以屏蔽站的一些死链接。

Robots协议的写法包括两类:

一类是对所有的络爬虫一视同仁,使用UserAgent * 这样的写法,明确写明不允许抓取的目录,这也是国际上商业站Robots协议的主流用法,在Alexa的站排行榜上选取前100个有Robots协议文件的国外站,其中有85个站点使用了Origi他人也许不会想接近你nal Robots协议规范,即不设置任何黑白名单,对所有爬虫一视同仁,或只针对部分爬虫做细微的规则指导,但是不禁止任何爬虫抓取;

另一类是如Facebook、LinkedIn、Twitter这种采用黑白名单机制写t的站,在t中针对每种络爬虫规定哪些目录不能抓取,LinkedIn在t文件中还列出了申请将络爬虫加入白名单中的联系方法。Alexa上有Robots协议文件的TOP100站中,有15个站在t中设置了黑白名单,但只有一个是对通用搜索引擎的爬虫进行了黑名单设置,其他都是针对一些非通用搜索引擎的特殊爬虫设置黑名单。

Robots协议的误区:并非真正意义的协议

Robots协议虽然名为协议,但只是行业惯用的说法,它并非真正意义上的协议,也不受任何机构保护。

也爬不快

Robots之父Martijn Koster对Robots协议的性质进行了如下阐述:Robots协议是一个未经标准组织备案的非官方标准,它也不属于任何商业组织。本协议不受任何机构保护,所有现有和未来的机器人不一定使用本协议。Robots协议是Robot创作者们向互联社区提供的用来保护互联服务器免受骚扰的一个通用工具。

早在1997年,Martijn Koster曾向IETF(互联工程任务组)提交申请,试图把Robots协议作为该组织规范,但被IETF拒绝。之后,国际电信联盟(ITU)、万维联盟(W3C)的规范也同样拒绝采纳Robots协议。欧美电信专家担心,由于Robots协议包含排斥性条款,搜索巨鳄可能会利用Robots协议的条款,迫使某些热门站与其签署排他性协议,从而将后起竞争者挡在门外,维护垄断。

在2012年11月1日,

中国互联协会在北京举行《互联搜索引擎服务自律公约》签约仪式。据中国互联协会胡启恒理事长介绍,本次公约的制定充分体现了互联的精神,一方面,公约对非法律条文规定、国际互联界拥有共识的Robost协议给予了的充分的尊重和肯定。另一方面,互联是生而自治的,在日后随着互联技术应用的不断发展,还会有许多新兴问题出现,同时也希望业界能够基于诚信、自主自治的互联精神来解决互联的争议,共同讨论和解决出现的问题。

《互联搜索引擎服务自律公约》明确规定,互联站所有者设置Robots协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用Robots协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。

百度、即刻搜索、盘古搜索、奇虎360、盛大文学、搜狗、腾讯、易、新浪、宜搜、易查无限、中搜等12家发起单位在现场共同签署了《互联搜索引擎服务自律公约》,表示将自觉遵守自律公约各项规定,不断提升服务水平,努力改善用户体验,积极为搜索引擎服务行业的健康发展贡献力量。

2013年莆田B2B/企业服务企业
2016年鄂尔多斯生活服务Pre-B轮企业
健康管理-健康管理头条新闻资讯
相关文章
  • 延吉多位出租车司机因做好事而被加分延边新闻网报道
    延吉多位出租车司机因做好事而被加分延边新闻网报道

    延吉的哥郭长云想不到,自己只是将捡到的一个证件包送到失主所在单位,失主竟惦记3个月终“追”到延吉交通运输管理所点名表扬他。2月6日晚上11点左右,把包送上门。值班人员问他的姓名和联系方式时,他谢绝了,但值班人员记下了他的车牌号。事后,失主...

  • 九世追逐终相伴
    九世追逐终相伴

    九世追逐,终相伴。奈何桥上轮回河畔化作彼岸花化作轮回石九世追逐终得相伴在一个热闹的大城市,有一个男孩叫韩小熙,有一个女孩叫张小怡.他俩在一个地方从小玩到大.小熙很帅,很酷。女孩一般般。小怡一直喜欢熙,从没有给熙说过。今天是小怡17岁生日, 也是他俩...

  • 北京楼市超预期回暖
    北京楼市超预期回暖

    北京楼市超预期回暖进入6月以来,北京的房地产市场可以用火热来形容,无论是新房销售还是二手房过户都呈现井喷式增长。中国证券报走访大兴区多家楼盘发现,刚需踊跃入市给房地产市场带来明显变化,两居户型基本售罄,北京城建、中建地产旗下因高价入市套...

  • 神舟九号飞船已运抵酒泉航天发射场
    神舟九号飞船已运抵酒泉航天发射场

    核心提示:中国载人航天工程发言人4月9日宣布,“神舟九号”飞船已运抵酒泉航天发射场。预计今年月,“神舟九号”将搭载3名航天员择机发射,与“天宫一号”交会对接。目前,“天宫一号”目标飞行器在轨飞行状态良好,具备交会对接的条件。新华北京4月9日...

  • 有缘人效应徐子崴抢攻乐坛市场
    有缘人效应徐子崴抢攻乐坛市场

    徐子崴抢攻乐坛市场2009年新春小沈阳打响了今年另类的娱乐潮,而另一个帅小伙儿徐子崴凭借一首《中国之》在春晚的惊艳亮相,使得其身价在2009年一路攀升。随后又因有缘人侵权、炒作等事件引起纠纷的他,成为了粉丝尤为关注的人物,内地焦点中的焦点。近...

  • 中方召见美驻华大使抗议美军舰闯南沙
    中方召见美驻华大使抗议美军舰闯南沙

    视频加载中,请稍候...自动播放play外交部召见美驻华大使play外交部:已监视跟踪play王毅奉劝美方play美军舰巡航中国南海向前向后张业遂。资料图外交部副部长张业遂就美国军舰进入中国南沙群岛有关岛礁邻近海域向美方提出严正交涉新华社北京10月27日电 外交部副...