很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
点击上方蓝字@巴郎刊关注
这是巴郎刊的第063篇文章
作者|巴郎 编辑|巴郎
来源|巴郎刊(ID:balangk)
转载请联系授权(微信ID:g0013g)
前言
小小的robots,聚集着大大的能量
01
初次见面
大家好我是robots!很高兴登场今天的SEO教程见面会,总算轮到我登场啦!和新人摸摸哒们初次见面今后还请大家多多关照呀。接下来,我详细给大家介绍下自己。
—01—
姓啥名谁
英文名叫:robots
中文读法:若波茨
SEO术语:网站爬虫协议
官方解释:
robots是网站跟爬虫间的协议,用txt格式文本告诉对应的爬虫被允许的权限,同时也是搜索引擎蜘蛛进入网站时第一个查看的文件。
该协议不是绝对规范,只是约定俗成的一般规范。故而可遵守可不遵守。
—02—
我能干什么
爬虫程序
在给大家介绍我的职责之前,先给大家讲下啥叫【爬虫程序】。
爬虫程序是各大搜索引擎自主研发的一套抓爬信息与获取数据的技术程序。
这些信息和数据被抓取以后被爬虫带回去存储到搜索引擎的服务器上。这就是爬虫程序的作用。
我的职责
当你的网站上线以后,各类搜索引擎的爬虫立刻闻讯而来。它们来的目的就是搜集你网站上的内容,它们把内容打包好带回家存进服务器里面去。
既然有一大群,一大群的蜘蛛来到咱们的网站抓爬,总得有个人招待它们这些小家伙。而的我的作用:接待它们,并约束它们的抓爬行为。你可以理解为导游。
抓取协议
蜘蛛这些小家伙们活奔乱跳的,它们来到网站抓数据必须有一个人来引导它们,因此我写了一个抓取协议,这个协议文件叫:robots.txt。
在这个协议里面,我与爬虫们协议约定:哪些数据可以抓,哪些数据不要抓。
这些小家伙们看到协议以后就能高效地去抓取数据了。同时这个协议在很大程度上也减轻了接待工作的压力。这就是我的工作。
每个网站,理论上都应该有个一我写的抓取协议。但是有的网站并不规范,它们甚至都不写robot.txt。这可不行哟。
因此规范robots协议对于绝大多数服务型的网站而言是必不可少的,因为会影响到SEO优化,后面再说。
那么如何书写这份协议就格外重要了,上面给大家讲解了我的职责,接下来我给大家重点讲robots协议的书写格式。
robots协议是一个纯文本文件,文件全名叫:robots.txt,该文本放在网站的根目录下,打开的入口为:www.你的域名.com/robots.txt。
当爬虫们进入我们网站以后,它会第一时间先来这里找我,给我打个招呼,然后才开始逛我们的网站。以知乎官网为例来讲解。
知乎官网robots.txt
以知乎官网的robots.txt为例。如图所示
截取第一段示例,详细说明
a.格式与后缀
robots.txt必须放置在站点的根目录下,且文件名必须全部小写:robots.txt;后缀为“.txt”
b.语法说明
User-agent
定义搜索引擎蜘蛛的类型
Disallow
定义禁止搜索引擎蜘蛛抓取的对象
Allow
定义允许搜索引擎蜘蛛抓取的对象
*号
*星号,也是一个通配符,表示:任何,任意,这里表示任何种类的蜘蛛
$号
$钱币号,也是一个通配符,表示:指定某个链接
?号
?问号,也是一个通配符,表示:含有?号的动态地址
c.语法范例
例1--允许百度抓取,禁止google抓取
User-agent: Baiduspider
Allow: /
User-agent: Goolebot
Disallow: /
例2--拦截以 .asp 结尾的网址
User-Agent: *
Disallow: /*.asp$
表示所有的搜索引擎蜘蛛都不允许抓取含有asp字符的网址。
例3--禁止抓取所有包含?的网址
User-agent: *
Disallow: /*?*
一般用于一些动态链接的网站,动态链接不利于蜘蛛抓取,以及SEO排名,所以要屏蔽掉。
例4--使用*号匹配字符语法
User-Agent: *
Disallow: /a*/
表示所有搜索引擎蜘蛛,不允许抓取以a开头的所有的文件。
例5--禁止抓取除去a文件下的1以外的一切页面
User-Agent: *
Disallow:/a/
Allow:/a/1.html
这里切记,先写Disallow,再写Allow。
因为Disallow是第一优先级,Allow是第二优先级。如果不需要Disallow,可直接写Allow。
蜘蛛类型有上万种,这里列出一些国外和国内能能叫得上名字的蜘蛛种类。
百度蜘蛛:Baiduspider(这个是总称)
百度蜘蛛其实有很多种,Baiduspider只是总称。旗下还有Baiduspider-image(专抓图片)、Baiduspider-video(专抓视频)、Baiduspider-news(专抓新闻)等等。
360蜘蛛:360spider
360蜘蛛抓起来是很疯狂的,只要它想抓你,你拦都拉不住,即使你写的robots也没用。
有道蜘蛛:YoudaoBot,YodaoBot
网易公司旗下的产品。
搜狗蜘蛛:Sogou News Spider
目前已被腾讯公司战略控股,原先腾讯有个自己的搜索引擎叫搜搜,后来做的要死不活,和搜狗合并了。微信现在用的搜一搜功能就是由搜狗提供的。
可以说腾讯做移动搜索这一块做的很棒,进军搜索市场是板上钉钉的事情了。
另外搜狗的蜘蛛类型也有很多,想要知道它们分别是那些,直接去度娘的若波茨底下去找就可以了,百度和搜狗是死磕到底的竞争正对手。
中国搜:ChinasoSpider
中国搜的爸爸很厉害,由中央七大新闻单位控股而成。如果你做自媒体,找一些官方资料和新闻去这里很好,新媒体小编不错的选项之一。
中国搜索
一搜蜘蛛:YisouSpider
一搜可能新人朋友可能没听说,但是神马搜索你应该听说过,一搜蜘蛛就是神马搜索引擎的蜘蛛。
神马搜索是专注移动互联网的搜索引擎,致力于为用户创造方便、快捷、开放的移动搜索新体验。由来自微软、谷歌、百度、360等国内外IT公司的资深员工所组成。
如果你的产品受众比较大,那么神马搜索必须做SEO布局,也值得你花大量时间去研究。
宜sou蜘蛛:EasouSpider
深圳宜搜天下科技股份有限公司出台一款小型搜索引擎,专注手机移动端搜索,但是相比百度和360,它真的太弱了。还是屏蔽它吧。
即刻蜘蛛:JikeSpider
“即刻搜索”是由人民搜索网络股份公司于2011年6月20日推出的通用搜索引擎平台,也建议屏蔽掉。
一淘网蜘蛛:EtaoSpider
一淘网属于阿里旗下的一个电商网站,喜欢淘货,做闲鱼搬运项目赚零花钱的朋友去这个平台还不错,第二个是1688的一键代发。
国外蜘蛛太多了,本文就写几个知名度高点的吧。
谷歌蜘蛛:Googlebot
做外贸SEO以及海外独立站的人都要接触它,而且还要研究好它,百度很多排名机制都是从谷歌上借鉴而来的。
MSN蜘蛛:MSNbot
微软公司旗下的爬虫
俄罗斯的yandex:YandexBot
俄罗斯的LinkpadBot:LinkpadBot
瑞典:Speedy Spider
英国:MJ12bot
雅虎搜索已经退出历史舞台,成为永远的历史了,这里就不介绍了。
上面介绍了很多,接下来要说一下我和SEO这个远戚到底有啥关系。
网站中存在很多不重要的图片,以及很多动态链接与冗余的文件,而这些链接对于蜘蛛来说抓取很困难,导致蜘蛛体验很差。
图片太大,导致蜘蛛无法完全抓取,那么一定程度上会浪费蜘蛛的抓爬资源。
因为抓不动,就会把这些未知的元素带回搜索引擎。
搜索引擎无法完全识别这些页面和图片,那么就会对我们的网站产生不信任。
产生了不信任,在对网页进行评分的时候分数就会特别低,进而导致页面的基础评分不及格,不给与索引,更不会收录。最终影响我们的排名。
这就是为什么我们要压缩图片,不要用JS作效果图,精简代码,对动态链接进行伪静态处理的根本原因。
蜘蛛与用户进入网站时候,都会消耗网站服务器的资源,具体形式就是【带宽】。
网站的页面如果很多,那么就需要更多的爬虫来爬,爬虫来的多,消耗的带宽就越多。
假如网站的带宽是固定的,爬虫占用的带宽多了,那么用户占用的带宽就少了。
这势必会影响用户浏览网页的体验,合理利用好robots协议对网站在运营层面来说意义是不言而喻的。
以上两点请新人牢记,在网站上线以前,就要规划好你的首页,栏目页,URL链接伪静态化处理。然后书写好robots.txt。
robots协议对于网站运营有很重要的运营意义,在书写时一定要仔细检查,要慎重使用Disallow。
如果用错会导致网站的某个栏目或页面长时间不被收录。排名是建立在收录基础上的,没有收录就没有排名。
robots协议类似于“君子协定”。并不是说你写了,蜘蛛就不爬了。有的蜘蛛可以强行爬取,你写了也没用。
它只是一个约定俗称的规范,并不是绝对规范。如果在网站日志分析中发现陌生爬虫的足迹,你可以选择屏蔽掉该蜘蛛以便节省网站资源。
网站上线前,要做好本地测试,写好robots.txt最后打包上传服务器再上线。
如果没有做本地测试直接上线,那么第一时间是在robots.txt中屏蔽掉所有蜘蛛。第二步才是做301重定向。
最后的话
关于robots给大家写了很多,基本详细到点了,又要给大家说再见了。
本期的SEO教程《我叫若波茨,初次见面请多多关照》就给大家讲到这,下期我们讲《如何规范书写robots》。下期再见!
做一个有趣的人,再见巴郎!
作者:巴郎
首发:巴郎小站
巴郎小站:http://www.8alang.com/
-END-
作者简介
巴郎:一个有趣的90后小哥哥,做过传统销售,后结缘SEO入行互联网,现自由职业佛系青年。
写文不易,觉得不错!
点个“在看”,转给朋友!
欢迎你“关注”,感谢!
长按下图识别二维码关注
做一个有趣的人
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)