部分 提取,而非〈title〉〈/title〉或者部分;判断关键宇是否仅在某一段落内重复,以去除恶意重复现象。对 于重定向这种行为,应对页面内增加重定向分析。使用刷新标记进行重定向,可以在页面内容中进行标记判断;使用JavaScript来进行重定向,可以对页 面中的JavaScript代码进行判断。
b)、网络爬虫隐身。无论是隐形页面、偷换页面,还是重定向,都会对网站的当前访问者进行判断,从而对网络爬虫和普通用户作出不同的反应。搜索引擎应该让一部分网络爬虫隐身,装扮成普通用户来访问网站,对网站进行测试,便可以有效杜绝这种类型的作弊。
c)、网站历史记录。对网站的页面变更记录其历史。一般来说一个W站的非内容部分的页面变化是很小的,如网站目录结构、页面结构、很多特殊连接都是不经 常变化的。如果某一个网站变化较大,就有必要对此网站作进一步的审核。这样做可以杜绝偷换网页这一作弊方法,并提高人工审核的效率。
d)、网站评级。一般来说,好的网站上的链接质量也会很高,而一些垃圾网站的链接也多是与其相似的网站。也就是说,网站也是聚类生存的。因此,可以对网站进行评级归类,以有效预防通过垃链连接来作弊的网站。
通过以上四种方法,可以有效提高搜索引擎的反SEO作弊能力,但这样并不能完全杜绝SEO作弊。要想提高搜索引擎的反作弊能力,还必须要人的加入,综合使用各种方法,逐级分层审?。
第一层是提高技术手段。例如加强页面的智能分析和网络爬虫的抓取能力,增加爬虫隐身能力。其目的是进行最底层的反作弊判断,判断的对象是页面,由电脑进行海量的重复性作业。
第二层是网站分析。通过网站的历史记录与网站评级系统,对网站进行分析评价。目的是从中筛去合法的,找出有SEO作弊嫌疑的网站,判断的对象是网站,由电脑和人进行比较筛选。
第三层是最终评审。由人对筛选出的嫌疑网站进行试用、评审。判断的对象是网站,完全由人完成,并得出最终结论。
通过电脑与人工的合作作业,可以基本上杜绝搜索引擎优化中的作弊行为,使搜索引擎的结果更符合浏览者的需要。
Google搜索引擎采用的核心软件PageRank是由Google创始人开发出的一套用于网页评级的系统。这是Google搜索排名算法中的一个组 成部分,级别从1到10级,10级为满分,PK值越高说明该网页在搜索排名中的地位越重要。也就是说,在其他条件相同的情况下,PR值高的网站在 Google搜索结果的排名中有优先权。网页级别由此成为Google所有网络搜索工具的基础。
1、Google对网页级别的描述
作为组织管理工具,网页级别利用了互联网独特的民主特性及其巨大的链接结构。实质上,当从网页A链接到网页B时,Google就认为A投了B—票。Google根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,Google还要分析投票的网页。重要的网页所投出的票就会有更高的权重,并且有助于提高其他网页的重要性。
重要的高质量网页会获得较高的网页级别。Google在排列其搜索结果时,都会考虑每个网页的级别。当然,如果不能满足用户的查询要求,网页级别再高,对用户来说也毫无意义。因此,Google将网页级别与完善的文本匹配技术结合在一起,为用户找到最重要、最有用的网页
Google所关注的远远不只是关键词在网页上出现的次数,它还对该网页的内容(以及该网页所链接的内容)进行全面检?,从而确定该网页是否满足用户的?询要求。
2、PR值算法原理
PR值算法总体上基于下面两个前提:
a)、—个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均传递到它所引用的网页。这种重要的网页称为权威(authoritive)网页。
b)、假定用户一开始随机地访问网页集合中的一个网页,然后跟随网页的链接向前浏览网页,不回退浏览,那么浏览下—个网页的概率就是被浏览网页的PageRank值。
影响PR值的因素如下:
PR值体现为0~10的11个数值,在Google的工具栏上以一条横向绿色柱状图显示,0级情况下呈白色。它是针对网页而不是网站,因此一个网站的首页和内页往往有着迥然不同的PR值。根据PR值的算法原理,可知影响一个网站(首页)PR值的因素主要包括:
1、网站的导人链接质量。(a)根据前文对高质量导入链接的分析,则获得高PR值需要获得来自网站的链接;(b)加人搜索引擎分类目录;(c)与已经加 人目录的网站交换链接;(d)获得来自PR值不低于4并与用户主题相关或互补的网站的链接;(e)用户链接出现在流量大、知名度高、频繁更新的重要网站上 (如新闻源)。(f)与用户交换链接的网站具有很少导出链接;(g)与内容质量高的网站链接(PR值上升潜力大)。
2、导出链接数量。根据PR计算原理,由于“一个网页的重要性被平均传递到它所引用的网页”,反过来看,一个页面内过多地导出链接将潜在引起该页PR值的流失。但从内容的角度看,适当数量的与主题有关联的导出链接给搜索引擎带来良好的印象。因此,一个页面,尤其是首页的导出链接数量的把握,应该兼顾到PR值与关键词内容两者之间的平衡,即控制导出链接数量,以不超过10个为宜。
3、搜索引擎收录一个网站的页面数量。在探讨SEO的时候,人们过多关注核心关键词排 名以及首页的表现情况,却往往忽略了一个极其重要的问题,即搜索引擎对一个网站收录的页面数量。后者在SEO中也有着极其重要的意义。一个用核心关键词查 询排名不佳的网站,可能由于被抓取大量网页而在用户使用其他关键词查询时内页获得前三甲排名。由于用户搜索时使用的关键词具有分散性,使得这种情况往往给 网站带来极大的访问量。
正因为收录页面的数量直接影响访问量,所以对PR值的影响也是很大的。被收录页面越多,主页PR值越高。不过需要强调的是,此处所指的数量是指被收录数与网站页面总数的比值,而不是收录页面的绝对数值。但对各个搜索引擎来说,究竟达到多大的比值算是良好,目前还没有相关的数据。
4、首页PR的高低。尽管对PR的界定是针对网页而不是网站,但由于每个网页都依托某一网站而存在,首页是推广的核心页面,网站 首页PR高低对内页各PR也产生直接影响。—般而言,一个网站各页面的PR值呈现以下走向:首页>—级页面>二级页面>三级页面……每 深人一级,PR降低一或两个档次。更深层次可能就无法列人评级范围了。当然,如果一个深层内页有很多外部或内部链接,情况则另当别论。
5、文件类型。Google可以索引到的网页和文件类型包括pdf、asp、jsp、html、shtml、xml、cfin、doc、xls、ppt、 rtf、wks、lwp、wri、swf。做成PDF格式的文件往往都是网站比较重要的内容或文章。因此Google默认PDF格式文件的PR值为3,高于一般HTML文件。同理,Google给予XML、PS、Woid、PowerPoint、Excel等类型页面的PR值也比普通网页文件高。因此,对 于网站比较有价值的内容,建议做成pdf格式。
6、PR值的更新。Google每个月进行一次彻底的数据更新(google dance),更新后的网站排名和导人链接都会有某些变化,但其PR更新时间一般要延迟至dance后三个月左右,而且网站的PR值相对稳定,要上升或下降一级PR是很不容易的事情。
7、PR值的作用。由于网页级别的高低直接受链接的影响,而链接仅是SEO的一个方面,PR的高低只能反映出SE0的部分效果。一个网页如果拥有高PR值能够 说明的仅是:a)网页比较重要,拥有排名靠前的优先权,并不能与排名靠前直接划上等号;b)具有获得高质量导入链接的谈判优势;c)搜索引擎会加快对网页 数据的更新;d)看上去挺美。
正因为具有排名靠前的优先权和谈判优势,使得高PR网站往往最终确实产生高排名,业内不少人士就干脆直接将 PR与SEO划等号,这不仅不正确,也不利于SEO实施。因为PR值不高的网站同样有可能获得好的排名,而PR值高的不见得有理想的排名。并且在这样的思想指导下,人们往往片面追求链接效应,忽略了SEO对于内容、结构、关键词等方面的分析和改进,而后者才是用户和搜索引擎长期关注的焦点。网络营销人士认为:PR值的高低应该是包括SEO在内的搜索引擎营销所产生的自然结果,而不应该作为追求的目标。
对于搜索引擎优化,各大搜索引擎的态度是不同的,有的并不表态,有的公开支持。合法的搜索引擎优化应该是值得鼓励的,可以为搜索引擎提供更为精确的网站索引。搜索引擎优化中的作弊行为是被各大搜索引擎一致拒绝并提供了各种处罚措施。要想完全杜绝搜索引擎排名中的作弊行为是不可能的,一个成功的搜索引擎应必须要做到尽量避免索引到垃圾页面。要做到这个目标,就必须从域名的分析到页面内容的抽取、从网站历史行为到最新页面状态的检索都进行检?。可以肯定的是,各大搜索引擎的反作弊策略只是刚刚开始。
-END-
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)