Twitter技术问题导致抓取湖南seo和URL规范化问题

摘要

Twitter技术问题导致抓取湖南seo和URL规范化问题6月27号Google东西条PR更新了一次,然后许多人注意到Twitter主页PR降为零。7月19号Google竟然又更新一次东西条PR。Google更新东西

Twitter技术问题导致抓取湖南seo和URL规范化问题

  6月27号Google东西条PR更新了一次,然后许多人注意到Twitter主页PR降为零。7月19号Google竟然又更新一次东西条PR。Google更新东西条PR值从一个月一次变到3个月一次,乃至半年一次,所以这次不到一个月就再次更新有点奇怪。据现在泄漏的信息,这次更新PR形似首要便是为了批改Twitter PR值的问题。

  今日看到SEL上Vanessa Fox的一篇文章,解说了为什么Twitter的一些技能失误导致Google抓取、URL标准化、PR核算等一系列问题,很值得一读,所以大致翻译一下供读者参阅。

  为什么不是Google的过错,Google却这么上心,更新了PR呢?猜想原因有二,一是不管任何情况下Twitter主页PR为零,咱们肯定是说Google有问题,而不是Twitter有问题,尽管其实确实是Twitter自己形成的。二是,在Google+推出的一起,Google与Twitter协作合同到期了,不能直接经过API抓数据了,这时候Twitter PR降为零,咱们恐怕心里会嘀咕,这Google真是过了河立刻就拆桥啊,Google不想背这个黑锅。

  言归正传。

  Google一位发言人回复SEL关于Twitter PR时说:

  最近Twitter不断修正它们的robots.txt文件和HTTP头信息,玩得太起劲了,暂时形成Google算法处理Twitter时的URL标准化问题。现在标准化问题差不多处理了,所以咱们更新了东西条PR以反映最新数据。Twitter在Google索引库里一向有很高PR,没有赏罚。

  所以Vanessa Fox研讨了一下Twitter究竟有什么robots文件、服务器头信息、URL标准化问题。真是不看不知道,一看吓一跳。趁便提一下,Vanessa Fox是前Google职工,担任网管东西webmaster tools的。

  预见这篇帖子会比较长,才刚开始就这么长了…

  Vanessa Fox搜了一下自己姓名“Vanessa Fox”,成果如下图:

  有URL,但没标题,没阐明,也便是其实没抓取,仅仅部分索引。

  直接搜Vanessa Fox自己Twitter页面URL的成果是:

  为什么呈现了大写?URL最终面那个点又是什么东东?究竟怎么回事呢?

  先来看看Twitter的robots.txt文件

  twitter和twitter的robots.txt文件竟然是不一样的。twitter/robots.txt是这样的:

  #Google Search Engine Robot

  User-agent: Googlebot

  # Crawl-delay: 10 — Googlebot ignores crawl-delay ftl

  Allow: /*?*_escaped_fragment_

  Disallow: /*?

  Disallow: /*/with_friends

  #Yahoo! Search Engine Robot

  User-Agent: Slurp

  Crawl-delay: 1

  Disallow: /*?

  Disallow: /*/with_friends

  #Microsoft Search Engine Robot

  User-Agent: msnbot

  Disallow: /*?

  Disallow: /*/with_friends

  # Every bot that might possibly read and respect this file.

  User-agent: *

  Disallow: /*?

  Disallow: /*/with_friends

  Disallow: /oauth

  Disallow: /1/oauth

  twitter/robots.txt是这样的:

  User-agent: *

  Disallow: /

  也便是说:

  某些情况下,带与不带www的两个版别内容或许是不一样的。

  Twitter形似为了标准和网址,制止查找引擎匍匐www版别。

  所以尽管www版别做了301转向到不带www的版别,但Twitter制止查找引擎抓www版别,所以查找引擎蜘蛛看不到那个301啊。杯具啊。

  连向Twitter的链接有的是链到www版别,有的是不带www的版别,已然www版别制止匍匐,看不到301,链接权重不能传递,浪费了。

  所以在第一个抓图里看到回来的是带www的版别,或许原因是这个版别外链比较多,但Twitter制止匍匐,所以仅仅部分索引。

  再来看看302转向

  查一下twitter/vanessafox这个URL头信息,竟然回来302转向到twitter/#!/vanessafox。为什么说“竟然”呢?请参阅301转向和302转向的差异。因为用的是302,权重没有转到twitter/#!/vanessafox

  而twitter/vanessafox做了301到twitter/vanessafox,当然,原因www版别被屏蔽,链接权重也传递不过来。为什么不从twitter/vanessafox直接301到twitter/#!/vanessafox呢?就算要做两次转向,也都要用301嘛,也不能屏蔽www版别嘛。

  再来看看Twitter意图的AJAX抓取

  Twitter想要的标准化URL是twitter/#!/vanessafox,其间的#表明Twitter期望查找引擎抓取页面AJAX内容。。

  不过因为一系列杂乱的转向,或许形成了问题:

  Google匍匐不带www带#!的URL,然后被转向到twitter/_escaped_fragment_/vanessafox

  然后Google又被301转向到带www不带#!的版别twitter/vanessafox

  而用户拜访时JS将用户又转回到带#!的版别

  我读到这儿时脑筋现已比较杂乱了,总归,Twitter弄了一堆转向,意图是让twitter/vanessafox这个看着看着干干净净的版别呈现在查找成果中,但用户点击后又被转到twitter/#!/vanessafox。弄这么杂乱干什么呢,越杂乱越简单犯错啊。

  Rate Limiting又是什么呢

  Twitter页面头信息里有一个rate limiting部分:

  HTTP/1.1 200 OK

  Date: Mon, 18 Jul 2011 20:48:44 GMT

  Server: hi

  Status: 200 OK

  X-Transaction: 1311022124-32783-45463

  X-RateLimit-Limit: 1000

  这个limiting又limit了什么呢?Vanessa Fox不清楚,我就更不知道了,曾经没见过这个参数。但limit这个词暗示着是约束了什么和速度有关的东西,要是指抓取速度就惨了。

  URL中的大小写字母

  最终,如第二个抓图显现的,URL中呈现大小写字母,这些都是不同URL,又会形成网址标准化、PR/权重涣散、仿制内容等等问题。

  总算到结束了。总归,这种技能问题在许多大型网站是经常呈现的,看似小问题,其实或许导致严重后果。

avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: