Google的博客搜索排名分析_互联网十年风云录

　　今天在“谷歌治印”里看到一篇翻译Google Blogoscoped转载的Ionut Alex. Chitu修改的原创于seroundtable的文章（好大一个圈啊），讲的是Google博客搜索对于页面排名的一些分析，我这里谈一下我的看法。

　　Google的BlogSearch默认是按照“相关度”（relevance）进行排序的，还有一种是按照时间排序。按照时间排序的规则很简单，就是最新的文章放在最前面。按照相关度排序，则是使用某种特殊的公式计算出一些参考分数，然后对这些分数进行排序。

　　和原文说的一样，有利因素为正分，不利因素为负分。在有利因素中，应该还包括一个时间因素，据现在最近的文章其加分越高，反向链接也是一个重要参数，反向链接越多，加分越高。这两个因素应该是最为重要的因素。其他因素就是内容的相关性了，这实际上和普通网页搜索没有什么区别。

　　Google博客排名的这个专利文档里面讲述的更为详细，不过我还没有仔细看过，有时间一定好好读一下，估计能学到不少东西。

　　下面是关于Google Blogsearch排名规则的原文。

Google的博客排名专利

　　Google在2005年年底的一份“博客排名文档”专利文件现在生效。（我没有在文件里看到过Google提及这个，但我知道一些在Google工作的工程师如Andriy Bihun， Jason Goldman and Vinod Marur.Google呈现了一组包括有利因素和不利因素的指标。为了清除Spammers，这个已经在Google博客搜索中上线了。不管怎样，从这可以窥探出Google是怎样想的。

　　这里是一些对博客搜索有利因素：

博客的流行程度
是否存在于其它博客中“博客链接”里
大量的订阅数
标签的使用
在博客地址中包含的电邮地址和聊天记录（我在想Google是否把分析Gmail或Google Talk内容也用于这种用途？）

　　博客或博客文章的PageRank（Google加入“博客文档”（例如一片文章）也许和PageRank没有关系（例如发表一篇新文章）。在这些情况下。新的博客文章可以把博客的PageRank保留下来和单独的PageRank为新文章确定下来）

　　这里是一些不利因素：

文章在短暂时间内连续发表，像自动的一样
在博客里发表重复的文章
使用在spam里经常出现的词汇
每片文章都是非常相似的长度
博客里的很多链接都是指向同一个网站的
包含很多广告

　　当然，每个spammer同样也可以使用标签，并且有些很好的博客也有很多广告，所以我们可以把这些指标看成个别元素，缺少任何元素的存在或非存在都不能形成一个完整的好的博客。举个例子，Google可以根据其多少可见性来指定每属性几组点，通过属性的重要性来调整其价值，然后将它同某些人口进行比较来决定怎么来评定排名（或将它评定为spam）

　　[经由 Ionut Alex. Chitu，在 Search Engine Roundtable看到的.]

　　原文：Google's Blog Ranking Patent , Translated by KEViN恺