首页 > 第一章:搜索引擎基础 > 1.2.5 搜索算法
20122月13

1.2.5 搜索算法

先回顾一下上一节的内容,以上几段介绍的都是关于网站优化的基础内容,有关搜索引擎的历史、结构、工作原理等。不知道为什么,百度迟迟不收录这些专业内容,要知道,这可是我Doseo一字一字敲打上来的。 今天为了实验是否进了沙盒期,写了一篇随感文章,没想到20分钟就被百度收去了,看来百度现在越来越智能了,学会区别对待、分批考验了。 好吧,我会一直坚持写的,会通过你的考验。现在是早上2:09分,2:00的时候我正在关机,突然想起今天的这些内容还没有更新,马上按 esc 键,幸好电脑关机慢,不然我还得再开机,又要耽误时间。 好了,上面这些话算是喂百度蜘蛛的,让你知道我的这些文字不是随便复制贴粘来的。

搜索引擎的各个部分都非常重要,缺一不可,但其中的搜索算法(search algorithm)是使得各个部分都能正常运行的核心之所在。更准确的说,搜索引擎的算法是构建搜索引擎其他各个部分的基础。搜索引擎的工作方式是以搜索算法为基础的,它与用户发现数据的方式紧密相关,非常相似。

概括的说,搜索算法就是一个解决问题的程序:提出问题对应的是需要搜索的,找出若干可能的答案,然后将这些答案返回给提出问题的人。具体到搜索引擎的算法就是,先提出要解决的问题(对应的是用户搜索的关键词),然后快速的遍历已分好类的关键词及相关的URL数据库,接着将含有所搜索的单词或短语的页面返回给用户,在这些页面或指向这些页面的URL中就含有用户所搜索的关键词。

更进一步,搜索算法根据网页的感知质量(PERCEIVED QUALITY,用质量分数来表示)返回这些结果。如何实现这个过程随着所使用的算法不同而不同。搜索算法可以分为几种类别,每个搜索引擎使用的算法又或多或少地存在区别。这就解释了为什么同一关键词在不同的搜索引擎中会得到不同的搜索结果。

扫完算法一般 分为3大类:网页算法、整体网站算法和出站算法。每类算法都考虑网页不同元素,但所有这3类算法都是一个更大算法类别的一部分。

1.网页算法

考虑网页元素的算法会观察使用户觉得该网页值得浏览的网页元素,包括关键词在内容中如何使用,以及网页中的其他单词如何彼此关联。例如:对于任意给定的主题,一些短语是比较常见的,所以如果网站是关于网站优化的,网页算法就会确定术语”网站优化“的使用次数以及网页上使用相关短语或单词的次数(例如 衡水网站优化,网站优化教程,网站优化培训).

这些单词模式是算法结果——网站优化是网页的主题——是否正确的指示器。其他没有相关模式的单词则表明关键词是随机输入到网页的,除本身的值以外没有其他的意义。

该算法还可能会观察相关单词的接近程度。这是验证算法结果的模式的另一个元素,这些元素还会影响网页的质量得分。

网页算法也会观察访问者看不到的一些元素。网页的后端包括专门为网络爬虫设计的特殊内容。这些内容称为元标签爬虫检查您的网站时,会把这些元标签看作网站主题的定义。接着,爬虫会根据网站优化的其他元素,以及整体网站优化和出站优化,为这些元标签确定权重。

2.整体网站算法。

网页算法观察网页上单词和内容之间的关系,而整体网站算法观察的是网站上网页之间的关系。例如,主页的内容与其他网页上的内容相关吗?从用户的角度来看,这是一个重要的因素。因为如果用户进行某网站,期望看到某些内容,但是点击一个链接后却进入了一个完全不相关的领域,他们肯定会很扫兴。

为了确保网站名副其实,整体网站算法观察网站元素之间的关系,例如网页的体系结构,锚链文本的使用和网站上的网页是如何互链起来的。所以,如果网站包含多个不同相关的主题,最好把它分解为多个网站。

网站的体系结构如何——即网站访问者如何根据标题使用、访问网站——是网站访问者觉得该网站是否有价值的一个决定性因素。网站优化中最重要的概念之一是网站访问者认为网站是有用的,DOSEO反复强调的一个主题就是建立用户希望花时间浏览的网站。这样,网站优化通常就会很自然的表现出来。

3.出站算法

网站之外的内容与网页在搜索引擎结果页面中的排名有什么关系 ?答案是入站链接,它构成了一个以有时戏剧化的方式影响网站排名的出站因素。优质的入站链接等价于对网站的信任投票,而访问者的高度信任也有助于提高网站排名

注意这里强调的是“优质”的入站链接。这是另一个非常重要的地方,应牢记在心。优质的入站链接是指用户愿意提供的入站链接,因为他们认为某网站或其上的一个网页很有用。这些一般都不是付费链接。

现在回到前面的概念上来:建立一个网站访问者认为有用的网站是最佳的网站优化工具。一些访问者就是利用好的入站链接,来为其他访问者(以及网络爬虫)展示某个网站很有价值。网站拥有好的入站链接数目与访问者在网站上表现出来的信任程序成正比。

通常,上面提到的入站链接,我们也称之为“外链”。在SEO(网站优化)行内,流传一句玉言:外链为皇。 可见外链的重要性。一般外链分为明链黑链,亦称白帽黑帽。简单来讲,“明”和“白”指正大光明的外链。这种链接通常在网页的底部或其他用户能看到的位置,是对方站长同意、自愿做的链接。而相反的,黑链是指用户在表面看不到,专门为蜘蛛、爬虫准备的链接。这种链接要么是站长自己偷偷的放的,为了不影响页面美观或用户反感,要么是没有首先的黑客垃圾非法获取对方网站的管理权限,偷偷的放上去的。

明链难得,所以珍惜;黑链很容易,所以泛滥,使用黑链,是严重的作弊行为。黑链大量的增加,所以,在短时间内看,黑链的效果会高于明链。但长期来看,黑链会被发现,会被搜索引擎惩罚,DOSEO严重建议您不要饮鸩止渴,拒绝黑链!

总之,出站算法为如何确定网页质量排名增加了另一个度量标准。与其他算法一样,这不是一个独立的度量标准,而是更大算法的一个组件,它尝试衡量出网页或网站的真正价值。

4.其他算法

在这3大类搜索算法中,有许多其他小的算法类别,它们对网站和网页如何排名也有影响。最觉的搜索算法类型如下:

列表搜索:列表搜索算法是在指定的数据中根据某一个关键词进行搜索。这种搜索数据的方法是一种完全线性的、基于列表的方法。列表搜索的结果通常都只有一个元素,这意味着如何使用这种方法在数十亿个网站中进行搜索将会非常耗时,但是可以得到较少、精确的搜索结果。

树搜索:先在脑海中想象一棵树。现在从这棵树的根部或叶子开始巡视这棵树。这就是树搜索的工作方式。该算法可以从数据最宽广的叶子部分开始,一直搜索到最狭窄的根部 ;也可以从最狭窄的根部开始,一直搜索到最宽广的叶子部分。数据集就像一棵树:一份数据通过分支与其他数据发生联系,这很像WEB中网页的组织方式。树搜索并不是唯一一种能成功用于Web的搜索算法,但是它确实非常适用于Web搜索。

SQL搜索:树搜索所固有的一个缺陷是它只能逐层地进行搜索,也就是说,它只能根据数据的次序,从一项数据搜索到另一项数据。而SQL搜索就没有这种局限性,它允许以非层方式搜索,这意味着可以从数据的任意一个子集开始搜索。

启发式搜索:启发式搜索算法是在类似树结构的数据集中查找给定问题的答案。由于其所搜索到的答案的固有特点,启发式搜索并不是Web的过后最佳选择。但是,启发式搜索非常适用于在特定的数据库中执行特定的查询。

敌对搜索:敌对搜索算法试图穷举问题的所有答案,这就像在游戏中试图寻找所有可能的解决方案。该算法很难用于Web搜索,因为在网络上,无论是一个单词还是一个短语,都会有几乎无穷多的搜索结果。

约束满足搜索:在网络上搜索某个单词或短语时,约束满足搜索算法的搜索结果最多可能满足您的需求。该搜索算法通过满足一系列的约束来寻找答案,并且可以以各种不同的方式搜索数据集,而不必局限于线性搜索。约束满足搜索非常使用于Web搜索。

在构建搜索引擎时,可以使用多种类型的搜索算法,上述算法类型只是其中的一小部分。搜索引擎通常会根据不同的情况,例如搜索大众类的关键词、搜索房产、搜索天气、搜索列车时刻、搜索热门游戏等不同情况来综合使用不同的一种或多种搜索算法,并且在大部分情况下还会创建一些专有的搜索算法。要提升在搜索引擎的搜索结果的排名,稍微了解一下您所而对的种个搜索引擎的原理是很重要的。只有明白了他们的原理,才能知道如何满足搜索引擎搜索要求,去相应的调整、优化网站各种方面,尽可能地增加网站暴光率。

文章作者:doseo
本文地址:http://doseo.org/2012/02/13/search-algorithm/
版权所有 © 转载时必须以链接形式注明作者和原始出处!

trackbacks URL:http://doseo.org/2012/02/13/search-algorithm/trackback/

本文目前尚无任何评论.

发表评论