1.2.4 初探搜索引擎的数据库系统
Doseo前面讲到搜索引擎的爬虫、蜘蛛和机器人,这些程序将读取收集到的网页信息存入数据库,用户查询时,再从数据库中读取,这一小节,就概述的讲一下这个搜索引擎的数据库。
每个搜索引擎都有自己的数据库系统,或是会连接到某个数据库系统。这些数据库中存产着网络中各个URL中各种信息,这些数据库是大规模的存储区域,包含每个URL的多个数据点。
可以用不同的方法存储这些数据,通常各个搜索引擎还会有自己的一套方法对这些数据库进排序和检索。值得注意的是,这些对数据进行排序和检索的规则不止一条或两三条,数量肯定惊人,并且是不断优化升级、随时会变化的。可以理解,这是搜索引擎为了更好的提高用户体验,让用户迅速找到自己想要的内容,将内容优质的站点排列到前面,避免出现甚至屏蔽垃圾、欺诈、内容不良的网站。
您可能听说过PR(PageRank)(网页级别,用户Google)这个排名方法。这个排名或评分方法是网站优化(SEO)中最复杂、最神秘的部份。分数是如何评定的其实是一个被严密保护的秘密,其部分原因是搜索引擎会根据网络上的使用模式,改变达到某分数所使用的元素的权重。
其基本理念是根据网站访问者从网页得来的信息的质量对网页评分,而不是根据网站设计者如何操作组成质量分数的元素来评分。例如,用于给网页排名的关键词曾经是获得高质量分数的最重要的因素之一。
现在不是这样了,关键词在网页排名中仍然非常重要,但它们仅仅是需要考虑的几十个因素之一,衡水网站优化将在后同的部分介绍如何使用关键词。关键词是有偶会的,但是如何使用不正确,关键词会带来负面的影响。这也是Doseo后面要介绍的,如何正确使用关键词。
PageRank
PageRank是可能永远不会彻底解开的秘密之一。人们撰写了大量关于PageRank的文章,但世界上完全理解它的可能只有两个人:Larry Page和Sergey Brin,因为是这两个人创造了PageRank.
实际上,PageRank开始时是Page和Brin在斯坦福大学开展的一个研究项目的一部分。该项目涉及创建一个新的搜索引擎,通过一种民主的方式,利用几个权值和度量标准,准确地给网页排名。因此,就有了这个术语。
PageRank的有趣之处是尽管Page和Brin提出了这个概述,并创建了PageRank的算法,但PageRank并不属地他们。斯坦福大学拥有PageRank算法的专利,直到Google以公司的180万股票(斯坦福大学在2005年以3.36亿美元将其卖出)为代价购买了PageRank算法的专用权。
PageRank是一种在Google搜索结果中给网页排名的方法,各种不同的因素给出了网页的实际排名。Google对此这这样解释的:
“PageRank把共巨大的链接结构用作各网页的价值的指示器,它依赖于网络独特的民主本质。实际上,Google把网页A到网页B的链接解释为网页A为网页B的一次投票”但Google并不只看重纯粹的投票数,即网页获得的链接:它还分析投票的网页。本身比较‘重要’的网页所投的票的权重比较大,这有助于使其他网页‘比较重要’”。
换言之,这是一个秘密。链接比较多的网页(投票数相同)可能只是一个指向“比较重要”网页链接的网页排名低。所以我们应该为访问者创建网页,而不是为搜索引擎创建网页。
质量考虑
当考虑数据库(推广到网页质量度量)在网站优化中的重要性时,将其与我们熟悉的客户服务相比较很有帮助。优秀的客户服务并不是由一个因素构成的,而是包含许多不同的因素:问候、态度、知识等,把它们组合起来,才能使用户有愉快的体验。网页质量分数也是这样。
质量分数的不同之处在于,它用于度量设计元素,而不是某个人的行为。例如,对质量分数有影响的一些已知元素包括:
- 域名和URL
- 网页内容
- 链接结构
- 可用性和可访问性
- 元标签
- 网页结构
把这些元素与其他元素组合起来——有时要非常小心地平衡这些元素——就可以获得质量分数。每个元素的仅值如何确定,只有创建生成质量分数的算法的数学家们清楚,但有一件事是可以肯定的:网站所得的质量分数越高,搜索引擎的结果就越好。这意味着来自搜索引擎 的访问量就越大。
文章作者:doseo
本文地址:http://doseo.org/2012/02/12/the-search-engines-database/
版权所有 © 转载时必须以链接形式注明作者和原始出处!
trackbacks URL:http://doseo.org/2012/02/12/the-search-engines-database/trackback/
