20122月13
先回顾一下上一节的内容,以上几段介绍的都是关于网站优化的基础内容,有关搜索引擎的历史、结构、工作原理等。不知道为什么,百度迟迟不收录这些专业内容,要知道,这可是我Doseo一字一字敲打上来的。 今天为了实验是否进了沙盒期,写了一篇随感文章,没想到20分钟就被百度收去了,看来百度现在越来越智能了,学会区别对待、分批考验了。 好吧,我会一直坚持写的,会通过你的考验。现在是早上2:09分,2:00的时候我正在关机,突然想起今天的这些内容还没有更新,马上按 esc 键,幸好电脑关机慢,不然我还得再开机,又要耽误时间。 好了,上面这些话算是喂百度蜘蛛的,让你知道我的这些文字不是随便复制贴粘来的。 搜索引擎的各个部分都非常重要,缺一不可,但其中的搜索算法(search algorithm)是使得各个部分都能正常运行的核心之所在。更准确的说,搜索引擎的算法是构建搜索引擎其他各个部分的基础。搜索引擎的工作方式是以搜索算法为基础的,它与用户发现数据的方式紧密相关,非常相似。 概括的说,搜索算法就是一个解决问题的程序:提出问题对应的是需要搜索的,找出若干可能的答案,然后将这些答案返回给提出问题的人。具体到搜索引擎的算法就是,先提出要解决的问题(对应的是用户搜索的关键词),然后快速的遍历已分好类的关键词及相关的URL数据库,接着将含有所搜索的单词或短语的页面返回给用户,在这些页面或指向这些页面的URL中就含有用户所搜索的关键词。 更进一步,搜索算法根据网页的感知质量(PERCEIVED QUALITY,用质量分数来表示)返回这些结果。如何实现这个过程随着所使用的算法不同而不同。搜索算法可以分为几种类别,每个搜索引擎使用的算法又或多或少地存在区别。这就解释了为什么同一关键词在不同的搜索引擎中会得到不同的搜索结果。 扫完算法一般 分为3大类:网页算法、整体网站算法和出站算法。每类算法都考虑网页不同元素,但所有这3类算法都是一个更大算法类别的一部分。 1.网页算法 考虑网页元素的算法会观察使用户觉得该网页值得浏览的网页元素,包括关键词在内容中如何使用,以及网页中的其他单词如何彼此关联。例如:对于任意给定的主题,一些短语是比较常见的,所以如果网站是关于网站优化的,网页算法就会确定术语”网站优化“的使用次数以及网页上使用相关短语或单词的次数(例如 衡水网站优化,网站优化教程,网站优化培训). 这些单词模式是算法结果——网站优化是网页的主题——是否正确的指示器。其他没有相关模式的单词则表明关键词是随机输入到网页的,除本身的值以外没有其他的意义。 该算法还可能会观察相关单词的接近程度。这是验证算法结果的模式的另一个元素,这些元素还会影响网页的质量得分。 网页算法也会观察访问者看不到的一些元素。网页的后端包括专门为网络爬虫设计的特殊内容。这些内容称为元标签。爬虫检查您的网站时,会把这些元标签看作网站主题的定义。接着,爬虫会根据网站优化的其他元素,以及整体网站优化和出站优化,为这些元标签确定权重。 2.整体网站算法。 网页算法观察网页上单词和内容之间的关系,而整体网站算法观察的是网站上网页之间的关系。例如,主页的内容与其他网页上的内容相关吗?从用户的角度来看,这是一个重要的因素。因为如果用户进行某网站,期望看到某些内容,但是点击一个链接后却进入了一个完全不相关的领域,他们肯定会很扫兴。 为了确保网站名副其实,整体网站算法观察网站元素之间的关系,例如网页的体系结构,锚链文本的使用和网站上的网页是如何互链起来的。所以,如果网站包含多个不同相关的主题,最好把它分解为多个网站。 网站的体系结构如何——即网站访问者如何根据标题使用、访问网站——是网站访问者觉得该网站是否有价值的一个决定性因素。网站优化中最重要的概念之一是网站访问者认为网站是有用的,DOSEO反复强调的一个主题就是建立用户希望花时间浏览的网站。这样,网站优化通常就会很自然的表现出来。 3.出站算法 网站之外的内容与网页在搜索引擎结果页面中的排名有什么关系 ?答案是入站链接,它构成了一个以有时戏剧化的方式影响网站排名的出站因素。优质的入站链接等价于对网站的信任投票,而访问者的高度信任也有助于提高网站排名。 注意这里强调的是“优质”的入站链接。这是另一个非常重要的地方,应牢记在心。优质的入站链接是指用户愿意提供的入站链接,因为他们认为某网站或其上的一个网页很有用。这些一般都不是付费链接。 现在回到前面的概念上来:建立一个网站访问者认为有用的网站是最佳的网站优化工具。一些访问者就是利用好的入站链接,来为其他访问者(以及网络爬虫)展示某个网站很有价值。网站拥有好的入站链接数目与访问者在网站上表现出来的信任程序成正比。 通常,上面提到的入站链接,我们也称之为“外链”。在SEO(网站优化)行内,流传一句玉言:外链为皇。 可见外链的重要性。一般外链分为明链和黑链,亦称白帽、黑帽。简单来讲,“明”和“白”指正大光明的外链。这种链接通常在网页的底部或其他用户能看到的位置,是对方站长同意、自愿做的链接。而相反的,黑链是指用户在表面看不到,专门为蜘蛛、爬虫准备的链接。这种链接要么是站长自己偷偷的放的,为了不影响页面美观或用户反感,要么是没有首先的黑客垃圾非法获取对方网站的管理权限,偷偷的放上去的。 明链难得,所以珍惜;黑链很容易,所以泛滥,使用黑链,是严重的作弊行为。黑链大量的增加,所以,在短时间内看,黑链的效果会高于明链。但长期来看,黑链会被发现,会被搜索引擎惩罚,DOSEO严重建议您不要饮鸩止渴,拒绝黑链! 总之,出站算法为如何确定网页质量排名增加了另一个度量标准。与其他算法一样,这不是一个独立的度量标准,而是更大算法的一个组件,它尝试衡量出网页或网站的真正价值。 4.其他算法 在这3大类搜索算法中,有许多其他小的算法类别,它们对网站和网页如何排名也有影响。最觉的搜索算法类型如下: 列表搜索:列表搜索算法是在指定的数据中根据某一个关键词进行搜索。这种搜索数据的方法是一种完全线性的、基于列表的方法。列表搜索的结果通常都只有一个元素,这意味着如何使用这种方法在数十亿个网站中进行搜索将会非常耗时,但是可以得到较少、精确的搜索结果。 树搜索:先在脑海中想象一棵树。现在从这棵树的根部或叶子开始巡视这棵树。这就是树搜索的工作方式。该算法可以从数据最宽广的叶子部分开始,一直搜索到最狭窄的根部 ;也可以从最狭窄的根部开始,一直搜索到最宽广的叶子部分。数据集就像一棵树:一份数据通过分支与其他数据发生联系,这很像WEB中网页的组织方式。树搜索并不是唯一一种能成功用于Web的搜索算法,但是它确实非常适用于Web搜索。 SQL搜索:树搜索所固有的一个缺陷是它只能逐层地进行搜索,也就是说,它只能根据数据的次序,从一项数据搜索到另一项数据。而SQL搜索就没有这种局限性,它允许以非层方式搜索,这意味着可以从数据的任意一个子集开始搜索。 启发式搜索:启发式搜索算法是在类似树结构的数据集中查找给定问题的答案。由于其所搜索到的答案的固有特点,启发式搜索并不是Web的过后最佳选择。但是,启发式搜索非常适用于在特定的数据库中执行特定的查询。 敌对搜索:敌对搜索算法试图穷举问题的所有答案,这就像在游戏中试图寻找所有可能的解决方案。该算法很难用于Web搜索,因为在网络上,无论是一个单词还是一个短语,都会有几乎无穷多的搜索结果。 …
20122月13
排名突然从在第二页徘徊着跃然第了第一页第一位,但发的文章却迟迟不收录。原来在第二页的时候文章在数分钟内容收录,现在呢,发点有内容的文章,排名意外高升,文章却迟迟不收录,三天前的文章现在还没有收录。 要么是我不了解百度,只能怀疑这又是一个沙盒期,与以往经历的沙盒期不同的是,把你高高的挂在前面;相同的是,文章不着急给你放出来。 要么就是百度太了解我,知道前几天发的文章是在吊他的胃口,是有计划的每天发一点,每天按时发,专门为他而发的。 好吧,我先随手记一下这几天的历程: 一天查3次排名,6次是否收录新文章。如果这也是一种沙盒,我愿意待在里面。 过几天再写Google与百度优化时的区别,菜又多了一点。
20122月12
Doseo前面讲到搜索引擎的爬虫、蜘蛛和机器人,这些程序将读取收集到的网页信息存入数据库,用户查询时,再从数据库中读取,这一小节,就概述的讲一下这个搜索引擎的数据库。 每个搜索引擎都有自己的数据库系统,或是会连接到某个数据库系统。这些数据库中存产着网络中各个URL中各种信息,这些数据库是大规模的存储区域,包含每个URL的多个数据点。 可以用不同的方法存储这些数据,通常各个搜索引擎还会有自己的一套方法对这些数据库进排序和检索。值得注意的是,这些对数据进行排序和检索的规则不止一条或两三条,数量肯定惊人,并且是不断优化升级、随时会变化的。可以理解,这是搜索引擎为了更好的提高用户体验,让用户迅速找到自己想要的内容,将内容优质的站点排列到前面,避免出现甚至屏蔽垃圾、欺诈、内容不良的网站。 您可能听说过PR(PageRank)(网页级别,用户Google)这个排名方法。这个排名或评分方法是网站优化(SEO)中最复杂、最神秘的部份。分数是如何评定的其实是一个被严密保护的秘密,其部分原因是搜索引擎会根据网络上的使用模式,改变达到某分数所使用的元素的权重。 其基本理念是根据网站访问者从网页得来的信息的质量对网页评分,而不是根据网站设计者如何操作组成质量分数的元素来评分。例如,用于给网页排名的关键词曾经是获得高质量分数的最重要的因素之一。 现在不是这样了,关键词在网页排名中仍然非常重要,但它们仅仅是需要考虑的几十个因素之一,衡水网站优化将在后同的部分介绍如何使用关键词。关键词是有偶会的,但是如何使用不正确,关键词会带来负面的影响。这也是Doseo后面要介绍的,如何正确使用关键词。 PageRank PageRank是可能永远不会彻底解开的秘密之一。人们撰写了大量关于PageRank的文章,但世界上完全理解它的可能只有两个人:Larry Page和Sergey Brin,因为是这两个人创造了PageRank. 实际上,PageRank开始时是Page和Brin在斯坦福大学开展的一个研究项目的一部分。该项目涉及创建一个新的搜索引擎,通过一种民主的方式,利用几个权值和度量标准,准确地给网页排名。因此,就有了这个术语。 PageRank的有趣之处是尽管Page和Brin提出了这个概述,并创建了PageRank的算法,但PageRank并不属地他们。斯坦福大学拥有PageRank算法的专利,直到Google以公司的180万股票(斯坦福大学在2005年以3.36亿美元将其卖出)为代价购买了PageRank算法的专用权。 PageRank是一种在Google搜索结果中给网页排名的方法,各种不同的因素给出了网页的实际排名。Google对此这这样解释的: “PageRank把共巨大的链接结构用作各网页的价值的指示器,它依赖于网络独特的民主本质。实际上,Google把网页A到网页B的链接解释为网页A为网页B的一次投票”但Google并不只看重纯粹的投票数,即网页获得的链接:它还分析投票的网页。本身比较‘重要’的网页所投的票的权重比较大,这有助于使其他网页‘比较重要’”。 换言之,这是一个秘密。链接比较多的网页(投票数相同)可能只是一个指向“比较重要”网页链接的网页排名低。所以我们应该为访问者创建网页,而不是为搜索引擎创建网页。 质量考虑 当考虑数据库(推广到网页质量度量)在网站优化中的重要性时,将其与我们熟悉的客户服务相比较很有帮助。优秀的客户服务并不是由一个因素构成的,而是包含许多不同的因素:问候、态度、知识等,把它们组合起来,才能使用户有愉快的体验。网页质量分数也是这样。 质量分数的不同之处在于,它用于度量设计元素,而不是某个人的行为。例如,对质量分数有影响的一些已知元素包括: 域名和URL 网页内容 链接结构 可用性和可访问性 元标签 网页结构 把这些元素与其他元素组合起来——有时要非常小心地平衡这些元素——就可以获得质量分数。每个元素的仅值如何确定,只有创建生成质量分数的算法的数学家们清楚,但有一件事是可以肯定的:网站所得的质量分数越高,搜索引擎的结果就越好。这意味着来自搜索引擎 的访问量就越大。
20122月12
在上一小节,衡水网站优化为您介绍了搜索引擎的查询页面和查询结果页面,接下来将为您介绍搜索引擎的几个专用术语:爬虫、蜘蛛和机器人。 查询界面和搜索结果页面是用户唯一能看到的搜索引擎组件。搜索引擎的其他部份都隐藏在后台,就算天天都在使用搜索引擎的人也看不到。藏在幕后的部份并非不重要,恰恰相反,这些看不到的部分才是搜索引擎最重要的部分,它们决定了搜索结果在前台如何显示。 如果对互联网有所了解,那就应该听说过爬虫、蜘蛛和机器人。这些小东西在互联网上负责抓取网页,并将其整理成可搜索的数据。从基本原来来说,这三种程序都是一样的。他们都是逐个“收集”每个URL(网页链接地址)的信息。然后将根据数据库中存储这些数据的URL整理信息。当用户在搜索引擎中进行查询时,搜索引擎就会搜索数据中的相关信息,并按照种种排名的规则进行排序,将排序后的结果返回给用户。
20122月11
现在您应该对搜索引擎的原理有了粗略的了解,但真正的搜索引擎远比您想象的复杂。实际上,搜索引擎是由多个部份组成的。然后,很难找到关于搜索引擎结构的资料,这些资料是搜索引擎公司严密保守的商业秘密,但这些资料对于网站优化是非常重要的。现面Doseo将根据多方资料以及自己的理解,为您具体讲述一下搜索引擎的基本构成。 1.2.1 查询界面 查询界面是人们最熟悉的部份,当人们提起搜索引擎时,例如百度,想到的也通常是搜索引擎的查询界面。查询 界面就是用户访问搜索引擎时输入搜索词的页面,例如: 1.2.2 搜索引擎结果页面 查询界面的另一个方面是搜索引擎展示给用户的另一面,即搜索引擎结果页面(Search Engine Results Pages,SERP)。用户输入一个搜索关键词或短语搜索后,搜索引擎就在这些页面上显示搜索的结果。您的网站最终也希望显示在这些页面上,在搜索结果的排名越高,通过搜索获得的访问量就越大。具体来说,您的目标是争取显示在搜索引擎的第一个页面上——给定搜索引擎关键词或短语进行搜索,返回的前10个或20个结果会显示在第一个页面上。但如何达到这个目标是一个秘密,也就是搜索引擎的排名规则。衡水网站优化将解密这个过程,但目前我们需要更多地了解用户如何查看搜索引擎结果页面。 下面开始研究用户如何查看搜索引擎结果页面。假定搜索者进入自己喜欢的搜索引擎——这里使用百度来演示,因为我们多数中国人都使用baidu.输入要搜索的关键词,点击“百度一下”,在显示结果页面,搜索者首先会做什么? 大多数人会开始阅读前几个结果的标题和描述。 所有网站应使用标题和描述能吸引搜索者的注意,添加用户点击的机率,进入我们的网站。但这出现一个问题:网站的排名要足够的靠前,搜索者才会在结果页面上看到网站的标题和描述,才能点击相关的链接,这通常意味着网站必须显示在前10个或20个结果中,这些结果会显示在前一、两个页面上。这就我们的核心行为:网站优化,但实现这个目标并不容易。 他相关次都排在前10位或前20位并没有什么秘密武器或公式的捷径,相反,我们需要做大量艰苦而细致的工作,才能使网站在搜索引擎结果页面上的排名尽可能的高。衡水网站优化将提供这方面的一些信息。尽管这方面的信息很多,但要真正理解如何在搜索引擎结果页面上占据好的位置,就必须理解搜索引擎的工作方式,其内容比用户看到的要多的多。
20122月11
前面我们已经知道了搜索引擎的基本概念和发展简史,在搜索框中输入单词或短语,然后单击,稍等片刻,我们就会看到成千上万的搜索结果。接着要做的就是打开这些网页,查找我们需要的内容。但是除了“搜索即可找到”这个泛泛的概念外,搜索引擎的准确定义又是什么? 衡水网站优化觉得这有点复杂,在搜索引擎的后台,有一些用于搜集网页信息的程序。所收集的信息一般是能表明网站内容(包括网页本身、网页的URL地址、构成网页的代码以及进出网页的链接)的关键词或短语,接着将这些信息的索引放放数据库中。 而在搜索引擎的前台,即供用户输入搜索词(单词或短语)的用户界面,当用户执行搜索时,算法就会在后台的数据库中查找信息,将与用户输入的搜索词相匹配的网页链接呈现给用户。 提示,在未来的第18章会深入的介绍刚才提到的网页爬虫、网络蜘蛛以及网络机器人。 搜集网页信息的程序为爬虫(crawler)、蜘蛛(spider)或机器人(robot)。爬虫会遍历网络中未屏蔽的URL链接,并收集每个网页中的关键词和短语。然后将这些信息存放在搜索引擎的数据库中。想一下,互联网上的网站数量已超过亿个,而且还在以每月超过150万个新网站的速度增长。这就像是要用大脑将所有见到的每一个单词都进行分类,需要的时候再将所有相关信息调用出来,并按多条综合的机制进行排序。 简单点说,这几乎是不可能完成的任务。
20122月10
内容提要: 什么是搜索引擎 搜索引擎的基本结构 搜索引擎的特征 搜索引擎的分类 利用搜索引擎 控制搜索引擎 如何在互联网上寻找信息——例如事件、统计数字、商品、酒店、工厂甚至电话号码,您会怎么做?大部份情况下会使用搜索引擎,输入需要查找的内容,然后点击前面的搜索结果。在中国,70%左右人群使用百度。并且,衡水网站优化认为,一般情况下,人们大约只会关注前几页的搜索引擎,现在搜索引擎每页是10个结果(广告不计在内)。我们这里讲的SEO\网站优化,都是要实现一个目标:让您的企业网站\要推广的网站出现在搜索引擎搜索结果的前列,通常是第1页。 早期的互联网(1990年以前)并不是这样的。实际上,当时的互联网并不像现在这样是一个由数量非常巨大的相互连接的网站构成的网络,也没有成为如此庞大的商业助推器。当时所谓的互联网只是一些用户可以下载(或上传)文件 的FTP(File Transfer Protocol)站点。 要在这些站点寻找每个文件,用户只能浏览每个文件,也幸好当时站点数量非常少,和现在的互联网海洋相比简直相差太多。不过,这也使得用户在互联网上查找文件 成了一件困难费时间的事情。这时在蒙特利尔的McGill大学中,一个学生决定要简化这个工作。1990年,这位名叫Alan Emtage的学生创建了互出多上有始以来的第一个搜索引擎。他的杰作是一份互联网上各种文件的索引,名字叫Archie. 这个搜索引擎Archie不同于现在使用的百度、谷歌,Archie没有自然语言处理能力,他只是像我们现在普通的一个站内搜索,将互联网上的内容加入自己的网站数据库中,供人们搜索。但在当年,这已经是一件很伟大的事情了。 后来,1991年,明尼苏达大学的Mark McCahill创建了Gopher索引纯文本文档,让人们能够在互联网中文件搜索文本,发展成为了互联网最早的网站之一。 1993年,第一个具有现代意义的搜索引擎Wandex被Matthew Gray创建,它是第一个同时具有网页索引和搜索功能的搜索引擎,是第一个使用了网络爬虫的搜索引擎,也成为了后来各种搜索爬虫的基础。从那以后,搜索引擎就开始发展起来,从1993年到1998年,主流搜索引擎都有 Excite——1993年 Yahoo!——1994年 Web Crawler——1994年 Lycos——1994年 Infoseek——1995年 AltaVista——1995年 Inktomi——1996年 Ask Jeeves——1997年 Google——1997年 Msn Seacrh——1998年 今天,搜索引擎已经非常成熟,可以用日常的单词或短语来搜索各种文件、文档、网页、图片。看着现在搜索引擎强大的搜索能力,很难让人相信搜索引擎只有15年的短暂历史。 衡水网站优化在2000年接触网络时,经常使用的Yahoo!搜索。
20122月10
衡水网站优化认为,网站优化,即SEO(Search Engine Optimization)是一个很宽泛的概念,很难简单直观的用几句话就能说明其全部含义。网站优化涉及到很多内容,包括搜索引擎的工作原理,以及不同搜索引擎之间(主要是百度和GOOGLE)的差异、网页框架的设计等。要面面俱到地学习各个方面的知识,在短时间内是不现实的。不过,网站优化并不是一项不可能完成的任务,但如果完全不知道它是什么以及他的原理,那就不可能实现网站优化。 从今天起,Doseo开始介绍网站优化的基础知识。这部份内容对什么是搜索引擎以及搜索引擎的原理做个大概的介绍,并解释什么是长尾搜索以及SEO方案。将这些内容结合 在一起,就能知识如何正确地实施网站优化策略来提高网站的流量。 接下来将介绍: 1、搜索引擎基础知识 2、长发搜索理论 3、制定网站优化(SEO)方案
20122月9
很多年前,大概10年前,刚入行,没有现在满流行所谓的SEO、网站伏化、SEM之流; 那时候,用的最多的,还是Yahoo! ,直到现在,我还是偶尔经验去Yahoo!一把那个紫色的页面。 那时候,以用.asp?id= ; xxxx.php?id= 为荣; 渐渐的,百度长成了,GOOGLE昙花一现,Yahoo!离我们越来越远了; 越来越多的企业开始认同网络,加入电子商务,从以前的不知何为上网,何为企业网站,到现在的竞价排名说起来头头是到,对网站优化也越来越接受。 咱们中国互联网界不缺人才,不管哪行哪业,只要进入了互联网,一个个都像打了鸡血,尤其是咱这些从业者,至少在一些外行看来,这个行业很朝阳,很科技,很有“钱”途。 孰不知,放眼看来,在网站优化这个行业里,有多少黑圈黑幕?没技术的把市场搞乱,打消客户的信息;有时候的垄断市场,打压异己。 很多时候,不得不为之。为了所谓的外链为皇内链为王,每天交换着无谓的链接,更新着没血肉的文章,等待着年龄给域名刻上一圈又一圈。年龄大了,外链多了,内容更新充实了,排名想不上来都难。 不得不得之,我们也是每天建设着外链;每隔几天,不得不来更新几篇 关于网站优化的文章,还得想法设法带上衡水网站优化 .大家都这样做,希冀着排名早日上来,今日的作业到此为止,最大的愿望是能安安静静,用用心心来读读书,总结总结真正有用的东西。