贝壳电子书 > 网络杂集电子书 > 搜索引擎优化魔法书 >

第20章

搜索引擎优化魔法书-第20章

小说: 搜索引擎优化魔法书 字数: 每页4000字

按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!



链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让 

网络蜘蛛并行处理,提高其抓取速度。  

    深度优先  是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线 

路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比 

较容易。  



                                                                        第46 页 


… Page 55…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



    由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。 

例如上图 A  为起始网页,属于 0 层,B、C、D、E、F 属于第 1 层,G、H 属于第 2 层,I 

属于第3 层。如果网络蜘蛛设置的访问层数为2 的话,网页I 是不会被访问到的。这也让有 

些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者 

来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。  

    网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是 

需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一 

些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者 

查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这 

些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者 

提供相应的权限验证。  



二、如何辨别搜索引擎机器人身份  



    搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们 

来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器 

人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循 

robots。txt 规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器 

人身份是否合法。  

    在你的服务器日志文件中,可见每次访问的路径和相应的 IP 地址,如果是机器人来访, 

则user…agent 会显示 Googlebot 或MSNBot 等搜索引擎漫游器名称,每个搜索引擎都有自己 

的user…agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将 

他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。  

    目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过 

DNS 反向查询找出搜索引擎机器人IP 地址对应的主机名称;用主机名查找IP 地址以确认该 

主机名与IP 地址匹配。  

    首先,使用DNS 反向查询(Reverse DNS Lookup),找出机器人IP 地址对应的主机名 

称。主流搜索引擎的主机名称通常情况下应是这样的:  



     Google    : 主 机 名 称 应 包 含 于             googlebot 域 名 中 , 如 : 

        crawl…66…249…66…1。googlebot;  

     MSN      : 主 机 名 称 应 包 含 于             search。live 域 名 中 , 如 : 

        livebot…207…46…98…149。search。live; 

     Yahoo:主机名称应包含于inktomisearch 域名中,如:ab1164。inktomisearch。  



    最后,做一次 DNS 查询,用主机名查找IP 地址(Forward DNS Lookup ),以确认该主 

机名与IP 地址匹配。由此证明该机器人是合法的。  

    现在,如果发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上 

的设置来阻止这个非法机器人。  



                           第二节 超链分析  



    最近几年,许多研究者发现,WWW                上超链结构是个非常丰富和重要的资源,如果能 



                                                                       第47 页 


… Page 56…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



够充分利用的话,可以极大地提高检索结果的质量。超链分析技术,是新一代搜索引擎的关 

键技术。   



一、基本原理   



    超链分析的基本原理是:在某次搜索的所有结果中,被其他网页用超链指向得越多的网 

页,其价值就越高,就越应该在结果排序中排到前面。   

    超链分析是一种引用投票机制,对于静态网页或者网站主页,它具有一定的合理性,因 

为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量,超链分析的结果可 

以反映网页的重要程度,从而给用户提供更重要、更有价值的搜索结果。   

    搜索引擎,并不能真正理解网页上的内容,它只能机械地匹配网页上的文字。它收集了 

互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引 

数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词 

的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索 

关键词的相关度高低,依次排列。  

    搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站 

点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容以及这些内容本身之 

间的关联程度以及一个站点在整个网络上的关联程度来确定的。  

    使用超链分析技术,除要分析索引网页本身的文字,还要分析索引所有指向该网页的链 

接的 URL、AnchorText,甚至链接周围的文字。所以,有时候,即使某个网页 A  中并没有 

某个词,比如“软件”,但如果有别的网页B 用链接“软件”指向这个网页A,那么用户搜 

索“软件”时也能找到网页A 。而且,如果有越多网页(C、D、E、F……)用名为“软件” 

的链接指向这个网页 A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那 

么网页A 在用户搜索“超链分析”时也会被认为相关度越高,排序也会越靠前。  



二、工作步骤  



1、从互联网上抓取网页  



    专门用于检索信息的Robot 程序像蜘蛛一样在网络间爬来爬去,利用能够从互联网上自 

动收集网页的 Spider 系统程序, 自动访问互联网,并沿着任何网页中的所有 URL  爬到其 

它网页,重复这过程,并把爬过的所有网页收集回来。随着互联网的迅速发展,检索所有新 

出现的网页变得越来越困难。因此,在Wan…derer 基础上,一些编程者将传统的 Spider 程序 

工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个 

网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。   



2、建立索引数据库  



    由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在 

URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页 

的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字 

中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。   



                                                                      第48 页 


… Page 57…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



3、索引数据库中搜索排序  



    当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所 

有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关 

度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页 

面内容摘要等内容组织起来返回给用户。  



三、搜索效果  



    搜索引擎 Spider 一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、 

几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反 

映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的 

变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。   

    互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排 

序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数 

据量达到几千 G 甚至几万G。但即使最大的搜索引擎建立超过20 亿网页的索引数据库,也 

占不到互联网上普通网页的30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。 

人们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有 

更大量的网页,是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的。   

    使用超链分析的搜索引擎未能收录的网页有:Spider 未能正确处理的网页性质及文件类 

型(如Flash、script、JS,某些动态网页及Frame、数据库);没有主动登录搜索引擎而且没 

有指向链接的孤岛网页;Spider 访问时因为某些原因正好是死链接的网页;被认为是劣质网 

页而不抓;因为色情、反动、spam  等问题而不抓的非法网页;需要输入用户名、密码方可 

打开的网页;网站用robots 协议拒绝搜索引擎抓取的网页;搜索引擎还未来得及抓取的新网 

页;go…pher、newsgroups、Telnet、np、wais 等非http 信息的网页。  

    任何地址中带“?”和“&”号(及其他类似符号)的网页都会被“蜘蛛”程序挡在门外。 

这些网页通常由 CGL、PHP、ASP  等程序产生,技术上较先进,但不适合搜索引擎的“蜘 

蛛”程序。虽然目前有的大型搜索引擎(如 Google)已具备检索动态网页的能力,但相当 

一部分引擎还是不支持它的。而且即使是能够索引动态网页的 Google,也在多个场合中明 

确表示不保证检索全部的动态网页。  



四、超链分析技术的应用   



    超链分析技术已为世界各大搜索引擎普遍采用,在我国使用该项技术的搜索引擎有:  

    百度(baidu )搜索引擎使用了高性能的“网络蜘蛛”程序自动

返回目录 上一页 下一页 回到顶部 0 0

你可能喜欢的