搜索引擎优化魔法书-第30章

小说：搜索引擎优化魔法书字数：每页4000字

按键盘上方向键 ← 或 → 可快速上下翻页，按键盘上的 Enter 键可回到本书目录页，按键盘上方向键 ↑ 可回到本页顶部！
————未阅读完？加入书签已便下次继续阅读！

中，搜索引擎淡化了Meta　的Keywords　和Description　部分信息在排名因素中的权重。　　

　　　　虽然Meta　部分的信息没有以前那么重要，其对排名效果影响并不那么大，但是搜索引　

擎仍然会把其作为评定网页质量的一个因素，所以我们应该尽可能完善每个页面的Meta　值。　　

　　　　接下来我们就介绍以上三个meta　值的书写方法：　　

1、Keywords　　　

　　　　Keywords　的具体网页源码表现形式为：。　

　　　　Keywords　　向搜索引擎说明你的网页的关键词。每个页面的源代码Keywords　　的　content　

部分填写　1…3　个关键词，关键词之间请以半角逗号分来。Keywords　部分的关键词应从当前　

页面的主要展示内容信息中提炼而来。　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　第　84　页　

…　Page　93…

搜索引擎优化魔法书　SEO　Magic　Book　　浩维互动免费电子书　timev　

2、Description　　

　　　　Description　具体网页源码表现形式为：。　

　　　　Description　告诉搜索引擎你的站点上的页面的主要内容。Description　　的content　部分文　

字内容最好控制在　100　个字符左右，行文流畅。Description　部分的内容应该是具体页面主要　

展示信息的简洁而强有力的概述。　　

3、Robots　　　

　　　　Robots　的具体网页源码表现形式为：。　

　　　　Robots　的　content　　部分文字可以填写的内容为：all、none、index、noindex、follow　　和　

nofollow　。对于Robots　的content　部分填充内容有如下说明解释：　　

　　　　　设定为all：文件将被检索，且页面上的链接可以被查询；　　

　　　　　设定为none：文件将不被检索，且页面上的链接不可以被查询；　　

　　　　　设定为index：文件将被检索；　　

　　　　　设定为follow：页面上的链接可以被查询；　　

　　　　　设定为noindex：文件将不被检索，但页面上的链接可以被查询；　　

　　　　　设定为nofollow：文件将不被检索，页面上的链接可以被查询。　　

　　　　一般来说，大部分网站并没有太多的内容禁止搜索引擎机器人索引，Robots　　　　　　　　　　　　　　　　　　　　　　　　　　　　　的通用写　

法都是：。如果想对Robots　做一些个性化的设置，可以　

参照上面的相关说明来完善Robots　的content　部分内容。　　

三、图片ALT　替换文本　　

　　　　图片有一个ALT　替换文本属性，在代码中填充某一个图片的ALT　替换文本信息，如果　

这个图片在网页上显示不出来，在该图片的位置会出现替换文本的信息。　　

　　　　图片的ALT　替换文本信息属性原本是考虑到残障人士（如盲人）的访问体验而准备的，　

他们在浏览网页的时候很难获取图片中的文字信息，只能通过　ALT　　替换文本的描述来了解　

图片影像内容。　　

　　　　搜索引擎会把ALT　部分的内容纳入整个页面的文本分析，所以建议在填写图片ALT　部　

分的内容时要灵活地在描述中布置合适的关键词。　　

四、Robots。txt　　

　　　　搜索引擎都有自己的“搜索机器人”（Robots），并通过这些　Robots　　在网络上沿着网页　

上的链接（一般是http　和　src　链接）不断抓取资料建立自己的数据库。　　

　　　　对于网站管理者和内容提供者来说，有时候会有一些站点内容，不希望被　Robots　　抓取　

公开。为了解决这个问题，Robots　开发界提供了两个办法：一个是robots。txt，另一个是The　　

Robots　META　标签。　　

　　　　Robots　META　标签已经在前面有所叙述，这个部分我们将不再说明。　　

1、什么是robots。txt？　　

　　　　robots。txt　　是一个纯文本文件，通过在这个文件中声明该网站中不想被　robots　　访问的部　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　第　85　页　

…　Page　94…

搜索引擎优化魔法书　SEO　Magic　Book　　浩维互动免费电子书　timev　

分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录　

指定的内容。　　

　　　　当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在robots。txt，　

如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那　

么搜索机器人就沿着链接抓取。　　

　　　　robots。txt　必须放置在一个站点的根目录下，而且文件名必须全部小写。　

　　　　一般来说相应的网站就会拥有一个对应的robots。txt　文件，如：　　

　　　　w3。org/　

　　　　w3。org/robots。txt　

2、robots。txt　的语法　　

　　　　　“robots。txt　”文件包含一条或更多的记录，这些记录通过空行分开（以CR，CR/NL，　or　　

NL　作为结束符），每一条记录的格式如下所示：　　

　　　　　“：”。　

　　　　在该文件中可以使用#进行注解，具体使用方法和　UNIX　　中的惯例一样。该文件中的记　

录通常以一行或多行User…agent　开始，后面加上若干Disallow　行，详细情况如下：　　

　User…agent　：　　　

　　　　该项的值用于描述搜索引擎robot　的名字，在〃robots。txt〃文件中，如果有多条User…agent　

记录说明有多个robot　会受到该协议的限制，对该文件来说，至少要有一条User…agent　记录。　

如果该项的值设为*，则该协议对任何机器人均有效，在〃robots。txt〃文件中，　〃User…agent：　*〃　

这样的记录只能有一条。　　

　Disallow　：　　

　　　　该项的值用于描述不希望被访问到的一个URL，这个URL　可以是一条完整的路径，也　

可以是部分的，任何以Disallow　　　　　　　　　　开头的URL　均不会被robot　访问到。例如〃Disallow：　　　/help〃　

对/help。html　和/help/index。html　都不允许搜索引擎访问，而〃Disallow：　　　　　　　　/help/〃则允许robot　访　

问/help。html，而不能访问/help/index。html　。　

　　　　任何一条Disallow　记录为空，说明该网站的所有部分都允许被访问，在〃/robots。txt〃文件　

中，至少要有一条Disallow　记录。如果　　〃/robots。txt〃是一个空文件，则对于所有的搜索引擎　

robot，该网站都是开放的。　　　

3、一些robots。txt　基本的用法：　　

　　　　A。　禁止所有搜索引擎访问网站的任何部分：　

　　　　User…agent：　*　

　　　　Disallow：　/　

　　　　B。　允许所有的robot　访问　

　　　　User…agent：　*　

　　　　Disallow：　

　　　　或者也可以建一个空文件　　〃/robots。txt〃　file　

　　　　C。　禁止所有搜索引擎访问网站的几个部分（下例中的cgi…bin、tmp、private　　目录）　

　　　　User…agent：　*　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　第　86　页　

…　Page　95…

搜索引擎优化魔法书　SEO　Magic　Book　　浩维互动免费电子书　timev　

　　　　　Disallow：　/cgi…bin/　

　　　　　Disallow：　/tmp/　

　　　　　Disallow：　/private/　

　　　　　D。　禁止某个搜索引擎的访问（下例中的BadBot　）　

　　　　　User…agent：　BadBot　

　　　　　Disallow：　/　

　　　　　E。　只允许某个搜索引擎的访问（下例中的WebCrawler　）　

　　　　　User…agent：　WebCrawler　

　　　　　Disallow：　

　　　　　User…agent：　*　

　　　　　Disallow：　/　

　　　　　F。　常见搜索引擎机器人Robots　名字　　

　　　　　　　　　　　　　　　　　　　　　　　　表　6…8…1　　常见搜索引擎机器人　Robots　名字　　

　　　　　　　　　　　　　　　　　　　　　　　　　名　　　称　　　　　　　　　　　　　　　　　　　　　　　　搜　索　引　擎　　

　　　　　　　　　　　　　　　　Baiduspider　　　　　　　　　　　　　　　　　baidu　　

　　　　　　　　　　　　　　　　Scooter　　　　　　　　　　　　　　　　　　　　　altavista　　

　　　　　　　　　　　　　　　　ia_archiver　　　　　　　　　　　　　　　　　alexa　　

　　　　　　　　　　　　　　　　Googlebot　　　　　　　　　　　　　　　　　　　google　　

　　　　　　　　　　　　　　　　FAST…WebCrawler　　　　　　　　　　　　　alltheweb　　

　　　　　　　　　　　　　　　　Slurp　　　　　　　　　　　　　　　　　　　　　　　inktomi　　

　　　　　　　　　　　　　　　　MSNBOT　　　　　　　　　　　　　　　　　　　　　　search。msn　　

4、robots。txt　举例　　

　　　　　下面是一些著名站点的robots。txt：　

　　　　　cnn/robots。txt　

　　　　　google/robots。txt　

　　　　　ibm/robots。txt　

　　　　　sun/robots。txt　

　　　　　eachnet/robots。txt　

5、常见robots。txt　错误　　

　　　　　A。　颠倒了顺序　

　　　　　错误写成：　

　　　　　User…agent：　*　

　　　　　Disallow：　GoogleBot　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　第　87　页　

…　Page　96…

搜索引擎优化魔法书　SEO　Magic　Book　　浩维互动免费电子书　timev　

　　　　正确的应该是：　

　　　　User…agent：　GoogleBot　

　　　　Disallow：　*　

　　　　B。　把多个禁止命令放在一行中　

　　　　例如错误写成：　

　　　　Disallow：　/css/　/cgi…bin/　/images/　

　　　　正确的应该是：　

　　　　Disallow：　/css/　

　　　　Disallow：　/cgi…bin/　

　　　　Disallow：　/images/　

　　　　C。　行前有大量空格　

　　　　例如写成：　

　　　　Disallow：　/cgi…bin/　

　　　　尽管在标准没有谈到这个，但是这种方式很容易出问题。　

　　　　D。　404　重定向到另外一个页面　

　　　　　　　　当Robot　访问很多没有设置　robots。txt　文件的站点时，会被自动　404　重定向到另外　

　　　　一个Html　页面。这时Robot　常常会以处理robots。txt　文件的方式处理这个Html　页面文　

　　　　件。虽然一般这样没有什么问题，但是最好能放一个空白的　robots。txt　　文件在站点根目　

　　　　录下。　

　　　　E。　采用大写。例如　

　　　　USER…AGENT：　EXCITE　

　　　　DISALLOW：　

　　　　虽然标准是没有大小写的，但是目录和文件名应该小写：　

　　　　user…agent：GoogleBot　

　　　　disallow：　

　　　　F。　语法中只有Disallow，没有Allow　

　　　　错误的写法是：　

　　　　User…agent：　Baiduspider　

　　　　Disallow：　/john/　

　　　　allow：　/jane/　

　　　　G。　忘记了斜杠/　

　　　　错误写作：　

　　　　User…agent：　Baiduspider　

　　　　Disallow：　css　

　　　　正确的应该是：　

　　　　User…agent：　Baiduspider

返回目录上一页下一页回到顶部赞（0）踩（0）

第30章

搜索引擎优化魔法书-第30章

你可能喜欢的