解读Google Site Map

[ 2005-06-21 21:44:55 | 作者: Admin ] 字号: | |
什么是Google站点地图?
Google站点地图就是按照一定的协议格式书写一个本地网站结构的文件,以便Google搜索引擎爬虫更加有效的增量抓取。

这种增量抓起的方法以前我在Paper中曾经看到过,似乎也是Stanford的产物

符合协议的站点地图为什么会有那样的效果呢?我们不防协议的样式。

XML 站点地图格式:
该文件可以使用的XML标签有以下几种:
changefreq — 该页面更换的频率(可选)
lastmod — 最近修改时间(可选)
loc — 页面url地址(必须)
priority — 在本网站与其他网页的相关级别(可选)
url — 二级根元素(必须)urlset — 一级根元素(必须)

本站点的一个Demo文件:必须要使用UTF-8编码
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
<url>
<loc>http://www.dmresearch.net</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.dmresearch.net/home/about_us.jsp</loc>
<changefreq>weekly</changefreq>
</url>
</urlset>
对站点文件的要求:
每个站点文件中不能多于50,000 个链接页面&不能大于10M。若网站页面多余50,000的话那么必须使用多个站点文件;当存在多个站点文件时就需要建立一个站点地图索引文件(Sitemap_index.xml),但是站点地图索引文件中不得多余1000个站点地图,站点索引文件中只能包含同二级域名下的内容。站点索引文件包含以下元素:
lastmod — 最近修改时间(可选)
loc — 站点地图url地址(必须)
sitemap 二级根元素(必须)
sitemapindex 一级根元素(必须)
站点地图索引Demo文件如下:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.google.com/schemas/sitemap/0.84">
<sitemap>
<loc>http://www.example.com/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.example.com/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>
</sitemapindex>
站点地图文件摆放位置:
你可以摆放在http://example.com/search_list/下,但是此时该站点文件的内容必须全部都是该目录下的,如http://example.com/search_list/index.html,http://example.com/search_list/download.html均符合要求,http://example.com/images/index.html则不适合放在这个目录下。
推荐摆放位置为根目录下。

其他问题:
编码:必须采用utf-8;
日期格式:遵循 Date and Time Formats 规范要求;
超大网站的页面问题:可以使用经常更换文件内容的办法来解决;
对"http"与"https"同时存在的站点只能选择使用一种方式;
文件使用gzip格式压缩;
priority:此属性只对本网站的抓取顺序相关,和网页级别无关;

后遗症:
Google Sitemap本意是为了Spider更有效的增量抓取,但是由于搜索引擎在页面排名时考虑了页面的更新速度这一因素,也就是说你的页面很久没有更新Google会考虑将你的页面排在后面。呵呵,所以网站管理员会胡乱填写该文件,没有更新的页面依旧写上最近的更新时间。只怕到时候又是一场战争。

鉴于对于大型网站编写这样的文件劳命伤财的考虑,所以届时肯定会有不同版本的自动编写程序出炉,写这样的程序也很简单,不过我就不懂为什么google不自己开放出一个类似的程序供管理员下载使用,那个工具就当作spider的前期处理工作,在网站服务器上运行(呵呵,只怕需要计算服务器的空闲时间啦),那样可以保证数据的真实性。

Google 's HomePage https://www.google.com/webmasters/sitemaps/docs/en/protocol.html
Share
评论Feed 评论Feed: http://www.85815.com/feed.asp?q=comment&id=365
UTF-8 Encoding 引用链接: http://www.85815.com/trackback.asp?id=365&key=
这篇日志没有评论.
发表
表情图标
[smile] [confused] [cool] [cry]
[eek] [angry] [wink] [sweat]
[lol] [stun] [razz] [redface]
[rolleyes] [sad] [yes] [no]
[heart] [star] [music] [idea]
UBB代码
转换链接
表情图标
悄悄话
用户名:   密码:   注册?
验证码 * 请输入验证码