“爬虫”的版本间的差异

2010-04-08T09:27:40的最后版本

爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分。事实上，搜索引擎优化很大程度上就是针对爬虫而做出的优化。

资料

备注

↑ 为何要验证？某些网站对Google机器人做了免验证处理，这也就是为什么有时Google搜索结果中能展现的内容，进入链接后却提醒必须验证。搞清楚如何验证谷歌抓取机器人的原理，就可以伪造一些HTTP请求头，以使可以免登陆访问页面。

[1] 为何要验证？某些网站对Google机器人做了免验证处理，这也就是为什么有时Google搜索结果中能展现的内容，进入链接后却提醒必须验证。搞清楚如何验证谷歌抓取机器人的原理，就可以伪造一些HTTP请求头，以使可以免登陆访问页面。

[1]

@@ 第6行： / 第6行： @@
 *[http://baike.baidu.com/view/1431312.html 什么是网络爬虫程序？]
 *[http://baike.baidu.com/view/1849733.html Google机器人]，[http://baike.baidu.com/view/1848615.htm Googlebot]
-*[http://www.googlechinawebmaster.com/2008/02/googlebot.html 如何验证谷歌抓取机器人(Googlebot)？]<ref>为何要验证？某些网站对Google机器人做了免验证处理，这也就是为什么有时Google搜索结果中能展现的内容，进入链接后却提醒必须验证。搞清楚如何验证谷歌抓取机器人的原理，就可以伪造一些HTTP请求头，以使可以免登陆访问页面。</ref>
+*[http://www.google.cn/ggblog/googlewebmaster-cn/2008/02/googlebot.html 如何验证谷歌抓取机器人(Googlebot)？]<ref>为何要验证？某些网站对Google机器人做了免验证处理，这也就是为什么有时Google搜索结果中能展现的内容，进入链接后却提醒必须验证。搞清楚如何验证谷歌抓取机器人的原理，就可以伪造一些HTTP请求头，以使可以免登陆访问页面。</ref>
 *Google爬虫如何工作：
-**[http://www.googlechinawebmaster.com/2008/03/blog-post.html 与谷歌机器人的第一次约会：标头和压缩]
+**[http://www.google.cn/ggblog/googlewebmaster-cn/2008/03/blog-post.html 与谷歌机器人的第一次约会：标头和压缩]
-**[http://www.googlechinawebmaster.com/2009/02/http-if-modified-since.html 与谷歌机器人的第二次约会：HTTP 状态代码和If-Modified-Since]
+**[http://www.google.cn/ggblog/googlewebmaster-cn/2009/02/http-if-modified-since.html 与谷歌机器人的第二次约会：HTTP 状态代码和If-Modified-Since]
 ==备注==

“爬虫”的版本间的差异

2010-04-08T09:27:40的最后版本

资料

备注

导航菜单

个人工具

命名空间

变种

视图

更多

搜索

导航

工具