“爬虫”的版本间的差异

2010-04-08T09:27:40的最后版本

爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分。事实上，搜索引擎优化很大程度上就是针对爬虫而做出的优化。

资料

备注

↑ 为何要验证？某些网站对Google机器人做了免验证处理，这也就是为什么有时Google搜索结果中能展现的内容，进入链接后却提醒必须验证。搞清楚如何验证谷歌抓取机器人的原理，就可以伪造一些HTTP请求头，以使可以免登陆访问页面。

[1] 为何要验证？某些网站对Google机器人做了免验证处理，这也就是为什么有时Google搜索结果中能展现的内容，进入链接后却提醒必须验证。搞清楚如何验证谷歌抓取机器人的原理，就可以伪造一些HTTP请求头，以使可以免登陆访问页面。

[1]

@@ 第1行： / 第1行： @@
-爬虫是一种自动获取网页内容的程序，是[[搜索引擎]]的重要组成部分。
+爬虫是一种自动获取网页内容的程序，是[[搜索引擎]]的重要组成部分。事实上，[[SEO|搜索引擎优化]]很大程度上就是针对爬虫而做出的优化。
-[[SEO|搜索引擎优化SEO]]，
 ==资料==
@@ 第7行： / 第6行： @@
 *[http://baike.baidu.com/view/1431312.html 什么是网络爬虫程序？]
 *[http://baike.baidu.com/view/1849733.html Google机器人]，[http://baike.baidu.com/view/1848615.htm Googlebot]
-*[http://www.googlechinawebmaster.com/2008/02/googlebot.html 如何验证谷歌抓取机器人(Googlebot)？]<ref>某些时候当用Google搜索出来一些感兴趣内容后，当点击链接进入时，却被提醒要登陆才能访问，由此可判定该网站部分页面对Google机器人做了开放免验证功能。</ref>
+*[http://www.google.cn/ggblog/googlewebmaster-cn/2008/02/googlebot.html 如何验证谷歌抓取机器人(Googlebot)？]<ref>为何要验证？某些网站对Google机器人做了免验证处理，这也就是为什么有时Google搜索结果中能展现的内容，进入链接后却提醒必须验证。搞清楚如何验证谷歌抓取机器人的原理，就可以伪造一些HTTP请求头，以使可以免登陆访问页面。</ref>
+*Google爬虫如何工作：
+**[http://www.google.cn/ggblog/googlewebmaster-cn/2008/03/blog-post.html 与谷歌机器人的第一次约会：标头和压缩]
+**[http://www.google.cn/ggblog/googlewebmaster-cn/2009/02/http-if-modified-since.html 与谷歌机器人的第二次约会：HTTP 状态代码和If-Modified-Since]
 ==备注==

“爬虫”的版本间的差异

2010-04-08T09:27:40的最后版本

资料

备注

导航菜单

个人工具

命名空间

变种

视图

更多

搜索

导航

工具