“爬虫”的版本间的差异

来自Blueidea
跳转至: 导航搜索
(创建新页面为 '爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。 搜索引擎优化SEO, ==资料== *[http://baike.baidu.com/view/14313…')
 
第1行: 第1行:
爬虫是一种自动获取网页内容的程序,是[[搜索引擎]]的重要组成部分。
+
爬虫是一种自动获取网页内容的程序,是[[搜索引擎]]的重要组成部分。事实上,[[SEO|搜索引擎优化]]很大程度上就是针对爬虫而做出的优化。
  
[[SEO|搜索引擎优化SEO]],
 
  
 
==资料==
 
==资料==
第7行: 第6行:
 
*[http://baike.baidu.com/view/1431312.html 什么是网络爬虫程序?]
 
*[http://baike.baidu.com/view/1431312.html 什么是网络爬虫程序?]
 
*[http://baike.baidu.com/view/1849733.html Google机器人],[http://baike.baidu.com/view/1848615.htm Googlebot]
 
*[http://baike.baidu.com/view/1849733.html Google机器人],[http://baike.baidu.com/view/1848615.htm Googlebot]
*[http://www.googlechinawebmaster.com/2008/02/googlebot.html 如何验证谷歌抓取机器人(Googlebot)?]<ref>某些时候当用Google搜索出来一些感兴趣内容后,当点击链接进入时,却被提醒要登陆才能访问,由此可判定该网站部分页面对Google机器人做了开放免验证功能。</ref>
+
*[http://www.googlechinawebmaster.com/2008/02/googlebot.html 如何验证谷歌抓取机器人(Googlebot)?]<ref>为何要验证?某些网站对Google机器人做了免验证处理,这也就是为什么有时Google搜索结果中能展现的内容,进入链接后却提醒必须验证。搞清楚如何验证谷歌抓取机器人的原理,就可以伪造一些HTTP请求头,以使可以免登陆访问页面。</ref>
 
+
*Google爬虫如何工作:
 +
**[http://www.googlechinawebmaster.com/2008/03/blog-post.html 与谷歌机器人的第一次约会:标头和压缩]
 +
**[http://www.googlechinawebmaster.com/2009/02/http-if-modified-since.html 与谷歌机器人的第二次约会:HTTP 状态代码和If-Modified-Since]
  
 
==备注==
 
==备注==

2010-03-26T12:02:27的版本

爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。事实上,搜索引擎优化很大程度上就是针对爬虫而做出的优化。


资料

备注

  1. 为何要验证?某些网站对Google机器人做了免验证处理,这也就是为什么有时Google搜索结果中能展现的内容,进入链接后却提醒必须验证。搞清楚如何验证谷歌抓取机器人的原理,就可以伪造一些HTTP请求头,以使可以免登陆访问页面。