“爬虫”的版本间的差异
来自Blueidea
(\* 因Google服务器变更,因此以前链接无妨访问,在此更新之 *\) |
|||
(未显示同一用户的1个中间版本) | |||
第1行: | 第1行: | ||
− | 爬虫是一种自动获取网页内容的程序,是[[搜索引擎]] | + | 爬虫是一种自动获取网页内容的程序,是[[搜索引擎]]的重要组成部分。事实上,[[SEO|搜索引擎优化]]很大程度上就是针对爬虫而做出的优化。 |
− | |||
==资料== | ==资料== | ||
第7行: | 第6行: | ||
*[http://baike.baidu.com/view/1431312.html 什么是网络爬虫程序?] | *[http://baike.baidu.com/view/1431312.html 什么是网络爬虫程序?] | ||
*[http://baike.baidu.com/view/1849733.html Google机器人],[http://baike.baidu.com/view/1848615.htm Googlebot] | *[http://baike.baidu.com/view/1849733.html Google机器人],[http://baike.baidu.com/view/1848615.htm Googlebot] | ||
− | *[http://www. | + | *[http://www.google.cn/ggblog/googlewebmaster-cn/2008/02/googlebot.html 如何验证谷歌抓取机器人(Googlebot)?]<ref>为何要验证?某些网站对Google机器人做了免验证处理,这也就是为什么有时Google搜索结果中能展现的内容,进入链接后却提醒必须验证。搞清楚如何验证谷歌抓取机器人的原理,就可以伪造一些HTTP请求头,以使可以免登陆访问页面。</ref> |
− | + | *Google爬虫如何工作: | |
+ | **[http://www.google.cn/ggblog/googlewebmaster-cn/2008/03/blog-post.html 与谷歌机器人的第一次约会:标头和压缩] | ||
+ | **[http://www.google.cn/ggblog/googlewebmaster-cn/2009/02/http-if-modified-since.html 与谷歌机器人的第二次约会:HTTP 状态代码和If-Modified-Since] | ||
==备注== | ==备注== |
2010-04-08T09:27:40的最后版本
爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。事实上,搜索引擎优化很大程度上就是针对爬虫而做出的优化。
资料
- 什么是网络爬虫程序?
- Google机器人,Googlebot
- 如何验证谷歌抓取机器人(Googlebot)?[1]
- Google爬虫如何工作:
备注
- ↑ 为何要验证?某些网站对Google机器人做了免验证处理,这也就是为什么有时Google搜索结果中能展现的内容,进入链接后却提醒必须验证。搞清楚如何验证谷歌抓取机器人的原理,就可以伪造一些HTTP请求头,以使可以免登陆访问页面。