爬虫

来自Blueidea
yoom讨论 | 贡献2010-04-08T09:27:40的版本 (\* 因Google服务器变更,因此以前链接无妨访问,在此更新之 *\)

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索

爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。事实上,搜索引擎优化很大程度上就是针对爬虫而做出的优化。


资料

备注

  1. 为何要验证?某些网站对Google机器人做了免验证处理,这也就是为什么有时Google搜索结果中能展现的内容,进入链接后却提醒必须验证。搞清楚如何验证谷歌抓取机器人的原理,就可以伪造一些HTTP请求头,以使可以免登陆访问页面。