防未病平台@D1V1网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 216|回复: 0

网络各搜索引擎蜘蛛,你了解多少?

[复制链接]
发表于 2012-12-15 09:31:27 | 显示全部楼层 |阅读模式


网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种依照一定的规则,自动的抓取互联网信息的程序或者脚本,是搜索引擎的重要组成。
  抓取战略:通知蜘蛛那些网页是需求去下载的,那些是不需求下载的,那些网页是需求优先下载的,定义分明之后,能俭省很多无谓的爬取,更能吸收爬虫的喜爱。
  更新战略:监控列表页或者内容页来发现新的页面,定期检查页面能否过时或是删除等。
  抽取战略:应该如何的从网页中抽取我们想要的内容,不只仅包含最终的目的内容,还有进一步要抓取的url。
  如何去迎合是搜索引擎爬虫“抓取战略”。
     1、经过meta tag:比方有的时分希望网站列表页不被搜索引擎收录但是又希望被搜索引擎抓取,那么能够经过<meta name=“robots” content=“noindex,follow”> 通知爬虫,其他常见的还有noarchive,nosnippet,noodp等。
  2、经过robots.txt:搜索引擎发现一个新站,准绳上第一个访问的就是robots.txt 文件,能够经过allow/disallow语法通知搜索引擎那些文件目录能够被抓取和不能够被抓取。你比如"www.917dyy.com/"这么一个站没有很好的处理ROBOTS.TXT文件,或是哪些被允许抓取的你设为了不允许,它们就不能够正常的被抓取。
  3、经过 rel=“nofollow”:通知搜索引擎哪些途径是没有效果的,不需求得到那一局部的权重或者PR。
  4、经过 rel=“canonical”:通知搜索引擎在内容相同的一切网页中,此网页最有用,请将该网页排在搜索结果中靠前的位置。
  5、经过sitemap:比拟常见的是xml格式和html格式的sitemap,xml 格式sitemap能够分割处置或者紧缩紧缩,另外,sitemap的地址能够写入到 robots.txt 文件。
  6、经过tools:接触最多的就是谷歌网站管理员工具,能够设定googlebot抓取的频率,屏蔽不想被抓取的链接,控制sitelinks等,另外,Bing和Yahoo也都有管理员工具。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|版权声明|项目入住:点击会员认证|微信:wx303770168QQ:303770168|防未病平台@D1V1网 ( 沪ICP备05028199号  

GMT+8, 2024-11-25 20:09 , Processed in 0.065115 second(s), 28 queries .

Powered by D1V1.com

© 2005-2030

返回顶部