可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。
比如你想获取互联网上所有的网页,但是网页虽然在那,你却不知道都有哪些,怎么办呢?你可以从一些比较有名的公开页面开始入手,比如搜狐新浪的主页,下载这些页面,然后分析并提取出页面内所有的url,再下载这些url,这样周而复始,就可以获取大量的网页了。因为这个过程就好像蜘蛛在一张巨大的网上爬行,所以就叫爬虫(spider)。
这个概念应该发源于搜索引擎的网页收录,当然也主要应用在搜索界了~更多追问追答追问感谢回答。
实现的技术难吗?可以自己做个小版本的吗?追答基础功能很简单,就是分析每个url的html页面,提取新的url。操作的时候会有很多实际问题,比如网页量是巨大的,你可能需要根据需求筛选哪些url需要进一步爬行;再比如很多站点对短时间内高频的访问是有限制的,你可能还需要做抓取的压力控制等等。具体实现,还是要看你的需求吧。追问就是实验、研究性质的呢?追答那不麻烦啊,找点搜索引擎入门的书来看看,就可以了已赞过已踩过你对这个回答的评价是?评论收起
展开全部网络爬虫 和网络蜘蛛是同义词,已合并。当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。