网络抓取和网络抓取有什么区别 (webcrawler definition)

爬行和网络抓取之间有区别吗?

爬行和网络抓取之间有区别吗?

如果有区别,最好的方法是使用,以收集一些网络数据,以提供一个数据库,供以后在定制的搜索引擎中使用?

129

抓取本质上是谷歌,雅虎,MSN 等所做的,寻找任何信息。抓取通常针对某些网站,用于特定数据,例如用于价格比较,因此编码非常不同。

通常,一个刮刀将被定制到它应该被刮擦的网站,并且会做一个(好的)爬虫不会做的事情,即:

不考虑 robots.txt

将自己标识为浏览器

提交带数据的表单

执行 Javascript(如果需要像用户一样)

72

是的,它们是不同的。实际上,您可能需要同时使用两者。

(我必须跳进去,因为到目前为止,其他答案还没有达到它的本质。他们使用示例,但没有明确区分。当然,它们来自 2010!)

Web 抓取,使用最小定义,是处理 Web 文档并从中提取信息的过程。您可以在不进行 Web 抓取的情况下进行 Web 抓取。

Web 爬行,使用最小的定义,是从 URL 列表开始迭代查找和获取 Web 链接的过程。严格来说,要进行 Web 爬行,您必须进行一定程度的 Web 抓取(以提取 URL。)

要清除其他答案中提到的一些概念:

robots.txt旨在应用于访问网页的任何自动化过程。因此,它适用于爬虫和抓取器。

“适当的”爬虫和刮刀都应该准确地识别自己。

一些参考:

Wikipedia on web sing Wikipedia on web crawlers Wikipedia on robots.txt
8

AFAIK Web Crawling 是 Google 所做的-它围绕一个网站查看链接并建立该网站及其链接的网站的布局数据库

Web Sing 将是对网页的分析,以从中加载一些数据,EG 加载 BBC 天气并从其上撕下(刮下)预报的天气,然后将其放置在其他地方或在其他程序中使用。

3

这两者之间有一个根本的区别。对于那些想要深入挖掘的人,我建议你阅读这个-Web ser, Web Crawler

This post goes into detail. A good summary is in this chart from the article: chart showing difference between sing and crawling

本站系公益性非盈利分享网址,本文来自用户投稿,不代表码文网立场,如若转载,请注明出处

(161)
Inno Setup"源文件 C:\ Windows\ System32\ vcruntime140_1.dll不存在" 错误
上一篇
如何使用React制作Bootstrap下拉列表
下一篇

相关推荐

发表评论

登录 后才能评论

评论列表(80条)