网络抓取和网络抓取有什么区别 (webcrawler definition)

爬行和网络抓取之间有区别吗?

爬行和网络抓取之间有区别吗?

如果有区别,最好的方法是使用,以收集一些网络数据,以提供一个数据库,供以后在定制的搜索引擎中使用?

129

抓取本质上是谷歌,雅虎,MSN 等所做的,寻找任何信息。抓取通常针对某些网站,用于特定数据,例如用于价格比较,因此编码非常不同。

通常,一个刮刀将被定制到它应该被刮擦的网站,并且会做一个(好的)爬虫不会做的事情,即:

不考虑 robots.txt

将自己标识为浏览器

提交带数据的表单

执行 Javascript(如果需要像用户一样)

72

是的,它们是不同的。实际上,您可能需要同时使用两者。

(我必须跳进去,因为到目前为止,其他答案还没有达到它的本质。他们使用示例,但没有明确区分。当然,它们来自 2010!)

Web 抓取,使用最小定义,是处理 Web 文档并从中提取信息的过程。您可以在不进行 Web 抓取的情况下进行 Web 抓取。

Web 爬行,使用最小的定义,是从 URL 列表开始迭代查找和获取 Web 链接的过程。严格来说,要进行 Web 爬行,您必须进行一定程度的 Web 抓取(以提取 URL。)

要清除其他答案中提到的一些概念:

robots.txt旨在应用于访问网页的任何自动化过程。因此,它适用于爬虫和抓取器。

“适当的”爬虫和刮刀都应该准确地识别自己。

一些参考:

Wikipedia on web sing Wikipedia on web crawlers Wikipedia on robots.txt
8

AFAIK Web Crawling 是 Google 所做的-它围绕一个网站查看链接并建立该网站及其链接的网站的布局数据库

Web Sing 将是对网页的分析,以从中加载一些数据,EG 加载 BBC 天气并从其上撕下(刮下)预报的天气,然后将其放置在其他地方或在其他程序中使用。

3

这两者之间有一个根本的区别。对于那些想要深入挖掘的人,我建议你阅读这个-Web ser, Web Crawler

This post goes into detail. A good summary is in this chart from the article: chart showing difference between sing and crawling

本站系公益性非盈利分享网址,本文来自用户投稿,不代表码文网立场,如若转载,请注明出处

(777)
Inno Setup"源文件 C:\ Windows\ System32\ vcruntime140_1.dll不存在" 错误
上一篇
如何使用React制作Bootstrap下拉列表
下一篇

相关推荐

  • html代码排版:Welcome to My Website

    示例示例HTML代码排版,也叫HTML格式化,是指将HTML代码进行缩进、换行等操作,使得HTML代码更加美观、易读。下面是一个未排版的HTML代码示例:…

    2024-06-26 02:17:02
    0 62 21
  • css跑马灯效果:Welcome to My Website!

    CSS跑马灯效果是一种常用的动画效果,它可以使文字或图片在指定的区域内循环滚动,看起来就像是一个跑马灯一样。下面是一个典型的CSS跑马灯效果代码示例:…

    2024-08-19 05:01:28
    0 22 96
  • html5和css3的新特性:Welcome to the Future of Web Design!

    示例示例HTML5新特性(新的语义元素…

    2023-05-20 12:24:46
    0 47 31
  • html 代码编辑器:Welcome to My Website!

    HTML代码编辑器是一种可以用来编写、编辑和测试HTML代码的应用程序,它可以帮助网页开发人员更快地创建和维护网站。它们通常具有语法高亮、自动补全、拼写检查和其他功能,以帮助开发人员更好地编写HTML代码。…

    2023-06-19 06:47:23
    0 41 42
  • webrtc转websocket一种新的实时通信方案

    Webrtc转websocket的实现原理是:webrtc建立连接之后,将webrtc的RTCDataChannel对象传递给websocket服务器,然后websocket服务器将RTCDataChannel对象封装成websocket,以便客户端发送消息。下面是一个简单的webrtc转websocket的代码示例:…

    2024-05-20 01:24:43
    0 82 32
  • vue 全局websocket:使用Vue全局Websocket构建实时应用程序

    Vue 全局 websocket 是指在 Vue 项目中,将 websocket 连接封装成一个全局的插件,可以在任何组件中使用。…

    2023-06-27 03:50:13
    0 17 68
  • css底部对齐:Welcome to Our Website

    示例示例css底部对齐指的是将多个元素的底部对齐,使用CSS实现底部对齐可以使用flex布局。代码示例:…

    2023-05-01 13:46:07
    0 76 40
  • css 第三方字体:Welcome to my Website!

    示例示例CSS 第三方字体是指使用外部字体文件的 Web 字体,它们可以在网站上使用而不需要安装到本地计算机上。示例代码:…

    2023-11-10 12:47:36
    0 85 70

发表评论

登录 后才能评论

评论列表(28条)