前嗅每天都接到很多数据采集的需求,虽然来自不同行业、网站及企业,不过各需求的采集场景都有很多类似之处。小编结合大家的数据采集需求,总结了以下几种爬虫常见的数据采集场景。

1.实时采集并更新新增数据

对于很多舆情或政策监测的数据采集需求,大多都需要实现实时采集,并且只采集新增数据。这样才能快速监测到需要的数据,提高监测速度和质量。

ForeSpider数据采集软件可设置不间断采集,7×24H不间断采集指定网站,已入库数据不重复采集,实时更新网站中的新增数据,之前采集的数据不会重复入库,无需每天重新采集数据,大大提高数据采集效率,节约网络带宽和代理IP资源。

设置介绍:

①定时采集

定时采集:设置任务定时设置,可在某个时间点定时启动/停止采集,或在某一时间段后定时启动/停止采集。

久等了!史上最全爬虫采集场景终于来了插图

②增量采集:每次只采集更新的链接,只重采更新链接,不重采数据页面。

久等了!史上最全爬虫采集场景终于来了插图1

这样爬虫软件不仅可以自动采集,实时更新,还能自动排重保证数据采集高效稳定运行。

2.自动补采遗漏数据

在爬虫采集数据的过程中,经常会由于网络异常、加载异常、网站反爬等原因,导致采集过程中遗漏部分数据的情况。

针对这种情况,就需要将采集过程中采集失败的请求,重新补采一遍,从而高效获取全量数据。

ForeSpider数据采集系统针对于这种常见的采集场景,可以进行数据补采的设置,从而提高采集效率,快速获取全量数据。

设置介绍:

①自定义采集策略:选择采集入库失败、采集错误和上次未采集数据。设置后重新采集,即可快速补采之前的遗漏数据,无需重复采集耗时耗力。

久等了!史上最全爬虫采集场景终于来了插图2

②设置加载日志宏:可以按照任务ID值、任务数据大小等,对不符合采集要求的数据,通过筛选日志列表,进行重新采集,以补采存在遗漏的数据。

例如,有些网站封IP的方式是重定向一个新的网址,因此采集状态显示成功,但任务的数据质量一般很小,比如2KB,这种情况可以通过加载日志宏中,加载质量过小的任务日志的方式,来重新补采这部分任务。

久等了!史上最全爬虫采集场景终于来了插图3

3.定时采集数据

一个很常见的数据采集需求就是,每天定点开始爬取一个或多个网站,为了解放双手,定时采集数据就非常必要了。

ForeSpider数据采集系统可设置定时开始、停止采集,时间点与时间段兼并设置,可在某个时间点定时启动/停止采集,或在某一时间段后定时启动/停止采集。减少人力重复工作,有效避免手动采集的情况。

设置介绍:

①间隔定时采集:设定间隔时间,实现固定间隔时间的采集开启/关闭。

②定点定时采集:设定爬虫自动开始/关闭的时间。

久等了!史上最全爬虫采集场景终于来了插图4

示例:

①每天采集新增数据

每天定时采集新增数据,设置每天某时间点采集新增数据,设置好后,即可每天定点采集,节省人工成本。

②网站反爬

当采集一段时间以后获取不到数据,过一段时间又可以获取数据。可开启采集后,根据反爬规律,设置某时间段后停止采集,设置某时间段后开始采集,即可有效避免反爬,高效采集数据。

③自动更新数据库

部署到服务器上以后,需要每天采集网站新数据到本地数据库,可开始定时采集,每天在固定的时间采集数据。

4.批量关键词搜索

我们经常需要采集某网站上某行业、某事件、某主体等相关内容,这时就会用到关键词采集,来采集批量关键词搜索出来的数据。

ForeSpider数据采集软件可实现多种关键词检索采集的方式。

①批量导入关键词,采集在目标网站中搜索关键词出来的数据内容,还可对关键词进行排重处理,方便快捷,无需写脚本即可批量采集关键词搜索出来的数据。

②关键词存在外部数据库中,实时调用采集。通过ForeSpider爬虫软件连接到其他数据库的数据表,或爬虫软件中的其他数据表,可使用动态变化的关键词库,实时检索采集数据。

③通过接口实时传输关键词。可以将用户数据中实时产生的检索词,通过接口传输到ForeSpider数据采集系统中,进行实时关键词检索采集。并将采集到的数据,实时传输回用户系统中,进行显示。

设置介绍:

关键词配置:可进行关键词配置,可在高级配置中配置各项参数。

关键词列表:批量导入、修改关键词批量导入删除、修改关键词,还可对关键词进行排重处理。

久等了!史上最全爬虫采集场景终于来了插图5

示例:

①采集关键词搜索的网站

例如百度、360问答、微博搜索等所有具有搜索功能的网站。

②关键词充当词库,调用使用

例如某网站不同地区分类的网址中包含地区参数,可直接将地区参数导入关键词列表,写简单的脚本,调用关键词拼写不同地区分类的网站,从而让配置更加简单。

③用户输入检索词,实时爬取数据返回显示

用户输入需要检索的词汇后,实时传入ForeSpider爬虫软件中,进行现场查询采集,并将采集到的数据实时传输回用户的系统中去,向用户展示数据。

5.自定义筛选文件大小/类型

我们经常需要采集网页中的图片、视频以及各种附件等数据,为了获取更加精准的数据,需要对文件的大小/类型有更精确的筛选。

前嗅ForeSpider采集软件,可自行设置采集文件上下限或文件类型,从而筛选采集网页中符合条件的文件数据。

例如:采集某网页中大小在2b以上的文件数据、采集网页中所有的text数据、采集页面中image数据、采集文件中video数据等。

设置介绍:

设置过滤:设置采集文件的类型,采集该类型的文件数据,设置采集文件大小下限,以过滤小文件,设置采集文件大小阈值,以过滤大文件。

久等了!史上最全爬虫采集场景终于来了插图6

示例:

①采集网页中所有图片数据

需要网页中所有图片数据,或部分图片数据时,在文件设置中选择采集文件类型,然后配置采集,节省配置成本,实现精准采集。

②采集网页中所有视频数据

需要采集网页中所有视频数据,或部分视频数据时,在文件设置中选择采集文件类型,然后配置采集。

③采集网页中特定文件数据

通过设置采集文件大小下限值,将小文件、无效文件过滤掉,实现精准采集。

6.登录采集

当采集需要登录的网站上的数据时,就需要登录设置。前嗅ForeSpider数据采集分析引擎可采集需要登录(帐密登录、扫描登录、短信验证登录)的网站、APP数据,采集登录后可见的数据。

ForeSpider爬虫软件,可设置自动登录,也可手动设置登录,还可以使用Cookie进行登录,多种登录配置方式适合各种登录场景,灵活配置。

概念介绍:

Cookie:Cookie指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。Cookie基于Internet的各种服务系统应运而生,是由Web服务器保存在用户浏览器上的小文本文件,它可以包含有关用户的信息,是用户获取、交流、传递信息的主要场所之一,爬虫可以模拟cookie进行登录采集。

设置介绍:

①登录配置:可自动配置,也可手动配置。

②Cookie设置:对于需要cookie的网站,可自动生成cookie,获取数据。也可手动添加cookie,获取数据。

久等了!史上最全爬虫采集场景终于来了插图7

示例:

适用于任何需要登录(帐密登录、扫描登录、短信验证登录)的网站、APP数据。

7.批量网站批量配置

大部分的企业级大数据项目,往往需要采集的很多网站,少则数百,多则上千万,每个网站分别单独配置也是不现实的,这时候就需要对成千上万的网站进行批量配置并采集。

ForeSpider爬虫软件专门针对这种情况,独创智能配置算法和采集配置语言,能够高效配置采集和解析网页结构,采集大批量结构类似的网站数据,无需每个网站依次配置,即可实现同时采集成千上万网站。

用户将需要采集的网址列表输入到一个采集任务中,通过对采集内容进行智能识别,即可实现一个配置采集模板以采集成千上万网站的需求。

久等了!史上最全爬虫采集场景终于来了插图8

优势:

①节约大量人工配置成本:无需人工一个个网站依次配置,即可实现采集成千上万网站的需求。

②短时间内采集大批量网站,功能上线快:快速实现网站数据扩张,短时间内即可采集海量数据,缩短项目上线时间。

③采集数据多、范围广:一次性实现海量网站的采集需求,批量管理大规模数据,实现企业级数据采集能力。

④数据便于管理:数据高度集中管理,便于全局监测数据采集情况,方便运维。

⑤灵活删减采集源:对于不想继续采集的来源可以随时删除,有新的采集来源便于随时批量增加。

示例:

①舆情监测

短时间内迅速实现对大量媒体网站的数据监测,迅速形成与某事件/某主体相关的内容监测。

②内容发布平台

收集批量网址,海量采集某方面的内容,对数据分类后对应发布。

③行业信息库

迅速建立某行业相关信息资料库,以备查询使用。

看到这里,大家应该对爬虫的采集场景有了一个深入的了解。后期我们将结合各采集场景,为大家展示更多的采集案例,请您敬请期待。

l 前嗅简介

前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!