久等了！史上最全爬虫采集场景终于来了

前嗅每天都接到很多数据采集的需求，虽然来自不同行业、网站及企业，不过各需求的采集场景都有很多类似之处。小编结合大家的数据采集需求，总结了以下几种爬虫常见的数据采集场景。

1.实时采集并更新新增数据

对于很多舆情或政策监测的数据采集需求，大多都需要实现实时采集，并且只采集新增数据。这样才能快速监测到需要的数据，提高监测速度和质量。

ForeSpider数据采集软件可设置不间断采集，7×24H不间断采集指定网站，已入库数据不重复采集，实时更新网站中的新增数据，之前采集的数据不会重复入库，无需每天重新采集数据，大大提高数据采集效率，节约网络带宽和代理IP资源。

设置介绍：

①定时采集

定时采集：设置任务定时设置，可在某个时间点定时启动/停止采集，或在某一时间段后定时启动/停止采集。

②增量采集：每次只采集更新的链接，只重采更新链接，不重采数据页面。

这样爬虫软件不仅可以自动采集，实时更新，还能自动排重保证数据采集高效稳定运行。

2.自动补采遗漏数据

在爬虫采集数据的过程中，经常会由于网络异常、加载异常、网站反爬等原因，导致采集过程中遗漏部分数据的情况。

针对这种情况，就需要将采集过程中采集失败的请求，重新补采一遍，从而高效获取全量数据。

ForeSpider数据采集系统针对于这种常见的采集场景，可以进行数据补采的设置，从而提高采集效率，快速获取全量数据。

设置介绍：

①自定义采集策略：选择采集入库失败、采集错误和上次未采集数据。设置后重新采集，即可快速补采之前的遗漏数据，无需重复采集耗时耗力。

②设置加载日志宏：可以按照任务ID值、任务数据大小等，对不符合采集要求的数据，通过筛选日志列表，进行重新采集，以补采存在遗漏的数据。

例如，有些网站封IP的方式是重定向一个新的网址，因此采集状态显示成功，但任务的数据质量一般很小，比如2KB，这种情况可以通过加载日志宏中，加载质量过小的任务日志的方式，来重新补采这部分任务。

3.定时采集数据

一个很常见的数据采集需求就是，每天定点开始爬取一个或多个网站，为了解放双手，定时采集数据就非常必要了。

ForeSpider数据采集系统可设置定时开始、停止采集，时间点与时间段兼并设置，可在某个时间点定时启动/停止采集，或在某一时间段后定时启动/停止采集。减少人力重复工作，有效避免手动采集的情况。

设置介绍：

①间隔定时采集：设定间隔时间，实现固定间隔时间的采集开启/关闭。

②定点定时采集：设定爬虫自动开始/关闭的时间。

示例：

①每天采集新增数据

每天定时采集新增数据，设置每天某时间点采集新增数据，设置好后，即可每天定点采集，节省人工成本。

②网站反爬

当采集一段时间以后获取不到数据，过一段时间又可以获取数据。可开启采集后，根据反爬规律，设置某时间段后停止采集，设置某时间段后开始采集，即可有效避免反爬，高效采集数据。

③自动更新数据库

部署到服务器上以后，需要每天采集网站新数据到本地数据库，可开始定时采集，每天在固定的时间采集数据。

4.批量关键词搜索

我们经常需要采集某网站上某行业、某事件、某主体等相关内容，这时就会用到关键词采集，来采集批量关键词搜索出来的数据。

ForeSpider数据采集软件可实现多种关键词检索采集的方式。

①批量导入关键词，采集在目标网站中搜索关键词出来的数据内容，还可对关键词进行排重处理，方便快捷，无需写脚本即可批量采集关键词搜索出来的数据。

②关键词存在外部数据库中，实时调用采集。通过ForeSpider爬虫软件连接到其他数据库的数据表，或爬虫软件中的其他数据表，可使用动态变化的关键词库，实时检索采集数据。

③通过接口实时传输关键词。可以将用户数据中实时产生的检索词，通过接口传输到ForeSpider数据采集系统中，进行实时关键词检索采集。并将采集到的数据，实时传输回用户系统中，进行显示。

设置介绍：

关键词配置：可进行关键词配置，可在高级配置中配置各项参数。

关键词列表：批量导入、修改关键词批量导入删除、修改关键词，还可对关键词进行排重处理。

示例：

①采集关键词搜索的网站

例如百度、360问答、微博搜索等所有具有搜索功能的网站。

②关键词充当词库，调用使用

例如某网站不同地区分类的网址中包含地区参数，可直接将地区参数导入关键词列表，写简单的脚本，调用关键词拼写不同地区分类的网站，从而让配置更加简单。

③用户输入检索词，实时爬取数据返回显示

用户输入需要检索的词汇后，实时传入ForeSpider爬虫软件中，进行现场查询采集，并将采集到的数据实时传输回用户的系统中去，向用户展示数据。

5.自定义筛选文件大小/类型

我们经常需要采集网页中的图片、视频以及各种附件等数据，为了获取更加精准的数据，需要对文件的大小/类型有更精确的筛选。

前嗅ForeSpider采集软件，可自行设置采集文件上下限或文件类型，从而筛选采集网页中符合条件的文件数据。

例如：采集某网页中大小在2b以上的文件数据、采集网页中所有的text数据、采集页面中image数据、采集文件中video数据等。

设置介绍：

设置过滤：设置采集文件的类型，采集该类型的文件数据，设置采集文件大小下限，以过滤小文件，设置采集文件大小阈值，以过滤大文件。

示例：

①采集网页中所有图片数据

需要网页中所有图片数据，或部分图片数据时，在文件设置中选择采集文件类型，然后配置采集，节省配置成本，实现精准采集。

②采集网页中所有视频数据

需要采集网页中所有视频数据，或部分视频数据时，在文件设置中选择采集文件类型，然后配置采集。

③采集网页中特定文件数据

通过设置采集文件大小下限值，将小文件、无效文件过滤掉，实现精准采集。

6.登录采集

当采集需要登录的网站上的数据时，就需要登录设置。前嗅ForeSpider数据采集分析引擎可采集需要登录(帐密登录、扫描登录、短信验证登录)的网站、APP数据，采集登录后可见的数据。

ForeSpider爬虫软件，可设置自动登录，也可手动设置登录，还可以使用Cookie进行登录，多种登录配置方式适合各种登录场景，灵活配置。

概念介绍：

Cookie：Cookie指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。Cookie基于Internet的各种服务系统应运而生，是由Web服务器保存在用户浏览器上的小文本文件，它可以包含有关用户的信息，是用户获取、交流、传递信息的主要场所之一，爬虫可以模拟cookie进行登录采集。

设置介绍：

①登录配置：可自动配置，也可手动配置。

②Cookie设置：对于需要cookie的网站，可自动生成cookie，获取数据。也可手动添加cookie，获取数据。