小兔网

火车采集器(LocoySpider)是一款非常专业的网页数据采集软件,用户只需要通过简单的配置就能够轻松从网页中获取文字、图片等各种资源。火车采集器(LocoySpider)与其他同类软件不同的是能够支持远程下载,支持探测文件真实地址,支持代理、防盗等多种功能,强大的PHP和c#加持,用户可以得到任何你想要的文件资源。

火车采集器(LocoySpider) v9.30.20210315正式版

火车采集器(LocoySpider)软件功能

火车采集器可以通过网址采集规则的设定,快速采集到所需的网址信息。可手动输入、批量添加或直接从文本导入网址,并能自动筛选去除重复的网址信息。

支持多级页面网址的采集,多级网址采集可以使用页面分析自动得到地址、手动填写规则两种方式。应对多级分页中内容不同,但地址相同的页面网址采集,火车采集器设置了 GET,POST 和 ASPXPOST 三种 HTTP 请求方式。

火车采集器支持网址采集测试,可以验证操作的正确性,避免操作有误导致采集结果不准确。

车采集器将数据采集下来后默认将数据保存在本地数据库(sqlite、mysql、sqlserver),用户可以根据自己的需求选择对数据的后续操作以完成数据发布,支持直接查看数据、在线发布数据和入数据库,并支持用户进行发布接口的使用和开发

火车采集器(LocoySpider)软件特色

基于 web 结构的采集

火车采集器的采集原理是基于 web 结构的源代码提取,几乎适用于所有的网页,以及网页中能够看到的所有内容;

扩展性强

火车采集器支持接口和插件多种扩展延伸,打破操作局限,满足更加多样化的使用需求,使火车采集器真正做到全网通用。

集采集发布于一体

火车采集器在每个功能上都做了优化设置,除了最基础的数据采集,更是融入了强大的数据处理和数据发布功能,全面完善了对于数据利用的整个流程。

分布式高速采集系统

火车采集器采用分布式高速采集系统,将任务分配至多个服务端同时运行采集,多任务多线程式的运行模式,能够最大化提升运行效率。

占用资源少

任务量得以分解,服务端所占用资源减少,使得火车采集器的性能更加稳定。

火车采集器(LocoySpider)使用技巧

起始网址设置。

采集规则制作的第一步骤,点击向导添加,①➯②,出现如图界面。

分3种方式:普通网址,批量网址,文本导入。

火车采集器(LocoySpider) v9.30.20210315正式版

a、普通网址:以一行一个的形式直接加入网址,不做任何解析。

b、批量网址:以通用的表达式批量生成网址。

c、文本导入:以文本导入的形式,文本为一行一个的网址。

火车采集器(LocoySpider)菜单功能

火车采集器(LocoySpider) v9.30.20210315正式版

1.新建分组

新建一个任务分组,选择所属分组,确定分组名称和备注。

2.新建任务

确定所属分组,新建一个任务,填写任务名称并保存。

3.Web发布配置

Web发布配置定义了如何登陆一个网站以及向该网站提交数据。

主要涉及到登录信息的获取,网站编码设定,栏目列表的获取,以及使用数据测试发布效果。

火车采集器(LocoySpider) v9.30.20210315正式版

4.Web发布模块

可以定义网站登录,获取栏目列表,获取网页随机值,内容发布参数,以及上传文件,构造发布数据等高级功能。

火车采集器(LocoySpider) v9.30.20210315正式版

5.数据库发布配置

数据库发布配置定义了数据库链接信息的设置以及数据库模块的选择。

6.数据库发布模块

用于编辑数据库的发布模块,方便知识兔将数据发布到配置好的数据库中。

火车采集器可选mysql、sqlserver、oracle、access四种数据库类型,在文本输入框中填写sql语句

(需有数据库相关知识),并可使用标签替换相应数据。也可在采集器模块文件夹中加载某一模块进行编辑。

火车采集器(LocoySpider) v9.30.20210315正式版

7.计划任务

设置列表中采集任务的启动计划,可每间隔、每天、每周、仅一次、或自定义Cron表达式,

(Cron表达式的写法可参考相关术语中的介绍)。保存设置后,任务即可按照设置执行。

火车采集器(LocoySpider) v9.30.20210315正式版

8.插件管理

插件是可以用来扩展火车采集器功能的程序

火车采集器V9支持PHP源码、C#源码、C#类库三种类型的插件,

可用于扩展http请求、内容处理和文件下载的功能,并可以分别进行测试。

9.http二级代理

网络中的服务器,可以让网络用户去取得所需要的网络信息。

代理的功能有可以突破自身ip的访问限制访问国外站点,访问一些单位或团体内部资源,

突破电信的ip封锁和隐藏真实的ip等。

火车采集器V9支持http代理、socket4和socket5代理。

火车采集器(LocoySpider) v9.30.20210315正式版

10.http模拟请求

可以设置如何发起一个http请求,包括设置请求信息,返回头信息。并具有自动提交的功能。

下载仅供下载体验和测试学习,不得商用和正当使用。

下载体验

请输入密码查看内容!

如何获取密码?

 

点击下载