火车采集器(软著登字0144474号,2009SR017475)是一款专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站后台,各类文件或其他数据库系统中。被广泛应用于数据采集挖掘、垂直搜索、信息汇聚和门户、企业网信息汇聚、商业情报、论坛或博客迁移、智能信息代理、个人信息检索等领域,适用于各类对数据有采集挖掘需求的群体。
火车采集器专注于数据采集领域,致力于帮助各类互联网企业,站长,网站编辑等提供数据采集解决方案及消除采集技术难题。积累了十万余免费客户及近万名商业客户,产品及解决方案被华为软件、阿里巴巴、网易、酷六网、中国科学技术信息研究所、总装备部宣传部等使用并认可,并长期为国内知名互联网企业提供数据采集方案。自2005年11月21日发布第一版以来,经过六年多数十次的更新换代升级,新发布的基于火车头数据采集平台的火车采集器V7版已形成具有非常完善及强大的功能特性,以通用好用和良好的口碑著称。
火车采集器程序功能上支持采集需要登录查看的内容,支持探测文件真实地址并下载远程文件,支持二级随机代理,支持采集数据直接入库和模仿手工发布等许多功能特点。同时又具有无限级网址采集、无限级多页和分页规则采集、POST采集、图片文件添加水印、XPath可视化提取、正文识别、OCR图形图像识别,同义词转换翻译伪原创等高级采集发布功能,可以完成您在浏览器内能看到的各类信息的提取。强大的php和c#插件接口支持,让您可以通过二次开发实现您对数据的萃取要求、定时任务及分布式采集客户端又能保证您对数据的及时性及数据量的要求。
火车采集器V7.0经过一年的开发,终于和大家见面了。新版本对程序进行了完全的重构,升级为全新的采集平台。软件也更名为 火车头数据采集平台 。火车采集器是火车头数据采集平台的默认扩展。以后大家可以在该平台上运行论坛采集器,微博采集器,站群客户端,XX采集器。企业用户还可以使用我们提供 的API,开发有自己特色的采集器在平台上使用。
火车采集器 v7.4 添加的功能有:
1.屏蔽掉httpwebpost中浏览器的脚本错误提示
2.修复使用偏好中的采集器没有开机启动和关闭窗口选项没有启用的bug
3.对mysql和sqlserver做本地服务器建了索引,解决了大数据量时查询出错的问题
4.细节修改,如在线发布里面的COOKIS可以全选,多页默认传前页user-agent给多页
5.增加了多个任务在只使用一个任务运行窗口,减少资源使用
6.更改任务运行完关机方式为只生效一次
7.修复一个当多页获取为空时网址成默认页的bug
8.插件中没有处理 UseGetStepUrls 的bug
9.httpserver 增加了列表分组,自动启动,和新建任务返回分组和任务id
10.对用户对标签组合再次标签组合进行了允许处理。
11.修复对列表获取的内容,部分情况下会补全的bug
12.修复多页管理时特殊情况下新建标签没有保存的bug
13.修复部分情况下标签提取大小写无效的bug
14.修复如果一个标签出现多次时间转换转换部分无效的bug.
15.修复了ubb转换中部分转换错误的bug.
16.增加了将下载地址保存为html文件的功能。
17.增加了web发布时网页超时设置
18.修复本地数据库使用Access时任务数据批量工具清理已发数据无效的bug.
19.修复任务完成后关机设置取消后还会再提示关机的bug
20.修改部分电脑上Mongodb服务不能识别的bug
安装使用:下载软件包解压后直接运行 LocoyPlatform.exe启动软件,(保证您的电脑安装有.net2.0框架,vista及win7系统用户可能会提示请求管理员权限,请放行)。
