All Versions
12
Latest Version
Avg Release Cycle
136 days
Latest Release
488 days ago

Changelog History
Page 2

  • v0.7.5 Changes

    December 02, 2015

    大量功能优化:
    一、规则模块更新:

    1. 封装Spider与Response为上下文Context,大大简化规则语法;
    2. 支持从Context获取上一次Request,并可在修改后作为新请求加入队列,从而节约内存(如有依赖Request的Temp值的Output操作,则应先Output再修改Request);
    3. 自动为每条未设置Referer的请求补填Referer;
    4. Keyword作为命名空间时,如过长则取其hash值;
    5. 更新公共方法集。

    二、调度器更新:

    1. 去除SrcManager接口,降低内部消耗;
    2. 为每个队列增加读写锁,消除并发隐患;
    3. 增加RegSpider方法,提升调度效率。

    三、输出模块更新:

    1. 优化加强mysql操作,并解决一个字段长度的bug;
    2. 优化mongodb操作,降低内存消耗;
    3. 修复数据库链接失败后panic的bug。

    四、去重功能更新:

    1. 样本的保存位置与输出方式保持一致(file/mongodb/mysql);
    2. 每次采集时,若改变是否继承历史去重的状态,则更新去重样本;
    3. 优化读写方法,提升性能。

    五、Surfer下载器更新:

    1. 修复surf下载内核Header赋值的bug,完美支持模拟登录、随机User-Agent等;
    2. phantom下载内核,在返回的响应流中添加请求信息。
      (更新方法:go get -u github.com/henrylee2cn/surfer)

    六、其他更新:

    1. 提高暂停/停止功能在大批量任务并发情况下的灵敏性;
    2. 修复运行模式热切换的小bug,并优化了切换速度;
    3. Crwal接口的内部资源计数改用原子操作,提高并发安全性;
    4. 操作界面的规则列表,实现按首字母排序。
  • v0.7.4 Changes

    November 09, 2015
    1. Spider中添加Namespace func(*Spider) string与SubNamespace func(self *Spider, dataCell map[string]interface{}) string两个字段,实现自定义数据库、表单及文件的名称
    2. 简化数据库配置信息
    3. mongodb输出中,将采集结果字段直接作为数据存储字段,便于检索
    4. 更新计时器等spider中公用方法
    5. 可通过DownloaderID指定下载器,其中phantomjs下载支持请求中定义js,用法Request.Temp[" JS"]=js编码(请更新surfer下载器)
    6. AddOutFeild(key)返回索引位置
    7. 增加输出统计报告的打印
    8. 提高被取消的请求删除去重记录的精确度