简介
在机器学习、数据挖掘相关的实际工作中,经常会用到Hadoop等数据处理系统。面对一些复杂的任务(比如在线广告的点击率预估),我们通常需要几十甚至上百个相互依赖的任务来处理数据。怎么组织和复用这些任务代码成了一个麻烦的事情。同时,如果遇到作业失败,清理脏数据,重启中断点等,也需要额外处理。
开发Hpipe的目的就是为了简化上述这些工作。
除了工作流支持,Hpipe还希望集成一些常用的操作,比如join,aggregation等。同时希望在此基础上,开发一些工作常用的算法包,比如,特征评估(相关性、互信息 等)、模型评估(AUC、Group AUC 等)。
信息
- 项目地址:https://github.com/crackcell/hpipe
- Issues:https://github.com/crackcell/hpipe/issues
- 文档:http://hpipe.readthedocs.org
- 版权协议:BSD
- 联系作者:tanmenglong#gmail.com
- 微脖儿:http://weibo.com/crackcell
项目状态
基本功能已经可用。作者(目前只有我一个人 :-<)正在积极地进行feature开发。也逐步在实际工作中应用了起来。现在发布的目的是希望感兴趣的同学一起来完善它。
可以支持多种底层系统,目前只支持了Hadoop Streaming。
欢迎发pr,欢迎提issues。嘿嘿。