发布一个工作流引擎: Hpipe

简介

在机器学习、数据挖掘相关的实际工作中,经常会用到Hadoop等数据处理系统。面对一些复杂的任务(比如在线广告的点击率预估),我们通常需要几十甚至上百个相互依赖的任务来处理数据。怎么组织和复用这些任务代码成了一个麻烦的事情。同时,如果遇到作业失败,清理脏数据,重启中断点等,也需要额外处理。

开发Hpipe的目的就是为了简化上述这些工作。

除了工作流支持,Hpipe还希望集成一些常用的操作,比如join,aggregation等。同时希望在此基础上,开发一些工作常用的算法包,比如,特征评估(相关性、互信息 等)、模型评估(AUC、Group AUC 等)。

信息

项目状态

基本功能已经可用。作者(目前只有我一个人 :-<)正在积极地进行feature开发。也逐步在实际工作中应用了起来。现在发布的目的是希望感兴趣的同学一起来完善它。

可以支持多种底层系统,目前只支持了Hadoop Streaming。

欢迎发pr,欢迎提issues。嘿嘿。

2 comments