《使用 Luiti 来构建数据仓库》系列文章- 使用 DAG 来解耦 数据处理中的复杂逻辑

前言 - 《使用 Luiti 来构建数据仓库》 是关于大数据处理的实战经验总结的系列文章,面向的读者范围是对数据处理有一年以上经验的人。 众所周知, Hadoop 和 新兴的 Spark 是当前最流行的分布式计算和存储平台,但是均和保守死板的 Java 编程语言所绑定。 R 和 SQL 因为专业领域和表达能力的有限性而导致始终不能一统江湖。 而 Python 作为一个通用的脚本语言也拥有一个完全可以与 Java 匹敌的生态环境, 在 Web 开发,机器学习,文本挖掘, 爬虫等方面均有众多优秀的框架和类库。并且 Python 可以作为工业胶水把前述几个技术方案融合成一个相互补充的解决方案。 本系列文章的侧重点在于从 Python 的函数式特征出发,来逐步讲解一个有约定而不失灵活性的离线数据仓库处理框架是怎么来的, 和可以做什么。欢迎关注 http://luiti.github.io

谁在遭遇大数据?

在一般互联网公司中,负责数据分析或 BI 报表等职责的人里最多的是 数据分析师。 TA 们擅长的专业技能是用 SQL 去做各种复杂的数据统计分析,并会稍微掌握 一门脚本语言 (通常是 Python ) 来做些 ETL 和 SQL 整合的工作。 TA 们的劣势在于没有较强的软件工程背景,加上工作内容很大一部分都是一次性的, 会导致 TA 们很少去注重代码的 通用性 和 可维护性。于是便越来越停留 在各种重复性工作上,生产数据的效率跟不上公司业务的快速发展。

另外还有一类人是没太多工作经验的数据仓库工程师, TA 们需要一套三两天就可以上手 的软件框架,来快速和稳定地生产数据,以提供报表数据给公司里的其他后端技术部门来使用。

更多请访问 http://luiti.github.io/chinese/Processing-data-in-a-DAG-way.html

2 comments