一、开源项目简介
混合型科学大数据流水线系统,包含丰富的处理器组件,提供Shell、DSL、Web配置界面、任务调度、任务监控等功能。
二、开源协议
使用Apache-2.0开源协议
三、界面展示
页面展示
- 登录:

- 流水线列表:

- 创建流水线:

- 配置流水线:

- 运行流水线:

- 监控流水线:

- 流水线日志:

- 流水线组列表:

- 配置流水线组:

- 监控流水线组:

- 运行态流水线列表:

- 流水线模板列表:

- 数据源:

- 调度:

- 自定义组件:

四、功能概述
PiFlow是一个简单易用,功能强大的大数据流水线系统。
特性
- 简单易用
- 可视化配置流水线
- 监控流水线
- 查看流水线日志
- 检查点功能
- 流水线调度
- 扩展性强:
- 支持自定义开发数据处理组件
- 性能优越:
- 基于分布式计算引擎Spark开发
- 功能强大:
- 提供100+的数据处理组件
- 包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等
- 集成了微生物领域的相关算法
五、技术选型
架构

要求
- JDK 1.8
- Scala-2.11.8
- Apache Maven 3.1.0
- Spark-2.1.0 及以上版本
- Hadoop-2.6.0
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)