一、开源项目简介

混合型科学大数据流水线系统,包含丰富的处理器组件,提供Shell、DSL、Web配置界面、任务调度、任务监控等功能。

二、开源协议

使用Apache-2.0开源协议

三、界面展示

页面展示

  • 登录:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图
  • 流水线列表:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图1
  • 创建流水线:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图2
  • 配置流水线:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图3
  • 运行流水线:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图4
  • 监控流水线:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图5
  • 流水线日志:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图6
  • 流水线组列表:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图7
  • 配置流水线组:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图8
  • 监控流水线组:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图9
  • 运行态流水线列表:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图10
  • 流水线模板列表:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图11
  • 数据源:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图12
  • 调度:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图13
  • 自定义组件:
「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图14

四、功能概述

PiFlow是一个简单易用,功能强大的大数据流水线系统。

特性

  • 简单易用
  • 可视化配置流水线
  • 监控流水线
  • 查看流水线日志
  • 检查点功能
  • 流水线调度
  • 扩展性强:
  • 支持自定义开发数据处理组件
  • 性能优越:
  • 基于分布式计算引擎Spark开发
  • 功能强大:
  • 提供100+的数据处理组件
  • 包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等
  • 集成了微生物领域的相关算法

五、技术选型

架构

「开源」一个简单易用,功能强大的混合型科学大数据流水线系统插图15

要求

  • JDK 1.8
  • Scala-2.11.8
  • Apache Maven 3.1.0
  • Spark-2.1.0 及以上版本
  • Hadoop-2.6.0
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。