type

status

date

slug

summary

📝 数据底座

CDH闭源前的最后一个版本

USDP

DataSophon

📝 数据交换(数据集成)

从各种数据源采集结构化和非结构化数据，包括实时数据采集和批量数据采集

将来自不同系统和不同格式的数据进行整合，实现一个统一个的数据视图

数据交换

API: 采集第三方的API的数据

日志采集：采集应用日志

爬虫: 采集网页数据

数据源抽取: 直接通过数据源进行抽取

数据集成

数据提取(Data Extraction)

功能：从不同数据源中抽取数据，包括关系型数据库、文件系统、API等。

开源框架：

Apache NiFi：可视化的数据集成工具，支持多种数据源和数据传输方式。
Apache Flume：适用于高吞吐量的日志和事件数据的分布式数据收集系统。
Talend Open Studio：功能强大的ETL工具，支持多种数据源和集成方式。
Sqoop：Sqoop是一个用于在Apache Hadoop和关系型数据库之间进行数据传输的工具。
Logstash：Logstash是一个用于数据收集、处理和传输的开源工具
DataX: DataX是阿里巴巴集团开源的数据集成工具，用于实现异构数据源之间的数据同步和迁移
SeaTunnel:

数据清洗（Data Cleaning)

功能：对提取的数据进行清洗、去重、校验等处理，确保数据质量和准确性。

开源框架：

OpenRefine：用于数据清洗和转换的强大工具，支持数据质量控制和数据重构。
Trifacta Wrangler：可视化的数据清洗工具，提供智能化的数据清洗功能。

数据转换（Data Transformation）

功能：将数据进行转换、格式化、规范化等操作，以满足目标系统的需求。

开源框架：

Apache Spark：分布式计算框架，提供强大的数据处理和转换能力。
Apache Beam：用于批处理和流处理的统一编程模型，支持多种数据转换操作。
Talend Open Studio：提供图形化的数据转换工具和丰富的数据处理组件。

数据加载（Data Loading）

功能：将经过提取和转换的数据加载到目标数据存储或数据仓库中。

开源框架：

Apache Kafka：分布式流处理平台，支持高吞吐量的数据传输和数据加载。
Apache Sqoop：用于在Apache Hadoop和关系型数据库之间进行数据传输的工具。
Apache Nutch：用于网络数据抓取和加载的开源搜索引擎。

数据清洗

对采集的数据进行过滤、修正、归一化等,提高数据质量,修复脏数据。

📝 数据开发

离线开发

Spark

Hive

Flink

实时开发

Kafka

Spark Streaming

Flink

算法开发

暂不支持

📝 任务调度

Azkaban

Airflow

海滩调度器

📝 数据可视化

通告报表,dashboard等对数据和洞见进行直观的展示;帮助用户理解和决策

Apache Superset:开源的数据可视化和探索工具

Grafana:开源的数据监测和可视化工具,用于构建监控面板和报表

Tableau:商业数据可视化工具,用于数据分析和报表制作

数据存储

数据湖,HDFS,数据库等进行存储

Apache Hive:数据仓库,基于HDFS存储

Apache HBase:NoSQL数据库,基于HDFS存储

Apache Kudu:列式存储,基于HDFS存储

Elasticsearch:搜索引擎,文档型数据库

数据治理

管理数据中台的用户、权限、流程等,确保数据中台的高效和稳定运行

元数据管理

Apache Atlas:统一元数据管理平台

datahub[]

数据管理和数据权限

Apache Atlas:数据治理平台

Apache Ranger:实现权限管理

数据应用

通过API、数据服务等形式,将数据和分析能力提供给各业务系统使用

开源项目记录

[https://github.com/DTStack]

https://github.com/DTStack/chunjun

https://github.com/DTStack/Taier

https://github.com/DataLinkDC/dinky

https://github.com/apache/incubator-streampark

https://github.com/apache/dolphinscheduler

https://github.com/ververica/flink-cdc-connectors

https://github.com/alldatacenter/alldata

https://github.com/WeBankFinTech/WeDataSphere

🤗 总结归纳

📎 参考文章

💡

有关文章的问题，欢迎您在底部评论区留言，一起交流~