type
status
date
slug
summary
tags
category
icon
password
这里写文章的前言:
数据中台技术记录
📝 数据底座
- CDH闭源前的最后一个版本
- CDP
- USDP
- DataSophon
📝 数据交换(数据集成)
从各种数据源采集结构化和非结构化数据,包括实时数据采集和批量数据采集
将来自不同系统和不同格式的数据进行整合,实现一个统一个的数据视图
数据交换
- API: 采集第三方的API的数据
- 日志采集: 采集应用日志
- 爬虫: 采集网页数据
- 数据源抽取: 直接通过数据源进行抽取
数据集成
数据提取(Data Extraction)
- 功能:从不同数据源中抽取数据,包括关系型数据库、文件系统、API等。
- 开源框架:
- Apache NiFi:可视化的数据集成工具,支持多种数据源和数据传输方式。
- Apache Flume:适用于高吞吐量的日志和事件数据的分布式数据收集系统。
- Talend Open Studio:功能强大的ETL工具,支持多种数据源和集成方式。
- Sqoop:Sqoop是一个用于在Apache Hadoop和关系型数据库之间进行数据传输的工具。
- Logstash:Logstash是一个用于数据收集、处理和传输的开源工具
- DataX: DataX是阿里巴巴集团开源的数据集成工具,用于实现异构数据源之间的数据同步和迁移
- SeaTunnel:
数据清洗(Data Cleaning)
- 功能:对提取的数据进行清洗、去重、校验等处理,确保数据质量和准确性。
- 开源框架:
- OpenRefine:用于数据清洗和转换的强大工具,支持数据质量控制和数据重构。
- Trifacta Wrangler:可视化的数据清洗工具,提供智能化的数据清洗功能。
数据转换(Data Transformation)
- 功能:将数据进行转换、格式化、规范化等操作,以满足目标系统的需求。
- 开源框架:
- Apache Spark:分布式计算框架,提供强大的数据处理和转换能力。
- Apache Beam:用于批处理和流处理的统一编程模型,支持多种数据转换操作。
- Talend Open Studio:提供图形化的数据转换工具和丰富的数据处理组件。
数据加载(Data Loading)
- 功能:将经过提取和转换的数据加载到目标数据存储或数据仓库中。
- 开源框架:
- Apache Kafka:分布式流处理平台,支持高吞吐量的数据传输和数据加载。
- Apache Sqoop:用于在Apache Hadoop和关系型数据库之间进行数据传输的工具。
- Apache Nutch:用于网络数据抓取和加载的开源搜索引擎。
数据清洗
对采集的数据进行过滤、修正、归一化等,提高数据质量,修复脏数据。
📝 数据开发
离线开发
- Spark
- Hive
- Flink
实时开发
- Kafka
- Spark Streaming
- Flink
算法开发
暂不支持
📝 任务调度
- Azkaban
- Airflow
- 海滩调度器
📝 数据可视化
通告报表,dashboard等对数据和洞见进行直观的展示;帮助用户理解和决策
- Apache Superset:开源的数据可视化和探索工具
- Grafana:开源的数据监测和可视化工具,用于构建监控面板和报表
- Tableau:商业数据可视化工具,用于数据分析和报表制作
数据存储
数据湖,HDFS,数据库等进行存储
- Apache Hive:数据仓库,基于HDFS存储
- Apache HBase:NoSQL数据库,基于HDFS存储
- Apache Kudu:列式存储,基于HDFS存储
- Elasticsearch:搜索引擎,文档型数据库
数据治理
管理数据中台的用户、权限、流程等,确保数据中台的高效和稳定运行
元数据管理
- Apache Atlas:统一元数据管理平台
- datahub[]
数据管理和数据权限
- Apache Atlas:数据治理平台
- Apache Ranger:实现权限管理
数据应用
通过API、数据服务等形式,将数据和分析能力提供给各业务系统使用
开源项目记录
🤗 总结归纳
📎 参考文章
有关文章的问题,欢迎您在底部评论区留言,一起交流~