type
status
date
slug
summary
tags
category
icon
password
😀
这里写文章的前言: 数据中台技术记录
 

📝 数据底座

  • CDH闭源前的最后一个版本
  • CDP
  • USDP
  • DataSophon
 

📝 数据交换(数据集成)

从各种数据源采集结构化和非结构化数据,包括实时数据采集和批量数据采集
将来自不同系统和不同格式的数据进行整合,实现一个统一个的数据视图

数据交换

  • API: 采集第三方的API的数据
  • 日志采集: 采集应用日志
  • 爬虫: 采集网页数据
  • 数据源抽取: 直接通过数据源进行抽取

数据集成

数据提取(Data Extraction)

  • 功能:从不同数据源中抽取数据,包括关系型数据库、文件系统、API等。
  • 开源框架:
    • Apache NiFi:可视化的数据集成工具,支持多种数据源和数据传输方式。
    • Apache Flume:适用于高吞吐量的日志和事件数据的分布式数据收集系统。
    • Talend Open Studio:功能强大的ETL工具,支持多种数据源和集成方式。
    • Sqoop:Sqoop是一个用于在Apache Hadoop和关系型数据库之间进行数据传输的工具。
    • Logstash:Logstash是一个用于数据收集、处理和传输的开源工具
    • DataX: DataX是阿里巴巴集团开源的数据集成工具,用于实现异构数据源之间的数据同步和迁移
    • SeaTunnel:

数据清洗(Data Cleaning)

  • 功能:对提取的数据进行清洗、去重、校验等处理,确保数据质量和准确性。
  • 开源框架:
    • OpenRefine:用于数据清洗和转换的强大工具,支持数据质量控制和数据重构。
    • Trifacta Wrangler:可视化的数据清洗工具,提供智能化的数据清洗功能。
 
 
 
 

数据转换(Data Transformation)

  • 功能:将数据进行转换、格式化、规范化等操作,以满足目标系统的需求。
  • 开源框架:
    • Apache Spark:分布式计算框架,提供强大的数据处理和转换能力。
    • Apache Beam:用于批处理和流处理的统一编程模型,支持多种数据转换操作。
    • Talend Open Studio:提供图形化的数据转换工具和丰富的数据处理组件。
 

数据加载(Data Loading)

  • 功能:将经过提取和转换的数据加载到目标数据存储或数据仓库中。
  • 开源框架:
    • Apache Kafka:分布式流处理平台,支持高吞吐量的数据传输和数据加载。
    • Apache Sqoop:用于在Apache Hadoop和关系型数据库之间进行数据传输的工具。
    • Apache Nutch:用于网络数据抓取和加载的开源搜索引擎。
 

数据清洗

对采集的数据进行过滤、修正、归一化等,提高数据质量,修复脏数据。

📝 数据开发

离线开发

  • Spark
  • Hive
  • Flink

实时开发

  • Kafka
  • Spark Streaming
  • Flink
 

算法开发

暂不支持
 

📝 任务调度

  • Azkaban
  • Airflow
  • 海滩调度器
 

📝 数据可视化

通告报表,dashboard等对数据和洞见进行直观的展示;帮助用户理解和决策
  • Apache Superset:开源的数据可视化和探索工具
  • Grafana:开源的数据监测和可视化工具,用于构建监控面板和报表
  • Tableau:商业数据可视化工具,用于数据分析和报表制作
 

数据存储

数据湖,HDFS,数据库等进行存储
  • Apache Hive:数据仓库,基于HDFS存储
  • Apache HBase:NoSQL数据库,基于HDFS存储
  • Apache Kudu:列式存储,基于HDFS存储
  • Elasticsearch:搜索引擎,文档型数据库
 

数据治理

管理数据中台的用户、权限、流程等,确保数据中台的高效和稳定运行
 

元数据管理

  • Apache Atlas:统一元数据管理平台
  • datahub[]

数据管理和数据权限

  • Apache Atlas:数据治理平台
  • Apache Ranger:实现权限管理

数据应用

通过API、数据服务等形式,将数据和分析能力提供给各业务系统使用
 

开源项目记录

🤗 总结归纳

📎 参考文章

 
💡
有关文章的问题,欢迎您在底部评论区留言,一起交流~