大数据架构设计与数据计算流程
创始人
2024-05-30 18:38:31
0

大数据架构设计

Hadoop有3个核心组件:分布式文件系统HDFS;分布式运算编程框架MapReduce;分布式资源调度平台YARN。

HBase,Hadoop dataBase,基于HDFS的NoSQL数据库,面向列式的内存存储,定期将内存数据刷新到磁盘(刷盘)。使用LSM树结构存储结构。不支持SQL、没有表关系、无法join操作,不支持事务(仅支持行级事务)、不支持回滚。MySQL4张表在HBase对应1个表、4个列。

离线计算数据流程

实时计算数据流程

专业术语

OLTP,联机事务处理,Online Transaction Processing。

OLAP,联机实时分析,Online Analytical Processing。

HTAP,混合事务和分析处理,Hybrid Transaction & Analytical Processing。

MPP,大规模并行处理,Massively Parallel Processing。

数据仓库与分层

ODS 数据接入层:所有的数据首先接入ODS层,数据复杂多样,粒度最粗。

DIM 维表层:根据维度及其属性将数据平台上构建的物理化的表,采用宽表设计的原则。

DWD 数据仓库层:经过ODS清洗、处理后的一致性、准确的、干净的数据。

DWS 数据集市层:该层数据是面向主题来组织的轻度汇总级的数据。

DWT 数据应用层: 为了满足具体的分析需求而构建的高度汇总的数据。

ADS 层:为各种报表提供数据。

大数据组件

存储框架

HBase、TiDB、ClickHouse、InfluxDB(时序数据库)、GraphQL、Elasticsearch、Apache Doris等。

数据同步转换组件

Sqoop、canal、DataX、maxwell、Debezium、Flink-CDC、Kettle、StreamSets。

离线批量计算分析引擎

MapReduce、Yarn、Hive、Spark。(Hive无物理存储功能、逻辑表,定义元数据)

实时流式计算引擎

Flink、Storm、Spark Streaming。

存储层

HDFS、Apache Ozone、S3、OSS、Ceph、GlusterFS。

数据湖

Apache Hudi、Apache Iceberg、Delta Lake。

任务调度工具

Azkaban、Airflow、Oozie、Dolphin、Scheduler。

ETL数据抽取工具

Kettle、StreamSets、Apache NiFi、Airbyte。

Hodoop集群管理工具、大数据运维

Ambari、CDH(Cloudera版本)、HDP(Hortonwork版)、CDP(Cloudera和Hortonwork合并版本,收费)、USDP(国产UCloud版)、CRH(基于Apache Ambari+Apache BigTop)、TDH(星环收费闭源)。

相关内容

热门资讯

什么是客服专员?客服专员是做什... 什么是客服专员?客服专员是做什么的?你想问的是哪个公司的客服专员,每个公司的都不一样,像移动联通的客...
今年三伏只有30天,7月20日... 夏至已过,随着暑气渐长,三伏天时间表也新鲜出炉。三伏天,是一年中阳气最旺、湿气最重的时节,也是调理体...
聚焦“百千万工程”|借力“一田... 转自:河源发布“家人们,这是柳城镇的‘航天丝苗米’和‘柳儿红’茶饮料。‘航天丝苗米’晶莹剔透,‘柳儿...
安徽时评:紧急避险还是损坏公物... 转自:北京日报客户端7月2日晚,K1373列车突发事故导致断电滞留,300余名乘客在闷热的车厢里煎熬...
特别容易疲劳是怎么回事?该如何... 特别容易疲劳是怎么回事?该如何缓解?可能是营养不够,可能是气血不足,可能是你的精神状态不好,可能是你...
科学家研发出新型低温分子存储材...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! IT之家 7 月 6...
绷紧安全弦 筑牢儿童安全防线 ... 转自:央视网央视网消息: 暑假期间,孩子们出行、游玩热情高涨,各种安全隐患不容忽视。家长也需绷紧安全...
谁是余家辉?“年薪1亿美元”A...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 余家辉。一个在中文互...
黑暗之刃游戏什么武器最强 黑暗之刃游戏什么武器最强黑暗之刃的剑光.远程攻击
郎酒打出“稳心”第一枪:确保商... 转自:北京商报7月4日,郎酒官方公众号推文表示,郎酒于今日召开全国经销商年中大会。会议现场,郎酒集团...