典型大数据架构模式

一、Lambda架构：批流并行模式

1. 核心设计思想

三层结构：
- 批处理层（Batch Layer）：使用 Hadoop/Spark 处理全量历史数据，生成高精度批视图（Batch View），周期更新。
- 加速层（Speed Layer）：通过 Storm/Flink 处理实时增量数据，生成低延迟实时视图（Real-time View）。
- 服务层（Serving Layer）：合并批视图与实时视图（如 HBase/Cassandra），响应统一查询。
容错机制：实时层错误可通过批处理层后续重算修正（最终一致性）。
数据不可变性：原始数据永久存储，支持回溯与重算。

2. 技术实现

批处理层：HDFS 存储原始数据，Spark 执行 T+1 计算。
加速层：Kafka 传输增量数据，Flink 实现毫秒级处理。
服务层：HBase 支持高并发查询，通过 Monoid 函数合并结果（如 SUM/COUNT）。

3. 优缺点

优点：
- 高容错性：错误可回溯修复。
- 灵活查询：支持历史与实时数据交叉分析。
缺点：
- 双系统维护：需开发两套逻辑，运维成本高。
- 数据口径不一致：批流结果可能冲突（如双计数问题）。

典型场景：金融风控（离线规则训练+实时交易监控）。

二、Kappa架构：纯流式处理模式

1. 核心设计思想

单一数据流：依赖 Kafka 等消息队列，历史与实时数据统一通过流处理。
数据回放机制：通过 Kafka 消息重放（Rebalance）实现历史数据重新计算。
批流统一：同一套代码处理实时流与回放数据，确保计算口径一致。

2. 技术实现

存储层：Kafka 长期保存数据（默认7天，可扩展至数月）。
计算层：Flink 处理实时流；需回溯时，从 Kafka 指定 offset 重放数据。
状态管理：Flink Checkpoint 保障精确一次语义（Exactly-Once）。

3. 优缺点

优点：
- 简化架构：仅维护流处理系统，降低运维复杂度。
- 数据一致性：避免批流结果冲突。
缺点：
- 回溯资源消耗大：全量重算占用大量计算资源。
- 消息队列成本高：长期存储导致 Kafka 集群扩容压力。

典型场景：实时推荐系统（如电商用户行为实时分析）。

三、湖仓一体架构：批流存储统一

1. 核心设计思想

统一存储层：数据湖（Iceberg/Delta Lake）存储原始数据，同时支持 ACID 事务与版本回溯。
批流协同：Spark/Flink 直接查询湖内数据，消除离线与实时存储割裂。
统一元数据：全局血缘追踪与数据治理（如 Apache Atlas）。

2. 技术实现

存储优化：Iceberg 支持 Schema 演进、时间旅行查询。
计算优化：Flink 写入湖表，Spark 读取同一份数据执行 T+1 任务。

3. 演进优势

成本降低：冷热数据分层（S3/HDD 存冷数据，SSD 存热数据）。
治理闭环：数据血缘、质量规则、生命周期管理内嵌存储层。

行业案例：

字节跳动：实时+离线统一资产，数据交付效率提升40%。
阿里巴巴：OneData 体系实现跨业务线统一指标。

四、架构对比与选型指南

维度	Lambda架构	Kappa架构	湖仓一体架构
数据一致性	最终一致（批流分离）	强一致（单一流）	强一致（统一存储）
运维成本	高（两套系统）	中（需管理回溯）	低（一体化）
实时性	秒级（实时层）	毫秒级	秒级（流批统一）
历史数据处理	批处理高效	依赖消息回放	直接湖内查询
适用场景	高精度历史分析+实时监控	纯实时场景	混合负载+长期治理

五、未来趋势

批流融合：Flink 统一引擎逐步替代 Lambda 双链路。
数据服务化：湖仓提供 API 化数据服务（如 GraphQL 接口）。
云原生集成：Kubernetes 托管计算层，对象存储替代 HDFS。

架构选型建议：
强一致性场景 → Kappa架构（如金融交易）。
历史数据分析为主 → Lambda架构（如 BI 报表）。
长期治理与实时性兼顾 → 湖仓一体架构（如企业级数据中台）。