166.海思 Camera 系统整体架构解析:Sensor–ISP–DPU/NPU 路径的实战分析
海思 Camera 系统整体架构解析:Sensor–ISP–DPU/NPU 路径的实战分析
关键词:海思芯片架构、Sensor 接入、ISP 图像信号处理、DPU、NPU、嵌入式视觉、图像路径优化、Kirin SoC
摘要
随着移动终端图像系统智能化程度持续提升,SoC 图像处理链路的架构设计成为摄像头系统性能表现的关键。海思(HiSilicon)平台凭借其成熟的 ISP 管线和集成式 AI 协处理单元(DPU/NPU),在多个主流旗舰终端中支撑了复杂的多摄、多通道图像系统构建。本文基于真实项目工程实践,围绕 HiSilicon Kirin 系列芯片(以 990/9000 为代表),系统性解析从 Sensor 模组接入、图像信号处理(ISP),到智能算子加速(DPU/NPU)的全链路架构与调度机制。重点聚焦于模块间数据流路径、性能调优逻辑、异构计算协同等关键细节,并结合典型高动态场景与夜拍场景进行路径优化实践总结,旨在为从事终端影像系统开发的工程师提供落地可复现的技术经验。
目录
-
海思移动平台 Camera 系统总览:多级处理架构与数据流路径解构
- Kirin 系列芯片内置 Camera Pipeline 模块布局
- 从采集到智能感知的数据链路设计
-
Sensor 模组接入方案:MIPI-CSI 配置、同步策略与驱动匹配
- 支持主流 IMX/S5K 系列 Sensor 的接口适配
- 帧同步与多摄场景中的 TS 管理机制
-
ISP 图像信号处理路径详解:RAW 处理管线与图像质量核心算法单元
- Bayer 合并、3A 处理、HDR 合成、降噪算法部署
- ISP 模块硬件分层与各阶段并行机制
-
Buffer 管理与链路调度:通道切换机制与多路径并发处理策略
- IPIPE 调度器运行机制与模块使能控制
- 高通量场景下 DMA/Cache 调度优化路径
-
DPU 图像增强加速模块:结构设计与可配置算子实战调用
- DPU 执行路径与图像特征增强模块(如 EIS、LDC)
- 算子硬件部署示例与调用接口分析
-
NPU 智能任务加速路径:目标检测、人像虚化等 AI 模块调度机制
- 图像帧 AI 加速路径解析:ISP → NPU → 显示
- 与系统 AI 框架(如 MindSpore Lite)联动流程
-
工程实践:基于 Kirin 990 构建夜拍增强路径的优化实录
- 多帧合成调度路径构建与帧序同步问题解决
- 实拍测试效果对比与算法联调关键点总结
-
未来发展趋势与工程选型建议:架构演进、SoC协同设计方向分析
- 从 Kirin 到昇腾的架构联动展望
- 构建轻量高效图像系统的硬件模块选择建议
第 1 章 海思移动平台 Camera 系统总览:多级处理架构与数据流路径解构
在移动影像系统架构中,Camera 子系统的设计早已不再是简单的“采图+处理”模块,特别是在采用海思(HiSilicon)Kirin 平台的手机 SoC 中,Camera 架构本质上是一套多级异构处理链路,涵盖了从外部传感器(Sensor)到图像信号处理(ISP),再到图像增强(DPU)和智能识别(NPU)的完整数据通道。
以 Kirin 990 芯片为例,其 Camera 子系统采用了高度模块化与异构协同设计思路,支持多路 MIPI-CSI 接入,内置独立的多通道 ISP Pipeline,并通过 DDR 高速缓存与 AI 模块实现跨模块数据交互。在具体架构中,主要包括以下核心模块与路径:
- Sensor → MIPI Controller → ISP Pipeline → DRAM Buffer
- ISP → DPU(如畸变矫正、电子防抖) → NPU(如人像检测、人景分离)
- 最终输出路径:Display 引擎 / Video Encoder / AI Post-processing
Camera 系统整体调度由硬件级 Camera Controller 负责初始化和主控,ISP 调度器和 DMA 控制单元则实现帧数据的流转。系统同时支持多链路并行处理,如前后摄同开、主摄与超广角协同输出等复杂模式。该设计既保证了实时性,又为图像质量调优提供了高度自由度。
以一个典型的“超清夜拍”路径为例,系统从多个 Sensor 并发采图后,经 ISP 执行 RAW 数据增强(如 Multi-Frame HDR),再通过 DPU 模块完成图像细节增强与降噪处理,最后由 NPU 模块进行人脸检测与背景重建,整个流程的数据路径依赖 DDR 帧缓存中转与多级 Cache 协同。
架构设计上,海思在 Kirin 980 之后大幅增强了 ISP 模块并提升了 DPU/NPU 的指令集与带宽支持。例如,Kirin 990 的 ISP 支持高达 6Gbps 的 RAW 输入速率,并可对接最高 64MP 的主摄像头,DPU 则内置自定义算子加速通道,适配多种图像增强场景。
这一整套系统架构,为多摄融合、AI 图像感知、动态场景优化等提供了稳定、高效的硬件基础,是当前国产 SoC 中集成度与实战表现最强的图像平台之一。
第 2 章 Sensor 模组接入方案:MIPI-CSI 配置、同步策略与驱动匹配
Sensor 接入是整个 Camera 图像链路的起点,其稳定性与性能直接决定了后续图像处理链路的上限。HiSilicon 平台广泛采用 MIPI-CSI(Camera Serial Interface)作为 Sensor 接口标准,支持 D-PHY 协议,具备高带宽与低功耗优势。
Sensor 接口支持范围与配置策略
Kirin 990 平台支持 4 路 MIPI-CSI 接口,具备最多 4 个主摄/副摄并发接入能力,支持主流 Sony IMX、Samsung S5K 等系列 Sensor。在具体配置中,开发工程通常需依据 Sensor 数据格式(如 RAW10、RAW12)、Lane 数量、帧率与分辨率需求,合理规划以下参数:
- MIPI Lane 数(1~4 Lane)与物理映射关系
- Clock Source 选择(外部时钟输入或 SoC 内部 PLL)
- PHY 时序匹配(LP/HS 模式转换与握手机制)
- Sensor ID 与 I²C 地址映射(用于驱动初始化)
Sensor 与 SoC 的通信初始化通常依赖于 I²C 总线进行寄存器配置,而图像数据通路通过 CSI 接口传输。在海思平台 BSP 中,MIPI Controller 与 PHY 驱动模块已高度抽象封装,开发者可通过 sensor_drv_config 与 mipi_rx_config 等接口完成快速接入。
多摄同步机制与场景适配
在多摄系统中,如主摄+超广角或主摄+景深模组协同工作时,Sensor 帧同步显得尤为重要。HiSilicon 提供了两种主流同步方式:
- 硬件触发同步(HWSYNC):Sensor 接收来自 SoC 的 VSync 触发信号,统一启动曝光和读出,适用于高帧率下的低时延场景。
- 时间戳同步(TS Match):系统通过记录 Sensor 帧到达的时间戳,在 ISP 层进行对齐与匹配,适用于异构 Sensor 或不同帧率间的同步。
工程实践中,若涉及混合厂商 Sensor,需根据其对 Sync 信号的响应能力以及延迟表现,调整 MIPI CLK 相位、帧宽设定、曝光窗口等参数,确保 ISP 接收的数据在帧时序上具备对齐基础。
此外,针对部分高速 Sensor(如 OV64B40、IMX787)在高速率下易出现帧抖动或掉帧的问题,工程上会使用帧间插值、冗余缓冲与多级校时机制进行补偿,这类方案已在多个 Kirin 平台商用产品中落地,提升了多摄系统的稳定性。
第 3 章 ISP 图像信号处理路径详解:RAW 处理管线与图像质量核心算法单元
ISP(Image Signal Processor)是海思平台 Camera 系统的核心图像处理单元,其主要职责是对来自 Sensor 的 RAW 图像数据进行解码、去噪、色彩还原、曝光调节等底层图像增强处理。在 Kirin 990 与 Kirin 9000 系列中,ISP 模块升级为多级并行架构,支持超高像素(最大可处理 64MP RAW 输入)、多通道并发处理与 AI 感知协同增强。
RAW 图像输入与解码路径
Sensor 输出的原始图像格式通常为 Bayer RAW(如 RAW10、RAW12),数据先由 MIPI 接口送入 ISP 输入模块,经解包处理后进入多个内部图像处理通道。数据流处理顺序为:
- RAW 解码与降噪(Pre-Denoise)
- 黑电平校正与坏点修复(Black Level, Defect Pixel Correction)
- 自动曝光(AE)、自动白平衡(AWB)与自动聚焦(AF)控制(3A)
- HDR 多帧融合或线内融合(Depending on scene)
- Gamma 校正与色彩校准
- 色彩空间转换(RGB → YUV)与图像边缘增强(Sharpen)
以上模块中,AE/AWB/AF 由独立的 3A 控制器与硬件反馈逻辑驱动,可支持实时帧内更新策略,提高暗光场景或高反差场景下的图像稳定性。
ISP 并行处理能力与模块调用机制
Kirin 990 的 ISP 模块由多组处理 Pipeline 并行构成,支持以下特性:
- 并行双通道 RAW Pipe:用于主副摄并行处理
- HDR 专用通道:用于双感光片段的融合处理
- 多帧融合支持:三帧输入并支持时间权重融合算法
- 调度资源隔离机制:不同 Camera 模块使用独立 ISP 通道,避免资源抢占
模块调用采用分布式控制机制,每个功能单元可通过驱动配置文件启用或关闭,实现灵活调度。例如,对于不需要夜拍优化的副摄路径,可关闭多帧融合模块以降低功耗和延迟。
在实际调试过程中,ISP 模块的效果调整通常由 AE/AWB 参数表、Gamma LUT、降噪曲线等多组配置决定。各大终端厂商在海思平台基础上,会通过自研 Tuning 工具链进行参数回灌与效果复核,以实现品牌级图像风格一致性。
第 4 章 Buffer 管理与链路调度:通道切换机制与多路径并发处理策略
在多摄系统中,各通道 Camera 实时并发运行对内存带宽与 Cache 调度提出了极高要求。为保证处理效率,海思平台对图像处理路径中的 Buffer 管理做了硬件级调度优化,并在 ISP 与 DPU/NPU 模块间引入了中间帧缓冲结构(Intermediate Buffer Zone, IBZ)。
通路划分与 Buffer 分级
系统按照功能将图像路径划分为多个并发处理通路,每条路径内部使用独立帧缓冲队列,主要包括:
- ISP RAW Buffer:用于存储 Sensor 输出的解包数据
- YUV Buffer:用于 ISP → DPU 之间的数据中转
- AI Buffer:用于 YUV → NPU 的低延迟任务输入
- Display/Encode Buffer:供图像显示与视频编码输出调用
Buffer 分配采用固定通路策略,结合内置的 Frame FIFO 控制器,实现帧间调度与延迟最小化。在高帧率拍摄(如 120fps)或多摄并发模式下,系统通过预留双倍行缓存与动态中断打断机制,防止帧丢失或图像撕裂。
多路径并发机制与调度策略
Kirin 990 支持最大 3 路 Camera 实时处理,其中主通道接入 ISP 全功能路径,副通道可通过简化路径绕过部分 ISP 模块直通 DPU/NPU。以典型主摄+广角+前摄三路协同为例:
- 主摄 → ISP 全路径 → YUV → DPU/NPU → Display
- 广角 → ISP 简化路径 → YUV → Encode
- 前摄 → Bypass Path → AE/AWB-only → NPU → AR 模块
该路径配置由 Camera 中间件控制(如在 Android HAL 层配置 Stream Routing),调度器则依据任务优先级和系统资源负载实时调整 Buffer 分配与 DMA 优先级。
在部分高端机型(如配备 Kirin 9000 的旗舰机)中,还启用了图像通路压缩模块(如 Frame Compression Engine),对中间 YUV 数据进行无损压缩以降低 DRAM 带宽占用,提升能效比。
第 5 章 DPU 图像增强加速模块:结构设计与可配置算子实战调用
DPU(Display Processing Unit)是 HiSilicon SoC 图像路径中用于后处理优化的关键模块,主要负责执行图像几何校正、去畸变、电子防抖、锐化增强等操作。DPU 的存在使得 ISP 之后的图像在视觉观感上得到明显提升,特别是在拍照预览与实时视频流中,对成像质量有直接影响。
模块结构与数据路径概览
在 Kirin 990 平台中,DPU 位于 ISP 输出至显示子系统或编码引擎之间,具备单独的 DMA 控制器和算子调用入口。典型路径为:
Sensor → ISP → YUV Buffer → DPU → Display/NPU/Encode
DPU 模块可调用的硬件增强算子包括:
- LDC(Lens Distortion Correction):鱼眼镜头畸变矫正
- EIS(Electronic Image Stabilization):基于帧间运动矢量的防抖处理
- Super Resolution:多帧超分重建
- Local Contrast Enhancement:局部对比度调节
- Adaptive Sharpening:动态边缘增强
每个算子均为硬件级实现,通过配置寄存器方式调用,支持帧间/帧内算法切换,调用延迟通常小于 3ms。
工程实战中的调优策略
在视频拍摄或直播场景中,EIS 算子是最常用的实时处理模块。Kirin 平台 DPU 的 EIS 引擎支持 6 轴运动估计,结合陀螺仪提供的角速度数据,通过硬件 Look-Up Table 执行图像重映射,修正帧间位移。调试过程中,需关注以下关键参数:
- Motion Vector Buffer 精度:决定防抖对边缘的保留程度
- 时间窗口大小:影响运动估计平滑性
- 滤波器权重分布:决定图像清晰度与稳定性的平衡
LDC 模块在超广角场景中应用广泛,其配置主要依赖镜头模型参数与畸变 LUT 文件,通过手动校准工具(如 HiLens Calibrator)可生成对应参数表,供驱动层动态加载。实战中,为控制功耗与处理延迟,部分中端机型仅在预览模式下启用该功能,拍照输出则交由后期算法补偿。
第 6 章 NPU 智能任务加速路径:目标检测、人像虚化等 AI 模块调度机制
NPU(Neural Processing Unit)是 Kirin SoC 中的 AI 加速引擎,负责执行深度学习模型推理任务。在 Camera 系统中,NPU 被广泛用于图像语义分析,如人像虚化、场景识别、人眼追焦、表情检测等功能,其推理延迟与图像路径耦合度直接影响终端拍摄体验。
数据输入路径与处理流程
Camera 系统与 NPU 通信通常通过 YUV 格式中间缓存进行桥接。典型处理链路如下:
Sensor → ISP → YUV Buffer → NPU Input Bridge → NPU
↑
调度引擎控制任务投递与资源分配
NPU 接收到图像后,可根据当前任务类型调用不同模型执行模块。海思 NPU 内置了多种加速算子,包括卷积、池化、归一化、Softmax、ROIPooling 等,支持通用 ONNX、Caffe、MindSpore Lite 格式模型的部署。
例如,人像背景分割模型的运行流程如下:
- 接收尺寸裁剪后的中心人脸图像区域
- 归一化处理并送入 NPU
- 执行语义分割,输出前景 Mask
- 与原图结合生成虚化图像帧,交由 DPU 完成背景模糊渲染
任务调度与资源复用机制
为了降低功耗并提升处理效率,NPU 支持异步任务队列机制。多个 AI 模型可通过任务调度引擎并发加载,系统根据当前图像处理帧率与 CPU/NPU 利用率动态分配资源。例如,当主摄处于拍照模式时,优先为 NPU 分配人脸检测和虚化任务带宽;若切换至扫码或文档识别模式,则重新加载 OCR 模型任务。
Kirin 990 的 NPU 采用双核架构,一核常驻轻量模型(如人眼跟踪),另一核动态加载大模型(如超分辨率、场景语义分割),有效兼顾响应速度与模型复杂度。
此外,在多模态任务协同下(如语音控制拍照),NPU 还可与 DSP、CPU 进行联合调度,确保图像处理与语音指令响应不冲突。此类异构调度框架已经在 HarmonyOS Camera HAL 中实现,并在实际商用中表现出色。
第 7 章 工程实践:基于 Kirin 990 构建夜拍增强路径的优化实录
夜景拍摄是对 SoC 图像处理链路最具挑战性的场景之一,通常涉及多帧融合、高感光控制、图像降噪、色彩恢复等多个复杂环节。在 Kirin 990 平台中,针对夜拍路径的硬件与软件配合已具备高度成熟的工程机制,具备从 ISP 到 DPU/NPU 的全路径优化能力。
多帧采集与同步机制
Kirin 平台支持 RAW 层多帧缓存与快速帧合成。夜拍场景下,Sensor 会在极短时间内连续输出 3–5 帧不同曝光的图像数据,这些帧通过 ISP 层进行时序对齐和缓存,在进入融合模块前需完成以下操作:
- 时间戳对齐(TS Align):保证曝光差帧时间统一
- 坏点掩码同步:避免低光帧产生的 Sensor 热噪干扰融合
- 曝光参考帧提取:由 AE 模块动态选取主曝光帧作为基准
ISP 内部通过帧队列和 LUT 存储结构,实现 RAW → RAW 的帧融合过程,而非传统的 YUV → YUV 合成,提高了图像还原的保真度。
降噪与锐化路径
夜景图像中噪点密集且信噪比偏低,Kirin 990 使用硬件降噪模块(NR Engine)与 AI 模型协同执行图像清洁任务:
- 第一阶段(ISP):启用空域和频域复合降噪,保留边缘信息
- 第二阶段(DPU):执行基于局部对比度调整的区域增强
- 第三阶段(NPU):运行训练好的图像净化模型(如UNet变体),进一步提升夜景清晰度
实战测试中,Kirin 平台的双路 NR 策略能在保持边缘细节的同时,有效去除高 ISO 带来的伪色与色块。
色彩还原与动态范围重建
夜拍下的色彩失真问题同样严重。Kirin ISP 采用多点白平衡(Multi-Zone AWB)策略,对暗部与亮部区域分别计算色温增益;结合 DR Boost 模块,通过 HDR LUT 将低光区域线性拉升,高光区域压缩抑制,实现全图曝光均衡。
在 Kirin 990 平台的实际部署中,夜景算法执行周期控制在 150–220ms 之间,满足手持拍照下的用户体验要求。终端厂商还可在应用层联动快门 UI 与处理状态反馈,提高成片的感知响应速度。
第 8 章 未来发展趋势与工程选型建议:架构演进、SoC协同设计方向分析
随着影像系统成为 SoC 差异化竞争的关键模块,Camera 架构正朝着更强的异构协同、AI 感知融合与能效优化方向演进。HiSilicon 在 Kirin 平台的 Camera 系统设计中,已体现出以下几个趋势性特征:
更高集成度的多模块协同
未来的图像路径将进一步打通 ISP、DPU、NPU 三者的数据接口,实现跨模块零拷贝调度与算子级协同。例如,在 Kirin 9000 架构中,DPU 直接支持 AI 插值、模糊强化等模型接入,避免传统 “ISP → NPU → 回写 → DPU” 的冗余路径。
此种集成化设计可显著减少 DDR 带宽压力,提高帧处理吞吐能力,为高帧率视频(如 4K@120fps)与实时视频增强等高复杂度场景提供足够算力支撑。
架构级异构 AI 模型部署机制
传统 Camera 系统中,AI 功能高度依赖 NPU 模块,但随着推理任务的轻量化趋势,未来将出现更多基于 ISP/DPU 的类模型算子。例如:
- ISP 层实现基础目标检测与结构化图像增强
- DPU 结合 LUT 与 SIMD 执行简化版语义分割
- NPU 聚焦于复杂模型如 VQGAN、Swin-Transformer 等的实时推理
这类架构趋势正在由旗舰 SoC 向中端芯片下沉,确保成本与算力之间达到良好平衡。
工程选型建议与生态演进
从当前主流终端的量产经验来看,Kirin 平台的 Camera 子系统具备良好的架构一致性与开发便利性,适合下列类型项目选型:
- 多 Sensor 多路并发处理场景(如主摄+长焦+广角)
- 高动态视频处理(低延迟 EIS 与 AI HDR 协同)
- 实时 AI 感知任务(如 VLOG 自动构图、人像虚化等)
而对于需要面向异构多平台(如 Android + HarmonyOS)部署的项目,建议在 HAL 层统一抽象 Camera HAL3 接口,并搭配基于 AI 模型调度策略的能力开放框架,以适配未来更多样的 SoC 架构与图像处理任务。
至此,基于 HiSilicon 平台的 Camera 系统架构分析与实战分享完成了全链路解构,适用于希望深入移动视觉处理链路的开发与系统架构工程师。
本文转自 https://zhxin.blog.csdn.net/article/details/148677062,如有侵权,请联系删除。
166.海思 Camera 系统整体架构解析:Sensor–ISP–DPU/NPU 路径的实战分析
http://114.132.213.38:6250/archives/1752297173827
评论