您现在的位置是:首页 >技术杂谈 >3D医学图像无损压缩--Learning Lossless Compression for High Bit-Depth Volumetric Medical网站首页技术杂谈

3D医学图像无损压缩--Learning Lossless Compression for High Bit-Depth Volumetric Medical

Z凌 2025-03-04 12:01:02
简介3D医学图像无损压缩--Learning Lossless Compression for High Bit-Depth Volumetric Medical

3D医学图像压缩–《Learning Lossless Compression for High Bit-Depth Volumetric Medical》



论文地址:https://arxiv.org/abs/2410.17814(TIP 2024)

概述

论文提出了Bit-Division based Lossless Volumetric Image Compression (BD-LVIC)框架,将3D医学图像分为MSBV和LSBV。MSBV用来获取紧凑的结构信息,LSBV用来获取复杂的纹理信息。
其次文章提出了Transformer-Based Feature Alignment Module 用来减少片内和片间的冗余。Parallel Autoregressive Coding Module用来进行估计概率分布。
论文的压缩比bpp和时间效率都处于SOTA。


一、简介

在图像压缩中对图像进行变换是最常用的方法,在传统编码器中采用的大多都是可逆的线性变换。使用非线性变换的方法也是在线性变换系统中插入非线性变换,需要人工去设计,组合这些编码工具且泛用性不高。未避免繁琐的编码工具组合过程,提出了端到端的非线性变换编码。

二、研究背景

3D医学图像的激增带来的存储、传输等压力,且需要进行无损压缩。论文将现有的3D医学图像压缩分为基于2D的和基于3D的压缩方法。

2D-based:专注于减少单个图像切片(slice)内部的冗余

JPEG-LS 采用像素预测方法,通过根据相邻像素预测每个像素的值,并有效地编码残差来实现压缩。JPEG2000 使用可逆的离散小波变换(DWT),将图像分解为不同的频带,从而增加频带内的相似性,提升压缩效率。JPEG-XL 采用全局采样策略,构建决策树,为每个像素提供自适应的权重,从而显著提高预测精度,并在传统图像编码器中实现了最先进的性能。

3D-based:利用片间的相关性

基于小波变换:JP3D(3D-DWT)
基于视频编码:HEVC、VVC(运动估计)
这两种方法都不足以适应3D医学图像片间的复杂变化。沉浸式视频压缩要求多视图和深度图作为输入、点云的固有稀疏性也不适合压缩3D医学图像。此外传统的编码方法也缺乏端到端的优化能力。

基于深度学习的2D压缩方法

自回归、VAE、流模型。

基于深度学习的3D压缩方法

局部采用+3D预测:网络设计限制了压缩效率
门控机制+多尺度融合(ICEC):未充分利用切片内/切片间信息,影响整体性能
3D小波仿射变换(aiWave):编码时间过长(每个切片平均 900 秒),限制了实际应用
传统有损+残差编码(BCM):无法联合优化有损和无损部分,影响整体性能

熵编码器

通常使用ANS和AC进行编码,但3D医学图像数据范围多为16bit。需要更广概率分布,直接使用这些方法进行编码会大大影响压缩率和压缩时间。

三、解决问题

高比特位深度的影响

在这里插入图片描述

图a和图b选取分辨率为 30 × 30 的单通道图像,并生成混合逻辑分布(mixture logistic distribution)的参数。设置不同比特深度:{8, 10, 12, 14, 16}。观察 PMF 构建时间 和 GPU 内存占用 的变化。对比发现比特深度增加 ,PMF 构建时间大幅上升;比特深度增加,内存消耗呈指数级增长。图c在固定比特深度(8-bit 和 12-bit)情况下对比不同分辨率对PMF 构建时间的影响,相较于8比特,12比特随着分辨率的上升,PMF构建时间呈指数增长。
问题 高比特深度导致 PMF 构建时间增长、内存占用增加,严重影响编码效率和可行性。
解决 将高比特深度图像拆分为两个低比特深度子体积,分别进行优化处理,从而提高压缩效率。

如何有效利用切片内(intra-slice)和切片间(inter-slice)的冗余信息

MSBS(Most Significant Bit-Slice)与 LSBS(Least Significant Bit-Slice)数据特性不同:MSBS 主要包含结构信息,数据稀疏(平滑),易压缩。LSBS 包含复杂纹理,数据密集,压缩难度大。
切片间冗余的特殊性:相邻切片之间存在较大的结构相似性,但这种相似性不同于传统视频压缩中的运动补偿。视频中的相邻帧之间通常存在运动变形医学影像中的相邻切片主要是由解剖结构的渐进变化引起的。
解决提出基于深度学习的压缩模型,包括TFAM(Transformer-Based Feature Alignment Module) 和 PACM(Parallel Autoregressive Coding Module)。TFAM 通过跨切片和同切片的信息融合,生成对齐特征。PACM 结合局部空间信息和对齐特征,以高效建模 LSBS 的概率分布,提高压缩效率。

四、模型框架

如图所示,论文提出的压缩方法分为两个阶段:
在这里插入图片描述
第一阶段:使用传统编解码器JPEG-XL压缩 MSBV(压缩后的 MSBV 占总比特率的比例极小,主要的比特开销来自 LSBV。 为了降低计算复杂度,MSBV 适合直接使用传统压缩方法,而 LSBV 需要更复杂的学习型模型。)
将 MSBV 的所有切片在垂直方向上拼接,形成一个更大尺寸的单张图像,然后使用 JPEG-XL 进行压缩。使得 JPEG-XL 能够更高效地找到全局冗余,提高压缩率。
第二阶段:逐片编码 LSBV

TFAM

TFAM 主要由三个部分组成:

  • 特征提取层(Feature Extraction Layers):对输入数据进行初步处理,提取基础特征。
  • 嵌入层(Embedding Layers):将特征转换为 Transformer 可处理的 token 形式,并引入 条件位置嵌入(CPE) 提高空间信息表达能力。
  • 双层注意力模块(Two Attention Blocks):每个模块包含交叉注意力(Cross-Attention) 和 自注意力(Self-Attention) 机制。

作用: 通过交叉注意力(Cross-Attention)和自注意力(Self-Attention),提取跨切片和同切片的信息,生成对齐特征
输入: 当前 MSBS、前一 MSBS、前一 LSBS
输出: 对齐特征 C^a_t
​论文还采用深度可分卷积(DWConv)降低计算复杂度,在保证精度的同时减少显存占用。改进 FFN 结构,引入局部卷积(ConvFFN),更适合医学影像的局部特征建模。
在这里插入图片描述

PACM

PACM 的包含:

  • 局部上下文提取:采用掩码卷积提取 C^l_t。(局部空间上下文)。
  • 特征融合(Feature Fusion):将 Cl_t与 Ca_t拼接后输入 参数预测网络(PPN)。
  • 混合逻辑分布建模(Mixture Logistic Model):通过 PPN 计算 混合权重(𝜋)、均值(𝜇)、方差(𝜎)
    在这里插入图片描述

其中 𝑁 为混合分量个数,logistic(·) 为逻辑分布。

  • 利用概率模型进行熵编码,压缩 LSBS 数据。
    在这里插入图片描述

论文还基于DLPR的并行上下文模型进行改进。设计了一系列加速策略,如块处理、扫描角度优化、循环边界优化等,大幅提升编码效率。
在这里插入图片描述


五、实验

数据集

实验使用了 六个不同的体数据集 进行量化评估,涵盖 MRI、CT 及电子显微镜(EM) 等不同类型的医学影像数据。每个数据集的预处理方法和训练/测试集划分如下:
在这里插入图片描述
在这里插入图片描述

实验设置

在这里插入图片描述

训练细节

在这里插入图片描述

评价指标

在这里插入图片描述

实验结果

BD-LVIC 优于 现有 2D 和 3D 编解码器,在 16-bit 和 8-bit 医学数据集上均表现卓越。相较 SOTA 方法 BCM-Net、aiWave、JPEG-XL,BPV 明显优化。编码速度更快,BD-LVIC 编码时间显著优于 aiWave 和 BCM-Net,接近 JPEG-XL。
在这里插入图片描述
在这里插入图片描述

六、消融实验

TFAM 影响分析

对比 ResBlock + 级联 (concatenation) 方法,TFAM 提供更优的对齐上下文
在这里插入图片描述

Bit Division 影响分析

评估BD-LVIC框架不同比特划分位置 d (6 ≤ d ≤ 12) 在COVID-CT数据集上的性能 。实验结果表明,BPV 随 d 先下降后上升,d 过低增加 LSBV 随机性,d 过高扩大数据范围并增加概率估计难度,尤其在 Covid-CT 数据集中,由于负值填充,d = 12 时 LSBV 变为 2048,导致压缩困难,而联合压缩方案在 d = 12 时 BPV 为 5.04,较独立压缩 (BPV = 5.227) 提高 3.58% 性能,证明其在高 d 值下的稳健性。
在这里插入图片描述

Intra-slice 与 Inter-slice 依赖性分析

改变 TFAM 输入,分析 XM_t, XM_t-1, XL_t-1 对 LSBV 压缩性能的影响 。实验结果表明,在 Heart-MRI 和 Chaos-CT 数据集(高跨切片相似性)中,3 种输入均显著提升 LSBV 压缩性能,而在 Covid-CT 数据集(低跨切片相似性)中,XM_t(当前 MSBS)贡献最大,表明局部信息在低相似度数据集中更为关键。
在这里插入图片描述

Masked Convolution Kernel Size 影响分析

评估 Masked Convolution 核大小 (K = 5, 7, 9, 11) 对 LSBV 压缩性能和推理时间的影响 。实验结果表明,随着 K 从 5 增加到 9,压缩性能显著提升,但从 9 增加到 11 时,增益较小,同时参数量增加 50%,推理时间增加 26%,最终选择 K = 9,以平衡性能和计算效率。

在这里插入图片描述

扫描角度 (Scanning Angle) 影响分析

  • 比较 并行扫描顺序 (b=2) 与 传统栅格扫描 的压缩性能。
  • 研究 不同扫描角度 (0° - 90°) 对推理速度和压缩性能的影响。
    在这里插入图片描述
    在这里插入图片描述
    并行扫描 (b=2) BPV = 4.38,栅格扫描 BPV = 4.37,性能相当。但扫描步骤从 1024 (栅格) 降至 94 (并行),极大加速压缩速度。最终选择扫描顺序 b = 2 (φ = 26.57°)。
风语者!平时喜欢研究各种技术,目前在从事后端开发工作,热爱生活、热爱工作。