# 🚀 MNN 基于后训练的模型压缩指南

> **一句话总结**：无需训练、一键压缩 —— 适配绝大多数部署场景。


## 📌 基于后训练的模型压缩方案

基于后训练的模型压缩，无需训练，包括如下方案：

- ✅ **权值量化（Weight Quantization）** —— 模型体积缩小 75%，结合**动态量化**可以提速+省内存
- ✅ **FP16 压缩** —— 模型体积缩小 50%，精度基本无损
- ✅ **自动压缩策略（auto_quant.py）** —— 基于权值量化，自动为各算子选择不同的量化方案，以保障模型精度
- ✅ **离线量化（少量校准数据）** —— 全图 int8 推理，提速 + 省内存 + 省体积


## 🧰 压缩方案总览

| 压缩类型 | 是否需要数据 | 是否需要训练 | 压缩率 | 推理加速 | 使用复杂度 |
|----------|--------------|--------------|--------|-----------|-------------|
| 权值量化（2-8bit） | ❌ | ❌ | 75%-87% ↓ | ❌（默认）✅（开启动态量化） | ⭐ |
| FP16 压缩 | ❌ | ❌ | 50% ↓ | ❌ | ⭐ |
| 自动量化调优（4-8bit） | ✅（测试数据集） | ❌ | 75%-87% ↓ | ❌（默认）✅（开启动态量化） | ⭐⭐ |
| 离线量化（8bit） | ✅（少量校准图） | ❌ | 75% ↓ | ✅ | ⭐⭐ |

> ✅ 推荐优先使用：**权值量化 + 动态量化加速**，或 **离线量化**


## 🛠️ 一、安装模型转换工具

### 1. C++ 工具（推荐用于生产环境）

```bash
cd MNN
mkdir build && cd build
cmake .. -DMNN_BUILD_CONVERTER=ON -DMNN_BUILD_QUANTOOLS=ON
make -j8
```

生成工具：
- `MNNConvert`：模型转换 + 权值量化 / FP16
- `quantized.out`：离线量化工具

### 2. Python 工具（推荐用于快速实验）

```bash
pip install MNN
```

安装后命令行工具：
- `mnnconvert` → `MNNConvert` 的 Python 封装
- `mnnquant` → `quantized.out` 的 Python 封装
- `mnn` → 工具总入口


## 📦 二、权值量化（推荐首选）

> **仅压缩模型体积，不改变计算精度，推理速度不变，一键完成**

### ✅ 适用场景
- 模型太大，需减小体积
- 不希望改变推理行为
- 需要快速部署，无校准数据

### 🧪 使用方法

```bash
# ONNX → MNN + 权值量化
./MNNConvert -f ONNX --modelFile model.onnx --MNNModel model_quant.mnn --weightQuantBits 8

# 使用 HQQ 量化算法（量化时间增长，一般情况下精度增加）
./MNNConvert ... --weightQuantBits 8 --hqq

# 或分块量化（精度更高，体积略增）【可与HQQ叠加使用】
./MNNConvert ... --weightQuantBits 8 --weightQuantBlock 128
```

> 📌 `--weightQuantBlock` 越小精度越高，建议 32~128

> 📌 `--hqq` 可以和 `--weightQuantBlock` 叠加使用

### ⚡ 开启动态量化加速（真正提速）

权值量化默认推理时还原为 float，**开启动态量化可真正使用 int8 计算**：

#### 1. 编译时开启低内存模式：

```bash
cmake .. -DMNN_LOW_MEMORY=ON
```

#### 2. 推理时设置 Memory Mode：

```cpp
MNN::ScheduleConfig config;
BackendConfig backendConfig;
backendConfig.memory = BackendConfig::Memory_Low; // ✅ 关键！
config.backendConfig = &backendConfig;
```

> ✅ 开启后，卷积等核心算子将使用 int8 计算（权重存储使用 int4 或 int8），内存占用更低，速度更快


## 🧊 三、FP16 压缩（无损半精度）

> **模型体积减半，精度几乎无损，不影响推理性能 **

### ✅ 适用场景
- 模型体积敏感
- 不希望损失精度

### 🧪 使用方法

```bash
./MNNConvert -f ONNX --modelFile model.onnx --MNNModel model_fp16.mnn --fp16
```

### ⚡ 推理时开启 FP16 加速：

```cpp
BackendConfig backendConfig;
backendConfig.precision = BackendConfig::Precision_Low; // ✅ 开启低精度加速
config.backendConfig = &backendConfig;
```

> 📌 注意：`--fp16` 是**存储压缩**，`Precision_Low` 是**运行时加速**，两者是独立使用的
> 📌 没有使用`--fp16`压缩的模型，也可以通过设置 `Precision_Low` 以支持**运行时加速**

## 🤖 四、自动压缩工具（auto_quant.py）

> **自动搜索最优量化策略，跳过敏感层，保障精度**

### ✅ 适用场景
- 不确定哪些层该量化
- 量化后精度下降明显
- 希望自动化压缩流程

### 🧪 使用步骤

#### 1. 将模型转成MNN格式，示例：
```
./MNNConvert -f ONNX --modelFile src.onnx --MNNModel float.mnn
```

#### 2. 参考[正确性校验](convert.html#id3)，构建测试文件夹 mnntest

结构：
```
mnntest/
├── input.json   # 输入输出配置
├── input0.txt   # 输入0数据
├── input1.txt   # 输入1数据
├── output.txt  # 输出数据
```

#### 3. 执行自动压缩

```bash
python tools/converter/tools/auto_quant.py \
    --model float.mnn \
    --quant_model auto_quant.mnn \
    --test_dir mnntest \
    --rate 0.05  # 允许最大误差率
```

> ✅ 自动生成 `auto_quant.mnn` 和 `auto_quant.mnn.json`（压缩策略文件）

#### 4. （可选）手动调整策略

编辑 `auto_quant.mnn.json`，将敏感层 `bits` 设为 0（跳过量化）或 16（高精度）：

```json
      "weight": [
       {
        "name": "Convolution11",
        "bits": 8,
        "asymmetric": true,
        "blockSize": -1
       }
      ],

```

重新转换：

```bash
./MNNConvert -f ONNX --modelFile float.mnn --MNNModel auto_quant.mnn --compressionParamsFile auto_quant.mnn.json --hqq
```

## 🔍 五、离线量化（推荐用于加速）

> **使用少量校准数据，将模型转为全 int8 推理，体积缩小 75%，推理加速**

### ✅ 适用场景
- 需要最大推理速度
- 有少量代表性数据（100~1000 张图片）
- 不想训练，但接受轻微精度损失
- 输入输出尺寸大，需要减少这部分的内存

### 🧪 使用方法

#### Step 1: 先转为 float MNN

```bash
./MNNConvert -f ONNX --modelFile model.onnx --MNNModel model_float.mnn
```

#### Step 2: 准备数据集，编写量化json文件

参考如下文件编写 quant.json：
```json
{
    "format":"RGB",
    "mean":[
        103.94,
        116.78,
        123.68
    ],
    "normal":[
        0.017,
        0.017,
        0.017
    ],
    "width":224,
    "height":224,
    "path":"../resource/images/",
    "used_image_num":2,
    "feature_quantize_method":"KL",
    "weight_quantize_method":"MAX_ABS",
    "model":"mobilenet.mnn"
}
```

该Json的配置信息如下表所示：

|  key   |  value  |  说明  |
|--------|---------|-------|
| format |  "RGB", "BGR", "RGBA", "GRAY" | 图片统一按RGBA读取，然后转换到`format`指定格式 |
| mean/normal | `[float]` | `dst = (src - mean) * normal` |
| width/height | `int` | 模型输入的宽高 |
| path | `str` | 存放校正特征量化系数的图片目录 |
| used_image_num | `int` | 用于指定使用上述目录下多少张图片进行校正，默认使用`path`下全部图片 |
| feature_quantize_method | "KL", "ADMM", "EMA" | 指定计算特征量化系数的方法，默认："KL" |
| weight_quantize_method | "MAX_ABS", "ADMM" | 指定权值量化方法，默认："MAX_ABS" |
| feature_clamp_value | `int` | 特征的量化范围，默认为127，即[-127, 127]对称量化，有时，量化之后溢出会很多，造成误差较大，可适当减小此范围，如减小至120，但范围减小太多会导致分辨率下降，使用时需测试 |
| weight_clamp_value | `int` | 权值的量化范围，默认127，作用同feature_clamp_value，由于权值精度模型效果影响较大，建议调整feature_clamp_value即可 |
| batch_size | `int` | EMA方法中指定batch size，和模型训练时差不多 |
| quant_bits | `int` | 量化后的bit数，默认为8 |
| skip_quant_op_names | `[str]` | 跳过不量化的op的卷积op名字，因为有些层，如第一层卷积层，对模型精度影响较大，可以选择跳过不量化，可用netron可视化模型，找到相关op名字 |
| input_type | `str` | 输入数据的类型，默认为"image" |
| debug | `bool` | 是否输出debug信息，true或者false，输出的debug信息包含原始模型和量化模型各层输入输出的余弦距离和溢出率 |

| feature_quantize_method | 说明 |
|--------------------|------|
| KL | 使用KL散度进行特征量化系数的校正，一般需要100 ~ 1000张图片(若发现精度损失严重，可以适当增减样本数量，特别是检测/对齐等回归任务模型，样本建议适当减少) |
| ADMM | 使用ADMM（Alternating Direction Method of Multipliers）方法进行特征量化系数的校正，一般需要一个batch的数据 |
| EMA | 使用指数滑动平均来计算特征量化参数，这个方法会对特征进行非对称量化，精度可能比上面两种更好。使用这个方法时batch size应设置为和训练时差不多最好。|

| weight_quantize_method | 说明 |
|--------------------|------|
| MAX_ABS | 使用权值的绝对值的最大值进行对称量化 |
| ADMM | 使用ADMM方法进行权值量化 |

#### 多输入模型的配置

对于多输入模型，quant.json文件需要特别指定参数

| 需要特别指定的参数 | 设置值 |
|--------------------|------|
| input_type | `str`：输入数据的类型，"sequence" |
| path | `str`：存放校正特征量化系数的输入数据目录 |

例如在quant.json文件中 "path": "/home/data/inputs_dir/"，你所构造的矫正数据集有两个，分别存放在input_0和input_1子目录下，即"/home/data/inputs_dir/input_0"和"/home/data/inputs_dir/input_1".由GetMNNInfo工具可以得到模型的输入输出名称，例如该模型的输入有三个：data0, data1, data2，输出有两个：out1, out2. 那么在input_0和input_1子目录下分别有六个文件：data0.txt, data1.txt, data2.txt, out1.txt, out2.txt, input.json. 其中的五个文件名要和模型的输入输出名对应，最后一个input.json文件则描述的是输入名和对应的shape内容：
```json
{
    "inputs": [
        {
            "name": "data0",
            "shape": [
                2,
                4,
		        64,
		        64
            ]
        },
	        {
            "name": "data1",
            "shape": [
                1
            ]
        },
        {
            "name": "data2",
            "shape": [
                2,
                512,
                768
            ]
        }
    ],
    "outputs": [
        "out1", "out2"
    ]
}
```

#### Step 3: 使用 `quantized.out` 或 `mnnquant` 进行离线量化

```bash
./quantized.out model_float.mnn model_quant_int8.mnn quant.json
```

或 Python：

```bash
mnnquant model_float.mnn model_quant_int8.mnn quant.json
```

---


## 🎯 六、推荐压缩策略

| 需求 | 推荐方案 | 命令示例 |
|------|----------|----------|
| **只想缩小模型体积** | 权值量化 8bit | `--weightQuantBits 8` |
| **想缩小体积 + 加速** | 权值量化 + 动态量化 | `--weightQuantBits 8` + 编译 `-DMNN_LOW_MEMORY=ON` + 推理 `Memory_Low` |
| **怕精度掉，想自动调优** | auto_quant.py | `auto_quant.py --rate 0.05` |
| **想最大加速 + 有校准数据** | 离线量化 | `quantized.out` + 校准数据集 |
| **想无损压缩 + 用 GPU 加速** | FP16 存储 + Precision_Low | `--fp16` + 推理 `Precision_Low` |

---

## 📈 压缩效果参考（ImageNet 模型，华为 P20 Pro）

| 模型 | 原始体积 | 权值量化体积 | 离线量化体积 | 离线量化加速（ARMv8） |
|------|----------|--------------|--------------|------------------------|
| ResNet-18 | 45M | 12M (-73%) | 12M | 187ms → 167ms |
| MobileNetV2 | 14M | 3.5M (-75%) | 3.5M | 62ms → 42ms |
| EfficientNet-B0 | 21M | 5.3M (-75%) | 5.3M | 128ms → 100ms |


---

## ❓ 常见问题

### Q1: 权值量化后精度下降怎么办？
- 尝试 `--hqq`
- 尝试 `--weightQuantBlock 128`
- 使用 `auto_quant.py` 自动跳过敏感层

### Q2: 动态量化没加速？
- 确认编译时加了 `-DMNN_LOW_MEMORY=ON`
- 确认推理时设置了 `Memory_Low`
- 某些小模型或算子可能无加速效果

### Q3: 离线量化需要多少数据？
- 100~1000 张有代表性图片即可
- 数据分布应覆盖真实场景

### Q4: FP16 会损失精度吗？
- 在视觉模型上通常 <0.1% 精度损失
- 数值敏感任务（如语音、检测小目标）建议测试

---

## 📚 附录：命令行参数速查

### MNNConvert 常用压缩参数

```bash
--weightQuantBits 8          # 权值量化 8bit ，可选 2-8
--hqq      # 启用 HQQ 量化算法
--weightQuantBlock 128        # 分块量化大小
--fp16                       # FP16 存储压缩
--compressionParamsFile xxx.json  # 自定义压缩策略
```

---

## ✅ 总结：三步完成模型压缩

1. **选方案**：
   - 只缩体积 → 权值量化
   - 要加速 → 离线量化 or 权值量化 + 动态量化
   - 怕掉点 → auto_quant.py

2. **转模型**：
   ```bash
   ./MNNConvert ... --weightQuantBits 8
   ```

3. **（可选）调推理配置**：
   ```cpp
   backendConfig.memory = BackendConfig::Memory_Low; // 开启动态量化
   backendConfig.precision = BackendConfig::Precision_Low; // 开启FP16加速
   ```


如需基于训练实现的更高精度或压缩率的方案（剪枝/低秩/训练量化），请参考 [mnncompress 文档](mnncompress.md)，但**90% 场景转换压缩已足够**。