模型部署流程

模型压缩

模型压缩是对已经训练好的深度模型进行精简，进而得到一个轻量且准确率相当的网络，压缩后的网络具有更小的结构和更少的参数，可以有效降低计算和存储开销，便于部署在受限的硬件环境中。训练的时候因为要保证前后向传播，每次梯度的更新是很微小的，这个时候需要相对较高的精度，一般来说需要float型，如FP32，32位的浮点型来处理数据，但是在推理（Inference）的时候，对精度的要求没有那么高，很多研究表明可以用低精度，如半长（16）的float型，即FP16，也可以用8位的整型（INT8）来做推理（Inference）。所以，一般来说，在模型部署时会对模型进行压缩。模型压缩方法有：蒸馏，剪枝，量化等。

模型格式转换

首先研究员通过各种训练框架训练好的模型一般都需要进行模型格式适配。模型训练大家可以选择各种不同的训练框架，例如TensorFlow，Pytorch，PaddlePaddle，Caffe等等一系列的开源框架，这么多不同的训练框架他们训练出来的模型格式都有各自的标准，各不相同，部署要解决的第一个问题就是要适配各种不同的模型格式。但是如果要一个个训练框架去适配格式，工作量太大，也不适合扩展，所以微软联合Facebook等大厂推出一种中间格式ONNX，希望能解决多种模型格式适配的问题，就是无论是什么训练框架训练出来的模型格式，最终都是用ONNX格式来进行部署。所以一般模型部署可以跑的第一步要解决的问题就是模型格式转换。

转换模型后，一般具体的场景需要将python推理代码转为C++代码，并调用ONNX格式的权重，进行推理。也可以直接使用Python调用ONNX Runtime读取ONNX权重进行推理。

模型推理和前后处理

前处理：因为模型推理的输入是Tensor（多维矩阵）数据，但是正常AI应用的输入都是图片，视频，文字等数据，所以前处理就是要将业务的输入数据（图像，视频，文字等）预先处理成模型推理可以接收的数据—Tensor（多维矩阵）。以图像处理为例，前处理动作就包括但不限于：图像格式转换，颜色空间变换，图像变换（resize，warpaffine（仿射变换）），图像滤波等操作。OpenCV就是intel推出开源的跨平台的计算机视觉库。
模型推理：模型推理应该是模型部署pipline中最核心的部分。就是需要在实际应用环境中（具体部署设备）将实际输入的数据（转换成Tensor数据后）在训练好的模型中跑通，并且性能和精度等商业指标上达到预期效果。这个过程包括了对部署设备的适配（CPU/GPU/DSP/NPU），要想将模型跑在任何一种设备上，都需要提前针对设备进行适配，并且还要保证性能和精度等。市面上有非常多的开源深度学习推理框架都是在解决模型推理相关的问题。例如：国内各大厂推出的开源的推理框架：OpenPPL、NCNN、TNN、MNN、PaddleLite、Tengine等等，还有NVIDIA推出的针对GPU卡的TensorRT、intel针对intel芯片的OpenVINO等，微软的ONNX Runtime。
后处理：就是将模型推理后的Tensor数据转换成业务可以识别的特征数据（不同的业务会呈现不同的最终效果数据）。

部署SDK和集成

部署SDK：需要模型推理和前后处理功能打包，并考虑实际应用中的license、模型安全（加解密）等功能实现，最终输入一个业务方便使用的部署SDK。这是一种单机模式的部署，现在大型模型部署和公有云部署可能是另一种形式。
集成：由具体的业务方工程化的同学去实现，将部署SDK集成到具体的应用中，根据实际业务需要通过接口调用，最终达到实际应用AI的效果。例如：上述例子中，具体是要将部署SDK集成进手机端还是pc端，是通过app来实现还是小程序来实现，最终效果如何展示，这些都是集成部分具体业务同学去实现。