Deploy Deep Learning Models

OK. Another FLAG.

一些经验

  • Profiling 看瓶颈

  • NumPy、Pytorch等的一些写法改变就能带来很大的提升

    • copy、cast、矩阵乘法、初始化

  • 推理引擎

    • 推理引擎自带的量化功能

  • 直接把模型变小,看看精度会掉多少

  • 拿 C++ 重写瓶颈部分

  • 知识蒸馏、其他高端的网络压缩方法

TensorRT

Quickstart Guide: https://docs.nvidia.com/deeplearning/tensorrt/quick-start-guide/index.html

Last updated