MinMax量化是一种常用的量化方法,属于线性量化或均匀量化的一种。它通过从FP32张量中选取最大值和最小值来确定实际的动态范围,从而实现量化。MinMax量化可以分为对称量化和非对称量化两种形式。在对称量化中,量化后的数据通常被映射到一个中心点的对称范围内,而非对称量化则不具有这种对称性。
MinMax量化的基本思想是将浮点数直接映射到定点数据范围内,例如将浮点数映射到int8的数据范围。这种方法简单且常用,适用于模型推理中的权重和激活值的量化,能够有效降低模型大小和计算复杂度,同时保持较高的推理精度。在实际应用中,MinMax量化常用于网络权重的静态分布数据,对网络推理的精度损失影响较小,并且量化操作开销较小,效率较高
声明:文章来源于网络,如有侵权请联系删除!