set kv cache precision for seq2seq models

echarlaix · echarlaix · commit 17debf6345d2 · 2024-04-19T18:23:18.000+02:00
diff --git a/optimum/intel/openvino/modeling_base.py b/optimum/intel/openvino/modeling_base.py
@@ -253,6 +253,8 @@ def _set_ov_config_parameters(self):
         q_config = self._openvino_config.quantization_config if self._openvino_config else None
         if isinstance(q_config, OVDynamicQuantizationConfig):
             self.ov_config["DYNAMIC_QUANTIZATION_GROUP_SIZE"] = str(q_config.activations_group_size)
+            if self.can_generate() and "KV_CACHE_PRECISION" not in self.ov_config:
+                self.ov_config["KV_CACHE_PRECISION"] = "u8"
 
     @staticmethod
     def _cached_file(
diff --git a/optimum/intel/openvino/modeling_decoder.py b/optimum/intel/openvino/modeling_decoder.py
@@ -328,12 +328,6 @@ def _make_stateful(self):
         patch_stateful(self.config, self.model)
         self.stateful = True
 
-    def _set_ov_config_parameters(self):
-        super()._set_ov_config_parameters()
-
-        if "DYNAMIC_QUANTIZATION_GROUP_SIZE" in self.ov_config and "KV_CACHE_PRECISION" not in self.ov_config:
-            self.ov_config["KV_CACHE_PRECISION"] = "u8"
-
 
 @add_start_docstrings(
     """