remove _int4_weight_only_quantization

echarlaix · echarlaix · commit e661d4430b6a · 2024-02-15T15:38:12.000+01:00
diff --git a/optimum/intel/openvino/modeling_decoder.py b/optimum/intel/openvino/modeling_decoder.py
@@ -34,7 +34,7 @@
 from ...exporters.openvino.stateful import model_has_state
 from ..utils.import_utils import is_nncf_available
 from ..utils.modeling_utils import MULTI_QUERY_ATTN_MODELS
-from .configuration import OVWeightQuantizationConfig
+from .configuration import OVWeightQuantizationConfig, _check_default_4bit_configs
 from .modeling import _TOKENIZER_FOR_DOC, INPUTS_DOCSTRING, MODEL_START_DOCSTRING, OVModel
 from .utils import ONNX_WEIGHTS_NAME, OV_XML_FILE_NAME, STR_TO_OV_TYPE
 
@@ -578,7 +578,6 @@ def _from_pretrained(
             quantization_config = OVWeightQuantizationConfig.from_dict(quantization_config)
 
         load_in_4bit = quantization_config.bits == 4 if quantization_config else False
-
         model = cls.load_model(model_cache_path, load_in_8bit=False if load_in_4bit else load_in_8bit)
 
         model_type = config.model_type.replace("_", "-")
@@ -600,9 +599,14 @@ def _from_pretrained(
                 raise ImportError(
                     "Quantization of the weights requires nncf, please install it with `pip install nncf`"
                 )
-            from .quantization import _int4_weight_only_quantization
+            from .quantization import _weight_only_quantization
+
+            default_config = _check_default_4bit_configs(config)
+
+            if default_config:
+                logger.info(f"For the given mode, we recommend the following `quantization_config` : {default_config}")
 
-            _int4_weight_only_quantization(causal_model, quantization_config)
+            _weight_only_quantization(causal_model, quantization_config)
         return causal_model
 
 
diff --git a/optimum/intel/openvino/quantization.py b/optimum/intel/openvino/quantization.py
@@ -44,7 +44,7 @@
 from ...exporters.openvino.stateful import ensure_export_task_support_stateful, ensure_stateful_is_available
 from ..utils.constant import _TASK_ALIASES
 from ..utils.modeling_utils import get_model_device
-from .configuration import OVConfig, OVWeightQuantizationConfig, _check_default_4bit_configs
+from .configuration import OVConfig, OVWeightQuantizationConfig
 from .modeling_base import OVBaseModel
 from .utils import (
     MAX_ONNX_OPSET,
@@ -332,10 +332,8 @@ def _quantize_ovcausallm(
             quantization_config = None if ov_config is None else ov_config.quantization_config
             if quantization_config is None:
                 # Use default 8-bit compression
-                quantization_config = OVWeightQuantizationConfig(mode=nncf.CompressWeightsMode.INT8_SYM)
-                self.model.model = nncf.compress_weights(self.model.model)
-            else:
-                _int4_weight_only_quantization(self.model, quantization_config)
+                quantization_config = OVWeightQuantizationConfig(bits=8, sym=True)
+            _weight_only_quantization(self.model, quantization_config)
 
             self.model.save_pretrained(save_directory)
             return
@@ -582,21 +580,6 @@ def _remove_unused_columns(self, dataset: Dataset):
         return dataset.remove_columns(ignored_columns)
 
 
-def _int4_weight_only_quantization(
-    model: OVBaseModel, quantization_config: Optional[Union[OVWeightQuantizationConfig, Dict]] = None
-):
-    if model.export_feature != "text-generation":
-        raise ValueError("Only `OVModelForCausalLM` are supported for now")
-
-    quantization_config = quantization_config or _check_default_4bit_configs(model.config)
-
-    # Data-free weight-only quantization to asymmetric INT4
-    if quantization_config is None:
-        quantization_config = OVWeightQuantizationConfig(bits=4, sym=False)
-
-    _weight_only_quantization(model, quantization_config)
-
-
 def _weight_only_quantization(model: OVBaseModel, quantization_config: Union[OVWeightQuantizationConfig, Dict]):
     ov_model = model.model