huggingface · echarlaix · Feb 8, 2024 · Jan 29, 2024 · Jan 30, 2024 · Jan 30, 2024
diff --git a/optimum/intel/__init__.py b/optimum/intel/__init__.py
@@ -60,9 +60,12 @@
         "OVQuantizer",
         "OVTrainer",
         "OVTrainingArguments",
+        "OVWeightQuantizationConfig",
     ]
 else:
-    _import_structure["openvino"].extend(["OVConfig", "OVQuantizer", "OVTrainer", "OVTrainingArguments"])
+    _import_structure["openvino"].extend(
+        ["OVConfig", "OVQuantizer", "OVTrainer", "OVTrainingArguments", "OVWeightQuantizationConfig"]
+    )
 
 try:
     if not (is_openvino_available() and is_diffusers_available()):
@@ -171,9 +174,15 @@
         if not (is_openvino_available() and is_nncf_available()):
             raise OptionalDependencyNotAvailable()
     except OptionalDependencyNotAvailable:
-        from .utils.dummy_openvino_and_nncf_objects import OVConfig, OVQuantizer, OVTrainer, OVTrainingArguments
+        from .utils.dummy_openvino_and_nncf_objects import (
+            OVConfig,
+            OVQuantizer,
+            OVTrainer,
+            OVTrainingArguments,
+            OVWeightQuantizationConfig,
+        )
     else:
-        from .openvino import OVConfig, OVQuantizer, OVTrainer, OVTrainingArguments
+        from .openvino import OVConfig, OVQuantizer, OVTrainer, OVTrainingArguments, OVWeightQuantizationConfig
 
     try:
         if not (is_openvino_available() and is_diffusers_available()):

diff --git a/optimum/intel/openvino/__init__.py b/optimum/intel/openvino/__init__.py
@@ -32,6 +32,7 @@
     from .quantization import OVQuantizer
     from .trainer import OVTrainer
     from .training_args import OVTrainingArguments
+    from .weight_quantization import OVWeightQuantizationConfig
 
 from .modeling import (
     OVModelForAudioClassification,

diff --git a/optimum/intel/openvino/modeling_base.py b/optimum/intel/openvino/modeling_base.py
@@ -186,11 +186,13 @@ def _from_pretrained(
             force_download (`bool`, defaults to `False`):
                 Whether or not to force the (re-)download of the model weights and configuration files, overriding the
                 cached versions if they exist.
-            file_name(`str`, *optional*):
+            file_name (`str`, *optional*):
                 The file name of the model to load. Overwrites the default file name and allows one to load the model
                 with a different name.
-            local_files_only(`bool`, *optional*, defaults to `False`):
+            local_files_only (`bool`, *optional*, defaults to `False`):
                 Whether or not to only look at local files (i.e., do not try to download the model).
+            load_in_8bit (`bool`, *optional*, defaults to `False`):
+                Whether or not to apply 8-bit weight quantization.
         """
 
         model_path = Path(model_id)

diff --git a/optimum/intel/openvino/modeling_decoder.py b/optimum/intel/openvino/modeling_decoder.py
@@ -35,6 +35,7 @@
 from ..utils.modeling_utils import MULTI_QUERY_ATTN_MODELS
 from .modeling import _TOKENIZER_FOR_DOC, INPUTS_DOCSTRING, MODEL_START_DOCSTRING, OVModel
 from .utils import ONNX_WEIGHTS_NAME, OV_XML_FILE_NAME, STR_TO_OV_TYPE
+from .weight_quantization import OVWeightQuantizationConfig, compress_decoder_weights
 
 
 if is_transformers_version("<", "4.25.0"):
@@ -244,6 +245,8 @@ def _from_transformers(
         use_cache: bool = True,
         trust_remote_code: bool = False,
         load_in_8bit: Optional[bool] = None,
+        load_in_4bit: Optional[bool] = None,
+        quantization_config: Optional[Union[OVWeightQuantizationConfig, Dict]] = None,
         **kwargs,
     ):
         if config.model_type.replace("_", "-") not in _SUPPORTED_ARCHITECTURES:
@@ -261,7 +264,7 @@ def _from_transformers(
                 task = task + "-with-past"
 
         compression_option = None
-        if load_in_8bit is not None:
+        if load_in_8bit is not None and not load_in_4bit:
             compression_option = "int8" if load_in_8bit else "fp32"
         stateful = kwargs.pop("stateful", ensure_stateful_is_available(warn=False) and use_cache)
         main_export(
@@ -283,7 +286,14 @@ def _from_transformers(
         config.is_encoder_decoder = False
         config.save_pretrained(save_dir_path)
         return cls._from_pretrained(
-            model_id=save_dir_path, config=config, use_cache=use_cache, load_in_8bit=False, stateful=None, **kwargs
+            model_id=save_dir_path,
+            config=config,
+            use_cache=use_cache,
+            load_in_8bit=False,
+            stateful=None,
+            load_in_4bit=load_in_4bit,
+            quantization_config=quantization_config,
+            **kwargs,
         )
 
     def _reshape(
@@ -350,15 +360,14 @@ class OVModelForCausalLM(OVBaseDecoderModel, GenerationMixin):
             checkpoint="gpt2",
         )
     )
-    def forward(
+    def prepare_forward_inputs(
         self,
         input_ids: torch.LongTensor,
         attention_mask: Optional[torch.LongTensor] = None,
         past_key_values: Optional[Tuple[Tuple[torch.FloatTensor]]] = None,
         position_ids: Optional[torch.LongTensor] = None,
         **kwargs,
-    ) -> CausalLMOutputWithPast:
-        self.compile()
+    ) -> Dict:
         if self.use_cache and past_key_values is not None:
             input_ids = input_ids[:, -1:]
 
@@ -443,6 +452,26 @@ def forward(
                 self.next_beam_idx if self.next_beam_idx is not None else np.arange(batch_size, dtype=int)
             )
 
+        return inputs
+
+    def forward(
+        self,
+        input_ids: torch.LongTensor,
+        attention_mask: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[Tuple[Tuple[torch.FloatTensor]]] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        **kwargs,
+    ) -> CausalLMOutputWithPast:
+        self.compile()
+
+        inputs = self.prepare_forward_inputs(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            past_key_values=past_key_values,
+            position_ids=position_ids,
+            **kwargs,
+        )
+
         # Run inference
         self.request.start_async(inputs, share_inputs=True)
         self.request.wait()
@@ -526,6 +555,8 @@ def _from_pretrained(
         from_onnx: bool = False,
         local_files_only: bool = False,
         load_in_8bit: bool = False,
+        load_in_4bit: bool = False,
+        quantization_config: Union[OVWeightQuantizationConfig, Dict] = None,
         **kwargs,
     ):
         model_path = Path(model_id)
@@ -557,7 +588,11 @@ def _from_pretrained(
         else:
             init_cls = cls
 
-        return init_cls(model=model, config=config, model_save_dir=model_cache_path.parent, **kwargs)
+        causal_model = init_cls(model=model, config=config, model_save_dir=model_cache_path.parent, **kwargs)
+
+        if load_in_4bit:
+            compress_decoder_weights(causal_model, quantization_config)
+        return causal_model
 
 
 class OVBloomForCausalLM(OVModelForCausalLM):

diff --git a/optimum/intel/openvino/quantization.py b/optimum/intel/openvino/quantization.py
@@ -33,6 +33,7 @@
 from torch.utils.data import DataLoader, RandomSampler
 from transformers import DataCollator, PreTrainedModel, default_data_collator
 from transformers.pytorch_utils import Conv1D
+from transformers.utils.quantization_config import QuantizationConfigMixin
 
 from optimum.exporters.tasks import TasksManager
 from optimum.quantization_base import OptimumQuantizer
@@ -49,6 +50,7 @@
     ONNX_WEIGHTS_NAME,
     OV_XML_FILE_NAME,
 )
+from .weight_quantization import compress_decoder_weights
 
 
 COMPRESSION_OPTIONS = {
@@ -119,7 +121,8 @@ def quantize(
         self,
         calibration_dataset: Dataset = None,
         save_directory: Union[str, Path] = None,
-        quantization_config: OVConfig = None,
+        quantization_config: QuantizationConfigMixin = None,
+        ov_config: OVConfig = None,
         file_name: Optional[str] = None,
         batch_size: int = 1,
         data_collator: Optional[DataCollator] = None,
@@ -210,7 +213,7 @@ def quantize(
             self._quantize_torchmodel(
                 calibration_dataset,
                 save_directory,
-                quantization_config,
+                ov_config,
                 file_name,
                 batch_size,
                 data_collator,
@@ -272,15 +275,26 @@ def _quantize_ovcausallm(
         data_collator: Optional[DataCollator] = None,
         remove_unused_columns: bool = True,
         weights_only: bool = False,
-        quantization_config: OVConfig = None,
+        quantization_config: QuantizationConfigMixin = None,
         **kwargs,
     ):
+        if self.model.stateful and not weights_only:
+            raise Exception(
+                "Full quantizaiton for stateful OVModelForCausalLM is currently broken. Possbile options:\n"
+                "1. Quantize AutoModelForCausalLM\n"
+                "2. Use weight only quantization\n"
+                "3. Use stateful=False to export stateless model"
+            )
+
         save_directory = Path(save_directory)
         save_directory.mkdir(parents=True, exist_ok=True)
 
         if weights_only:
-            options = self._get_compression_options(quantization_config)
-            self.model.model = nncf.compress_weights(self.model.model, **options)
+            if quantization_config is None:
+                # Use default 8-bit compression
+                self.model.model = nncf.compress_weights(self.model.model)
+            else:
+                compress_decoder_weights(self.model, quantization_config)
             self.model.save_pretrained(save_directory)
             return
 
@@ -356,7 +370,7 @@ def _quantize_torchmodel(
         self,
         calibration_dataset: Dataset,
         save_directory: Union[str, Path],
-        quantization_config: OVConfig = None,
+        ov_config: OVConfig = None,
         file_name: Optional[str] = None,
         batch_size: int = 1,
         data_collator: Optional[DataCollator] = None,
@@ -378,14 +392,14 @@ def _quantize_torchmodel(
             model_type=model_type,
         )
 
-        if quantization_config is None:
+        if ov_config is None:
             logger.info(
                 "No configuration describing the quantization process was provided, a default OVConfig will be generated."
             )
-            quantization_config = OVConfig()
+            ov_config = OVConfig()
         onnx_file_name = (
             ONNX_WEIGHTS_NAME
-            if file_name is None and quantization_config.save_onnx_model
+            if file_name is None and ov_config.save_onnx_model
             else Path(ov_file_name).with_suffix(".onnx")
         )
         if weights_only:
@@ -403,8 +417,8 @@ def _quantize_torchmodel(
             )
 
             model_inputs = next(iter(calibration_dataloader))
-            quantization_config.add_input_info(model_inputs)
-            nncf_config = NNCFConfig.from_dict(quantization_config.__dict__)
+            ov_config.add_input_info(model_inputs)
+            nncf_config = NNCFConfig.from_dict(ov_config.__dict__)
             nncf_config = register_default_init_args(nncf_config, calibration_dataloader)
             controller, compressed_model = create_compressed_model(
                 self.model, nncf_config, wrap_inputs_fn=wrap_nncf_model_inputs_with_objwalk
@@ -423,13 +437,13 @@ def _quantize_torchmodel(
         else:
             onnx_config = onnx_config_class(model.config)
 
-        model_path = save_directory / (onnx_file_name if quantization_config.save_onnx_model else ov_file_name)
+        model_path = save_directory / (onnx_file_name if ov_config.save_onnx_model else ov_file_name)
         onnx_path = save_directory / onnx_file_name
-        export_fn = export if not quantization_config.save_onnx_model else export_pytorch_via_onnx
+        export_fn = export if not ov_config.save_onnx_model else export_pytorch_via_onnx
         opset = min(onnx_config.DEFAULT_ONNX_OPSET, MAX_ONNX_OPSET)
         opset = max(opset, MIN_ONNX_QDQ_OPSET)
         kwargs = {}
-        if not quantization_config.save_onnx_model:
+        if not ov_config.save_onnx_model:
             kwargs = {"stateful": ensure_export_task_support_stateful(task)}
         _, _, is_onnx = export_fn(model=model, config=onnx_config, output=model_path, opset=opset, **kwargs)
         if is_onnx:
@@ -438,14 +452,14 @@ def _quantize_torchmodel(
             # Model required second saving for appling weights compression transformations
             self._save_pretrained(model, output_path)
             # if onnx conversion happens as fallback for pytorch conversion, remove onnx model
-            if not quantization_config.save_onnx_model:
+            if not ov_config.save_onnx_model:
                 os.remove(onnx_path)
                 try:
                     os.remove(f"{onnx_path}_data")
                 except FileNotFoundError:
                     pass
 
-        quantization_config.save_pretrained(save_directory)
+        ov_config.save_pretrained(save_directory)
 
     @staticmethod
     def _save_pretrained(model: openvino.runtime.Model, output_path: str):