add ov config test

echarlaix · echarlaix · commit efeea22a0707 · 2024-02-14T19:44:45.000+01:00
diff --git a/optimum/exporters/openvino/convert.py b/optimum/exporters/openvino/convert.py
@@ -509,6 +509,8 @@ def export_models(
     Returns:
         list of input_names and output_names from ONNX configuration
     """
+
+    # TODO : modify compression_option to quantization_config
     outputs = []
 
     if output_names is not None and len(output_names) != len(models_and_onnx_configs):
diff --git a/optimum/intel/openvino/configuration.py b/optimum/intel/openvino/configuration.py
@@ -15,7 +15,6 @@
 from dataclasses import dataclass
 from typing import Any, Dict, List, Optional, Union
 
-import nncf
 import torch
 from transformers import PretrainedConfig
 from transformers.utils.quantization_config import QuantizationConfigMixin
@@ -78,7 +77,6 @@
 }
 
 
-
 DEFAULT_4BIT_CONFIGS = {
     "databricks/dolly-v2-3b": {"bits": 4, "sym": False, "group_size": 32, "ratio": 0.5},
     "EleutherAI/gpt-j-6b": {"bits": 4, "sym": False, "group_size": 64},
@@ -215,7 +213,7 @@ def __init__(
         self.all_layers = all_layers
         self.sensitivity_metric = sensitivity_metric
         self.ignored_scope = ignored_scope
-        self.quant_method = "default" # TODO : enable AWQ after nncf v2.9.0 release
+        self.quant_method = "default"  # TODO : enable AWQ after nncf v2.9.0 release
         self.post_init()
 
     def post_init(self):
@@ -233,7 +231,6 @@ def post_init(self):
                     ['wikitext2','c4','c4-new','ptb','ptb-new'], but we found {self.dataset}"""
                 )
 
-
         if self.bits not in [4, 8]:
             raise ValueError(f"Only support quantization to [4,8] bits but found {self.bits}")
 
diff --git a/optimum/intel/openvino/quantization.py b/optimum/intel/openvino/quantization.py
@@ -24,11 +24,10 @@
 import transformers
 from accelerate.data_loader import DataLoaderStateMixin
 from datasets import Dataset, load_dataset
-from nncf import NNCFConfig, CompressWeightsMode, SensitivityMetric, IgnoredScope
+from nncf import CompressWeightsMode, IgnoredScope, NNCFConfig, SensitivityMetric
 from nncf.torch import create_compressed_model, register_default_init_args, register_module
 from nncf.torch.dynamic_graph.io_handling import wrap_nncf_model_inputs_with_objwalk
 from nncf.torch.initialization import PTInitializingDataLoader
-
 from openvino._offline_transformations import compress_quantize_weights_transformation
 from openvino.runtime import Core, Tensor
 from torch.utils._pytree import tree_map
@@ -55,7 +54,6 @@
 )
 
 
-
 # TODO : remove as unused
 _COMPRESSION_OPTIONS = {
     "int8": {"mode": nncf.CompressWeightsMode.INT8},
@@ -613,7 +611,6 @@ def _int4_weight_only_quantization(
             dataset = prepare_dataset(dataset)
             dataset = nncf.Dataset(dataset, lambda x: model.prepare_inputs(**x))
 
-
         sensitivity_metric = None
         if isinstance(config.sensitivity_metric, str):
             sensitivity_metric = getattr(SensitivityMetric, config.sensitivity_metric.upper())
diff --git a/tests/openvino/test_quantization.py b/tests/openvino/test_quantization.py
@@ -174,26 +174,28 @@ class OVWeightCompressionTest(unittest.TestCase):
             OVModelForCausalLM,
             "hf-internal-testing/tiny-random-gpt2",
             dict(
-                mode=nncf.CompressWeightsMode.INT4_ASYM,
+                bits=4,
+                sym=False,
                 group_size=32,
-                ignored_scope=nncf.IgnoredScope(names=["__module.model.transformer.h.2.mlp.c_fc/aten::addmm/MatMul"]),
+                ignored_scope={"names": ["__module.model.transformer.h.2.mlp.c_fc/aten::addmm/MatMul"]},
             ),
             6,
         ),
         (
             OVModelForCausalLM,
             "hf-internal-testing/tiny-random-gpt2",
-            dict(mode=nncf.CompressWeightsMode.INT4_ASYM, group_size=-1, ratio=0.8, all_layers=True),
+            dict(bits=4, sym=False, group_size=-1, ratio=0.8, all_layers=True),
             22,
         ),
         (
             OVModelForCausalLM,
             "hf-internal-testing/tiny-random-OPTForCausalLM",
             dict(
-                mode=nncf.CompressWeightsMode.INT4_SYM,
+                bits=4,
+                sym=True,
                 group_size=-1,
                 ratio=0.8,
-                sensitivity_metric=nncf.SensitivityMetric.MEAN_ACTIVATION_MAGNITUDE,
+                sensitivity_metric="mean_activation_magnitude",
                 dataset="ptb",
             ),
             16,
@@ -202,10 +204,11 @@ class OVWeightCompressionTest(unittest.TestCase):
             OVModelForCausalLM,
             "hf-internal-testing/tiny-random-OPTForCausalLM",
             dict(
-                mode=nncf.CompressWeightsMode.INT4_SYM,
+                bits=4,
+                sym=True,
                 group_size=-1,
                 ratio=0.8,
-                sensitivity_metric=nncf.SensitivityMetric.MEAN_ACTIVATION_MAGNITUDE,
+                sensitivity_metric="mean_activation_magnitude",
                 dataset="ptb",
                 awq=True,
             ),
@@ -374,6 +377,9 @@ def test_ovmodel_4bit_auto_compression_with_config(
             self.assertEqual(expected_ov_int4, num_int4)
             model.save_pretrained(tmp_dir)
 
+            ov_config = OVConfig(quantization_config=quantization_config)
+            ov_config.save_pretrained(tmp_dir)
+
     @parameterized.expand(SUPPORTED_ARCHITECTURES_WITH_EXPECTED_4BIT_AUTO_COMPRESSED_MATMULS)
     def test_ovmodel_4bit_auto_compression_with_custom_dataset(
         self, model_cls, model_id, expected_int8, expected_int4