Add hybrid quantization for Flux model (#1060)

l-bat · nikita-savelyevv · web-flow · commit d7b1e1d1c0c9 · 2024-12-11T09:44:34.000+04:00
* Add hybrid quantization for Flux model

* Update optimum/intel/openvino/quantization.py

Co-authored-by: Nikita Savelyev &lt;nikita.savelyev@intel.com&gt;

---------

Co-authored-by: Nikita Savelyev &lt;nikita.savelyev@intel.com&gt;
diff --git a/optimum/commands/export/openvino.py b/optimum/commands/export/openvino.py
@@ -354,6 +354,10 @@ def run(self):
                 from optimum.intel import OVStableDiffusion3Pipeline
 
                 model_cls = OVStableDiffusion3Pipeline
+            elif class_name == "FluxPipeline":
+                from optimum.intel import OVFluxPipeline
+
+                model_cls = OVFluxPipeline
             else:
                 raise NotImplementedError(f"Quantization in hybrid mode isn't supported for class {class_name}.")
 
diff --git a/optimum/intel/openvino/quantization.py b/optimum/intel/openvino/quantization.py
@@ -1150,7 +1150,9 @@ def _hybrid_quantization(
 
     wc_config = copy.deepcopy(quantization_config)
     wc_config.ignored_scope = wc_config.ignored_scope or {}
-    wc_config.ignored_scope["types"] = wc_config.ignored_scope.get("types", []) + ["Convolution"]
+
+    wc_ignored_types = ["Convolution"] if any(op.get_type_name() == "Convolution" for op in model.get_ops()) else []
+    wc_config.ignored_scope["types"] = wc_config.ignored_scope.get("types", []) + wc_ignored_types
     compressed_model = _weight_only_quantization(model, wc_config, **kwargs)
 
     ptq_ignored_scope = quantization_config.get_ignored_scope_instance()
diff --git a/tests/openvino/test_exporters_cli.py b/tests/openvino/test_exporters_cli.py
@@ -105,6 +105,7 @@ class OVCLIExportTestCase(unittest.TestCase):
 
     if is_transformers_version(">=", "4.45"):
         SUPPORTED_SD_HYBRID_ARCHITECTURES.append(("stable-diffusion-3", 9, 65))
+        SUPPORTED_SD_HYBRID_ARCHITECTURES.append(("flux", 7, 56))
 
     TEST_4BIT_CONFIGURATIONS = [
         ("text-generation-with-past", "opt125m", "int4 --sym --group-size 128", {"int8": 4, "int4": 72}),
diff --git a/tests/openvino/test_quantization.py b/tests/openvino/test_quantization.py
@@ -43,6 +43,7 @@
 
 from optimum.intel import (
     OVConfig,
+    OVFluxPipeline,
     OVLatentConsistencyModelPipeline,
     OVModelForAudioClassification,
     OVModelForCausalLM,
@@ -491,6 +492,7 @@ class OVWeightCompressionTest(unittest.TestCase):
         SUPPORTED_ARCHITECTURES_WITH_HYBRID_QUANTIZATION.extend(
             [
                 (OVStableDiffusion3Pipeline, "stable-diffusion-3", 9, 65),
+                (OVFluxPipeline, "flux", 7, 56),
             ]
         )
 

Original file line number	Diff line number	Diff line change
`@@ -43,6 +43,7 @@`
`43`	`43`
`44`	`44`	`from optimum.intel import (`
`45`	`45`	`OVConfig,`
	`46`	`+ OVFluxPipeline,`
`46`	`47`	`OVLatentConsistencyModelPipeline,`
`47`	`48`	`OVModelForAudioClassification,`
`48`	`49`	`OVModelForCausalLM,`
`@@ -491,6 +492,7 @@ class OVWeightCompressionTest(unittest.TestCase):`
`491`	`492`	`SUPPORTED_ARCHITECTURES_WITH_HYBRID_QUANTIZATION.extend(`
`492`	`493`	`[`
`493`	`494`	`(OVStableDiffusion3Pipeline, "stable-diffusion-3", 9, 65),`
	`495`	`+ (OVFluxPipeline, "flux", 7, 56),`
`494`	`496`	`]`
`495`	`497`	`)`
`496`	`498`