Add quantization tests for llava_next_video

nikita-savelyevv · nikita-savelyevv · commit d1dedd19eeca · 2025-03-03T16:23:19.000+01:00
diff --git a/tests/openvino/test_exporters_cli.py b/tests/openvino/test_exporters_cli.py
@@ -341,6 +341,19 @@ class OVCLIExportTestCase(unittest.TestCase):
             ]
         )
 
+    if is_transformers_version(">=", "4.42.0"):
+        TEST_4BIT_CONFIGURATIONS.extend(
+            [
+                (
+                    "image-text-to-text",
+                    "llava_next_video",
+                    'int4 --group-size 16 --ratio 0.8 --sensitivity-metric "hessian_input_activation" '
+                    "--dataset contextual --num-samples 1",
+                    [{"int8": 6, "int4": 24}, {"int8": 1}, {"int8": 7}, {}, {"int8": 2}],
+                ),
+            ]
+        )
+
     if is_transformers_version(">=", "4.45.0"):
         TEST_4BIT_CONFIGURATIONS.extend(
             [
diff --git a/tests/openvino/test_quantization.py b/tests/openvino/test_quantization.py
@@ -581,6 +581,27 @@ class OVWeightCompressionTest(unittest.TestCase):
             ]
         )
 
+    if is_transformers_version(">=", "4.42.0"):
+        LOAD_IN_4_BITS_SCOPE.extend(
+            [
+                (
+                    OVModelForVisualCausalLM,
+                    "llava_next_video",
+                    False,
+                    dict(
+                        bits=4,
+                        group_size=16,
+                        dataset="contextual",
+                        ratio=0.8,
+                        sensitivity_metric="hessian_input_activation",
+                        num_samples=1,
+                        processor=MODEL_NAMES["llava_next"],
+                    ),
+                    [{"int8": 6, "int4": 24}, {"int8": 1}, {"int8": 7}, {}, {"int8": 2}],
+                ),
+            ]
+        )
+
     if is_transformers_version(">=", "4.45.0"):
         LOAD_IN_4_BITS_SCOPE.extend(
             [
@@ -668,6 +689,9 @@ class OVWeightCompressionTest(unittest.TestCase):
     if is_transformers_version(">=", "4.40.0"):
         SUPPORTED_ARCHITECTURES_WITH_AUTO_COMPRESSION.append((OVModelForVisualCausalLM, "nanollava", True))
 
+    if is_transformers_version(">=", "4.42.0"):
+        SUPPORTED_ARCHITECTURES_WITH_AUTO_COMPRESSION.append((OVModelForVisualCausalLM, "llava_next_video", False))
+
     if is_transformers_version(">=", "4.45.0"):
         SUPPORTED_ARCHITECTURES_WITH_AUTO_COMPRESSION.append((OVModelForVisualCausalLM, "minicpmv", True))
         SUPPORTED_ARCHITECTURES_WITH_AUTO_COMPRESSION.append((OVModelForVisualCausalLM, "qwen2_vl", False))
diff --git a/tests/openvino/utils_tests.py b/tests/openvino/utils_tests.py
@@ -202,6 +202,7 @@
     "flux-fill": (56, 28, 24, 64, 64),
     "llava": (30, 1, 9),
     "llava_next": (30, 1, 9),
+    "llava_next_video": (30, 1, 7, 0, 2),
     "minicpmv": (30, 1, 26, 6),
     "nanollava": (30, 1, 15),
     "qwen2_vl": (30, 1, 1, 10),

Original file line number	Diff line number	Diff line change
`@@ -341,6 +341,19 @@ class OVCLIExportTestCase(unittest.TestCase):`
`341`	`341`	`]`
`342`	`342`	`)`
`343`	`343`
	`344`	`+ if is_transformers_version(">=", "4.42.0"):`
	`345`	`+ TEST_4BIT_CONFIGURATIONS.extend(`
	`346`	`+ [`
	`347`	`+ (`
	`348`	`+ "image-text-to-text",`
	`349`	`+ "llava_next_video",`
	`350`	`+ 'int4 --group-size 16 --ratio 0.8 --sensitivity-metric "hessian_input_activation" '`
	`351`	`+ "--dataset contextual --num-samples 1",`
	`352`	`+ [{"int8": 6, "int4": 24}, {"int8": 1}, {"int8": 7}, {}, {"int8": 2}],`
	`353`	`+ ),`
	`354`	`+ ]`
	`355`	`+ )`
	`356`	`+`
`344`	`357`	`if is_transformers_version(">=", "4.45.0"):`
`345`	`358`	`TEST_4BIT_CONFIGURATIONS.extend(`
`346`	`359`	`[`