use speicfic version for minicpmv test

eaidova · eaidova · commit 92a03d56dce1 · 2024-10-14T20:09:07.000+04:00
diff --git a/tests/openvino/test_modeling.py b/tests/openvino/test_modeling.py
@@ -44,13 +44,13 @@
     AutoModelForCTC,
     AutoModelForImageClassification,
     AutoModelForMaskedLM,
-    AutoProcessor,
     AutoModelForQuestionAnswering,
     AutoModelForSeq2SeqLM,
     AutoModelForSequenceClassification,
     AutoModelForSpeechSeq2Seq,
     AutoModelForTokenClassification,
     AutoModelForVision2Seq,
+    AutoProcessor,
     AutoTokenizer,
     GenerationConfig,
     Pix2StructForConditionalGeneration,
@@ -1868,15 +1868,14 @@ def test_compare_with_and_without_past_key_values(self):
 
 
 class OVModelForVisualCausalLMIntegrationTest(unittest.TestCase):
-    SUPPORTED_ARCHITECTURES = [
-        "llava",
-        "minicpmv"
-    ]
+    SUPPORTED_ARCHITECTURES = ["llava"]
 
     REMOTE_CODE_MODELS = ["minicpmv"]
 
     if is_transformers_version(">=", "4.40.0"):
         SUPPORTED_ARCHITECTURES += ["llava_next"]
+    if is_transformers_version(">=", "4.45.0"):
+        SUPPORTED_ARCHITECTURES += ["minicpmv"]
     TASK = "image-text-to-text"
 
     IMAGE = Image.open(
@@ -1904,20 +1903,24 @@ def test_compare_to_transformers(self, model_arch):
         if "llava" in model_arch:
             prompt = "<image>\n What is shown in this image?"
         elif "minicpmv" in model_arch:
-           prompt = "<|im_start|>user\n(<image>./</image>)\n What is shown in this image?<|im_end|>\n<|im_start|>assistant\n"
+            prompt = "<|im_start|>user\n(<image>./</image>)\n What is shown in this image?<|im_end|>\n<|im_start|>assistant\n"
         model_id = MODEL_NAMES[model_arch]
         processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=model_arch in self.REMOTE_CODE_MODELS)
-        transformers_model = self.get_transformer_model_class(model_arch).from_pretrained(model_id, trust_remote_code=model_arch in self.REMOTE_CODE_MODELS)
+        transformers_model = self.get_transformer_model_class(model_arch).from_pretrained(
+            model_id, trust_remote_code=model_arch in self.REMOTE_CODE_MODELS
+        )
         inputs = processor(images=[self.IMAGE.resize((600, 600))], text=[prompt], return_tensors="pt")
-        ov_model = OVModelForVisualCausalLM.from_pretrained(model_id, export=True, trust_remote_code=model_arch in self.REMOTE_CODE_MODELS)
+        ov_model = OVModelForVisualCausalLM.from_pretrained(
+            model_id, export=True, trust_remote_code=model_arch in self.REMOTE_CODE_MODELS
+        )
         self.assertIsInstance(ov_model, MODEL_TYPE_TO_CLS_MAPPING[ov_model.config.model_type])
         self.assertIsInstance(ov_model.vision_embeddings, OVVisionEmbedding)
         self.assertIsInstance(ov_model.language_model, OVModelWithEmbedForCausalLM)
         for additional_part in ov_model.additional_parts:
             self.assertTrue(hasattr(ov_model, additional_part))
             self.assertIsInstance(getattr(ov_model, additional_part), MODEL_PARTS_CLS_MAPPING[additional_part])
         self.assertIsInstance(ov_model.config, PretrainedConfig)
-        if not "minicpmv" in model_arch:
+        if "minicpmv" not in model_arch:
             set_seed(SEED)
             with torch.no_grad():
                 transformers_outputs = transformers_model(**inputs)
@@ -1939,7 +1942,7 @@ def test_compare_to_transformers(self, model_arch):
         set_seed(SEED)
         transformers_outputs = transformers_model.generate(**inputs, generation_config=gen_config)
         if model_arch == "minicpmv":
-            ov_outputs = ov_outputs[:, inputs["input_ids"].shape[1]:]
+            ov_outputs = ov_outputs[:, inputs["input_ids"].shape[1] :]
         self.assertTrue(
             torch.equal(ov_outputs, transformers_outputs),
             f"generation config : {gen_config}, transformers output {transformers_outputs}, ov_model output {ov_outputs}",
@@ -1953,7 +1956,9 @@ def test_compare_to_transformers(self, model_arch):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_generate_utils(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
-        model = OVModelForVisualCausalLM.from_pretrained(model_id, export=True, trust_remote_code=model_arch in self.REMOTE_CODE_MODELS)
+        model = OVModelForVisualCausalLM.from_pretrained(
+            model_id, export=True, trust_remote_code=model_arch in self.REMOTE_CODE_MODELS
+        )
         preprocessor = AutoProcessor.from_pretrained(model_id, trust_remote_code=model_arch in self.REMOTE_CODE_MODELS)
         if "llava" in model_arch:
             question = "<image>\nDescribe image"