Simplify python read_image() (openvinotoolkit#1763)

Wovchena · web-flow · commit 8d604b1b3992 · 2025-02-20T12:06:34.000+04:00
diff --git a/README.md b/README.md
@@ -135,8 +135,8 @@ from PIL import Image
 pipe = openvino_genai.VLMPipeline("./InternVL2-1B", "CPU")
 
 image = Image.open("dog.jpg")
-image_data = np.array(image.getdata()).reshape(1, image.size[1], image.size[0], 3).astype(np.uint8)
-image_data = ov.Tensor(image_data)  
+image_data = np.array(image)
+image_data = ov.Tensor(image_data)
 
 prompt = "Can you describe the image?"
 result = pipe.generate(prompt, image=image_data, max_new_tokens=100)
@@ -232,7 +232,7 @@ device = 'CPU'  # GPU can be used as well
 pipe = openvino_genai.Image2ImagePipeline("./dreamlike_anime_1_0_ov/INT8", device)
 
 image = Image.open("small_city.jpg")
-image_data = np.array(image.getdata()).reshape(1, image.size[1], image.size[0], 3).astype(np.uint8)
+image_data = np.array(image)[None]
 image_data = ov.Tensor(image_data)
 
 image_tensor = pipe.generate(
@@ -277,7 +277,7 @@ import openvino as ov
 
 def read_image(path: str) -> openvino.Tensor:
     pic = Image.open(path).convert("RGB")
-    image_data = np.array(pic.getdata()).reshape(1, pic.size[1], pic.size[0], 3).astype(np.uint8)
+    image_data = np.array(pic)[None]
     return openvino.Tensor(image_data)
 
 device = 'CPU'  # GPU can be used as well
diff --git a/samples/python/image_generation/benchmark_image_gen.py b/samples/python/image_generation/benchmark_image_gen.py
@@ -118,7 +118,7 @@ def text2image(args):
 
 def read_image(path: str) -> openvino.Tensor:
     pic = Image.open(path).convert("RGB")
-    image_data = np.array(pic.getdata()).reshape(1, pic.size[1], pic.size[0], 3).astype(np.uint8)
+    image_data = np.array(pic)[None]
     return openvino.Tensor(image_data)
 
 def image2image(args):
diff --git a/samples/python/image_generation/image2image.py b/samples/python/image_generation/image2image.py
@@ -11,7 +11,7 @@
 
 def read_image(path: str) -> openvino.Tensor:
     pic = Image.open(path).convert("RGB")
-    image_data = np.array(pic.getdata()).reshape(1, pic.size[1], pic.size[0], 3).astype(np.uint8)
+    image_data = np.array(pic)[None]
     return openvino.Tensor(image_data)
 
 def main():
diff --git a/samples/python/image_generation/inpainting.py b/samples/python/image_generation/inpainting.py
@@ -11,7 +11,7 @@
 
 def read_image(path: str) -> openvino.Tensor:
     pic = Image.open(path).convert("RGB")
-    image_data = np.array(pic.getdata()).reshape(1, pic.size[1], pic.size[0], 3).astype(np.uint8)
+    image_data = np.array(pic)[None]
     return openvino.Tensor(image_data)
 
 def main():
diff --git a/samples/python/visual_language_chat/benchmark_vlm.py b/samples/python/visual_language_chat/benchmark_vlm.py
@@ -19,7 +19,7 @@ def read_image(path: str) -> Tensor:
 
     '''
     pic = Image.open(path).convert("RGB")
-    image_data = np.array(pic.getdata()).reshape(1, pic.size[1], pic.size[0], 3).astype(np.uint8)
+    image_data = np.array(pic)
     return Tensor(image_data)
 
 
diff --git a/samples/python/visual_language_chat/visual_language_chat.py b/samples/python/visual_language_chat/visual_language_chat.py
@@ -36,7 +36,7 @@ def read_image(path: str) -> Tensor:
 
     '''
     pic = Image.open(path).convert("RGB")
-    image_data = np.array(pic.getdata()).reshape(1, pic.size[1], pic.size[0], 3).astype(np.uint8)
+    image_data = np.array(pic)
     return Tensor(image_data)
 
 
diff --git a/tools/llm_bench/task/visual_language_generation.py b/tools/llm_bench/task/visual_language_generation.py
@@ -182,7 +182,7 @@ def run_visual_language_generation_optimum(
 
 def load_image_genai(image_path):
     pil_image = load_image(image_path)
-    image_data = np.array(pil_image.getdata()).reshape(1, pil_image.size[1], pil_image.size[0], 3).astype(np.uint8)
+    image_data = np.array(pil_image)[None]
     return ov.Tensor(image_data)
 
 
diff --git a/tools/who_what_benchmark/whowhatbench/wwb.py b/tools/who_what_benchmark/whowhatbench/wwb.py
@@ -308,7 +308,7 @@ def genai_gen_image(model, prompt, num_inference_steps, generator=None):
 
 
 def genai_gen_image2image(model, prompt, image, num_inference_steps, generator=None):
-    image_data = ov.Tensor(np.array(image.getdata()).reshape(1, image.size[1], image.size[0], 3).astype(np.uint8))
+    image_data = ov.Tensor(np.array(image)[None])
     image_tensor = model.generate(
         prompt,
         image=image_data,
@@ -321,8 +321,8 @@ def genai_gen_image2image(model, prompt, image, num_inference_steps, generator=N
 
 
 def genai_gen_inpainting(model, prompt, image, mask, num_inference_steps, generator=None):
-    image_data = ov.Tensor(np.array(image.getdata()).reshape(1, image.size[1], image.size[0], 3).astype(np.uint8))
-    mask_data = ov.Tensor(np.array(mask.getdata()).reshape(1, mask.size[1], mask.size[0], 3).astype(np.uint8))
+    image_data = ov.Tensor(np.array(image)[None])
+    mask_data = ov.Tensor(np.array(mask)[None])
     image_tensor = model.generate(
         prompt,
         image=image_data,
@@ -335,7 +335,7 @@ def genai_gen_inpainting(model, prompt, image, mask, num_inference_steps, genera
 
 
 def genai_gen_visual_text(model, prompt, image, processor, tokenizer, max_new_tokens, crop_question):
-    image_data = ov.Tensor(np.array(image.getdata()).reshape(1, image.size[1], image.size[0], 3).astype(np.uint8))
+    image_data = ov.Tensor(np.array(image)[None])
     out = model.generate(prompt, image=image_data, do_sample=False, max_new_tokens=max_new_tokens)
     return out.texts[0]