Use verbose InferRequest API for inference

vshampor · vshampor · commit f0645d291530 · 2024-04-26T11:27:28.000+02:00
diff --git a/modules/llama_cpp_plugin/notebooks/qwen.ipynb b/modules/llama_cpp_plugin/notebooks/qwen.ipynb
@@ -226,8 +226,11 @@
     "sequence_length = len(initial_prompt_tokens[0])\n",
     "position_ids = np.arange(0, sequence_length).reshape(initial_prompt_tokens.shape)\n",
     "\n",
-    "output = ov_model({\"input_ids\": initial_prompt_tokens, \"position_ids\": position_ids})\n",
-    "logits = output[\"logits\"]\n",
+    "infer_request = ov_model.create_infer_request()\n",
+    "infer_request.set_tensors({\"input_ids\": ov.Tensor(initial_prompt_tokens), \"position_ids\": ov.Tensor(position_ids)})\n",
+    "infer_request.infer()\n",
+    "logits = infer_request.get_tensor(\"logits\").data\n",
+    "\n",
     "curr_token_ids = np.argmax(logits[:, -1, :], axis=1).reshape([1, 1])\n",
     "\n",
     "MAX_TOKENS_GENERATED = 256\n",
@@ -245,12 +248,15 @@
     "    curr_position_ids = np.ndarray([1, 1], dtype=np.int64)\n",
     "    curr_position_ids[0][0] = next_position_id    \n",
     "    next_position_id += 1\n",
-    "    curr_generated_output = ov_model({\"input_ids\": curr_token_ids, \"position_ids\": curr_position_ids})\n",
-    "    curr_logits = curr_generated_output[\"logits\"]\n",
+    "    \n",
+    "    infer_request.set_tensors({\"input_ids\": ov.Tensor(curr_token_ids), \"position_ids\": ov.Tensor(curr_position_ids)})\n",
+    "    infer_request.infer()\n",
+    "    curr_logits = infer_request.get_tensor(\"logits\").data\n",
+    "    \n",
     "    curr_token_ids = np.argmax(curr_logits[:, -1, :], axis=1).reshape([1, 1])\n",
     "    last_token_id = curr_token_ids[0][0]\n",
     "\n",
-    "ov_model.create_infer_request().reset_state()"
+    "infer_request.reset_state()"
    ]
   },
   {