fix stateful seq2seq model inference perfomance

eaidova · eaidova · commit 00be2445e091 · 2025-02-03T21:52:00.000+04:00
diff --git a/optimum/intel/openvino/modeling_seq2seq.py b/optimum/intel/openvino/modeling_seq2seq.py
@@ -668,7 +668,7 @@ def forward(
         logits = torch.from_numpy(self.request.get_tensor("logits").data).to(self.device)
         self._past_length += input_ids.shape[1]
 
-        out_past_key_values = ()
+        out_past_key_values = ((),)
 
         if not self.stateful:
             # Tuple of length equal to : number of layer * number of past_key_value per decoder layer (2 corresponds to the