[TRANSFORMATIONS] Fix implicit conversion of ov::Node with multiple outputs to ov::Output (#29780)

CuriousPanCake · web-flow · commit c7103430c987 · 2025-03-28T11:23:10.000Z
### Details: In the IndirectSDPAOpt transformation, 1st input to the KVCache node may appear to be a VariadicSplit node with multiple outputs. Using the default output of the node is incorrect and leads to an exception if used as an input to another node because of an implicit conversion to ov::Output. Use the output of the VariadicSplit node explicitly to avoid the exception. ### Tickets: - [CVS-163937](https://jira.devtools.intel.com/browse/CVS-163937) Signed-off-by: Andrii Staikov <andrii.staikov@intel.com>
diff --git a/src/plugins/intel_gpu/src/plugin/transformations/indirect_kv_cache.cpp b/src/plugins/intel_gpu/src/plugin/transformations/indirect_kv_cache.cpp
@@ -160,15 +160,15 @@ IndirectSDPAOpt::IndirectSDPAOpt() {
         ov::replace_node(gather_node_1, gather_input_node_1);
 
         auto indirect_kv_cache_0 = std::make_shared<op::KVCache>(gather_input_node_0,
-                                                                 kv_cache_node_0->get_input_node_shared_ptr(1),
+                                                                 kv_cache_node_0->input_value(1),
                                                                  beam_idx_node,
                                                                  kv_cache_node_0->get_variable(),
                                                                  kv_cache_node_0->get_concat_axis(),
                                                                  gather_axis_0,
                                                                  kv_cache_node_0->get_output_element_type(0));
 
         auto indirect_kv_cache_1 = std::make_shared<op::KVCache>(gather_input_node_1,
-                                                                 kv_cache_node_1->get_input_node_shared_ptr(1),
+                                                                 kv_cache_node_1->input_value(1),
                                                                  beam_idx_node,
                                                                  kv_cache_node_1->get_variable(),
                                                                  kv_cache_node_1->get_concat_axis(),
diff --git a/src/plugins/intel_gpu/tests/unit/transformations/indirect_kv_cache_test.cpp b/src/plugins/intel_gpu/tests/unit/transformations/indirect_kv_cache_test.cpp
@@ -15,6 +15,7 @@
 #include "openvino/op/parameter.hpp"
 #include "openvino/op/result.hpp"
 #include "openvino/op/gather.hpp"
+#include "openvino/op/variadic_split.hpp"
 #include "openvino/pass/manager.hpp"
 
 #include <transformations/utils/utils.hpp>
@@ -182,3 +183,66 @@ TEST_F(TransformationTestsF, IndirectKVCache4) {
         comparator.enable(FunctionsComparator::ATTRIBUTES);
     }
 }
+
+TEST_F(TransformationTestsF, IndirectKVCache5) {
+    std::vector<int64_t> in0_order = {0, 1, 2, 3};
+    std::vector<int64_t> in1_order = {0, 1, 2, 3};
+    std::vector<int64_t> in2_order = {0, 1, 2, 3};
+    std::vector<int64_t> out_order = {0, 1, 2, 3};
+    const bool is_causal = false;
+    {
+        auto beam_idx = std::make_shared<ov::op::v0::Parameter>(ov::element::i32, ov::PartialShape{-1});
+        auto key_variable = std::make_shared<ov::op::util::Variable>(ov::op::util::VariableInfo{{-1, 32, -1, 80}, ov::element::f16, "v0"});
+        auto value_variable = std::make_shared<ov::op::util::Variable>(ov::op::util::VariableInfo{{-1, 32, -1, 80}, ov::element::f16, "v1"});
+        auto key_past = std::make_shared<ov::intel_gpu::op::ReadValue>(key_variable);
+        auto value_past = std::make_shared<ov::intel_gpu::op::ReadValue>(value_variable);
+        auto axis = std::make_shared<ov::op::v0::Constant>(ov::element::i64, ov::Shape{}, 0);
+        auto key_gather_past = std::make_shared<ov::op::v8::Gather>(key_past, beam_idx, axis);
+        auto value_gather_past = std::make_shared<ov::op::v8::Gather>(value_past, beam_idx, axis);
+
+        auto key_data = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::PartialShape{-1, 32, -1, 240});
+        auto vs_axis = std::make_shared<ov::op::v0::Constant>(ov::element::i32, ov::Shape{}, 1);
+        auto split_lengths = std::make_shared<ov::op::v0::Constant>(ov::element::i32, ov::Shape{3}, std::vector<int64_t>{80, 80, -1});
+        auto var_split = std::make_shared<ov::op::v1::VariadicSplit>(key_data, vs_axis, split_lengths);
+        auto parameter_value = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::PartialShape{-1, 32, -1, 80});
+        auto key_cache = std::make_shared<ov::intel_gpu::op::KVCache>(key_gather_past, var_split->output(0), key_variable, 0, ov::element::f16);
+        auto value_cache = std::make_shared<ov::intel_gpu::op::KVCache>(value_gather_past, parameter_value, value_variable, 0, ov::element::f16);
+
+        auto sdpa_q = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::PartialShape{-1, 32, -1, 80});
+        auto attn_mask = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::PartialShape{-1, 1, -1, -1});
+        auto scale = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::PartialShape{});
+        auto inputs = ov::OutputVector{sdpa_q, key_cache, value_cache, attn_mask, scale};
+        auto sdpa = std::make_shared<ov::intel_gpu::op::SDPA>(inputs, is_causal, in0_order, in1_order, in2_order, out_order);
+        auto result = std::make_shared<ov::op::v0::Result>(sdpa);
+
+        model = std::make_shared<ov::Model>(ov::ResultVector{result}, ov::ParameterVector{key_data, parameter_value, beam_idx, sdpa_q, attn_mask, scale});
+        manager.register_pass<IndirectKVCache>();
+    }
+    {
+        auto indirect_axis = 0;
+        auto beam_idx = std::make_shared<ov::op::v0::Parameter>(ov::element::i32, ov::PartialShape{-1});
+        auto key_variable = std::make_shared<ov::op::util::Variable>(ov::op::util::VariableInfo{{-1, 32, -1, 80}, ov::element::f16, "v0"});
+        auto value_variable = std::make_shared<ov::op::util::Variable>(ov::op::util::VariableInfo{{-1, 32, -1, 80}, ov::element::f16, "v1"});
+        auto key_past = std::make_shared<ov::intel_gpu::op::ReadValue>(key_variable);
+        auto value_past = std::make_shared<ov::intel_gpu::op::ReadValue>(value_variable);
+
+        auto key_data = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::PartialShape{-1, 32, -1, 240});
+        auto vs_axis = std::make_shared<ov::op::v0::Constant>(ov::element::i32, ov::Shape{}, 1);
+        auto split_lengths = std::make_shared<ov::op::v0::Constant>(ov::element::i32, ov::Shape{3}, std::vector<int64_t>{80, 80, -1});
+        auto var_split = std::make_shared<ov::op::v1::VariadicSplit>(key_data, vs_axis, split_lengths);
+        auto parameter_value = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::PartialShape{-1, 32, -1, 80});
+        auto key_cache = std::make_shared<ov::intel_gpu::op::KVCache>(key_past, var_split->output(0), beam_idx, key_variable, 0, 0, ov::element::f16);
+        auto value_cache = std::make_shared<ov::intel_gpu::op::KVCache>(value_past, parameter_value, beam_idx, key_variable, 0, 0, ov::element::f16);
+
+        auto sdpa_q = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::PartialShape{-1, 32, -1, 80});
+        auto attn_mask = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::PartialShape{-1, 1, -1, -1});
+        auto scale = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::PartialShape{});
+        auto inputs = ov::OutputVector{sdpa_q, key_cache, value_cache, attn_mask, scale};
+
+        auto sdpa = std::make_shared<ov::intel_gpu::op::IndirectSDPA>(inputs, key_cache->output(1), is_causal, indirect_axis, in0_order, in1_order, in2_order, out_order);
+        auto result = std::make_shared<ov::op::v0::Result>(sdpa);
+
+        model_ref = std::make_shared<ov::Model>(ov::ResultVector{result}, ov::ParameterVector{key_data, parameter_value, beam_idx, sdpa_q, attn_mask, scale});
+        comparator.enable(FunctionsComparator::ATTRIBUTES);
+    }
+}