[GPU] Remove unused PagedAttention inputs causing set_arg error in case of zero buffer

sshlyapn · sshlyapn · commit ebce524b3610 · 2025-01-21T11:22:45.000+04:00
diff --git a/src/plugins/intel_gpu/src/graph/impls/ocl/paged_attention.cpp b/src/plugins/intel_gpu/src/graph/impls/ocl/paged_attention.cpp
@@ -214,12 +214,6 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
                 if (desc->has_alibi) {
                     args.inputs.push_back(instance.alibi_memory_ptr());
                 }
-
-                if (desc->has_rotated_blocks) {
-                    args.inputs.push_back(instance.rotated_block_indices_memory_ptr());
-                    args.inputs.push_back(instance.rotation_deltas_memory_ptr());
-                    args.inputs.push_back(instance.rotation_trig_lut_memory_ptr());
-                }
             } else if (kernel_idx == 2 || kernel_idx == 3) {
                 // Finalization kernel or mixed stage finalization kernel
                 args.inputs = { instance.past_lens_memory_ptr() };
@@ -687,10 +681,6 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
         if (has_alibi)
             inputs_number++;
 
-        const auto has_rotation = impl_param.input_layouts.size() == 16;
-        if (has_rotation)
-            inputs_number += 3;
-
         auto input_idx = 0;
         params.inputs.resize(inputs_number);
         params.inputs[input_idx++] = query_tensor;
@@ -709,12 +699,6 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
         if (has_alibi)
             params.inputs[input_idx++] = alibi_tensor;
 
-         if (has_rotation) {
-            params.inputs[input_idx++] = input_tensors[13];
-            params.inputs[input_idx++] = input_tensors[14];
-            params.inputs[input_idx++] = input_tensors[15];
-        }
-
         if (has_scores_output) {
             params.outputs.resize(2);
             params.outputs[1] = convert_data_tensor(impl_param.get_output_layout(1));
@@ -752,12 +736,6 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
         if (has_alibi)
             in_tensor_to_offset_map.insert({input_idx++, in_offsets_map.at(11)});
 
-        if (has_rotation) {
-            in_tensor_to_offset_map.insert({input_idx++, in_offsets_map.at(13)});
-            in_tensor_to_offset_map.insert({input_idx++, in_offsets_map.at(14)});
-            in_tensor_to_offset_map.insert({input_idx++, in_offsets_map.at(15)});
-        }
-
         if (has_scores_output)
             out_tensor_to_offset_map.insert({1, out_offsets_map.at(1)});
 
diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_sdpa_opt.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_sdpa_opt.cl
@@ -43,12 +43,6 @@ KERNEL(pa_sdpa_opt)(
 #if HAS_ALIBI
     const __global ALIBI_INPUT_TYPE* alibi_slopes,
 #endif
-
-#if HAS_ROTATED_BLOCKS
-    const __global INPUT7_TYPE* rotated_block_indices,
-    const __global INPUT8_TYPE* rotation_deltas,
-    const __global INPUT9_TYPE* rotation_trig_lut,
-#endif
     __global OUTPUT_TYPE* output,
 #if PAGED_ATTENTION_SCORES_OUTPUT
     __global SOFTMAX_ACCUMULATOR_TYPE* softmax_results,
diff --git a/src/plugins/intel_gpu/tests/unit/test_cases/paged_attention_gpu_test.cpp b/src/plugins/intel_gpu/tests/unit/test_cases/paged_attention_gpu_test.cpp
@@ -5,6 +5,7 @@
 #include "test_utils.h"
 #include "random_generator.hpp"
 
+#include <intel_gpu/primitives/activation.hpp>
 #include <intel_gpu/primitives/data.hpp>
 #include <intel_gpu/primitives/eltwise.hpp>
 #include <intel_gpu/primitives/input_layout.hpp>
@@ -306,6 +307,12 @@ struct PagedAttentionManager {
         auto layout = mem->get_layout();
         layout.set_partial_shape(ov::PartialShape{ max_context_len[0], head_size });
 
+        if (rotated_block_indices.empty()) {
+            auto empty_layout = mem->get_layout();
+            empty_layout.set_partial_shape(ov::PartialShape{ 0, head_size });
+            return test_engine.reinterpret_buffer(*mem, empty_layout);
+        }
+
         return test_engine.reinterpret_buffer(*mem, layout);
     }
 
@@ -741,7 +748,7 @@ struct PagedAttentionTest : public ::testing::TestWithParam<T> {
         if (p.rotation_config.apply_rotation) {
             pa_inputs.push_back(input_info("rotated_block_indices"));
             pa_inputs.push_back(input_info("rotation_deltas"));
-            pa_inputs.push_back(input_info("rotation_trig_lut"));
+            pa_inputs.push_back(input_info("rotation_trig_lut_modified"));
         }
 
         auto pa_prim = paged_attention("paged_attention", pa_inputs);
@@ -782,6 +789,9 @@ struct PagedAttentionTest : public ::testing::TestWithParam<T> {
             topology.add(input_layout("rotated_block_indices", rotated_block_indices_layout));
             topology.add(input_layout("rotation_deltas", rotation_deltas_layout));
             topology.add(input_layout("rotation_trig_lut", rotation_trig_lut_layout));
+
+            // add dummy activation operation to simulate an empty PA `rotation_trig_lut` buffer for shapes like [0, head_size]
+            topology.add(activation("rotation_trig_lut_modified", input_info("rotation_trig_lut"), activation_func::none));
         }
 
         ExecutionConfig config = get_test_default_config(get_test_engine());