Speculative decoding related changes

sshlyapn · sshlyapn · commit 47c7e5d73d56 · 2024-04-22T09:41:48.000+04:00
diff --git a/src/plugins/intel_cpu/src/nodes/scaled_attn.cpp b/src/plugins/intel_cpu/src/nodes/scaled_attn.cpp
@@ -801,6 +801,8 @@ struct ScaledDotProductAttention::AttentionExecutor : public ScaledDotProductAtt
         v_input.reset(inputs[2]);
         present_key.reset(presentk_input);
         present_value.reset(presentv_input);
+        // std::cout << "is_PA=" << is_pagedattn << " q_input=" << inputs[0]->getShape().toPartialShape() << " k_input" << inputs[1]->getShape().toPartialShape()
+        //           << " present_key=" << presentk_input->getShape().toPartialShape() << " present_value=" << presentv_input->getShape().toPartialShape() << "\n";
         if (is_pagedattn) {
             is_prompt = *inputs[ID_IS_PROMPT]->getDataAs<uint8_t>() == 1;
             //auto max_context_len = static_cast<size_t>(*inputs[ID_MAX_CONTEXT_LEN]->getDataAs<int32_t>());
@@ -825,13 +827,17 @@ struct ScaledDotProductAttention::AttentionExecutor : public ScaledDotProductAtt
             // L0 in each batch may be different
             L0 = 0;
 
+            // std::cout << "Assert 1\n";
             q_input.assert_dims({B, L1, H * S});
             if (!is_prompt) {
+                // std::cout << "Assert 2\n";
                 context_lens.assert_dims({B});
+                // std::cout << "Assert 3\n";
                 beam_table.assert_dims({B, 0}, true);
             } else {
                 sliding_window = static_cast<size_t>(*inputs[ID_SLIDING_WINDOW]->getDataAs<int32_t>());
             }
+            // std::cout << "Assert 4\n";
             output_emb.assert_dims({B, L1, H * S});
             q_input = q_input.reshape({B, L1, H, S}).permute({0, 2, 1, 3});
             k_input = k_input.reshape({B, L1, Hk, S}).permute({0, 2, 1, 3});
@@ -872,22 +878,31 @@ struct ScaledDotProductAttention::AttentionExecutor : public ScaledDotProductAtt
             auto Hk = k_input.size(1);
 
             if (fuse_concat) {
+                // std::cout << "Assert 5\n";
                 k_input.assert_dims({B, Hk, L1, S});
+                // std::cout << "Assert 6\n";
                 v_input.assert_dims({B, Hk, L1, S});
             } else {
+                // std::cout << "Assert 7\n";
                 k_input.assert_dims({B, Hk, L0 + L1, S});
+                // std::cout << "Assert 8\n";
                 v_input.assert_dims({B, Hk, L0 + L1, S});
             }
+            // std::cout << "Assert 9\n";
             present_key.assert_dims({B, Hk, L0 + L1, S});
+            // std::cout << "Assert 10\n";
             present_value.assert_dims({B, Hk, L0 + L1, S});
-            if (beam_table)
+            if (beam_table) {
+                // std::cout << "Assert 11\n";
                 beam_table.assert_dims({B, L0 + L1});
+            }
         }
 
         bool auto_causal;
         bool use_attn_mask;
         if (fuse_causal_attn) {
             assert(attn_mask);
+            // std::cout << "Assert 12\n";
             attn_mask.assert_dims({B, 1, L1, L0 + L1});
             auto_causal = true;
             use_attn_mask = true;
diff --git a/src/plugins/intel_gpu/src/graph/graph_optimizer/mark_runtime_skippable_nodes.cpp b/src/plugins/intel_gpu/src/graph/graph_optimizer/mark_runtime_skippable_nodes.cpp
@@ -101,7 +101,8 @@ void mark_runtime_skippable_nodes::run(program& p) {
             if (node.is_output()
                 || node.has_fused_primitives()
                 || (impl_params->get_input_layout(0).format != impl_params->get_output_layout().format)
-                || (impl_params->get_input_layout(0).data_type != impl_params->get_output_layout().data_type))
+                || (impl_params->get_input_layout(0).data_type != impl_params->get_output_layout().data_type)
+                || node.is_in_shape_of_subgraph())
                 return;
 
             if (node.is_dynamic()) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/ocl/paged_attention.cpp b/src/plugins/intel_gpu/src/graph/impls/ocl/paged_attention.cpp
@@ -71,13 +71,14 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
                              instance.input_memory_ptr(4)   /* value_cache */ };
         } else if (stage == Stage::SDPA) {
             if (kernel_idx == 0) {
-                args.inputs = { instance.input_memory_ptr(0), /* query */
-                                instance.input_memory_ptr(3), /* key_cache */
-                                instance.input_memory_ptr(4), /* value_cache */
-                                instance.input_memory_ptr(7), /* max_context_len */
-                                instance.input_memory_ptr(8), /* context_lens */
-                                instance.input_memory_ptr(9), /* block_tables */
-                                instance.input_memory_ptr(10) /* scale */ };
+                args.inputs = { instance.input_memory_ptr(0),  /* query */
+                                instance.input_memory_ptr(3),  /* key_cache */
+                                instance.input_memory_ptr(4),  /* value_cache */
+                                instance.input_memory_ptr(7),  /* max_context_len */
+                                instance.input_memory_ptr(8),  /* context_lens */
+                                instance.input_memory_ptr(9),  /* block_tables */
+                                instance.input_memory_ptr(10), /* scale */
+                                instance.input_memory_ptr(5)   /* is_prompt */ };
             } else {
                 args.inputs = { instance.input_memory_ptr(8), /* context_lens */ };
             }
@@ -212,10 +213,11 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
     static sdpa_kernel_params_t get_sdpa_kernel_params(const kernel_impl_params& impl_param, bool is_dynamic = false) {
         auto params = get_default_params<kernel_selector::sdpa_params>(impl_param, is_dynamic);
 
-        const auto inputs_count = 7;
+        const auto inputs_count = 8;
         const auto query_layout = impl_param.get_input_layout(0);
         const auto key_cache_layout = impl_param.get_input_layout(3);
         const auto value_cache_layout = impl_param.get_input_layout(4);
+        const auto is_prompt_layout = impl_param.get_input_layout(5);
         const auto max_context_len_layout = impl_param.get_input_layout(7);
         const auto context_lens_layout = impl_param.get_input_layout(8);
         const auto block_tables_layout = impl_param.get_input_layout(9);
@@ -228,6 +230,7 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
         params.inputs[4] = convert_data_tensor(context_lens_layout);
         params.inputs[5] = convert_data_tensor(block_tables_layout);
         params.inputs[6] = convert_data_tensor(scale_layout);
+        params.inputs[7] = convert_data_tensor(is_prompt_layout);
 
         params.configuration = get_sdpa_configuration(impl_param);
         if (!is_dynamic) {
@@ -240,6 +243,7 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
             mem_lock<uint8_t, mem_lock_type::read> is_prompt_stage_mem_lock(is_prompt_stage_mem, impl_param.get_stream());
             bool is_prompt_stage = is_prompt_stage_mem_lock[0];
 
+
             if (is_prompt_stage) {
                 // Use number of slots for KV cache as a maximum context length for the first iteration
                 auto slot_mapping = impl_param.get_input_layout(6);
@@ -249,6 +253,7 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
                 mem_lock<int32_t, mem_lock_type::read> max_context_len_mem_lock(max_context_len_mem, impl_param.get_stream());
                 params.configuration.max_context_len = max_context_len_mem_lock[0];
             }
+            // std::cout << "is_prompt_stage=" << is_prompt_stage << " params.configuration.max_context_len=" << params.configuration.max_context_len << "\n";
         }
 
         const auto& in_offsets_map = impl_param.in_port_to_shape_info_offset;
@@ -261,6 +266,7 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
             {4, in_offsets_map.at(8)},
             {5, in_offsets_map.at(9)},
             {6, in_offsets_map.at(10)},
+            {7, in_offsets_map.at(5)},
         };
         std::map<size_t, size_t> out_tensor_to_offset_map = {
             {0, out_offsets_map.at(0)},
diff --git a/src/plugins/intel_gpu/src/graph/primitive_inst.cpp b/src/plugins/intel_gpu/src/graph/primitive_inst.cpp
@@ -1548,6 +1548,9 @@ primitive_inst::primitive_inst(network & network, program_node const& node, bool
             _outputs = allocate_outputs();
         }
     }
+    if (_node) {
+        GPU_DEBUG_TRACE_DETAIL << _node->type()->to_string(*_node) << "\n";
+    }
     if (_impl) {
         _impl->set_node_params(node);
         if (_impl->is_dynamic() && !_impl->is_cpu()) {
diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_kv_cache_update_ref.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_kv_cache_update_ref.cl
@@ -26,6 +26,11 @@ KERNEL(pa_kv_cache_update)(
     const uint block_index = slot_idx / KV_CACHE_BLOCK_SIZE;
     const uint block_offset = slot_idx % KV_CACHE_BLOCK_SIZE;
 
+
+    // if (batch_idx == 0 && hidden_idx == 0) {
+    //     printf("Update kv_cache %d: block_dx=%d offset=%d, slot_idx=%d\n", seq_idx, block_index, block_offset, slot_idx);
+    // }
+
 #ifdef VALUE_CACHE_UPDATE
     const uint out_offset = CACHE_BLOCK_STRIDE * block_index +
                             hidden_idx * KV_CACHE_BLOCK_SIZE +
diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_sdpa_ref.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_sdpa_ref.cl
@@ -14,7 +14,7 @@
 #define Q_LOAD_ITERS (HEAD_SIZE / SUB_GROUP_SIZE)
 
 // How much QK outputs each subgroup calculates per block
-#define QK_VALS_PER_SG_PER_ITER (BLOCK_SIZE / SUBGROUPS_PER_WG)
+#define QK_VALS_PER_SG_PER_ITER CEIL_DIV(BLOCK_SIZE, SUBGROUPS_PER_WG)
 
 #define KV_CACHE_BLOCK_STRIDE (HEAD_SIZE * KV_HEADS_NUM * BLOCK_SIZE)
 
@@ -35,6 +35,7 @@ KERNEL(pa_sdpa_ref)(
     const __global INPUT4_TYPE* context_lens,
     const __global INPUT5_TYPE* block_tables,
     const __global INPUT6_TYPE* scale,
+    const __global INPUT7_TYPE* is_prompt,
 #ifdef USE_SEQ_LEN_SPLIT
     __global OUTPUT_TYPE* output,
     __global ACCUMULATOR_TYPE* exp_sums,
@@ -71,6 +72,10 @@ KERNEL(pa_sdpa_ref)(
 
     const uint total_blocks_num = CEIL_DIV(context_len, BLOCK_SIZE);
 
+    // if (get_global_id(0) == 0 && get_global_id(1) == 0 && get_global_id(2) == 0) {
+    //     printf("context_len=%d block_start_idx=%d total_blocks_num=%d context_len=%d, SCALE_VAL=%f is_prompt=%d\n", context_len, block_start_idx, total_blocks_num, context_len, scale[0], is_prompt[0]);
+    // }
+
     __local OUTPUT_TYPE qk_vals_local[SHARED_MEM_SIZE];
     ACCUMULATOR_TYPE qk_max = ACCUMULATOR_VAL_MIN;
 
@@ -99,7 +104,12 @@ KERNEL(pa_sdpa_ref)(
             for (uint q_idx = 0; q_idx < Q_LOAD_ITERS; q_idx++) {
                 for (uint qk_idx = 0; qk_idx < QK_VALS_PER_SG_PER_ITER; qk_idx++) {
                     uint current_token = (block_start_idx + block_num) * BLOCK_SIZE + sgid * QK_VALS_PER_SG_PER_ITER + qk_idx;
+#if BLOCK_SIZE % SUBGROUPS_PER_WG != 0
+                    // TODO: Optimize for BLOCK_SIZE % SUBGROUPS_PER_WG != 0 case
+                    if (current_token >= context_len || sgid >= BLOCK_SIZE / QK_VALS_PER_SG_PER_ITER)
+#else
                     if (current_token >= context_len)
+#endif
                         continue;
 
                     const uint key_idx = block_offset +
@@ -120,27 +130,44 @@ KERNEL(pa_sdpa_ref)(
                 }
             }
 
+            // if (context_len == 17 && sgid == 4 && QK_VALS_PER_SG_PER_ITER == 4 && (head_num_idx == 0 || head_num_idx == 1 || head_num_idx == 28)) {
+            //     printf("FROM SGID=4; token_idx=%d, head_num=%d block_num=%d, sglid=%d: %f %f %f %f \n", token_idx, head_num_idx, block_num, sglid,
+            //     qk[0], qk[1], qk[2], qk[3]);
+            // }
+
             // Summurize qk calculation across all WIs and apply scale
             for (uint qk_idx = 0; qk_idx < QK_VALS_PER_SG_PER_ITER; qk_idx++) {
                 const uint current_token = (block_start_idx + block_num) * BLOCK_SIZE + sgid * QK_VALS_PER_SG_PER_ITER + qk_idx;
+#if BLOCK_SIZE % SUBGROUPS_PER_WG != 0
+                if (current_token < context_len && sgid < BLOCK_SIZE / QK_VALS_PER_SG_PER_ITER) {
+#else
                 if (current_token < context_len) {
+#endif
                     qk[qk_idx] = sub_group_reduce_add(qk[qk_idx]);
 
                     // Apply scale
                     qk[qk_idx] = scale[0] * qk[qk_idx];
 
                     // Apply attention mask for context processing stage
-                    const bool is_prefill_stage = INPUT0_FEATURE_NUM > 1;
-                    if (is_prefill_stage && current_token > token_idx) {
-                        qk[qk_idx] = qk[qk_idx] + OUTPUT_VAL_MIN;
+                    const unsigned char is_prefill_stage = is_prompt[0];
+                    if (is_prefill_stage == 1) {
+                        if (current_token > token_idx)
+                            qk[qk_idx] = qk[qk_idx] + OUTPUT_VAL_MIN;
+                    } else if (is_prefill_stage == 2) {
+                        if (current_token > context_len - INPUT0_FEATURE_NUM + token_idx)
+                            qk[qk_idx] = qk[qk_idx] + OUTPUT_VAL_MIN;
                     }
 
                     qk_max = ACCUMULATOR_MAX_FUNC(qk_max, TO_ACCUMULATOR_TYPE(qk[qk_idx]));
                 }
             }
 
             // Save QK results to local memory
+#if BLOCK_SIZE % SUBGROUPS_PER_WG != 0
+            if (sglid < QK_VALS_PER_SG_PER_ITER && sgid < BLOCK_SIZE / QK_VALS_PER_SG_PER_ITER) {
+#else
             if (sglid < QK_VALS_PER_SG_PER_ITER) {
+#endif
                 const uint current_token_global_idx = (block_start_idx + block_num) * BLOCK_SIZE + sgid * QK_VALS_PER_SG_PER_ITER + sglid;
 #ifdef USE_SEQ_LEN_SPLIT
                 const uint current_token_local = block_num * BLOCK_SIZE + sgid * QK_VALS_PER_SG_PER_ITER + sglid;
@@ -152,6 +179,33 @@ KERNEL(pa_sdpa_ref)(
         }
     }
 
+    // barrier(CLK_LOCAL_MEM_FENCE);
+    // if (get_global_id(1) == 0 && get_global_id(2) == 0) {
+    //     if (context_len == 15)
+    //         printf("token_idx=%d, qk_vals_local: %f, %f, %f, %f, %f,  %f, %f, %f, %f, %f,  %f, %f, %f, %f, %f: %d\n",
+    //             token_idx, qk_vals_local[0], qk_vals_local[1], qk_vals_local[2], qk_vals_local[3], qk_vals_local[4],
+    //             qk_vals_local[5], qk_vals_local[6], qk_vals_local[7], qk_vals_local[8], qk_vals_local[9],
+    //             qk_vals_local[10], qk_vals_local[11], qk_vals_local[12], qk_vals_local[13], qk_vals_local[14], is_prompt[0]);
+    //     else if (context_len == 16)
+    //         printf("token_idx=%d, qk_vals_local: %f, %f, %f, %f, %f,  %f, %f, %f, %f, %f,  %f, %f, %f, %f, %f,  %f: %d\n",
+    //             token_idx, qk_vals_local[0], qk_vals_local[1], qk_vals_local[2], qk_vals_local[3], qk_vals_local[4],
+    //             qk_vals_local[5], qk_vals_local[6], qk_vals_local[7], qk_vals_local[8], qk_vals_local[9],
+    //             qk_vals_local[10], qk_vals_local[11], qk_vals_local[12], qk_vals_local[13], qk_vals_local[14], qk_vals_local[15], is_prompt[0]);
+    //     else if (context_len == 17)
+    //         printf("token_idx=%d, qk_vals_local: %f, %f, %f, %f, %f,  %f, %f, %f, %f, %f,  %f, %f, %f, %f, %f,  %f, %f: %d\n",
+    //             token_idx, qk_vals_local[0], qk_vals_local[1], qk_vals_local[2], qk_vals_local[3], qk_vals_local[4],
+    //             qk_vals_local[5], qk_vals_local[6], qk_vals_local[7], qk_vals_local[8], qk_vals_local[9],
+    //             qk_vals_local[10], qk_vals_local[11], qk_vals_local[12], qk_vals_local[13], qk_vals_local[14], qk_vals_local[15], qk_vals_local[16], is_prompt[0]);
+    // }
+
+    // barrier(CLK_LOCAL_MEM_FENCE);
+    // if (context_len == 17 && sgid == 4 && sglid == 0) {
+    //     printf("FROM SGID=4; token_idx=%d, head_num=%d qk_vals_local: %f, %f, %f, %f, %f,  %f, %f, %f, %f, %f,  %f, %f, %f, %f, %f,  %f, %f: %d. qk_max=%f\n",
+    //             token_idx, head_num_idx, qk_vals_local[0], qk_vals_local[1], qk_vals_local[2], qk_vals_local[3], qk_vals_local[4],
+    //             qk_vals_local[5], qk_vals_local[6], qk_vals_local[7], qk_vals_local[8], qk_vals_local[9],
+    //             qk_vals_local[10], qk_vals_local[11], qk_vals_local[12], qk_vals_local[13], qk_vals_local[14], qk_vals_local[15], qk_vals_local[16], is_prompt[0], qk_max);
+    // }
+
     // Apply SoftMax operation
     __local ACCUMULATOR_TYPE qk_max_vals[SUBGROUPS_PER_WG];
     __local ACCUMULATOR_TYPE qk_sum_vals[SUBGROUPS_PER_WG];
@@ -168,6 +222,16 @@ KERNEL(pa_sdpa_ref)(
         // Final max value after reduction across of all SG and WI
         qk_max = sub_group_reduce_max(qk_max);
 
+        // barrier(CLK_LOCAL_MEM_FENCE);
+        // if (context_len == 17 && get_global_id(2) == 0 && (head_num_idx == 1 || head_num_idx == 28) && SUBGROUPS_PER_WG == 5) {
+        //     printf("Calculation QK_VALS token_idx=%d, head_num=%d qk_vals_local: %f (-qk_max = %f, native_exp = %f), %f, %f, %f, %f,  %f, %f, %f, %f, %f,  %f, %f, %f, %f, %f,  %f, %f(-qk_max = %f, native_exp = %f): %d. qk_max=%f (%f %f %f %f %f)\n",
+        //             token_idx, head_num_idx, qk_vals_local[0], TO_ACCUMULATOR_TYPE(qk_vals_local[0] - qk_max), native_exp(TO_ACCUMULATOR_TYPE(qk_vals_local[0]) - qk_max), qk_vals_local[1], qk_vals_local[2], qk_vals_local[3], qk_vals_local[4],
+        //             qk_vals_local[5], qk_vals_local[6], qk_vals_local[7], qk_vals_local[8], qk_vals_local[9],
+        //             qk_vals_local[10], qk_vals_local[11], qk_vals_local[12], qk_vals_local[13], qk_vals_local[14], qk_vals_local[15],
+        //             qk_vals_local[16], TO_ACCUMULATOR_TYPE(qk_vals_local[16] - qk_max), native_exp(TO_ACCUMULATOR_TYPE(qk_vals_local[16]) - qk_max),
+        //              is_prompt[0], qk_max, qk_max_vals[0], qk_max_vals[1], qk_max_vals[2], qk_max_vals[3], qk_max_vals[4]);
+        // }
+
         ACCUMULATOR_TYPE exp_sum = ACCUMULATOR_VAL_ZERO;
 #ifdef USE_SEQ_LEN_SPLIT
         const uint qk_num = (num_of_portions == 1) ? CEIL_DIV(context_len, SUBGROUPS_PER_WG * SUB_GROUP_SIZE)
@@ -189,6 +253,15 @@ KERNEL(pa_sdpa_ref)(
             }
         }
 
+
+        // barrier(CLK_LOCAL_MEM_FENCE);
+        // if (context_len == 17 && get_global_id(2) == 0) {
+        //     printf("UPDATED QK_VALS token_idx=%d, head_num=%d qk_vals_local: %f, %f, %f, %f, %f,  %f, %f, %f, %f, %f,  %f, %f, %f, %f, %f,  %f, %f: %d. qk_max=%f\n",
+        //             token_idx, head_num_idx, qk_vals_local[0], qk_vals_local[1], qk_vals_local[2], qk_vals_local[3], qk_vals_local[4],
+        //             qk_vals_local[5], qk_vals_local[6], qk_vals_local[7], qk_vals_local[8], qk_vals_local[9],
+        //             qk_vals_local[10], qk_vals_local[11], qk_vals_local[12], qk_vals_local[13], qk_vals_local[14], qk_vals_local[15], qk_vals_local[16], is_prompt[0], qk_max);
+        // }
+
         exp_sum = sub_group_reduce_add(exp_sum);
 
         if (sglid == 0)
@@ -236,6 +309,16 @@ KERNEL(pa_sdpa_ref)(
             }
         }
 #endif
+
+
+        // if (context_len == 17 && get_global_id(2) == 0 && SUBGROUPS_PER_WG == 5) {
+        //     printf("SF result: token_idx=%d, head_num=%d qk_vals_local: %f, %f, %f, %f, %f,  %f, %f, %f, %f, %f,  %f, %f, %f, %f, %f,  %f, %f; Total qk_max=%f total sum=%f (%f %f %f %f %f)\n",
+        //             token_idx, head_num_idx, qk_vals_local[0], qk_vals_local[1], qk_vals_local[2], qk_vals_local[3], qk_vals_local[4],
+        //             qk_vals_local[5], qk_vals_local[6], qk_vals_local[7], qk_vals_local[8], qk_vals_local[9],
+        //             qk_vals_local[10], qk_vals_local[11], qk_vals_local[12], qk_vals_local[13], qk_vals_local[14], qk_vals_local[15], qk_vals_local[16], qk_max, exp_sum,
+        //             qk_sum_vals[0], qk_sum_vals[1], qk_sum_vals[2], qk_sum_vals[3], qk_sum_vals[4]);
+
+        // }
     }
 
     {
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/paged_attention/sdpa_kernel_ref.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/paged_attention/sdpa_kernel_ref.cpp
@@ -12,7 +12,7 @@ namespace kernel_selector {
 // For kernel w/o split
 constexpr size_t max_sequence_length = 3072;
 
-constexpr size_t seq_len_portion_size = 256;
+constexpr size_t seq_len_portion_size = 512;
 constexpr size_t subgroup_size = 16;
 
 const Datatype softmax_acc_dt = Datatype::F32;
@@ -160,6 +160,7 @@ ParamsKey SDPAKernelRef::GetSupportedKey() const {
     ParamsKey key;
     key.EnableInputDataType(Datatype::F16);
     key.EnableInputDataType(Datatype::F32);
+    key.EnableInputDataType(Datatype::UINT8);
     key.EnableInputDataType(Datatype::INT32);
     key.EnableOutputDataType(Datatype::F16);
     key.EnableOutputDataType(Datatype::F32);
diff --git a/src/plugins/intel_gpu/src/plugin/ops/custom.cpp b/src/plugins/intel_gpu/src/plugin/ops/custom.cpp
diff --git a/src/plugins/intel_gpu/src/plugin/sync_infer_request.cpp b/src/plugins/intel_gpu/src/plugin/sync_infer_request.cpp

Original file line number	Diff line number	Diff line change
`@@ -1548,6 +1548,9 @@ primitive_inst::primitive_inst(network & network, program_node const& node, bool`
`1548`	`1548`	`_outputs = allocate_outputs();`
`1549`	`1549`	`}`
`1550`	`1550`	`}`
	`1551`	`+ if (_node) {`
	`1552`	`+ GPU_DEBUG_TRACE_DETAIL << _node->type()->to_string(*_node) << "\n";`
	`1553`	`+ }`
`1551`	`1554`	`if (_impl) {`
`1552`	`1555`	`_impl->set_node_params(node);`
`1553`	`1556`	`if (_impl->is_dynamic() && !_impl->is_cpu()) {`