sshlyapn · Apr 24, 2024
diff --git a/‎src/plugins/intel_gpu/src/graph/impls/ocl/scaled_dot_product_attention.cpp
+12-6 b/‎src/plugins/intel_gpu/src/graph/impls/ocl/scaled_dot_product_attention.cpp
+12-6
diff --git a/‎src/plugins/intel_gpu/src/kernel_selector/cl_kernels/gemm_ref.cl
+8 b/‎src/plugins/intel_gpu/src/kernel_selector/cl_kernels/gemm_ref.cl
+8
diff --git a/‎src/plugins/intel_gpu/src/kernel_selector/cl_kernels/sdpa_opt.cl
+202 b/‎src/plugins/intel_gpu/src/kernel_selector/cl_kernels/sdpa_opt.cl
+202
diff --git a/‎src/plugins/intel_gpu/src/kernel_selector/cl_kernels/sdpa_ref.cl
+2 b/‎src/plugins/intel_gpu/src/kernel_selector/cl_kernels/sdpa_ref.cl
+2
diff --git a/‎src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_base.cpp
-17 b/‎src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_base.cpp
-17
diff --git a/‎src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_base.h
+7-15 b/‎src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_base.h
+7-15
@@ -5,7 +5,7 @@
 #include "primitive_base.hpp"
 #include "scaled_dot_product_attention_inst.h"
 #include "sdpa/sdpa_kernel_selector.h"
-#include "sdpa/sdpa_kernel_ref.h"
+#include "sdpa/sdpa_kernel_base.h"
 
 namespace cldnn {
 namespace ocl {
@@ -21,6 +21,16 @@ struct scaled_dot_product_attention_impl : typed_primitive_impl_ocl<scaled_dot_p
         return make_unique<scaled_dot_product_attention_impl>(*this);
     }
 
+    static kernel_selector::sdpa_configuration get_sdpa_configuration(const kernel_impl_params& impl_param) {
+        kernel_selector::sdpa_configuration config;
+
+        const auto query_ps = impl_param.get_input_layout(0).get_partial_shape();
+        if (query_ps[query_ps.size() - 1].is_static())
+            config.head_size = query_ps[query_ps.size() - 1].get_length();
+
+        return config;
+    }
+
     static kernel_params_t get_kernel_params(const kernel_impl_params& impl_param, bool is_dynamic) {
         const auto& primitive = impl_param.typed_desc<scaled_dot_product_attention>();
         auto params = get_default_params<kernel_selector::sdpa_params>(impl_param, is_dynamic);
@@ -31,11 +41,7 @@ struct scaled_dot_product_attention_impl : typed_primitive_impl_ocl<scaled_dot_p
         params.inputs[2] = convert_data_tensor(impl_param.get_input_layout(2));
         params.inputs[3] = convert_data_tensor(impl_param.get_input_layout(3));
 
-        // std::cout << impl_param.typed_desc<scaled_dot_product_attention>()->id << "in[0] " << impl_param.get_input_layout(0).to_short_string() << "\n";
-        // std::cout << impl_param.typed_desc<scaled_dot_product_attention>()->id << "in[1] " << impl_param.get_input_layout(1).to_short_string() << "\n";
-        // std::cout << impl_param.typed_desc<scaled_dot_product_attention>()->id << "in[2] " << impl_param.get_input_layout(2).to_short_string() << "\n";
-        // std::cout << impl_param.typed_desc<scaled_dot_product_attention>()->id << "in[3] " << impl_param.get_input_layout(3).to_short_string() << "\n";
-        // std::cout << impl_param.typed_desc<scaled_dot_product_attention>()->id << "out[0] " << impl_param.get_output_layout(0).to_short_string() << "\n";
+        params.conf = get_sdpa_configuration(impl_param);
 
         params.set_dynamic_shape_offsets();
 
 
@@ -143,7 +143,15 @@ KERNEL(gemm_ref)(
         ACCUMULATOR_TYPE val0 = TO_ACCUMULATOR_TYPE(input0[in0_idx]);
         ACCUMULATOR_TYPE val1 = TO_ACCUMULATOR_TYPE(input1[in1_idx]);
 
+
+        // ACCUMULATOR_TYPE tmp_acc = acc;
         acc += val0 * val1;
+        // if ((x < 2) && (y < 2) && get_global_id(2) == 0) {
+        //     printf("y=%d(%d). x=%d(%d). ki=%d. %f = %f * %f + %f (in0_idx=%d, in1_idx=%d), %d %d %d\n",
+        //         y, OUTPUT_SIZE_Y, x, OUTPUT_SIZE_X, ki, acc, val0, val1, tmp_acc,
+        //         in0_idx, in1_idx, get_global_id(0), get_global_id(1), get_global_id(2)
+        //     );
+        // }
     }
 
     acc = TO_ACCUMULATOR_TYPE(ALPHA) * acc;
 
@@ -0,0 +1,202 @@
+// Copyright (C) 2018-2024 Intel Corporation
+// SPDX-License-Identifier: Apache-2.0
+//
+
+#include "include/batch_headers/fetch_data.cl"
+#include "include/batch_headers/common.cl"
+#include "include/batch_headers/sub_group_block_read.cl"
+#include "include/batch_headers/sub_group_block_write.cl"
+#include "include/batch_headers/sub_group_shuffle.cl"
+
+// query_input   [batch, heads_num, q_len, head_size]
+// key_input     [batch, kv_heads_num, kv_len, head_size]
+// value_input   [batch, kv_heads_num, kv_len, head_size]
+// attn_mask     [1, 1, q_len, kv_len]
+// output        [batch, heads_num, q_len, head_size]
+// tmp_buf       [batch, heads_num, q_len, kv_len]
+
+#if OUTPUT_TYPE_SIZE == 4
+    #define VLOAD(offset, ptr) CAT(vload, SUBGROUP_SIZE)(offset, ptr)
+#else
+    #define VLOAD(offset, ptr) CAT(vload, SUBGROUP_SIZE)(offset, (__global ushort*)(ptr))
+#endif
+#define KEY_VEC_TYPE MAKE_VECTOR_TYPE(INPUT1_TYPE, SUBGROUP_SIZE)
+#define AS_VALUE_VEC(val) CAT(as_, KEY_VEC_TYPE)(val)
+
+#define QUERY_BLOCK_READ(ptr, offset) BLOCK_READN(INPUT0_TYPE, 1, ptr, offset)
+#define VALUE_BLOCK_READ(ptr, offset) BLOCK_READN(INPUT2_TYPE, 1, ptr, offset)
+
+#define TOTAL_SEQ_LEN INPUT1_SIZE_Y
+
+#define SUBGROUPS_PER_WG (HEAD_SIZE / SUBGROUP_SIZE)
+
+REQD_SUB_GROUP_SIZE(SUBGROUP_SIZE)
+KERNEL(sdpa_opt)(
+    OPTIONAL_SHAPE_INFO_ARG
+    const __global INPUT0_TYPE* query_input,
+    const __global INPUT1_TYPE* key_input,
+    const __global INPUT2_TYPE* value_input,
+    const __global INPUT3_TYPE* attn_mask,
+    __global OUTPUT_TYPE* output,
+    __global ACCUMULATOR_TYPE* exp_sums,
+    __global ACCUMULATOR_TYPE* max_logits,
+    __global OUTPUT_TYPE* tmp_out
+)
+{
+    uint dim0 = get_global_id(0);
+    uint batch_idx = dim0 / INPUT0_FEATURE_NUM;
+    uint head_num_idx = dim0 % INPUT0_FEATURE_NUM;
+    uint seq_idx = get_global_id(1);
+    uint head_size_idx = get_global_id(2);
+
+    const uint lid = get_local_id(2);
+    const uint sgid = get_sub_group_id();
+    const uint sglid = get_sub_group_local_id();
+
+    const uint partition_id = get_group_id(2);
+    const uint num_of_partitions = get_num_groups(2);
+    const uint wi_num_per_partition = get_local_size(2);
+
+    const uint partition_seq_len =
+        ((partition_id + 1) < num_of_partitions) ? (SEQ_LEN_PARTITION_SIZE)
+                                                : (TOTAL_SEQ_LEN % SEQ_LEN_PARTITION_SIZE);
+
+    __local OUTPUT_TYPE qk_vals_local[SLM_SIZE];
+    ACCUMULATOR_TYPE qk_max = ACCUMULATOR_VAL_MIN;
+
+#ifndef INPUT4_TYPE
+    const OUTPUT_TYPE scale_val = OUTPUT_VAL_ONE / sqrt(TO_OUTPUT_TYPE(HEAD_SIZE));
+#endif
+
+    /* Calculate Gemm1 */
+    for (uint seq_len = lid; seq_len < partition_seq_len; seq_len += wi_num_per_partition) {
+        uint query_offset = INPUT0_GET_INDEX(batch_idx, head_num_idx, seq_idx, 0);
+        uint key_offset = INPUT1_GET_INDEX(batch_idx, head_num_idx, /* TODO: start_partition_idx + seq_len */ seq_len, 0);
+
+        INPUT0_TYPE acc = INPUT0_VAL_ZERO;
+        unroll_for (uint h = 0; h < HEAD_SIZE; h += SUBGROUP_SIZE) {
+            INPUT0_TYPE query_val = QUERY_BLOCK_READ(query_input, query_offset);
+            KEY_VEC_TYPE key_vec = AS_VALUE_VEC(VLOAD(0, key_input + key_offset));
+
+            unroll_for (uint i = 0; i < SUBGROUP_SIZE; i++) {
+                acc = mad(sub_group_broadcast(query_val, i), key_vec[i], acc);
+            }
+
+            query_offset += SUBGROUP_SIZE;
+            key_offset += SUBGROUP_SIZE;
+        }
+
+        // Apply scale
+        acc *= scale_val;
+
+        // Apply attention mask
+        uint attn_mask_offset = INPUT3_GET_INDEX_SAFE(batch_idx, head_num_idx, seq_idx, /* TODO: start_partition_idx + seq_len */ seq_len);
+        acc += attn_mask[attn_mask_offset];
+
+        // Update qk_max value
+        qk_max = ACCUMULATOR_MAX_FUNC(qk_max, TO_ACCUMULATOR_TYPE(acc));
+
+        qk_vals_local[seq_len] = acc;
+    }
+
+    /* Apply SoftMax */
+    __local ACCUMULATOR_TYPE qk_max_vals[SUBGROUPS_PER_WG];
+    __local ACCUMULATOR_TYPE qk_sum_vals[SUBGROUPS_PER_WG];
+    {
+        // Find the maximum value of qk in the subgroup
+        qk_max = sub_group_reduce_max(qk_max);
+
+        // Find the maximum value of qk across all subgroups in the workgroup
+        if (sglid == 0)
+            qk_max_vals[sgid] = qk_max;
+
+        barrier(CLK_LOCAL_MEM_FENCE);
+
+        qk_max = ACCUMULATOR_VAL_MIN;
+        if (sglid < SUBGROUPS_PER_WG)
+            qk_max = qk_max_vals[sglid];
+
+        // Final maximum value of qk after reduction across all subgroups
+        qk_max = sub_group_reduce_max(qk_max);
+
+        ACCUMULATOR_TYPE exp_sum = ACCUMULATOR_VAL_ZERO;
+        const uint qk_num_per_wi = CEIL_DIV(partition_seq_len, SUBGROUPS_PER_WG * SUBGROUP_SIZE);
+        for (uint qk_idx = 0; qk_idx < qk_num_per_wi; qk_idx++) {
+            const uint local_data_idx = qk_idx * (SUBGROUPS_PER_WG * SUBGROUP_SIZE) + sgid * SUBGROUP_SIZE + sglid;
+            if (local_data_idx < partition_seq_len) {
+                ACCUMULATOR_TYPE qk_new = native_exp(TO_ACCUMULATOR_TYPE(qk_vals_local[local_data_idx]) - qk_max);
+                qk_vals_local[local_data_idx] = TO_OUTPUT_TYPE(qk_new);
+
+                exp_sum += qk_new;
+            }
+        }
+
+        exp_sum = sub_group_reduce_add(exp_sum);
+
+        if (sglid == 0)
+            qk_sum_vals[sgid] = exp_sum;
+
+        barrier(CLK_LOCAL_MEM_FENCE);
+
+        exp_sum = ACCUMULATOR_VAL_ZERO;
+
+        if (sglid < SUBGROUPS_PER_WG)
+            exp_sum = qk_sum_vals[sglid];
+
+        // Find the final sum of all exp_sum values in workgroup
+        exp_sum = sub_group_reduce_add(exp_sum);
+
+        const ACCUMULATOR_TYPE inv_sum = ACCUMULATOR_VAL_ONE / exp_sum;
+        for (uint qk_idx = 0; qk_idx < qk_num_per_wi; qk_idx++) {
+            const uint local_data_idx = qk_idx * (SUBGROUPS_PER_WG * SUBGROUP_SIZE) + sgid * SUBGROUP_SIZE + sglid;
+            if (local_data_idx < partition_seq_len) {
+                ACCUMULATOR_TYPE qk_new = TO_ACCUMULATOR_TYPE(qk_vals_local[local_data_idx]) * inv_sum;
+                qk_vals_local[local_data_idx] = TO_OUTPUT_TYPE(qk_new);
+            }
+        }
+
+        barrier(CLK_LOCAL_MEM_FENCE);
+
+        {
+            // Save temporary exm_sums and max_logits values for each portion
+            if (num_of_partitions > 1 && sgid == 0) {
+                const uint exp_sums_offset = seq_idx * HEADS_NUM * num_of_partitions +
+                                             head_num_idx * num_of_partitions +
+                                             partition_id;
+                exp_sums[exp_sums_offset] = exp_sum;
+
+                const uint max_logits_offset = exp_sums_offset;
+                max_logits[max_logits_offset] = qk_max;
+            }
+        }
+    }
+
+    /* Calculate Gemm2 */
+    {
+        OUTPUT_TYPE acc = OUTPUT_VAL_ZERO;
+        for (uint seq_len = 0; seq_len < partition_seq_len; seq_len++) {
+            const uint value_offset = INPUT1_GET_INDEX(batch_idx, head_num_idx, /* TODO: start_partition_idx + seq_len */ seq_len, head_size_idx);
+
+            /* Load seq_len / 16 + sglid */
+            OUTPUT_TYPE qk_val = qk_vals_local[seq_len];
+            INPUT2_TYPE value_val = VALUE_BLOCK_READ(value_input, value_offset);
+
+            acc = mad(qk_val, value_val, acc);
+        }
+
+        if (num_of_partitions > 1) {
+            const uint tmp_out_offset = seq_idx * (HEADS_NUM * HEAD_SIZE * num_of_partitions) +
+                                        head_num_idx * (HEAD_SIZE * num_of_partitions) +
+                                        partition_id * HEAD_SIZE +
+                                        sgid * SUBGROUP_SIZE +
+                                        sglid;
+
+            // tmp_output data layout [num_seqs, num_heads, num_portions, head_size]
+            tmp_out[tmp_out_offset] = acc;
+        } else {
+            const uint output_offset = OUTPUT_GET_INDEX(batch_idx, head_num_idx, seq_idx, head_size_idx);
+
+            output[output_offset] = acc;
+        }
+    }
+}
@@ -37,6 +37,8 @@ KERNEL(sdpa_ref)(
     const OUTPUT_TYPE scale = OUTPUT_VAL_ONE / sqrt(TO_OUTPUT_TYPE(INPUT1_SIZE_X));
 #endif
 
+    // Process 1*seq_len elements (Gemm1 + SoftMax) using a single work item, saving results to tmp_buf and
+    // reusing them between all work items within a single workgroup for Gemm2 calculations.
     if (get_local_id(2) == 0) {
         for (uint s = 0; s < INPUT1_SIZE_Y /* seq_len */; s++) {
             OUTPUT_TYPE acc = 0;
 
@@ -21,23 +21,6 @@ bool SDPAKernelBase::Validate(const Params& p) const {
     return true;
 }
 
-CommonDispatchData SDPAKernelBase::SetDefault(const sdpa_params& params) const {
-    CommonDispatchData dispatchData;
-
-    auto in_layout = params.inputs[0].GetLayout();
-    auto out_layout = params.outputs[0].GetLayout();
-    std::vector<std::vector<Tensor::DataChannelName>> dims_by_gws = {{ Tensor::DataChannelName::BATCH },
-                                                                     { Tensor::DataChannelName::FEATURE },
-                                                                     { Tensor::DataChannelName::X, Tensor::DataChannelName::Y,
-                                                                       Tensor::DataChannelName::Z, Tensor::DataChannelName::W }};
-
-    const auto& output = params.outputs[0];
-    dispatchData.gws = { output.Batch().v, output.Feature().v, output.W().v * output.Z().v * output.Y().v * output.X().v };
-    dispatchData.lws = GetOptimalLocalWorkGroupSizes(dispatchData.gws, params.engineInfo, in_layout, out_layout, dims_by_gws);
-
-    return dispatchData;
-}
-
 JitConstants SDPAKernelBase::GetJitConstants(const sdpa_params& params) const {
     JitConstants jit = MakeBaseParamsJitConstants(params);
 
 
@@ -9,26 +9,19 @@
 #include <vector>
 
 namespace kernel_selector {
+struct sdpa_configuration {
+    int64_t head_size = -1;
+    int64_t heads_num = -1;
+    int64_t kv_heads_num = -1;
+};
+
 ////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
 // sdpa_params
 ////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
 struct sdpa_params : public base_params {
     sdpa_params() : base_params(KernelType::SDPA) {}
-    DimTensor<uint32_t> block_shape;
-    DimTensor<uint32_t> crops_begin;
-    DimTensor<uint32_t> crops_end;
-
-    base_params::ArgType block_type = base_params::ArgType::Input;
-    base_params::ArgType begin_type = base_params::ArgType::Input;
-    base_params::ArgType end_type = base_params::ArgType::Input;
-
-    size_t block_dims = 0;
-    size_t begin_dims = 0;
-    size_t end_dims = 0;
 
-    size_t block_input_index = 0;
-    size_t begin_input_index = 0;
-    size_t end_input_index = 0;
+    sdpa_configuration conf;
 };
 
 struct sdpa_fuse_params : fuse_params {
@@ -48,7 +41,6 @@ class SDPAKernelBase : public KernelBaseOpenCL {
 protected:
     bool Validate(const Params&) const override;
     virtual JitConstants GetJitConstants(const sdpa_params& params) const;
-    virtual CommonDispatchData SetDefault(const sdpa_params& params) const;
     KernelsData GetCommonKernelsData(const Params& params) const;
 };
 }  // namespace kernel_selector