sshlyapn
diff --git a/‎src/plugins/intel_gpu/src/graph/impls/ocl/paged_attention.cpp
+4 b/‎src/plugins/intel_gpu/src/graph/impls/ocl/paged_attention.cpp
+4
diff --git a/‎src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_sdpa_opt.cl
+146-66 b/‎src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_sdpa_opt.cl
+146-66
@@ -1009,6 +1009,10 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
             impl->use_micro_sdpa = true;
         }
 
+        std::cout << "use_micro=" << impl->use_micro_sdpa << " KV-cache layouts=["
+                  << impl_param.get_input_layout(3).to_short_string() << ", "
+                  << impl_param.get_input_layout(4).to_short_string() << "]\n";
+
         return impl;
     }
 
 
@@ -24,6 +24,11 @@
     #error pa_sdpa_opt.cl
 #endif
 
+#if HEADS_PER_REQUEST > 1
+    #define STORE_QUERY_TO_SLM 1
+    #define TO_SOFTMAX_ACCUMULATOR_TYPE_VEC CAT(convert_float, HEADS_PER_REQUEST)
+#endif
+
 REQD_SUB_GROUP_SIZE(SUBGROUP_SIZE)
 __attribute__((reqd_work_group_size(1, 1, HEAD_SIZE * SG_SCALE_FACTOR)))
 KERNEL(pa_sdpa_opt)(
@@ -74,7 +79,18 @@ KERNEL(pa_sdpa_opt)(
     // tmp_out: [sequences_num, HEADS_NUM, total_partitions_num, HEAD_SIZE]
 
     const uint seq_idx = get_global_id(0);
+#if HEADS_PER_REQUEST > 1
+    const uint heads_group_idx = get_global_id(1);
+    const uint head_num_idx = heads_group_idx * HEADS_PER_REQUEST - ((heads_group_idx / REQUESTS_PER_KV_HEAD) * HEADS_PROCESSING_LEFTOVER);
+    const uint iter_heads_num = min(BROADCAST_GROUP_SIZE - ((heads_group_idx % REQUESTS_PER_KV_HEAD) * HEADS_PER_REQUEST), (uint)HEADS_PER_REQUEST);
+
+    // if (get_global_id(0) == 0 && get_global_id(2) == 0) {
+    //     printf("id=%d, head_num_idx=%d, iter_heads_num=%d\n", heads_group_idx, head_num_idx, iter_heads_num);
+    // }
+
+#else
     const uint head_num_idx = get_global_id(1);
+#endif
     const uint sglid = get_sub_group_local_id();
     const uint sgid = get_sub_group_id();
     const uint total_partitions_num = get_num_groups(2);
@@ -110,36 +126,45 @@ KERNEL(pa_sdpa_opt)(
 
 #ifdef STORE_QUERY_TO_SLM
     // SLM buffer for query inputs
-    __local INPUT0_TYPE slm_query[HEAD_SIZE];
+    __local INPUT0_TYPE slm_query[HEAD_SIZE * HEADS_PER_REQUEST];
 #endif
 
     // SLM for intermediate QK results
-    __local SOFTMAX_ACCUMULATOR_TYPE slm_qk_vals[SEQ_LEN_PARTITION_SIZE];
+    __local SOFTMAX_ACCUMULATOR_TYPE slm_qk_vals[SEQ_LEN_PARTITION_SIZE * HEADS_PER_REQUEST];
 
     // SLM buffers for SoftMax calculation and qk_max/qk_sums results aggregation across all WGs
-    __local SOFTMAX_ACCUMULATOR_TYPE slm_qk_max_vals[SUBGROUPS_PER_WG];
-    __local SOFTMAX_ACCUMULATOR_TYPE slm_exp_sum_vals[SUBGROUPS_PER_WG];
+    __local SOFTMAX_ACCUMULATOR_TYPE slm_qk_max_vals[SUBGROUPS_PER_WG * HEADS_PER_REQUEST];
+    __local SOFTMAX_ACCUMULATOR_TYPE slm_exp_sum_vals[SUBGROUPS_PER_WG * HEADS_PER_REQUEST];
 
-    SOFTMAX_ACCUMULATOR_TYPE qk_max = SOFTMAX_ACCUMULATOR_VAL_MIN;
+    MAKE_VECTOR_TYPE(SOFTMAX_ACCUMULATOR_TYPE, HEADS_PER_REQUEST) qk_max = SOFTMAX_ACCUMULATOR_VAL_MIN;
 
     {
 #if STORE_QUERY_TO_SLM
-        const uint query_idx_local = sgid * SUBGROUP_SIZE + sglid;
-        const uint query_idx = INPUT0_OFFSET +
-                               seq_idx * (HEAD_SIZE * HEADS_NUM + INPUT0_PAD_BEFORE_FEATURE_NUM + INPUT0_PAD_AFTER_FEATURE_NUM) +
-                               head_num_idx * HEAD_SIZE +
-                               query_idx_local;
-
-        INPUT0_TYPE q_val = BLOCK_READN(INPUT0_TYPE, 1, query, query_idx);
+        for (uint idx = sgid * SUBGROUP_SIZE; idx < HEADS_PER_REQUEST * HEAD_SIZE; idx += SUBGROUP_SIZE) {
+            const uint query_idx_local = idx % HEAD_SIZE + sglid;
+            const uint head_idx = idx / HEAD_SIZE;
 
-        // Apply scale value directly to the query input to improve accuracy in case of a high range of input data
-#ifdef SCALE_VAL
-        q_val = TO_INPUT0_TYPE(SCALE_VAL) * q_val;
-#else
-        q_val = *scale * q_val;
+#if HEADS_PROCESSING_LEFTOVER > 0
+            // Do not load more than needed
+            if (head_idx >= iter_heads_num)
+                break;
 #endif
 
-        slm_query[query_idx_local] = q_val;
+            const uint query_idx = INPUT0_OFFSET +
+                                   seq_idx * (HEAD_SIZE * HEADS_NUM + INPUT0_PAD_BEFORE_FEATURE_NUM + INPUT0_PAD_AFTER_FEATURE_NUM) +
+                                   (head_num_idx + head_idx) * HEAD_SIZE +
+                                   query_idx_local;
+
+            INPUT0_TYPE q_val = BLOCK_READN(INPUT0_TYPE, 1, query, query_idx);
+            // Apply scale value directly to the query input to improve accuracy in case of a high range of input data
+    #ifdef SCALE_VAL
+            q_val = TO_INPUT0_TYPE(SCALE_VAL) * q_val;
+    #else
+            q_val = *scale * q_val;
+    #endif
+
+            slm_query[head_idx * HEAD_SIZE + query_idx_local] = q_val;
+        }
 
         barrier(CLK_LOCAL_MEM_FENCE);
 #else
@@ -175,7 +200,7 @@ KERNEL(pa_sdpa_opt)(
 #endif
             const uint block_offset = block_indices[start_block_idx + block_num * SUBGROUPS_PER_WG] * ADJUSTED_HEAD_SIZE * KV_HEADS_NUM * SUBGROUP_SIZE + head_idx * ADJUSTED_HEAD_SIZE * SUBGROUP_SIZE;
 
-            SOFTMAX_ACCUMULATOR_TYPE qk_acc = SOFTMAX_ACCUMULATOR_VAL_ZERO;
+            MAKE_VECTOR_TYPE(SOFTMAX_ACCUMULATOR_TYPE, HEADS_PER_REQUEST) qk_acc = SOFTMAX_ACCUMULATOR_VAL_ZERO;
 
             #define KEY_VEC_SIZE SUBGROUP_SIZE
             #define KEY_BLOCK MAKE_VECTOR_TYPE(INPUT1_TYPE, KEY_VEC_SIZE)
@@ -202,12 +227,15 @@ KERNEL(pa_sdpa_opt)(
 #endif
 
 #if STORE_QUERY_TO_SLM
-                INPUT0_TYPE q_val = slm_query[qk_idx * KEY_VEC_SIZE + sglid];
+                MAKE_VECTOR_TYPE(INPUT0_TYPE, HEADS_PER_REQUEST) q_val;
+                unroll_for (uint i = 0; i < HEADS_PER_REQUEST; i++) {
+                    q_val[i] = slm_query[i * HEAD_SIZE + qk_idx * KEY_VEC_SIZE + sglid];
+                }
 #endif
 
                 unroll_for (uint i = 0; i < KEY_VEC_SIZE; i++) {
 #if STORE_QUERY_TO_SLM
-                    qk_acc = mad(TO_SOFTMAX_ACCUMULATOR_TYPE(sub_group_broadcast(q_val, i)), TO_SOFTMAX_ACCUMULATOR_TYPE(k_vals[i]), qk_acc);
+                    qk_acc = mad(TO_SOFTMAX_ACCUMULATOR_TYPE_VEC(sub_group_broadcast(q_val, i)), TO_SOFTMAX_ACCUMULATOR_TYPE(k_vals[i]), qk_acc);
 #else
                     qk_acc = mad(TO_SOFTMAX_ACCUMULATOR_TYPE(sub_group_broadcast(q_val[qk_idx], i)), TO_SOFTMAX_ACCUMULATOR_TYPE(k_vals[i]), qk_acc);
 #endif
@@ -218,7 +246,7 @@ KERNEL(pa_sdpa_opt)(
 
 #ifdef HAS_ALIBI
             const int alibi_val = (1 - seq_len) + token_idx;
-            qk_acc += alibi_slopes[head_num_idx] * alibi_val;
+            qk_acc += alibi_slopes[head_num_idx] * alibi_val; // TODO: UPDATE THIS
 #endif
 
 #if SLIDING_WINDOW_SIZE != 0
@@ -228,30 +256,41 @@ KERNEL(pa_sdpa_opt)(
 #endif
                 qk_acc = SOFTMAX_ACCUMULATOR_VAL_MIN;
 
-            qk_max = SOFTMAX_ACCUMULATOR_MAX_FUNC(qk_max, TO_SOFTMAX_ACCUMULATOR_TYPE(qk_acc));
+            qk_max = SOFTMAX_ACCUMULATOR_MAX_FUNC(qk_max, TO_SOFTMAX_ACCUMULATOR_TYPE_VEC(qk_acc));
 
-            slm_qk_vals[block_num * SUBGROUPS_PER_WG * SUBGROUP_SIZE + sgid * SUBGROUP_SIZE + sglid] = qk_acc;
+            unroll_for (uint i = 0; i < HEADS_PER_REQUEST; i++) {
+                slm_qk_vals[i * SEQ_LEN_PARTITION_SIZE + block_num * SUBGROUPS_PER_WG * SUBGROUP_SIZE + sgid * SUBGROUP_SIZE + sglid] = qk_acc[i];
+            }
         }
 
-        qk_max = sub_group_reduce_max(qk_max);
+        unroll_for (uint i = 0; i < HEADS_PER_REQUEST; i++) {
+            qk_max[i] = sub_group_reduce_max(qk_max[i]);
+        }
     }
 
     {
         // SoftMax calculation
         if (sglid == 0) {
-            slm_qk_max_vals[sgid] = qk_max;
+            unroll_for (uint i = 0; i < HEADS_PER_REQUEST; i++) {
+                slm_qk_max_vals[i * SUBGROUPS_PER_WG + sgid] = qk_max[i];
+            }
         }
 
         barrier(CLK_LOCAL_MEM_FENCE);
 
         qk_max = SOFTMAX_ACCUMULATOR_VAL_MIN;
-        if (sglid < SUBGROUPS_PER_WG)
-            qk_max = slm_qk_max_vals[sglid];
+        if (sglid < SUBGROUPS_PER_WG) {
+            unroll_for (uint i = 0; i < HEADS_PER_REQUEST; i++) {
+                qk_max[i] = slm_qk_max_vals[i * SUBGROUPS_PER_WG + sglid];
+            }
+        }
 
         // Final max value after reduction across of all SG and WI
-        qk_max = sub_group_reduce_max(qk_max);
+        unroll_for (uint i = 0; i < HEADS_PER_REQUEST; i++) {
+            qk_max[i] = sub_group_reduce_max(qk_max[i]);
+        }
 
-        SOFTMAX_ACCUMULATOR_TYPE exp_sum = SOFTMAX_ACCUMULATOR_VAL_ZERO;
+        MAKE_VECTOR_TYPE(SOFTMAX_ACCUMULATOR_TYPE, HEADS_PER_REQUEST) exp_sum = SOFTMAX_ACCUMULATOR_VAL_ZERO;
 
         const uint qk_iters_num = CEIL_DIV(SEQ_LEN_PARTITION_SIZE, SUBGROUPS_PER_WG * SUBGROUP_SIZE);
         for (uint qk_idx = 0; qk_idx < qk_iters_num; qk_idx++) {
@@ -264,27 +303,38 @@ KERNEL(pa_sdpa_opt)(
 #else
             if (global_data_idx < seq_len && local_data_idx < SEQ_LEN_PARTITION_SIZE) {
 #endif
-                SOFTMAX_ACCUMULATOR_TYPE qk_new = native_exp(TO_SOFTMAX_ACCUMULATOR_TYPE(slm_qk_vals[local_data_idx]) - qk_max);
-                slm_qk_vals[local_data_idx] = qk_new;
-
-                exp_sum += qk_new;
+                unroll_for (uint i = 0; i < HEADS_PER_REQUEST; i++) {
+                    SOFTMAX_ACCUMULATOR_TYPE qk_new = native_exp(TO_SOFTMAX_ACCUMULATOR_TYPE(slm_qk_vals[i * SEQ_LEN_PARTITION_SIZE + local_data_idx]) - qk_max[i]);
+                    slm_qk_vals[i * SEQ_LEN_PARTITION_SIZE + local_data_idx] = qk_new;
+                    exp_sum[i] += qk_new;
+                }
             }
         }
 
-        exp_sum = sub_group_reduce_add(exp_sum);
+        unroll_for (uint i = 0; i < HEADS_PER_REQUEST; i++) {
+            exp_sum[i] = sub_group_reduce_add(exp_sum[i]);
+        }
 
-        if (sglid == 0)
-            slm_exp_sum_vals[sgid] = exp_sum;
+        if (sglid == 0) {
+            unroll_for (uint i = 0; i < HEADS_PER_REQUEST; i++) {
+                slm_exp_sum_vals[i * SUBGROUPS_PER_WG + sgid] = exp_sum[i];
+            }
+        }
 
         barrier(CLK_LOCAL_MEM_FENCE);
 
         exp_sum = SOFTMAX_ACCUMULATOR_VAL_ZERO;
 
-        if (sglid < SUBGROUPS_PER_WG)
-            exp_sum = slm_exp_sum_vals[sglid];
+        if (sglid < SUBGROUPS_PER_WG) {
+            unroll_for (uint i = 0; i < HEADS_PER_REQUEST; i++) {
+               exp_sum[i] = slm_exp_sum_vals[i * SUBGROUPS_PER_WG + sglid];
+            }
+        }
 
         // Final sum of all exp_sum values
-        exp_sum = sub_group_reduce_add(exp_sum);
+        unroll_for (uint i = 0; i < HEADS_PER_REQUEST; i++) {
+            exp_sum[i] = sub_group_reduce_add(exp_sum[i]);
+        }
 
         for (uint qk_idx = 0; qk_idx < qk_iters_num; qk_idx++) {
             const uint local_data_idx = qk_idx * (SUBGROUPS_PER_WG * SUBGROUP_SIZE) + sgid * SUBGROUP_SIZE + sglid;
@@ -295,8 +345,10 @@ KERNEL(pa_sdpa_opt)(
 #else
             if (global_data_idx < seq_len && local_data_idx < SEQ_LEN_PARTITION_SIZE) {
 #endif
-                SOFTMAX_ACCUMULATOR_TYPE qk_new = TO_SOFTMAX_ACCUMULATOR_TYPE(slm_qk_vals[local_data_idx]) / exp_sum;
-                slm_qk_vals[local_data_idx] = qk_new;
+                unroll_for (uint i = 0; i < HEADS_PER_REQUEST; i++) {
+                    SOFTMAX_ACCUMULATOR_TYPE qk_new = TO_SOFTMAX_ACCUMULATOR_TYPE(slm_qk_vals[i * SEQ_LEN_PARTITION_SIZE + local_data_idx]) / exp_sum[i];
+                    slm_qk_vals[i * SEQ_LEN_PARTITION_SIZE + local_data_idx] = qk_new;
+                }
             }
         }
 
@@ -305,13 +357,19 @@ KERNEL(pa_sdpa_opt)(
         {
             // Save temporary exm_sums and max_logits values for each partition_num
             if (seq_len > SEQ_LEN_PARTITION_SIZE && sgid == 0) {
-                const uint exp_sums_offset = seq_idx * HEADS_NUM * total_partitions_num +
-                                             head_num_idx * total_partitions_num +
-                                             partition_idx;
-                exp_sums[exp_sums_offset] = exp_sum;
-
-                const uint max_logits_offset = exp_sums_offset;
-                max_logits[max_logits_offset] = qk_max;
+                unroll_for (uint i = 0; i < HEADS_PER_REQUEST; i++) {
+#if HEADS_PROCESSING_LEFTOVER > 0
+                    if (i >= iter_heads_num)
+                        break;
+#endif
+                    const uint exp_sums_offset = seq_idx * HEADS_NUM * total_partitions_num +
+                                                 (head_num_idx + i) * total_partitions_num +
+                                                 partition_idx;
+                    exp_sums[exp_sums_offset] = exp_sum[i];
+
+                    const uint max_logits_offset = exp_sums_offset;
+                    max_logits[max_logits_offset] = qk_max[i];
+                }
             }
 
 #if PAGED_ATTENTION_SCORES_OUTPUT
@@ -327,6 +385,7 @@ KERNEL(pa_sdpa_opt)(
             // PagedAttention is supposed to save only last "row" of the QK matrix multiplication,
             // so save SEQ_LEN_PARTITION_SIZE elements for each partition
             if (save_softmax_results) {
+                // TODO: UPDATE THIS
                 const uint output_offset = subsequence_idx * HEADS_NUM * total_partitions_num * SEQ_LEN_PARTITION_SIZE +
                                            head_num_idx * total_partitions_num * SEQ_LEN_PARTITION_SIZE +
                                            partition_idx * SEQ_LEN_PARTITION_SIZE;
@@ -340,7 +399,7 @@ KERNEL(pa_sdpa_opt)(
 
     {
         // QK*V calculation
-        OUTPUT_TYPE acc = OUTPUT_VAL_ZERO;
+        MAKE_VECTOR_TYPE(OUTPUT_TYPE, HEADS_PER_REQUEST) acc = OUTPUT_VAL_ZERO;
 
         const uint partition_seq_len = min(seq_len - partition_idx * SEQ_LEN_PARTITION_SIZE, (uint)SEQ_LEN_PARTITION_SIZE);
 
@@ -398,10 +457,12 @@ KERNEL(pa_sdpa_opt)(
             VALUE_BLOCK value_vals = v_vals_packed;
 #endif
 
-            OUTPUT_TYPE qk_val = slm_qk_vals[block_num * PAGED_ATTENTION_BLOCK_SIZE + sglid];
+            unroll_for (uint iq = 0; iq < HEADS_PER_REQUEST; iq++) {
+                OUTPUT_TYPE qk_val = slm_qk_vals[iq * SEQ_LEN_PARTITION_SIZE + block_num * PAGED_ATTENTION_BLOCK_SIZE + sglid];
 
-            unroll_for (uint i = 0; i < VALUE_VEC_SIZE; i++) {
-                acc = mad(sub_group_broadcast(qk_val, i), value_vals[i], acc);
+                unroll_for (uint i = 0; i < VALUE_VEC_SIZE; i++) {
+                    acc[iq] = mad(sub_group_broadcast(qk_val, i), value_vals[i], acc[iq]);
+                }
             }
         }
 
@@ -426,7 +487,11 @@ KERNEL(pa_sdpa_opt)(
             INPUT0_TYPE comp_zp = value_comp_ptr[PAGED_ATTENTION_BLOCK_SIZE + sglid];
 #endif
 
-            OUTPUT_TYPE qk_val = slm_qk_vals[blocks_num_per_partition * PAGED_ATTENTION_BLOCK_SIZE + sglid];
+            MAKE_VECTOR_TYPE(OUTPUT_TYPE, HEADS_PER_REQUEST) qk_val;
+            unroll_for (uint iq = 0; iq < HEADS_PER_REQUEST; iq++) {
+                qk_val[iq] = slm_qk_vals[iq * SEQ_LEN_PARTITION_SIZE + blocks_num_per_partition * PAGED_ATTENTION_BLOCK_SIZE + sglid];
+            }
+            // OUTPUT_TYPE qk_val =
             for (uint i = 0; i < leftovers; i++) {
                 INPUT2_TYPE value_packed = BLOCK_READN(INPUT2_TYPE, 1, value_cache, value_offset + i * HEAD_SIZE);
 #if IS_KV_COMPRESSED
@@ -437,7 +502,9 @@ KERNEL(pa_sdpa_opt)(
                 VALUE_UNCOMPRESSED value_val = value_packed;
 #endif
 
-                acc = mad(sub_group_broadcast(qk_val, i), value_val, acc);
+                unroll_for (uint iq = 0; iq < HEADS_PER_REQUEST; iq++) {
+                    acc[iq] = mad(sub_group_broadcast(qk_val[iq], i), value_val, acc[iq]);
+                }
             }
         }
 
@@ -469,20 +536,33 @@ KERNEL(pa_sdpa_opt)(
 #endif
 
         if (seq_len > SEQ_LEN_PARTITION_SIZE) {
-            const uint tmp_out_offset = seq_idx * (HEADS_NUM * HEAD_SIZE * total_partitions_num) +
-                                        head_num_idx * (HEAD_SIZE * total_partitions_num) +
-                                        partition_idx * HEAD_SIZE +
-                                        sgid * SUBGROUP_SIZE +
-                                        sglid;
+            unroll_for (uint iq = 0; iq < HEADS_PER_REQUEST; iq++) {
+#if HEADS_PROCESSING_LEFTOVER > 0
+                if (iq >= iter_heads_num)
+                    break;
+#endif
+
+                const uint tmp_out_offset = seq_idx * (HEADS_NUM * HEAD_SIZE * total_partitions_num) +
+                                            (head_num_idx + iq) * (HEAD_SIZE * total_partitions_num) +
+                                            partition_idx * HEAD_SIZE +
+                                            sgid * SUBGROUP_SIZE +
+                                            sglid;
 
-            tmp_out[tmp_out_offset] = acc;
+                tmp_out[tmp_out_offset] = acc[iq];
+            }
         } else {
-            const uint output_offset = seq_idx * (HEADS_NUM * HEAD_SIZE) +
-                                       head_num_idx * HEAD_SIZE +
-                                       sgid * SUBGROUP_SIZE +
-                                       sglid;
+            unroll_for (uint iq = 0; iq < HEADS_PER_REQUEST; iq++) {
+#if HEADS_PROCESSING_LEFTOVER > 0
+                if (iq >= iter_heads_num)
+                    break;
+#endif
+                const uint output_offset = seq_idx * (HEADS_NUM * HEAD_SIZE) +
+                                           (head_num_idx + iq) * HEAD_SIZE +
+                                           sgid * SUBGROUP_SIZE +
+                                           sglid;
 
-            output[output_offset] = acc;
+                output[output_offset] = acc[iq];
+            }
         }
 
 #if SG_SCALE_FACTOR > 1
Original file line number	Diff line number	Diff line change
`@@ -1009,6 +1009,10 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {`
`1009`	`1009`	`impl->use_micro_sdpa = true;`
`1010`	`1010`	`}`
`1011`	`1011`
	`1012`	`+ std::cout << "use_micro=" << impl->use_micro_sdpa << " KV-cache layouts=["`
	`1013`	`+ << impl_param.get_input_layout(3).to_short_string() << ", "`
	`1014`	`+ << impl_param.get_input_layout(4).to_short_string() << "]\n";`
	`1015`	`+`
`1012`	`1016`	`return impl;`
`1013`	`1017`	`}`
`1014`	`1018`