PagedAttention tests

sshlyapn · sshlyapn · commit 4fa599ea9baa · 2024-03-15T18:35:37.000+04:00
diff --git a/src/plugins/intel_gpu/src/graph/impls/ocl/paged_attention.cpp b/src/plugins/intel_gpu/src/graph/impls/ocl/paged_attention.cpp
@@ -78,6 +78,29 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
     void set_arguments_impl(paged_attention_inst& instance) override {}
 
     kernel_arguments_data get_arguments(const paged_attention_inst& instance, size_t stage) const override {
+        {
+            kernel_arguments_data args;
+            args.shape_info = instance.shape_info_memory_ptr();
+            if (stage == Stage::KV_CACHE_UPDATE) {
+                args.inputs = { instance.input_memory_ptr(1),  /* key */
+                                instance.input_memory_ptr(2),  /* value */
+                                instance.input_memory_ptr(6)   /* slot_mapping */};
+                args.outputs = { instance.input_memory_ptr(3), /* key_cache */
+                                instance.input_memory_ptr(4)   /* value_cache */ };
+            } else if (stage == Stage::SDPA) {
+                args.inputs = { instance.input_memory_ptr(0), /* query */
+                                instance.input_memory_ptr(3), /* key_cache */
+                                instance.input_memory_ptr(4), /* value_cache */
+                                instance.input_memory_ptr(7), /* max_context_len */
+                                instance.input_memory_ptr(8), /* context_lens */
+                                instance.input_memory_ptr(9), /* block_tables */
+                                instance.input_memory_ptr(10) /* scale */ };
+                args.outputs = { instance.output_memory_ptr(0) };
+            }
+
+            return args;
+        }
+
         // WA due to lack of proper handling of key and value cache buffers. Keep them in impl for test purpose.
         if (value_cache_mem == nullptr) {
             const auto key_cache_layout = instance.get_impl_params()->get_input_layout(3);
@@ -201,6 +224,11 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
             const int64_t heads_num = hidden_size / head_size;
             const int64_t num_queries_per_kv = heads_num / kv_heads_num;
 
+            std::cout << "Prefill stage: batch_size=" << batch_size << " seq_len=" << seq_len << " hidden_size=" << hidden_size
+                      << " kv_heads_num=" << kv_heads_num << " heads_num=" << heads_num << " head_size=" << head_size
+                      << " q=" << query_layout.to_short_string() << " k_cache=" << key_cache_layout.to_short_string()
+                      << " v_cache=" << value_cache_layout.to_short_string() << "\n";
+
             auto attention_bias = generate_attention_bias(batch_size, seq_len, sliding_window, instance.get_network().get_engine());
 
             auto query_mem = instance.input_memory_ptr(0);
diff --git a/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp b/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp
@@ -1690,6 +1690,7 @@ impl_types layout_optimizer::get_preferred_impl_type(program_node& node, format
         }
     // TODO: uncomment this code when onednn gemm implementations will have real perf improvements vs cldnn
     } else if (node.is_type<fully_connected>() || node.is_type<gemm>()) {
+        return impl_types::ocl;
         if (!_optimization_attributes.use_onednn_impls)
             return impl_types::ocl;
 
diff --git a/src/plugins/intel_gpu/src/graph/network.cpp b/src/plugins/intel_gpu/src/graph/network.cpp
@@ -1054,7 +1054,7 @@ void network::execute_impl(const std::vector<event::ptr>& events) {
             auto prog_id = ((get_program() != nullptr) ? get_program()->get_id() : 0);
             auto net_id = get_id();
             GPU_DEBUG_IF(debug_config->is_target_iteration(curr_iter) &&
-                        debug_config->is_layer_for_dumping(layer_name, inst->is_output(), inst->is_input()) && prog_id == 2) {
+                        debug_config->is_layer_for_dumping(layer_name, inst->is_output(), inst->is_input())) {
                 std::string debug_str_for_bin_load = " Command for loading : OV_GPU_LoadDumpRawBinary=\""
                                                         + layer_name + ":";
                 for (size_t i = 0; i < get_primitive(layer_name)->outputs_memory_count(); i++) {
diff --git a/src/plugins/intel_gpu/src/graph/primitive_inst.cpp b/src/plugins/intel_gpu/src/graph/primitive_inst.cpp
@@ -1244,6 +1244,39 @@ event::ptr primitive_inst::execute(const std::vector<event::ptr>& events) {
         GPU_DEBUG_TRACE_DETAIL << "- inputs[" << i << "] : " <<  _deps[i].first->id() << std::endl;
     }
     GPU_DEBUG_TRACE_DETAIL << "-----------------------------------------------------------------" << std::endl;
+
+    std::vector<std::string> print_ids = {"pagedattentionextension:PagedAttentionExtension_606",
+                                          "gemm:MatMul_112999",
+                                          "softmax:Softmax_113002",
+                                          "gemm:__module.model.layers.0.self_attn/aten::transpose/Transpose_3",
+                                        /* BATCHED chatglm3 fp32 */
+                                          "matmul:MatMul_113004",
+                                          "add:Add_113006",
+                                          "softmax:Softmax_113007",
+                                          "matmul:__module.model.layers.0.self_attn/aten::scaled_dot_product_attention/ScaledDotProductAttention",
+                                          "transpose:__module.model.layers.0.self_attn/aten::transpose/Transpose_3",
+                                          /* Batched  open_llama-7b fp32 + INT8 */
+                                          "matmul:MatMul_158917",
+                                          "add:Add_158919",
+                                          "softmax:Softmax_158920",
+                                          "matmul:__module.model.layers.0.self_attn/aten::scaled_dot_product_attention/ScaledDotProductAttention",
+                                          /* open llama FP32_INT4 */
+                                          };
+
+    if (_impl_params->desc->type_string() == "paged_attention" ||
+        _impl_params->desc->type_string() == "softmax" ||
+        _impl_params->desc->type_string() == "gemm" ||
+        _impl_params->desc->type_string() == "eltwise" ||
+        _impl_params->desc->type_string() == "add" ||
+        _impl_params->desc->type_string() == "transpose")
+        print_ids.push_back(id());
+
+    if (std::find(print_ids.begin(), print_ids.end(), id()) != print_ids.end() && get_network().get_config().get_property(ov::enable_profiling)) {
+        GPU_DEBUG_INFO << "Execute " << id() << " (type: " << _impl_params->desc->type_string() << ") " << std::endl;
+        for (size_t i = 0; i < _deps.size(); ++i) {
+            GPU_DEBUG_INFO << "- inputs[" << i << "] : " <<  _deps[i].first->id() << " - " << _deps[i].first->get_output_layout(0).to_short_string()  << std::endl;
+        }
+    }
     bool need_args_update = false;
     _mem_changed = false;
     const auto orig_outputs = _outputs;
@@ -1400,14 +1433,15 @@ event::ptr primitive_inst::execute(const std::vector<event::ptr>& events) {
         GPU_DEBUG_PROFILED_STAGE(instrumentation::pipeline_stage::inference);
         auto ev = _impl->execute(dependencies, *this);
 
-        GPU_DEBUG_IF(!debug_config->dump_profiling_data.empty()) {
+        if (std::find(print_ids.begin(), print_ids.end(), id()) != print_ids.end() && get_network().get_config().get_property(ov::enable_profiling)) {
             get_network().get_stream().wait_for_events({ev});
 
             if (ev != nullptr) {
                 auto profiling_info = ev->get_profiling_info();
                 for (const auto &interval : profiling_info) {
                     if (interval.stage == cldnn::instrumentation::profiling_stage::executing) {
-                        GPU_DEBUG_CODE(stage_prof.set_custom_stage_duration(interval.value->value()));
+                        auto time_res0 = std::chrono::duration_cast<std::chrono::microseconds>(interval.value->value()).count();
+                        GPU_DEBUG_INFO << id() << " performace time = " << time_res0 << " mcs\n";
                     }
                 }
             }
diff --git a/src/plugins/intel_gpu/src/graph/program.cpp b/src/plugins/intel_gpu/src/graph/program.cpp
@@ -700,6 +700,9 @@ void program::transfer_memory_to_device() {
             auto& mem = data_node.get_attached_memory();
             auto mem_layout = mem.get_layout();
             auto alloc_type = mem.get_allocation_type();
+            if (ov::shape_size(mem_layout.get_shape()) == 0)
+                continue;
+            GPU_DEBUG_TRACE_DETAIL << "mem_layout: " << mem_layout.to_short_string() << " data: " << data_node_layout.to_short_string() << "\n";
             if (!mem_layout.compatible(data_node_layout)) {
                 std::string err_str("Node and memory layouts are incompatible, error occurred for " + node->id() + " node");
                 throw std::invalid_argument(err_str);
diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_kv_cache_update_ref.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_kv_cache_update_ref.cl
@@ -36,6 +36,10 @@ KERNEL(pa_kv_cache_update)(
     //     printf("Update value %d. %d (%f)\n", out_offset, in_offset, value_data[in_offset]);
     // }
 
+    // if (batch_idx == 0 && hidden_idx == 0) {
+    //     printf("Update value slot for %d = %d\n", seq_idx, slot_idx);
+    // }
+
     value_cache_data[out_offset] = value_data[in_offset];
 #else
     const uint head_size_outer_block = hidden_idx / X_BLOCK_SIZE;
@@ -49,6 +53,11 @@ KERNEL(pa_kv_cache_update)(
     //     printf("Update key_cache %d. %d (%f); seq_idx=%d, hidden_idx=%d, slot_idx=%d, block_index=%d, block_offset=%d; block_elem_num=%d\n", out_offset, in_offset, key_data[in_offset],
     //             seq_idx, hidden_idx, slot_idx, block_index, block_offset, block_elem_num);
     // }
+
+    // if (batch_idx == 0 && hidden_idx == 0) {
+    //     printf("Update key slot for %d = %d\n", seq_idx, slot_idx);
+    // }
+
     key_cache_data[out_offset] = key_data[in_offset];
 #endif
 }
diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_sdpa_ref.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_sdpa_ref.cl
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/paged_attention/sdpa_kernel_ref.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/paged_attention/sdpa_kernel_ref.cpp
diff --git a/src/plugins/intel_gpu/src/runtime/ocl/ocl_memory.cpp b/src/plugins/intel_gpu/src/runtime/ocl/ocl_memory.cpp

Original file line number	Diff line number	Diff line change
`@@ -1690,6 +1690,7 @@ impl_types layout_optimizer::get_preferred_impl_type(program_node& node, format`
`1690`	`1690`	`}`
`1691`	`1691`	`// TODO: uncomment this code when onednn gemm implementations will have real perf improvements vs cldnn`
`1692`	`1692`	`} else if (node.is_type<fully_connected>() \|\| node.is_type<gemm>()) {`
	`1693`	`+ return impl_types::ocl;`
`1693`	`1694`	`if (!_optimization_attributes.use_onednn_impls)`
`1694`	`1695`	`return impl_types::ocl;`
`1695`	`1696`