Enable oneDNN gemm and FC back and disable manual input preparing for prompt stage

sshlyapn · sshlyapn · commit 669f0383c165 · 2024-03-22T09:48:24.000+04:00
diff --git a/src/plugins/intel_gpu/src/graph/impls/ocl/paged_attention.cpp b/src/plugins/intel_gpu/src/graph/impls/ocl/paged_attention.cpp
@@ -93,6 +93,7 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
                 auto is_prefill_memory = instance.input_memory_ptr(5);
                 mem_lock<uint8_t, mem_lock_type::read> is_prefill_memory_lock(is_prefill_memory, service_stream);
                 bool is_prefill_stage = is_prefill_memory_lock[0];
+                is_prefill_stage = false;
 
                 if (!is_prefill_stage) {
                     args.inputs = { instance.input_memory_ptr(0), /* query */
diff --git a/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp b/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp
@@ -1690,7 +1690,6 @@ impl_types layout_optimizer::get_preferred_impl_type(program_node& node, format
         }
     // TODO: uncomment this code when onednn gemm implementations will have real perf improvements vs cldnn
     } else if (node.is_type<fully_connected>() || node.is_type<gemm>()) {
-        return impl_types::ocl;
         if (!_optimization_attributes.use_onednn_impls)
             return impl_types::ocl;
 
diff --git a/src/plugins/intel_gpu/src/graph/paged_attention.cpp b/src/plugins/intel_gpu/src/graph/paged_attention.cpp
@@ -45,6 +45,7 @@ void paged_attention_inst::update_shape_info_tensor(const kernel_impl_params& pa
     auto is_prefill_memory = this->input_memory_ptr(5);
     mem_lock<uint8_t, mem_lock_type::read> is_prefill_memory_lock(is_prefill_memory, service_stream);
     bool is_prefill_stage = is_prefill_memory_lock[0];
+    is_prefill_stage = false;
     if (!is_prefill_stage) {
         parent::update_shape_info_tensor(params);
     } else {

Original file line number	Diff line number	Diff line change
`@@ -1690,7 +1690,6 @@ impl_types layout_optimizer::get_preferred_impl_type(program_node& node, format`
`1690`	`1690`	`}`
`1691`	`1691`	`// TODO: uncomment this code when onednn gemm implementations will have real perf improvements vs cldnn`
`1692`	`1692`	`} else if (node.is_type<fully_connected>() \|\| node.is_type<gemm>()) {`
`1693`		`- return impl_types::ocl;`
`1694`	`1693`	`if (!_optimization_attributes.use_onednn_impls)`
`1695`	`1694`	`return impl_types::ocl;`
`1696`	`1695`