sshlyapn
diff --git a/‎src/common/transformations/include/transformations/common_optimizations/convert_pagedattn_inputs.hpp
+3-1 b/‎src/common/transformations/include/transformations/common_optimizations/convert_pagedattn_inputs.hpp
+3-1
diff --git a/‎src/common/transformations/src/transformations/common_optimizations/convert_pagedattn_inputs.cpp
+6-12 b/‎src/common/transformations/src/transformations/common_optimizations/convert_pagedattn_inputs.cpp
+6-12
diff --git a/‎src/plugins/intel_cpu/src/transformations/transformation_pipeline.cpp
+19-1 b/‎src/plugins/intel_cpu/src/transformations/transformation_pipeline.cpp
+19-1
diff --git a/‎src/plugins/intel_gpu/src/graph/impls/ocl/paged_attention.cpp
+12 b/‎src/plugins/intel_gpu/src/graph/impls/ocl/paged_attention.cpp
+12
diff --git a/‎src/plugins/intel_gpu/src/graph/paged_attention.cpp
+2 b/‎src/plugins/intel_gpu/src/graph/paged_attention.cpp
+2
diff --git a/‎src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_kv_cache_rotate_ref.cl
+67-8 b/‎src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_kv_cache_rotate_ref.cl
+67-8
diff --git a/‎src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_kv_cache_update_ref.cl
+84-7 b/‎src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_kv_cache_update_ref.cl
+84-7
@@ -19,6 +19,7 @@ class TRANSFORMATIONS_API ConvertPagedAttnInputs;
 
 class ConvertPagedAttnInputs : public ov::pass::MatcherPass {
 public:
+    using UpdateShapeFunc = std::function<void(ov::element::Type, bool, size_t, int64_t&, int64_t&)>;
     struct KVCacheConfig {
         ov::element::Type keyCachePrecision;
         ov::element::Type valueCachePrecision;
@@ -34,14 +35,15 @@ class ConvertPagedAttnInputs : public ov::pass::MatcherPass {
     };
 
     OPENVINO_MATCHER_PASS_RTTI("ConvertPagedAttnInputs");
-    ConvertPagedAttnInputs(const KVCacheConfig& config);
+    ConvertPagedAttnInputs(const KVCacheConfig& config, UpdateShapeFunc update_shape_func);
 
     void setKVCacheConfig(const KVCacheConfig& config);
 
     const KVCacheConfig& getKVCacheConfig() const;
 
 private:
     KVCacheConfig m_config;
+    UpdateShapeFunc m_update_shape_func;
 };
 
 }  // namespace pass
 
@@ -17,7 +17,9 @@
 #include "transformations/utils/utils.hpp"
 using namespace ov::gen_pattern;
 
-ov::pass::ConvertPagedAttnInputs::ConvertPagedAttnInputs(const KVCacheConfig& config) : m_config(config) {
+ov::pass::ConvertPagedAttnInputs::ConvertPagedAttnInputs(const KVCacheConfig& config, UpdateShapeFunc f)
+    : m_config(config),
+      m_update_shape_func(std::move(f)) {
     MATCHER_SCOPE(ConvertPagedAttnInputs);
 
     auto Q = ov::pass::pattern::any_input(ov::pass::pattern::has_static_rank());
@@ -83,7 +85,7 @@ ov::pass::ConvertPagedAttnInputs::ConvertPagedAttnInputs(const KVCacheConfig& co
                                     const size_t group_size,
                                     const bool bychannel,
                                     const std::vector<size_t>& orders) {
-            size_t _block_size = block_size;
+            ov::Dimension::value_type _block_size = block_size;
             ov::Dimension::value_type _head_nums = head_nums;
             ov::Dimension::value_type _head_size = head_size;
             ov::Dimension::value_type _group_size = group_size;
@@ -94,17 +96,9 @@ ov::pass::ConvertPagedAttnInputs::ConvertPagedAttnInputs(const KVCacheConfig& co
                 }
             }
             size_t group_num = _head_size / _group_size;
-            if (precision == ov::element::u8) {
-                if (bychannel) {
-                    _block_size += 2 * sizeof(float);
-                } else {
-                    _head_size += sizeof(float) * 2 * group_num;
-                }
-            } else if (precision == ov::element::u4) {
-                _head_size += sizeof(float) * 2 * group_num * 2;
-            }
-            auto block_shape = ov::PartialShape::dynamic(4);
+            m_update_shape_func(precision, bychannel, group_num, _head_size, _block_size);
 
+            auto block_shape = ov::PartialShape::dynamic(4);
             block_shape[orders[0]] = -1;
             block_shape[orders[1]] = _head_nums;
             block_shape[orders[2]] = _block_size;
 
@@ -470,7 +470,25 @@ void Transformations::PreLpt(const std::vector<ov::element::Type>& defaultPrecis
     cacheConfig.valueCacheQuantBychannel = false;
     cacheConfig.keyCacheDimOrder = {0, 1, 2, 3};
     cacheConfig.valueCacheDimOrder = {0, 1, 2, 3};
-    CPU_REGISTER_PASS_COMMON(manager, ov::pass::ConvertPagedAttnInputs, cacheConfig);
+    CPU_REGISTER_PASS_COMMON(
+        manager,
+        ov::pass::ConvertPagedAttnInputs,
+        cacheConfig,
+        [](const ov::element::Type& precision,
+           const bool bychannel,
+           const size_t group_num,
+           int64_t& head_size,
+           int64_t& block_size) {
+            if (precision == ov::element::u8) {
+                if (bychannel) {
+                    block_size += 2 * sizeof(float);
+                } else {
+                    head_size += sizeof(float) * 2 * group_num;
+                }
+            } else if (precision == ov::element::u4) {
+                head_size += sizeof(float) * 2 * group_num * 2;
+            }
+        });
     CPU_REGISTER_PASS_COMMON(manager, ov::pass::CommonOptimizations);
     CPU_REGISTER_PASS_X64(manager, ov::pass::KeepConstPrecision, decompression_precisions, false, true);
     CPU_SET_CALLBACK_X64(
 
@@ -671,6 +671,11 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
             config.paged_attention_max_len = max_context_len_mem_lock[0];
         }
 
+        if (data_type_traits::is_i8_u8(impl_param.get_input_layout(3).data_type)) {
+            config.is_kv_compressed = true;
+            config.use_asymmetric_quantization = true;
+        }
+
         return config;
     }
 
@@ -693,6 +698,7 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
         params.inputs[2] = rotation_trig_lut_tensor;
         params.outputs[0] = key_cache_tensor;
 
+        params.original_cache_dt = to_data_type(impl_param.get_input_layout(1).data_type);
         params.conf = get_sdpa_configuration(impl_param, is_dynamic);
 
         const auto& in_offsets_map = impl_param.in_port_to_shape_info_offset;
@@ -810,6 +816,11 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
 
         params.conf = get_sdpa_configuration(impl_param, is_dynamic);
 
+        // Currently, for the processing of the 1st token, plain SDPA kernels are used, which expect
+        // uncompressed plain QKV inputs. Therefore, set is_kv_compressed=false
+        params.conf.is_kv_compressed = false;
+        params.conf.use_asymmetric_quantization = false;
+
         const std::vector<int64_t> default_order = {0, 1, 2, 3};
         params.input0_order = default_order;
         params.input1_order = default_order;
@@ -975,6 +986,7 @@ struct paged_attention_impl : multi_stage_primitive<paged_attention> {
         auto kv_cache_update_kernel_params = get_kv_cache_update_kernel_params(impl_param, stage, input_tensors, impl_param.is_dynamic());
         auto& kv_cache_update_kernel_selector = kv_cache_update_kernel_selector_t::Instance();
         kernels_data.push_back(kv_cache_update_kernel_selector.get_best_kernel(kv_cache_update_kernel_params));
+
         auto sdpa_kernel_params = get_sdpa_kernel_params(impl_param, stage, input_tensors, 0, impl_param.is_dynamic());
         auto& sdpa_kernel_selector = sdpa_kernel_selector_t::Instance();
         kernels_data.push_back(sdpa_kernel_selector.get_best_kernel(sdpa_kernel_params));
 
@@ -73,6 +73,8 @@ std::string paged_attention_inst::to_string(const paged_attention_node& node) {
     paged_attention_info.add("scale", desc->scale_val.value_or(1.0f));
     paged_attention_info.add("has_alibi", desc->has_alibi);
     paged_attention_info.add("has_rotated_blocks", desc->has_rotated_blocks);
+    paged_attention_info.add("key_cache_dt", node.get_input_layout(3).data_type);
+    paged_attention_info.add("value_cache_dt", node.get_input_layout(4).data_type);
     node_info->add("paged_attention primitive info", paged_attention_info);
     node_info->dump(primitive_description);
 
 
@@ -4,10 +4,15 @@
 
 #include "include/batch_headers/common.cl"
 
+#if IS_KV_COMPRESSED
+#define SUBGROUPS_PER_WG 1
+#else
 #define SUBGROUPS_PER_WG KV_HEADS_NUM
+#endif
+#define ACCUMULATOR_TYPE float
 
 REQD_SUB_GROUP_SIZE(SUBGROUP_SIZE)
-__attribute__((reqd_work_group_size(SUBGROUP_SIZE, KV_HEADS_NUM, 1)))
+__attribute__((reqd_work_group_size(SUBGROUP_SIZE, SUBGROUPS_PER_WG, 1)))
 KERNEL(pa_kv_cache_rotate)(
     OPTIONAL_SHAPE_INFO_ARG
     __global const INPUT0_TYPE* rotated_block_indices,
@@ -62,22 +67,76 @@ KERNEL(pa_kv_cache_rotate)(
     barrier(CLK_LOCAL_MEM_FENCE);
 
     const uint token_coefficient_idx = per_token_rotation ? sglid : 0;
-    const uint block_offset = rotated_block_indices[block_idx] * KV_HEADS_NUM * HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE +
-                              head_idx * HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE + sglid;
+    const uint block_base_offset = rotated_block_indices[block_idx] * KV_HEADS_NUM * ADJUSTED_HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE +
+                                   head_idx * ADJUSTED_HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE;
+    const uint token_offset = block_base_offset + sglid;
+
+#if IS_KV_COMPRESSED
+    const uint comp_offset = block_base_offset + HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE;
+    UNCOMPRESSED_TYPE* comp_ptr = key_cache + comp_offset;
+    UNCOMPRESSED_TYPE comp_scale = comp_ptr[0 + sglid];
+    UNCOMPRESSED_TYPE comp_zp = comp_ptr[PAGED_ATTENTION_BLOCK_SIZE + sglid];
+
+    UNCOMPRESSED_TYPE max_value = UNCOMPRESSED_VAL_MIN;
+    UNCOMPRESSED_TYPE min_value = UNCOMPRESSED_VAL_MAX;
+
+    // Reuse SLM to store dequantized rotated values
+    __local UNCOMPRESSED_TYPE* rotated_data = (__local UNCOMPRESSED_TYPE*)(&rotation_coefficients[0][0]);
+#endif
+
+    // Apply cache rotation
     for (uint i = 0; i < HEAD_SIZE / 2; i++) {
-        const uint cache_offset = block_offset + i * PAGED_ATTENTION_BLOCK_SIZE;
-        OUTPUT_TYPE cache_value_first = key_cache[cache_offset];
-        OUTPUT_TYPE cache_value_second = key_cache[cache_offset + (HEAD_SIZE / 2) * PAGED_ATTENTION_BLOCK_SIZE];
+        const uint cache_offset = token_offset + i * PAGED_ATTENTION_BLOCK_SIZE;
+
+#if IS_KV_COMPRESSED
+        UNCOMPRESSED_TYPE cache_value_first = TO_UNCOMPRESSED_TYPE(key_cache[cache_offset] - comp_zp) * comp_scale;
+        UNCOMPRESSED_TYPE cache_value_second = TO_UNCOMPRESSED_TYPE(key_cache[cache_offset + (HEAD_SIZE / 2) * PAGED_ATTENTION_BLOCK_SIZE] - comp_zp) * comp_scale;
+#else
+        UNCOMPRESSED_TYPE cache_value_first = key_cache[cache_offset];
+        UNCOMPRESSED_TYPE cache_value_second = key_cache[cache_offset + (HEAD_SIZE / 2) * PAGED_ATTENTION_BLOCK_SIZE];
+#endif
 
         INPUT2_TYPE rotation_value_cos = rotation_coefficients[i][token_coefficient_idx];
         INPUT2_TYPE rotation_value_sin = rotation_coefficients[i + (HEAD_SIZE / 2)][token_coefficient_idx];
 
-        OUTPUT_TYPE new_cache_value_first = cache_value_first * rotation_value_cos - cache_value_second * rotation_value_sin;
-        OUTPUT_TYPE new_cache_value_second = cache_value_first * rotation_value_sin + cache_value_second * rotation_value_cos;
+        UNCOMPRESSED_TYPE new_cache_value_first = cache_value_first * rotation_value_cos - cache_value_second * rotation_value_sin;
+        UNCOMPRESSED_TYPE new_cache_value_second = cache_value_first * rotation_value_sin + cache_value_second * rotation_value_cos;
 
+#if IS_KV_COMPRESSED
+        max_value = fmax(fmax(max_value, new_cache_value_first), new_cache_value_second);
+        min_value = fmin(fmin(min_value, new_cache_value_first), new_cache_value_second);
+
+        rotated_data[(i + 0) * PAGED_ATTENTION_BLOCK_SIZE + sglid] = new_cache_value_first;
+        rotated_data[(i + (HEAD_SIZE / 2)) * PAGED_ATTENTION_BLOCK_SIZE + sglid] = new_cache_value_second;
+#else
         key_cache[cache_offset] = new_cache_value_first;
         key_cache[cache_offset + (HEAD_SIZE / 2) * PAGED_ATTENTION_BLOCK_SIZE] = new_cache_value_second;
+#endif
+    }
+
+#if IS_KV_COMPRESSED
+    // Re-quantize cache data
+    ACCUMULATOR_TYPE grp_max = 0.001;
+    ACCUMULATOR_TYPE diff_value = max_value == min_value ? (grp_max) : (max_value - min_value);
+    ACCUMULATOR_TYPE scale_tmp = (ACCUMULATOR_TYPE)((CHAR_MAX - CHAR_MIN) / diff_value);
+    ACCUMULATOR_TYPE zp_tmp = (ACCUMULATOR_TYPE)(-min_value * scale_tmp) + CHAR_MIN;
+    UNCOMPRESSED_TYPE scale = (UNCOMPRESSED_TYPE)(scale_tmp);
+    UNCOMPRESSED_TYPE zp = (UNCOMPRESSED_TYPE)(zp_tmp);
+
+    // Note: absence of this explicit unrolling directive leads to automatic
+    // unrolling and causes registers spill. Set unrolling to a reasonable value manually
+    __attribute__((opencl_unroll_hint(8)))
+    for (uint i = 0; i < HEAD_SIZE; i++) {
+        OUTPUT_TYPE quantized_res = convert_char_rte(rotated_data[i * PAGED_ATTENTION_BLOCK_SIZE + sglid] * scale + zp);
+
+        const uint cache_offset = token_offset + i * PAGED_ATTENTION_BLOCK_SIZE;
+        key_cache[cache_offset] = quantized_res;
     }
+
+    comp_ptr[0 + sglid] = 1.0 / scale;
+    comp_ptr[PAGED_ATTENTION_BLOCK_SIZE + sglid] = zp;
+#endif
 }
 
+#undef ACCUMULATOR_TYPE
 #undef SUBGROUPS_PER_WG
@@ -4,6 +4,52 @@
 
 #include "include/batch_headers/common.cl"
 
+inline void FUNC(quantize_and_save)(__global const INPUT0_TYPE* in_data,
+                                    const uint in_data_offset,
+                                    __global OUTPUT_TYPE* out_data,
+                                    const uint out_data_offset,
+                                    const uint out_data_pitch,
+                                    const uint comp_offset,
+                                    const uint token_pos_in_block,
+                                    const uint sglid) {
+    INPUT0_TYPE input_data[HEAD_SIZE / SUBGROUP_SIZE];
+    INPUT0_TYPE grp_max = 0.001;
+    INPUT0_TYPE max_value = INPUT0_VAL_MIN;
+    INPUT0_TYPE min_value = INPUT0_VAL_MAX;
+
+    unroll_for (uint i = 0; i < HEAD_SIZE / SUBGROUP_SIZE; i++) {
+        input_data[i] = BLOCK_READN(INPUT0_TYPE, 1, in_data, in_data_offset + i * SUBGROUP_SIZE);
+        max_value = fmax(max_value, input_data[i]);
+        min_value = fmin(min_value, input_data[i]);
+    }
+
+    min_value = sub_group_reduce_min(min_value);
+    max_value = sub_group_reduce_max(max_value);
+
+    // If the range of input data is zero, it is adjusted to the minimum value(0.001).
+    #define ACCUMULATOR_TYPE float
+    ACCUMULATOR_TYPE diff_value = max_value == min_value ? (grp_max) : (max_value - min_value);
+    ACCUMULATOR_TYPE scale_tmp = (ACCUMULATOR_TYPE)((CHAR_MAX - CHAR_MIN) / diff_value);
+    ACCUMULATOR_TYPE zp_tmp = (ACCUMULATOR_TYPE)(-min_value * scale_tmp) + CHAR_MIN;
+    INPUT0_TYPE scale = (INPUT1_TYPE)(scale_tmp);
+    INPUT0_TYPE zp = (INPUT1_TYPE)(zp_tmp);
+    #undef ACCUMULATOR_TYPE
+
+    unroll_for (uint i = 0; i < HEAD_SIZE / SUBGROUP_SIZE; i++) {
+        OUTPUT_TYPE res = convert_char_rte(input_data[i] * scale + zp);
+
+        uint offset = out_data_offset + (i * SUBGROUP_SIZE + sglid) * out_data_pitch;
+        out_data[offset] = res;
+    }
+
+    INPUT0_TYPE* comp_ptr = out_data + comp_offset;
+
+    if (sglid == 0) {
+        comp_ptr[token_pos_in_block] = 1.0 / scale;
+        comp_ptr[PAGED_ATTENTION_BLOCK_SIZE + token_pos_in_block] = zp;
+    }
+}
+
 REQD_SUB_GROUP_SIZE(SUBGROUP_SIZE)
 __attribute__((reqd_work_group_size(1, 1, SUBGROUP_SIZE)))
 KERNEL(pa_kv_cache_update)(
@@ -41,8 +87,12 @@ KERNEL(pa_kv_cache_update)(
                                seq_idx * (KV_HEADS_NUM * HEAD_SIZE + INPUT1_PAD_BEFORE_FEATURE_NUM + INPUT1_PAD_AFTER_FEATURE_NUM) +
                                head_idx * HEAD_SIZE;
 
-        uint key_out_offset = block_idx * KV_HEADS_NUM * HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE + head_idx * HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE + current_token_pos_in_block;
-        uint value_out_offset = block_idx * KV_HEADS_NUM * HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE + head_idx * HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE + current_token_pos_in_block * HEAD_SIZE;
+        uint block_base_offset = block_idx * KV_HEADS_NUM * ADJUSTED_HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE + head_idx * ADJUSTED_HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE;
+        uint key_out_offset = block_base_offset + current_token_pos_in_block;
+        uint value_out_offset = block_base_offset + current_token_pos_in_block * HEAD_SIZE;
+        const uint comp_offset = block_base_offset + HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE;
+
+#if !IS_KV_COMPRESSED
 
         #define READ_BLOCK_SIZE GENERATE_STAGE_BLOCK_SIZE
         for (uint head_idx_index = 0; head_idx_index < HEAD_SIZE; head_idx_index += SUBGROUP_SIZE * READ_BLOCK_SIZE) {
@@ -71,6 +121,14 @@ KERNEL(pa_kv_cache_update)(
                 #endif
             }
         }
+
+#else // IS_KV_COMPRESSED
+        // key processing
+        FUNC_CALL(quantize_and_save)(key_data, key_in_offset, key_cache_data, key_out_offset, PAGED_ATTENTION_BLOCK_SIZE, comp_offset, current_token_pos_in_block, sglid);
+
+        // value processing
+        FUNC_CALL(quantize_and_save)(value_data, value_in_offset, value_cache_data, value_out_offset, 1, comp_offset, current_token_pos_in_block, sglid);
+#endif // IS_KV_COMPRESSED
     } else {
         // 1st token
         const uint block_idx = get_global_id(0);
@@ -99,17 +157,20 @@ KERNEL(pa_kv_cache_update)(
 
         const uint block_offset = block_indices_begins[subsequence_idx] + current_block_idx;
 
-        uint key_out_offset = block_indices[block_offset] * KV_HEADS_NUM * HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE +
-                              head_idx * HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE;
-
-        uint value_out_offset = key_out_offset;
+        uint block_base_offset = block_indices[block_offset] * KV_HEADS_NUM * ADJUSTED_HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE +
+                                 head_idx * ADJUSTED_HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE;
+        uint key_out_offset = block_base_offset;
+        uint value_out_offset = block_base_offset;
+        const uint comp_offset = block_base_offset + HEAD_SIZE * PAGED_ATTENTION_BLOCK_SIZE;
 
         key_out_offset += token_start_pos;
         value_out_offset += token_start_pos * HEAD_SIZE;
 
         if (tokens_num == PAGED_ATTENTION_BLOCK_SIZE) {
             unroll_for (uint token_num = 0; token_num < PAGED_ATTENTION_BLOCK_SIZE; token_num++) {
                 uint head_idx_index = 0;
+
+#if !IS_KV_COMPRESSED
                 #define READ_BLOCK_SIZE 8
                 for (; head_idx_index + (READ_BLOCK_SIZE * SUBGROUP_SIZE) <= HEAD_SIZE; head_idx_index += SUBGROUP_SIZE * READ_BLOCK_SIZE) {
                     #define BLOCK_READ(ptr, offset) BLOCK_READN(INPUT0_TYPE, READ_BLOCK_SIZE, ptr, offset);
@@ -190,15 +251,24 @@ KERNEL(pa_kv_cache_update)(
                     }
                 }
 
+#else // IS_KV_COMPRESSED
+                // key processing
+                FUNC_CALL(quantize_and_save)(key_data, key_in_offset, key_cache_data, key_out_offset, PAGED_ATTENTION_BLOCK_SIZE, comp_offset, token_num, sglid);
+
+                // value processing
+                FUNC_CALL(quantize_and_save)(value_data, value_in_offset, value_cache_data, value_out_offset, 1, comp_offset, token_num, sglid);
+#endif // IS_KV_COMPRESSED
+
                 key_in_offset += (KV_HEADS_NUM * HEAD_SIZE + INPUT0_PAD_AFTER_FEATURE_NUM + INPUT0_PAD_BEFORE_FEATURE_NUM);
                 value_in_offset += (KV_HEADS_NUM * HEAD_SIZE + INPUT1_PAD_AFTER_FEATURE_NUM + INPUT1_PAD_BEFORE_FEATURE_NUM);
                 key_out_offset += 1;
                 value_out_offset += HEAD_SIZE;
             }
         } else {
-            for (uint i = 0; i < tokens_num; i++) {
+            for (uint token_num = 0; token_num < tokens_num; token_num++) {
                 uint head_idx_index = 0;
 
+#if !IS_KV_COMPRESSED
                 #define READ_BLOCK_SIZE 1
                 for (; head_idx_index + (READ_BLOCK_SIZE * SUBGROUP_SIZE) <= HEAD_SIZE; head_idx_index += SUBGROUP_SIZE * READ_BLOCK_SIZE) {
                     #define BLOCK_READ(ptr, offset) BLOCK_READN(INPUT0_TYPE, READ_BLOCK_SIZE, ptr, offset);
@@ -219,6 +289,13 @@ KERNEL(pa_kv_cache_update)(
                     }
                 }
 
+#else // IS_KV_COMPRESSED
+                // key processing
+                FUNC_CALL(quantize_and_save)(key_data, key_in_offset, key_cache_data, key_out_offset, PAGED_ATTENTION_BLOCK_SIZE, comp_offset, token_start_pos + token_num, sglid);
+
+                // value processing
+                FUNC_CALL(quantize_and_save)(value_data, value_in_offset, value_cache_data, value_out_offset, 1, comp_offset, token_start_pos + token_num, sglid);
+#endif // IS_KV_COMPRESSED
                 key_in_offset += (KV_HEADS_NUM * HEAD_SIZE + INPUT0_PAD_AFTER_FEATURE_NUM + INPUT0_PAD_BEFORE_FEATURE_NUM);
                 value_in_offset += (KV_HEADS_NUM * HEAD_SIZE + INPUT1_PAD_AFTER_FEATURE_NUM + INPUT1_PAD_BEFORE_FEATURE_NUM);
                 key_out_offset += 1;