Fix hf_device_map setting for transformers-like api (#2122)

Kaihui-intel · pre-commit-ci[bot] · web-flow · commit 09ccf3c67cdd · 2025-02-18T16:30:26.000+08:00
Signed-off-by: Kaihui-intel &lt;kaihui.tang@intel.com&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
diff --git a/neural_compressor/transformers/models/modeling_auto.py b/neural_compressor/transformers/models/modeling_auto.py
@@ -226,6 +226,11 @@ def from_pretrained(cls, pretrained_model_name_or_path, *model_args, **kwargs):
 
         # add quantization_config and save_low_bit to pretrained model dynamically
         model.device_map = device_map
+
+        # StaticCache's device is initialized by `hf_device_map` in `from_pretrained` method.
+        if hasattr(model, "hf_device_map"):
+            device_map = torch.device(device_map) if isinstance(device_map, str) else device_map
+            model.hf_device_map = {"": device_map}
         model.quantization_config = quantization_config
 
         model.save_pretrained = types.MethodType(save_low_bit, model)