Merge branch 'master' into cherry_pick_v1.20.0

xin3he · web-flow · commit 2f5beebbe8b9 · 2025-02-22T22:13:06.000+08:00
diff --git a/neural_compressor/transformers/models/modeling_auto.py b/neural_compressor/transformers/models/modeling_auto.py
@@ -226,6 +226,11 @@ def from_pretrained(cls, pretrained_model_name_or_path, *model_args, **kwargs):
 
         # add quantization_config and save_low_bit to pretrained model dynamically
         model.device_map = device_map
+
+        # StaticCache's device is initialized by `hf_device_map` in `from_pretrained` method.
+        if hasattr(model, "hf_device_map"):
+            device_map = torch.device(device_map) if isinstance(device_map, str) else device_map
+            model.hf_device_map = {"": device_map}
         model.quantization_config = quantization_config
 
         model.save_pretrained = types.MethodType(save_low_bit, model)