fix ut and example

changwangss · changwangss · commit 5f1465878c09 · 2024-11-26T14:01:36.000+08:00
Signed-off-by: changwa1 &lt;chang1.wang@intel.com&gt;
diff --git a/examples/neural_compressor/language-modeling/run_clm.py b/examples/neural_compressor/language-modeling/run_clm.py
@@ -217,9 +217,7 @@ class OptimizationArguments:
     )
     use_layer_wise: bool = field(
         default=False,
-        metadata={
-            "help": "Use layer wise to do quantization to save memory."
-        },
+        metadata={"help": "Use layer wise to do quantization to save memory."},
     )
     quantization_methodology: str = field(
         default="rtn",
@@ -673,6 +671,7 @@ def compute_metrics(eval_preds):
                         damp_percent=optim_args.damp_percent,
                         nsamples=optim_args.num_calibration_samples,
                         blocksize=optim_args.gptq_block_size,
+                        tokenizer=tokenizer,
                         **algorithm_args,
                     )
                 else:
diff --git a/optimum/intel/neural_compressor/quantization.py b/optimum/intel/neural_compressor/quantization.py
@@ -398,6 +398,12 @@ def _weight_only_quantization(
     if (not torch.cuda.is_available() or device_map == "cpu") and model.config.model_type == "chatglm":
         model = model.float()
 
+    from neural_compressor.torch import load_empty_model
+
+    model = load_empty_model(
+        model_id,
+        trust_remote_code=trust_remote_code,
+    )
     model = convert_to_quantized_model(model, quantization_config, device=device_map)
     quantization_config.remove_redundant_parameters()
     model.config.quantization_config = quantization_config
diff --git a/tests/neural_compressor/test_optimization.py b/tests/neural_compressor/test_optimization.py
@@ -489,10 +489,10 @@ def test_weight_only_quantization(self, methodology, bits):
                 batch_size=5,
                 seq_len=32,
                 block_size=16,
-                user_layer_wise=True,
+                use_layer_wise=True,
             )
         else:
-            quantization_config = RtnConfig(bits=bits, group_size=8)
+            quantization_config = RtnConfig(bits=bits, group_size=8, use_layer_wise=True)
 
         tokenizer = AutoTokenizer.from_pretrained(model_name)
         tokenizer.add_special_tokens({"pad_token": "[PAD]"})
@@ -504,6 +504,7 @@ def test_weight_only_quantization(self, methodology, bits):
         with torch.no_grad():
             quantizer_outputs = quantized_model(**tokens)
         quantized_model.save_pretrained(tmp_dir)
+
         loaded_model = INCModelForCausalLM.from_pretrained(tmp_dir)
         with torch.no_grad():
             loaded_outputs = loaded_model(**tokens)

Original file line number	Diff line number	Diff line change
`@@ -217,9 +217,7 @@ class OptimizationArguments:`
`217`	`217`	`)`
`218`	`218`	`use_layer_wise: bool = field(`
`219`	`219`	`default=False,`
`220`		`- metadata={`
`221`		`- "help": "Use layer wise to do quantization to save memory."`
`222`		`- },`
	`220`	`+ metadata={"help": "Use layer wise to do quantization to save memory."},`
`223`	`221`	`)`
`224`	`222`	`quantization_methodology: str = field(`
`225`	`223`	`default="rtn",`
`@@ -673,6 +671,7 @@ def compute_metrics(eval_preds):`
`673`	`671`	`damp_percent=optim_args.damp_percent,`
`674`	`672`	`nsamples=optim_args.num_calibration_samples,`
`675`	`673`	`blocksize=optim_args.gptq_block_size,`
	`674`	`+ tokenizer=tokenizer,`
`676`	`675`	`**algorithm_args,`
`677`	`676`	`)`
`678`	`677`	`else:`