Update NNCF defaults for several models (#377)

nikita-malininn · web-flow · commit 3fddad823864 · 2024-04-30T14:33:42.000+04:00
#### Updated NNCF defaults for:

- zephyr-7b-beta
- llama-7b
- stable-zephyr-3b-dpo
- baichuan2-7b-chat
- mistral-7b-v0.1

Based on the experiments from 135227
diff --git a/llm_bench/python/utils/nncf_utils.py b/llm_bench/python/utils/nncf_utils.py
@@ -38,15 +38,16 @@ def get_compressed_path(output_dir: str, base_precision, option: str):
     "opt-6.7b": {"mode": nncf.CompressWeightsMode.INT4_ASYM, "group_size": 64, "ratio": 0.8},
     "bloomz-7b1": {"mode": nncf.CompressWeightsMode.INT4_ASYM, "group_size": 32, "ratio": 0.6},
     "red-pajama-incite-7b-instruct": {"mode": nncf.CompressWeightsMode.INT4_ASYM, "group_size": 128},
-    "zephyr-7b-beta": {"mode": nncf.CompressWeightsMode.INT4_SYM, "group_size": 64, "ratio": 0.6},
+    "zephyr-7b-beta": {"mode": nncf.CompressWeightsMode.INT4_SYM, "group_size": 128, "ratio": 0.8,
+                       "dataset": {"name": "wikitext,wikitext-2-v1,train[:1000],text", "awq": True}},
     "llama-2-7b": {"mode": nncf.CompressWeightsMode.INT4_SYM, "group_size": 128, "ratio": 0.6},
     "llama-2-7b-chat": {"mode": nncf.CompressWeightsMode.INT4_SYM, "group_size": 128, "ratio": 0.8},
     "llama-2-13b-chat": {"mode": nncf.CompressWeightsMode.INT4_SYM, "group_size": 64, "ratio": 0.8},
     "stablelm-3b-4e1t": {"mode": nncf.CompressWeightsMode.INT4_SYM, "group_size": 64, "ratio": 0.8,
                          "dataset": {"name": "wikitext,wikitext-2-v1,train[:1000],text", "awq": True}},
     "stablelm-epoch-3b-preview": {"mode": nncf.CompressWeightsMode.INT4_SYM, "group_size": 64, "ratio": 0.8,
                                   "dataset": {"name": "wikitext,wikitext-2-v1,train[:1000],text", "awq": True}},
-    "stable-zephyr-3b-dpo": {"mode": nncf.CompressWeightsMode.INT4_ASYM, "group_size": 64, "ratio": 0.8,
+    "stable-zephyr-3b-dpo": {"mode": nncf.CompressWeightsMode.INT4_ASYM, "group_size": 128, "ratio": 1.0,
                              "dataset": {"name": "wikitext,wikitext-2-v1,train[:1000],text", "awq": True}},
     "stable-code-3b": {"mode": nncf.CompressWeightsMode.INT4_SYM, "group_size": 64, "ratio": 0.8},
     "rocket-3b": {"mode": nncf.CompressWeightsMode.INT4_SYM, "group_size": 128, "ratio": 0.8},
@@ -59,4 +60,8 @@ def get_compressed_path(output_dir: str, base_precision, option: str):
     "bloomz-560m": {"mode": nncf.CompressWeightsMode.INT4_SYM, "group_size": 64, "ratio": 0.8,
                     "dataset": {"name": "wikitext,wikitext-2-v1,train[:1000],text", "awq": True}},
     "mixtral-8x7b-v0.1": {"mode": nncf.CompressWeightsMode.INT4_SYM, "group_size": 128, "ratio": 0.8},
+    "baichuan2-7b-chat": {"mode": nncf.CompressWeightsMode.INT4_SYM, "group_size": 128, "ratio": 0.8,
+                          "dataset": {"name": "wikitext,wikitext-2-v1,train[:1000],text", "awq": True}},
+    "mistral-7b-v0.1": {"mode": nncf.CompressWeightsMode.INT4_SYM, "group_size": 128, "ratio": 0.9},
+    "llama-7b": {"mode": nncf.CompressWeightsMode.INT4_SYM, "group_size": 128, "ratio": 0.7},
 }