reduce sleep during memcomp measurement, handle unicode in input (openvinotoolkit#1792)

eaidova · web-flow · commit c239a536ae48 · 2025-02-25T09:53:23.000+04:00
* reduce mem consumption sleep accroding to CVS-162348
* handle non-utf as input prompt during logging CVS-140549
diff --git a/tools/llm_bench/llm_bench_utils/memory_profile.py b/tools/llm_bench/llm_bench_utils/memory_profile.py
@@ -54,7 +54,7 @@ def collect_memory_consumption(self):
                     self.g_event.clear()
                     self.g_end_collect_mem = False
                     break
-                time.sleep(500 / 1000)
+                time.sleep(0.0001)
 
     def start_collect_memory_consumption(self):
         """Start collect."""
diff --git a/tools/llm_bench/llm_bench_utils/metrics_print.py b/tools/llm_bench/llm_bench_utils/metrics_print.py
@@ -81,14 +81,19 @@ def print_generated(iter_num, warm_up=False, generated=None, prompt_idx=-1):
         iter_str = 'warm-up'
     prefix = f'[{iter_str}][P{prompt_idx}]'
     if generated is not None:
+        print_unicode(f'{prefix} Generated: {generated}', '{prefix} Unable print generated')
+
+
+def print_unicode(text, on_error="Unable print", loglevel="info"):
+    log_fn = getattr(log, loglevel)
+    try:
+        log_fn(text)
+    except (UnicodeError, UnicodeEncodeError, UnicodeDecodeError):
         try:
-            log.info(f'{prefix} Generated: {generated}')
-        except (UnicodeError, UnicodeEncodeError, UnicodeDecodeError):
-            try:
-                utf8_generated = generated.encode(encoding="utf-8", errors="replace").decode()
-                log.info(f'{prefix} Generated: {utf8_generated}')
-            except Exception:
-                log.warning(f'{prefix} Unable print generated')
+            utf8_text = text.encode(encoding="utf-8", errors="replace").decode()
+            log_fn(utf8_text)
+        except Exception:
+            log.warning(on_error)
 
 
 def print_stable_diffusion_infer_latency(iter_str, iter_data, stable_diffusion, prompt_idx=-1):
diff --git a/tools/llm_bench/task/text_generation.py b/tools/llm_bench/task/text_generation.py
@@ -518,7 +518,7 @@ def run_text_generation_benchmark(model_path, framework, device, tokens_len, str
             for idx, input_text in enumerate(text_list):
                 p_idx = prompt_idx_list[idx]
                 if num == 0:
-                    log.info(f'[warm-up][P{p_idx}] Input text: {input_text}')
+                    metrics_print.print_unicode(f'[warm-up][P{p_idx}] Input text: {input_text}', f'[warm-up][P{p_idx}] Unable print input text')
                 iter_timestamp[num][p_idx]['start'] = datetime.datetime.now().isoformat()
                 text_gen_fn(input_text, num, model, tokenizer, args, iter_data_list, md5_list,
                             p_idx, bench_hook, tokens_len, streaming, model_precision, proc_id, mem_consumption)
@@ -530,7 +530,7 @@ def run_text_generation_benchmark(model_path, framework, device, tokens_len, str
             p_idx = prompt_idx_list[idx]
             for num in range(num_iters + 1):
                 if num == 0:
-                    log.info(f'[warm-up][P{p_idx}] Input text: {input_text}')
+                    metrics_print.print_unicode(f'[warm-up][P{p_idx}] Input text: {input_text}', f'[warm-up][P{p_idx}] Unable print input text')
                 iter_timestamp[num][p_idx]['start'] = datetime.datetime.now().isoformat()
                 text_gen_fn(input_text, num, model, tokenizer, args, iter_data_list, md5_list,
                             prompt_idx_list[idx], bench_hook, model_precision, proc_id, mem_consumption)