Print time of encoder and decoder of each loop

wgzintel · wgzintel · commit ac263eb1c626 · 2024-09-30T17:22:29.000+08:00
diff --git a/llm_bench/python/benchmark.py b/llm_bench/python/benchmark.py
@@ -738,9 +738,16 @@ def run_speech_2txt_generation(pipe, args, num, md5_list, prompt_id, audio_promp
         prompt_idx=prompt_id,
     )
     iter_data_list.append(iter_data)
+    tm_list = []
+    tm_infer_list = []
+    if whisper_hook is not None:
+        tm_list = whisper_hook.get_time_list()
+        tm_infer_list = whisper_hook.get_time_infer_list()
     llm_bench_utils.metrics_print.print_metrics(
         num,
         iter_data,
+        tm_list,
+        tm_infer_list,
         warm_up=(num == 0),
         max_rss_mem=max_rss_mem_consumption,
         max_shared_mem=max_shared_mem_consumption,
@@ -773,8 +780,8 @@ def run_speech_2txt_benchmark(model_path, framework, device, args, num_iters):
         for audio_prompt in input_audio_prompt_list:
             if args['prompt'] is None and args['prompt_file'] is None:
                 raise RuntimeError('==Failure image is empty ==')
-            elif args['prompt_file'] is not None:
-                audio_prompt['prompt'] = os.path.join(os.path.dirname(args['prompt_file']), audio_prompt['prompt'].replace('./', ''))
+            elif args['prompt_file'] is not None and len(args['prompt_file']) > 0:
+                audio_prompt['prompt'] = os.path.join(os.path.dirname(args['prompt_file'][0]), audio_prompt['prompt'].replace('./', ''))
             audio_prompt['prompt'] = Path(audio_prompt['prompt'])
             audios_prompt_list.append(audio_prompt)
     if args['prompt_index'] is None:
@@ -800,7 +807,8 @@ def run_speech_2txt_benchmark(model_path, framework, device, args, num_iters):
     )
     if framework == "ov":
         whisper_hook.new_text_encoder(pipe)
-        whisper_hook.new_text_decoder(pipe)
+        whisper_hook.new_generate(pipe)
+        whisper_hook.new_text_sample(pipe)
     md5_list = {num : {} for num in range(num_iters + 1)}
     for num in range(num_iters + 1):
         for idx, audio_prompt in enumerate(audio_list):
diff --git a/llm_bench/python/llm_bench_utils/hook_forward_whisper.py b/llm_bench/python/llm_bench_utils/hook_forward_whisper.py
@@ -1,74 +1,86 @@
 import time
+import copy
+import llm_bench_utils.hook_greedy_search
 
 
 class WhisperHook:
     def __init__(self):
-        self.text_encoder_time = 0
-        self.text_decoder_time = 0
-        self.text_enc_time_list = []
-        self.text_dec_time_list = []
-        self.text_encoder_infer_count = 0
-        self.text_decoder_infer_count = 0
+        self.enc_infer_count = 0
+        self.time_data = []
+        self.greedy_hook = None
 
-    def get_text_encoder_latency(self):
-        return (self.text_encoder_time / self.text_encoder_infer_count) * 1000 if self.text_encoder_infer_count > 0 else 0
-    
-    def get_1st_text_enc_latency(self):
-        return self.text_enc_time_list[0] * 1000 if len(self.text_enc_time_list) > 0 else 0
-
-    def get_2nd_text_enc_latency(self):
-        return sum(self.text_enc_time_list[1:]) / (len(self.text_enc_time_list) - 1) * 1000 if len(self.text_enc_time_list) > 1 else 0
-
-    def get_1st_text_dec_latency(self):
-        return self.text_dec_time_list[0] * 1000 if len(self.text_dec_time_list) > 0 else 0
-
-    def get_2nd_text_dec_latency(self):
-        return sum(self.text_dec_time_list[1:]) / (len(self.text_dec_time_list) - 1) * 1000 if len(self.text_dec_time_list) > 1 else 0
-
-    def get_text_dec_latency(self):
-        return (sum(self.text_dec_time_list) / len(self.text_dec_time_list)) * 1000 if len(self.text_dec_time_list) > 0 else 0
-
-    def get_text_decoder_latency(self):
-        return (self.text_decoder_time / self.text_decoder_infer_count) * 1000 if self.text_decoder_infer_count > 0 else 0
+    def get_time_list(self):
+        """return first loop token time
+        """
+        time_list = []
+        if len(self.time_data) > 0:
+            time_list = copy.deepcopy(self.time_data[0]['dec_token_time'])
+            time_list.insert(0, self.time_data[0]['enc_infer_time'])
+        return time_list
 
-    def get_text_encoder_step_count(self):
-        return self.text_encoder_infer_count
-
-    def get_text_decoder_step_count(self):
-        return self.text_decoder_infer_count
+    def get_time_infer_list(self):
+        """return first loop infer time
+        """
+        time_infer_list = []
+        if len(self.time_data) > 0:
+            time_infer_list = copy.deepcopy(self.time_data[0]['dec_infer_time'])
+            time_infer_list.insert(0, self.time_data[0]['enc_infer_time'])
+        return time_infer_list
+    
+    def get_whisper_latency(self, iter):
+        str = ''
+        for idx, data in enumerate(self.time_data):
+            enc_infer_time = data['enc_infer_time'] * 1000
+            dec_token_count = len(data['dec_token_time'])
+            dec_infer_count = len(data['dec_infer_time'])
+            dec_token_time = sum(data['dec_token_time']) / dec_token_count * 1000 if dec_token_count > 1 else 0
+            dec_infer_time = sum(data['dec_infer_time']) / dec_infer_count * 1000 if dec_infer_count > 1 else 0
+            str += f"[{iter}][{idx}] encoder token latency: {enc_infer_time:.2f} ms/token, " \
+                f"decoder tokens latency: {dec_token_time:.2f} ms/token, " \
+                f"decoder infers latency: {dec_infer_time:.2f} ms/infer, " \
+                f"decoder tokens count: {dec_token_count}, " \
+                f"decoder infers count: {dec_infer_count}"
+            if idx < len(self.time_data) - 1:
+                str += '\n'
+        return str
 
     def clear_statistics(self):
-        self.text_encoder_time = 0
-        self.text_decoder_time = 0
-        self.text_encoder_infer_count = 0
-        self.text_decoder_infer_count = 0
-        self.text_enc_time_list = []
-        self.text_dec_time_list = []
+        self.enc_infer_count = 0
+        self.time_data.clear()
+        self.greedy_hook.clear_time_list()
+        self.greedy_hook.clear_time_infer_list()
 
     def new_text_encoder(self, pipe):
         old_text_encoder = pipe.model.encoder.request
 
         def my_text_encoder(inputs, share_inputs=True, share_outputs=True):
+            loop_data = {}
             t1 = time.time()
             r = old_text_encoder(inputs, share_inputs, share_outputs)
             t2 = time.time()
             text_encoder_time = t2 - t1
-            self.text_enc_time_list.append(text_encoder_time)
-            self.text_encoder_time += text_encoder_time
-            self.text_encoder_infer_count += 1
+            loop_data['enc_infer_time'] = text_encoder_time
+            self.time_data.append(loop_data)
+            self.enc_infer_count += 1
             return r
         pipe.model.encoder.request = my_text_encoder
 
-    def new_text_decoder(self, pipe):
-        old_text_decoder = pipe.model.forward
+    def new_text_sample(self, pipe):
+        self.greedy_hook = llm_bench_utils.hook_greedy_search.GreedySearchHook()
+        self.greedy_hook.new_forward(pipe.model)
 
-        def my_text_decoder(*args, **kwargs):
-            t1 = time.time()
-            r = old_text_decoder(*args, **kwargs)
-            t2 = time.time()
-            text_decoder_time = t2 - t1
-            self.text_dec_time_list.append(text_decoder_time)
-            self.text_decoder_time += text_decoder_time
-            self.text_decoder_infer_count += 1
+    def new_generate(self, pipe):
+        old_generate = pipe.model.generate
+        def my_generate(attention_mask, **kwargs):
+            r = old_generate(attention_mask, **kwargs)
+            self.set_decoder_time_data()
             return r
-        pipe.model.forward = my_text_decoder
+        pipe.model.generate = my_generate
+
+    def set_decoder_time_data(self):
+        if self.enc_infer_count > 0:
+            prev_data = self.time_data[self.enc_infer_count - 1]
+            prev_data['dec_token_time'] = copy.deepcopy(self.greedy_hook.get_time_list())
+            prev_data['dec_infer_time'] = copy.deepcopy(self.greedy_hook.get_time_infer_list())
+            self.greedy_hook.clear_time_list()
+            self.greedy_hook.clear_time_infer_list()
diff --git a/llm_bench/python/llm_bench_utils/metrics_print.py b/llm_bench/python/llm_bench_utils/metrics_print.py
@@ -57,7 +57,7 @@ def print_metrics(
     if stable_diffusion is not None:
         print_stable_diffusion_infer_latency(iter_str, iter_data, stable_diffusion)
     if whisper is not None:
-        print_whisper_infer_latency(iter_str, iter_data, whisper)
+        print_whisper_infer_latency(iter_str, whisper)
     output_str = ''
     if max_rss_mem != '' and max_rss_mem > -1:
         output_str += 'Max rss memory cost: {:.2f}MBytes, '.format(max_rss_mem)
@@ -102,17 +102,8 @@ def print_stable_diffusion_infer_latency(iter_str, iter_data, stable_diffusion):
              f"vae decoder step count: {stable_diffusion.get_vae_decoder_step_count()}",)
 
 
-def print_whisper_infer_latency(iter_str, iter_data, whisper):
-    iter_data['first_token_latency'] = whisper.get_1st_text_dec_latency()
-    iter_data['other_tokens_avg_latency'] = whisper.get_2nd_text_dec_latency()
-    iter_data['first_token_infer_latency'] = iter_data['first_token_latency']
-    iter_data['other_tokens_infer_avg_latency'] = iter_data['other_tokens_avg_latency']
-    log.info(f"[{iter_str}] First token of encoder latency: {whisper.get_1st_text_enc_latency():.2f} ms/token, "
-             f"other tokens of encoder latency: {whisper.get_2nd_text_enc_latency():.2f} ms/token, "
-             f"First token of decoder latency: {iter_data['first_token_latency']:.2f} ms/token, "
-             f"other tokens of decoder latency: {iter_data['other_tokens_avg_latency']:.2f} ms/token, "
-             f"text encoder infer count: {whisper.get_text_encoder_step_count()}, "
-             f"text decoder infer count: {whisper.get_text_decoder_step_count()}")
+def print_whisper_infer_latency(iter_str, whisper):
+    print(f'{whisper.get_whisper_latency(iter_str)}')
 
 
 def print_ldm_unet_vqvae_infer_latency(iter_num, iter_data, tms=None, warm_up=False):
diff --git a/llm_bench/python/llm_bench_utils/model_utils.py b/llm_bench/python/llm_bench_utils/model_utils.py
@@ -116,26 +116,27 @@ def get_audio_param_from_prompt_file(args):
             else:
                 raise RuntimeError('== prompt should not be empty string ==')
         else:
-            input_prompt = args['prompt_file']
-            if input_prompt.endswith('.jsonl'):
-                if os.path.exists(input_prompt):
-                    log.info(f'Read prompts from {input_prompt}')
-                    with open(input_prompt, 'r', encoding='utf-8') as f:
-                        for line in f:
-                            audio_param = {}
-                            data = json.loads(line)
-                            if 'media' in data:
-                                if data['media'] != '':
-                                    audio_param['prompt'] = data['media']
+            input_prompt_list = args['prompt_file']
+            for input_prompt in input_prompt_list:
+                if input_prompt.endswith('.jsonl'):
+                    if os.path.exists(input_prompt):
+                        log.info(f'Read prompts from {input_prompt}')
+                        with open(input_prompt, 'r', encoding='utf-8') as f:
+                            for line in f:
+                                audio_param = {}
+                                data = json.loads(line)
+                                if 'media' in data:
+                                    if data['media'] != '':
+                                        audio_param['prompt'] = data['media']
+                                    else:
+                                        raise RuntimeError(f'== prompt should not be empty string in prompt file:{input_prompt} ==')
                                 else:
-                                    raise RuntimeError(f'== prompt should not be empty string in prompt file:{input_prompt} ==')
-                            else:
-                                raise RuntimeError(f'== key word "media" does not exist in prompt file:{input_prompt} ==')
-                            audio_param_list.append(audio_param)
+                                    raise RuntimeError(f'== key word "media" does not exist in prompt file:{input_prompt} ==')
+                                audio_param_list.append(audio_param)
+                    else:
+                        raise RuntimeError(f'== The prompt file:{input_prompt} does not exist ==')
                 else:
-                    raise RuntimeError(f'== The prompt file:{input_prompt} does not exist ==')
-            else:
-                raise RuntimeError(f'== The prompt file:{input_prompt} should be ended with .jsonl ==')
+                    raise RuntimeError(f'== The prompt file:{input_prompt} should be ended with .jsonl ==')
     return audio_param_list
 
 
@@ -307,4 +308,4 @@ def get_model_precision(model_name_list):
                 break
         if model_precision != 'unknown':
             break
-    return model_precision
+    return '' if model_precision == 'unknown' else model_precision