sotopia-lab
diff --git a/‎llm_self_train/README.md
+2-1 b/‎llm_self_train/README.md
+2-1
diff --git a/‎llm_self_train/check_episodes.py
+36 b/‎llm_self_train/check_episodes.py
+36
diff --git a/‎llm_self_train/config.yml
+7-5 b/‎llm_self_train/config.yml
+7-5
diff --git a/‎llm_self_train/eval_score.py
+139 b/‎llm_self_train/eval_score.py
+139
diff --git a/‎llm_self_train/monitor_and_submit.py
+19-8 b/‎llm_self_train/monitor_and_submit.py
+19-8
diff --git a/‎llm_self_train/pipelines/monitor_deploy_and_run_eval.py
+3-2 b/‎llm_self_train/pipelines/monitor_deploy_and_run_eval.py
+3-2
diff --git a/‎llm_self_train/pipelines/monitor_eval_and_stop_deploy.py
+2-1 b/‎llm_self_train/pipelines/monitor_eval_and_stop_deploy.py
+2-1
@@ -1,3 +1,4 @@
+# Training (BC and/or SR) Pipeline
 ## Preparations
 ### Modify `config.yml`
 1. Change `experiment_name` and `mkdir experiment_name` in `checkpoint_dir`. Make sure the starting checkpoint and base Mistral model is under `experiment_name` folder.
@@ -16,7 +17,7 @@
 ## Run Code
 1. Activate conda: `conda activate myenv`
 2. Run `python3 monitor_and_submit.py`
-2. Open a separate terminal and activate conda. Run `sbatch --gres=gpu:4 --mem=80g -t 1-00:00:00 -o train.out -e train.err train.sh`
+2. Open a separate terminal and activate conda. Run `sbatch train.sbatch`
 
 
 ## Comments
 
@@ -0,0 +1,36 @@
+import argparse
+import os
+import json
+os.environ[
+    "REDIS_OM_URL"
+] = "redis://:password@server_name:port_num"
+from sotopia.database.logs import EpisodeLog
+
+def main():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--tag", type=str, required=True)
+    parser.add_argument("--env-ids", type=str, required=True)
+    args = parser.parse_args()
+
+    eps = list(EpisodeLog.find(EpisodeLog.tag == args.tag))
+    with open("resources/env_ids.json", 'r') as f:
+        envs = json.loads(f.read())[args.env_ids]
+
+    for env in envs:
+        eps_per_env = list(EpisodeLog.find(EpisodeLog.tag == args.tag,
+                               EpisodeLog.environment == env))
+        print(len(eps_per_env))
+
+
+    count = 0
+    print(len(eps))
+    for i in range(len(eps)):
+        if eps[i].rewards == [0.0, 0.0]:
+            print(i, end=', ')
+            count += 1
+            EpisodeLog.delete(pk=eps[i].pk)
+    print(count)
+
+
+if __name__ == "__main__":
+    main()
@@ -1,23 +1,25 @@
 # self train
 babel_username: ruiyiwan
-experiment_name: base-sft-round-2
+experiment_name: selftrain-sft-round-2-filtered-top-2
 num_improve_steps: 1
 script_dir: /home/ruiyiwan/sotopia-llm/llm_self_train
 checkpoint_dir: /data/tir/projects/tir6/bisk/ruiyiwan/selftrain
-checkpoint_saved_queue: /home/ruiyiwan/sotopia-llm/llm_self_train/logs/base-sft-round-2/deploy_queue.txt
+checkpoint_saved_queue: /home/ruiyiwan/sotopia-llm/llm_self_train/logs/selftrain-sft-round-2-filtered-top-2/deploy_queue.txt
 num_train_epochs: 20.0
 call_back_save_epochs: 1
 
 # training
 num_gpus: 4
-model_name_or_path: /data/tir/projects/tir6/bisk/ruiyiwan/selftrain/base-sft-round-2/Mistral-7B-v0.1
+model_name_or_path: /data/tir/projects/tir6/bisk/ruiyiwan/selftrain/selftrain-sft-round-2-filtered-top-2/checkpoint_init_epoch-3
 hf_auth_token: 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
 wandb_project: self-train
-wandb_tags: "['base-mistral-sft-round-2']"
+wandb_tags: "['selftrain-sft-round-2-filtered-top-2']"
 wandb_token: eca44f65849afa1cc146c22631b0b5001ccd24d7
 
 # deploy and eval: check resources/env_ids.json
-eval_env_ids_tag: pilot-3_dev
+eval_env_ids_tag: sotopia_hard_env_id
+multiturn_eval: True
+dev: False
 
 # redis
 redis_om_url: redis://:password@server_name:port_num
 
@@ -0,0 +1,139 @@
+import argparse
+import os
+os.environ[
+    "REDIS_OM_URL"
+] = "redis://:password@server_name:port_num"
+from sotopia.database.logs import EpisodeLog
+from sotopia.database.persistent_profile import EnvironmentProfile
+from sotopia.database.persistent_profile import AgentProfile
+import json
+import numpy as np
+
+# tag = "pilot-2_checkpoint_improve-0_epoch-3_gpt-3.5-turbo_dev"
+# target_model = "custom_model"
+
+# hard_envs = ["01HJPQ34Y3S1TDPTRX1CCH6VPG", "01HJPQ34ZG9WZEDX6BV5QZB1QG"]
+
+def gen_target_result_dict(envs: list, tag: str, target_model: str)->dict:
+    target_result_by_env = []
+    for env_profile_id in envs:
+
+        env = EnvironmentProfile.get(env_profile_id)
+        target_result_dict = {"env_profile_id": env_profile_id,
+                            "scenario": env.scenario,
+                            "target_as_agent_1": {},
+                            "target_as_agent_2": {}
+                            }
+
+        target_result_dict["target_as_agent_1"] = {
+            "agent_env_goal": env.agent_goals[0],
+            "agent_performance_by_profile": []
+        }
+
+        target_result_dict["target_as_agent_2"] = {
+            "agent_env_goal": env.agent_goals[1],
+            "agent_performance_by_profile": []
+        }
+
+        eps = list(EpisodeLog.find(EpisodeLog.tag == tag,
+                                EpisodeLog.environment == env_profile_id))
+
+        for i in range(len(eps)):
+            if eps[i].models[1] == target_model:  # target as agent 1
+
+                agent_id = eps[i].agents[0]
+                agent_profile = list(AgentProfile.find(
+                    AgentProfile.pk == agent_id))[0]
+                agent_first_name, agent_last_name = agent_profile.first_name, agent_profile.last_name
+                agent_performance_dict = {
+                    "agent_profile_id": agent_id,
+                    "agent_first_name": agent_first_name,
+                    "agent_last_name": agent_last_name,
+                    "reward": eps[i].rewards[0],
+                    "reasoning": eps[i].reasoning
+                }
+                target_result_dict["target_as_agent_1"]["agent_performance_by_profile"].append(
+                    agent_performance_dict)
+
+            if eps[i].models[2] == target_model:
+                agent_id = eps[i].agents[1]
+                agent_profile = list(AgentProfile.find(
+                    AgentProfile.pk == agent_id))[0]
+                agent_first_name, agent_last_name = agent_profile.first_name, agent_profile.last_name
+                agent_performance_dict = {
+                    "agent_profile_id": agent_id,
+                    "agent_first_name": agent_first_name,
+                    "agent_last_name": agent_last_name,
+                    "reward": eps[i].rewards[1],
+                    "reasoning": eps[i].reasoning
+                }
+                target_result_dict["target_as_agent_2"]["agent_performance_by_profile"].append(
+                    agent_performance_dict)
+
+        target_result_by_env.append(target_result_dict)
+
+    return target_result_by_env
+
+
+def eval_average(target_result_by_env: dict, tag: str)->dict:
+    avg_dict = {
+        "believability": 0.0,
+        "relationship": 0.0,
+        "knowledge": 0.0,
+        "secret": 0.0,
+        "social_rules": 0.0,
+        "financial_and_material_benefits": 0.0,
+        "goal": 0.0,
+        "overall_score": 0.0
+    }
+
+    eps = list(EpisodeLog.find(EpisodeLog.tag == tag))
+
+    for result_dict in target_result_by_env:
+        for key in avg_dict:
+            if len(result_dict["target_as_agent_1"]["agent_performance_by_profile"]) == 0:
+                perf_as_agent_1 = 0
+            else:
+                perf_as_agent_1 = np.sum([
+                    agent_profile["reward"][1][key] for agent_profile in result_dict["target_as_agent_1"]["agent_performance_by_profile"]])
+            if len(result_dict["target_as_agent_2"]["agent_performance_by_profile"]) == 0:
+                perf_as_agent_2 = 0
+            else:
+                perf_as_agent_2 = np.sum([
+                    agent_profile["reward"][1][key] for agent_profile in result_dict["target_as_agent_2"]["agent_performance_by_profile"]])
+            # print(len(result_dict["target_as_agent_1"]["agent_performance_by_profile"]))
+            # print(len(result_dict["target_as_agent_2"]["agent_performance_by_profile"]))
+            # avg_dict[key] += (perf_as_agent_1 + perf_as_agent_2) / 2 / len(target_result_by_env)
+            avg_dict[key] += (perf_as_agent_1 + perf_as_agent_2) / len(eps)
+            # avg_dict[key] += (perf_as_agent_1 + perf_as_agent_2) / 14
+
+    return avg_dict
+
+
+def main():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--tag", type=str, required=True)
+    parser.add_argument("--target-model", type=str, default="custom_model")
+    parser.add_argument("--env-ids-tag", type=str, required=True)
+    parser.add_argument("--out-dir", type=str, required=True)
+    args = parser.parse_args()
+
+    with open("resources/env_ids.json", 'r') as f:
+        env_dict = json.loads(f.read())
+    envs = env_dict[args.env_ids_tag]
+    
+    target_result_by_env = gen_target_result_dict(envs=envs, target_model=args.target_model, tag=args.tag)
+
+    avg_dict = eval_average(target_result_by_env, tag=args.tag)
+
+    if not os.path.isdir(args.out_dir):
+        os.mkdir(args.out_dir)
+    with open(os.path.join(args.out_dir, f"{args.tag}.json"), 'w') as f:
+        f.write(json.dumps(avg_dict, indent=4))
+    with open(os.path.join(args.out_dir, f"dict.json"), 'w') as f:
+        f.write(json.dumps(target_result_by_env, indent=4))
+
+
+if __name__ == "__main__":
+    main()
+
@@ -5,26 +5,37 @@
 import multiprocessing
 import time
 import json
-from pipelines.monitor_utils import check_log_and_submit_deploy, check_log_and_cancel_deploy
+import shutil
+
+os.umask(0o000)
 
 with open('config.yml', 'r') as f:
     config = yaml.safe_load(f)
 
-with open("resources/deploy_config.yml", 'r') as f:
+
+log_dir = f"{config['script_dir']}/logs/{config['experiment_name']}"
+if not os.path.exists(log_dir):
+    os.makedirs(log_dir)
+    print(f"Created directory {log_dir}")
+
+if not os.path.isfile(os.path.join(log_dir, "deploy_config.yml")):
+    source_deploy_file = "resources/deploy_config.yml"
+    shutil.copy(source_deploy_file, log_dir+'/')
+    print("Copied deploy_config.yml")
+    
+
+with open(os.path.join(log_dir, "deploy_config.yml"), 'r') as f:
     deploy_config = yaml.safe_load(f)
 
-deploy_config['log_dir'] = f"{config['script_dir']}/logs/{config['experiment_name']}"
+deploy_config['log_dir'] = log_dir
 deploy_config['tmp_dir'] = f"{config['script_dir']}/tmp/{config['experiment_name']}"
 
-with open('resources/deploy_config.yml', 'w') as f:
+with open(os.path.join(log_dir, "deploy_config.yml"), 'w') as f:
     yaml.dump(deploy_config, f)
 
+from pipelines.monitor_utils import check_log_and_submit_deploy, check_log_and_cancel_deploy
 
 def main():
-    os.umask(0o000)
-    if not os.path.exists(deploy_config["log_dir"]):
-        os.makedirs(deploy_config["log_dir"])
-        print(f"Created directory {deploy_config['log_dir']}")
     if not os.path.exists(deploy_config["tmp_dir"]):
         os.makedirs(deploy_config["tmp_dir"])
         print(f"Created directory {deploy_config['tmp_dir']}")
 
@@ -6,7 +6,8 @@
 with open('config.yml', 'r') as f:
     config = yaml.safe_load(f)
 
-with open("resources/deploy_config.yml", 'r') as f:
+log_dir = f"{config['script_dir']}/logs/{config['experiment_name']}"
+with open(os.path.join(log_dir, "deploy_config.yml"), 'r') as f:
     deploy_config = yaml.safe_load(f)
 
 
@@ -52,7 +53,7 @@ def run_eval():
     commands = f"""
     cd {config['script_dir']}
     conda activate myenv
-    bash pipelines/submit_eval.sh > {deploy_config['log_dir']}/eval_results_{deploy_config['ckpt_name']}.txt
+    bash {os.path.join(log_dir, f"submit_eval_{deploy_config['ckpt_name']}.sh")} > {deploy_config['log_dir']}/eval_results_{deploy_config['ckpt_name']}.txt
     """
     subprocess.run(commands, shell=True)
 
 
@@ -6,7 +6,8 @@
 with open('config.yml', 'r') as f:
     config = yaml.safe_load(f)
 
-with open("resources/deploy_config.yml", 'r') as f:
+log_dir = f"{config['script_dir']}/logs/{config['experiment_name']}"
+with open(os.path.join(log_dir, "deploy_config.yml"), 'r') as f:
     deploy_config = yaml.safe_load(f)
 
 def main():