Spaces:

allenai
/

reward-bench

Running

App Files Files Community

root commited on Feb 14

Commit

c1765cf

1 Parent(s): 99399ee

fix

Browse files

Files changed (1) hide show

app.py +3 -13

app.py CHANGED Viewed

@@ -33,16 +33,6 @@ repo = snapshot_download(
 )
 def avg_over_rewardbench_v2(dataframe_core):
-    """
-    Averages over the subsets alpacaeval, mt-bench, llmbar, refusals, hep and returns dataframe with only these columns.
-    We average over 4 core sections (per prompt weighting):
-    1. Chat: Includes the easy chat subsets (alpacaeval-easy, alpacaeval-length, alpacaeval-hard, mt-bench-easy, mt-bench-medium)
-    2. Chat Hard: Includes the hard chat subsets (mt-bench-hard, llmbar-natural, llmbar-adver-neighbor, llmbar-adver-GPTInst, llmbar-adver-GPTOut, llmbar-adver-manual)
-    3. Safety: Includes the safety subsets (refusals-dangerous, refusals-offensive, xstest-should-refuse, xstest-should-respond, do not answer)
-    4. Reasoning: Includes the code and math subsets (math-prm, hep-cpp, hep-go, hep-java, hep-js, hep-python, hep-rust)
-    5. Prior Sets (0.5 weight): Includes the test sets (anthropic_helpful, mtbench_human, shp, summarize)
-    """
     domain_cols = ['factuality', 'coconot/safety', 'math', 'precise instruction following']
     new_df = dataframe_core.copy()
@@ -165,8 +155,8 @@ def length_bias_check(dataframe):
 rewardbench_data = load_all_data(repo_dir_rewardbench, subdir="eval-set").sort_values(by='average', ascending=False)
-rewardbench_data_length = length_bias_check(rewardbench_data).sort_values(by='Terse Bias', ascending=False)
-prefs_data = load_all_data(repo_dir_rewardbench, subdir="pref-sets").sort_values(by='average', ascending=False)
 # prefs_data_sub = expand_subsets(prefs_data).sort_values(by='average', ascending=False)
 rewardbench_data_avg = avg_over_rewardbenc_v2(rewardbench_data, prefs_data).sort_values(by='average', ascending=False)
@@ -193,7 +183,7 @@ rewardbench_data = prep_df(rewardbench_data)
 rewardbench_data_avg = prep_df(rewardbench_data_avg).rename(columns={"Average": "Score"})
 # adjust weight of this average to 50% for Prior Sets (0.5 weight), 1 for others
-rewardbench_data_length = prep_df(rewardbench_data_length)
 prefs_data = prep_df(prefs_data)
 col_types_rewardbench = ["number"] + ["markdown"] + ["str"] + ["number"] * (len(rewardbench_data.columns) - 1)

 )
 def avg_over_rewardbench_v2(dataframe_core):
     domain_cols = ['factuality', 'coconot/safety', 'math', 'precise instruction following']
     new_df = dataframe_core.copy()
 rewardbench_data = load_all_data(repo_dir_rewardbench, subdir="eval-set").sort_values(by='average', ascending=False)
+# rewardbench_data_length = length_bias_check(rewardbench_data).sort_values(by='Terse Bias', ascending=False)
+# prefs_data = load_all_data(repo_dir_rewardbench, subdir="pref-sets").sort_values(by='average', ascending=False)
 # prefs_data_sub = expand_subsets(prefs_data).sort_values(by='average', ascending=False)
 rewardbench_data_avg = avg_over_rewardbenc_v2(rewardbench_data, prefs_data).sort_values(by='average', ascending=False)
 rewardbench_data_avg = prep_df(rewardbench_data_avg).rename(columns={"Average": "Score"})
 # adjust weight of this average to 50% for Prior Sets (0.5 weight), 1 for others
+# rewardbench_data_length = prep_df(rewardbench_data_length)
 prefs_data = prep_df(prefs_data)
 col_types_rewardbench = ["number"] + ["markdown"] + ["str"] + ["number"] * (len(rewardbench_data.columns) - 1)