Spaces:

nbroad
/

asdf

Paused

App Files Files Community

nbroad commited on Aug 1, 2024

Commit

d6c1103

verified ·

1 Parent(s): fc978de

Update app.py

Browse files

Files changed (1) hide show

app.py +1 -163

app.py CHANGED Viewed

@@ -108,10 +108,6 @@ def make_df():
     joined = pd.concat([x.drop("id", axis=1) for x in data.values()], axis=1)
-    # joined = pl.concat([x.drop("id") for x in data.values()], how="horizontal")
-    # id_col = joined.iloc[:, 0]
-    # joined = joined.drop("id")
-    # joined = joined.insert_column(0, id_col)
     joined["id"] = id_col
@@ -181,117 +177,6 @@ def make_df():
     return joined, id2texts
-# def make_df():
-#     data = {f: pl.read_csv(f) for f in files}
-#     for k in data.keys():
-#         exp = exps[k]
-#         if "0" in data[k].columns:
-#             data[k] = data[k].rename({
-#                 "0": f"winner_model_a_prob_{exp}",
-#                 "1": f"winner_model_b_prob_{exp}",
-#                 "2": f"winner_tie_prob_{exp}",
-#             })
-#         elif "winner_tie_prob" not in data[k].columns:
-#             data[k] = data[k].rename({
-#                 "winner_model_a": f"winner_model_a_prob_{exp}",
-#                 "winner_model_b": f"winner_model_b_prob_{exp}",
-#                 "winner_tie": f"winner_tie_prob_{exp}",
-#             })
-#         else:
-#             data[k] = data[k].rename({
-#                 "winner_model_a_prob": f"winner_model_a_prob_{exp}",
-#                 "winner_model_b_prob": f"winner_model_b_prob_{exp}",
-#                 "winner_tie_prob": f"winner_tie_prob_{exp}",
-#             })
-#         pred_cols = [
-#             f"winner_model_a_prob_{exp}",
-#             f"winner_model_b_prob_{exp}",
-#             f"winner_tie_prob_{exp}",
-#         ]
-#         data[k] = data[k].sort("id")
-#         final_columns = ["id"] + pred_cols
-#         data[k] = data[k].select(final_columns)
-#     id_col = data[files[0]].select("id")
-#     joined = pl.concat([x.drop("id") for x in data.values()], how="horizontal")
-#     joined = pl.concat([id_col, joined], how="horizontal")
-#     tdf = pl.read_csv(train_csv_path)
-#     joined = joined.join(tdf, on="id", how="left")
-#     joined = joined.with_columns([
-#     pl.when(pl.col("winner_model_a") == 1).then(0).otherwise(
-#     pl.when(pl.col("winner_model_b") == 1).then(1).otherwise(
-#     pl.when(pl.col("winner_tie") == 1).then(2).otherwise(3)
-#     )).alias("winner")
-# ])
-#     for exp in exps.values():
-#         pred_cols = [
-#             f"winner_model_a_prob_{exp}",
-#             f"winner_model_b_prob_{exp}",
-#             f"winner_tie_prob_{exp}",
-#         ]
-#         temp_scores = joined.select(pred_cols).to_numpy()
-#         if temp_scores.sum(axis=-1).max() > 1.1:
-#             temp_scores = torch.tensor(temp_scores).softmax(-1)
-#         else:
-#             temp_scores = torch.tensor(temp_scores)
-#         joined = joined.with_columns([
-#             pl.Series(name=col, values=temp_scores[:, i].numpy())
-#             for i, col in enumerate(pred_cols)
-#         ])
-#         gt_idxs = joined.select(["winner_model_a", "winner_model_b", "winner_tie"]).to_numpy().argsort()[:, -1]
-#         temp = temp_scores[torch.arange(temp_scores.shape[0]), gt_idxs]
-#         loss = torch.nn.functional.binary_cross_entropy(
-#             temp, torch.ones(len(temp), dtype=torch.float64), reduction="none"
-#         )
-#         joined = joined.with_columns([
-#             pl.Series(name=f"loss_{exp}", values=loss.numpy())
-#         ])
-#     joined = joined.with_columns([
-#         pl.col("prompt").str.len_chars().alias("prompt_length"),
-#         pl.col("response_a").str.len_chars().alias("response_a_length"),
-#         pl.col("response_b").str.len_chars().alias("response_b_length"),
-#     ])
-#     joined = joined.with_columns([
-#         (pl.col("prompt_length") + pl.col("response_a_length") + pl.col("response_b_length")).alias("total_length")
-#     ])
-#     loss_cols = [x for x in joined.columns if "loss" in x]
-#     joined = joined.with_columns([
-#         pl.mean_horizontal(loss_cols).alias("avg_loss"),
-#         pl.mean_horizontal([x for x in joined.columns if "winner_model_a_prob" in x]).alias("avg_winner_model_a"),
-#         pl.mean_horizontal([x for x in joined.columns if "winner_model_b_prob" in x]).alias("avg_winner_model_b"),
-#         pl.mean_horizontal([x for x in joined.columns if "winner_tie_prob" in x]).alias("avg_winner_tie"),
-#     ])
-#     prob_cols = [x for x in joined.columns if "prob" in x]
-#     loss_cols = [x for x in joined.columns if "loss" in x]
-#     joined = joined.with_columns([
-#         pl.col(prob_cols + loss_cols).cast(pl.Float32)
-#     ])
-#     return joined
 MAIN_DF, id2texts = make_df()
@@ -309,18 +194,6 @@ def filter_df(lower_limit, upper_limit, file, all_check):
     return 0, temp
-# def filter_df(lower_limit, upper_limit, file, all_check):
-#     if all_check or file is None or file == "":
-#         loss_col = "avg_loss"
-#     else:
-#         loss_col = f"loss_{exps[file]}"
-#     temp = MAIN_DF.filter(
-#         (pl.col(loss_col) > lower_limit) & (pl.col(loss_col) < upper_limit)
-#     ).sort(loss_col, descending=True)
-#     return 0, temp
 def make_chat(prompt, response, side, label):
     prompts = json.loads(prompt)
@@ -351,41 +224,6 @@ def make_chat(prompt, response, side, label):
     return chat
-# def show_chats(idx, df, file, all_check):
-#     if idx is None:
-#         return None, None
-#     if idx > len(df):
-#         idx = len(df) - 1
-#     if idx < 0:
-#         idx = 0
-#     label = df["winner"].iloc[idx]
-#     chat_a = make_chat(df["prompt"].iloc[idx], df["response_a"].iloc[idx], "A", label)
-#     chat_b = make_chat(df["prompt"].iloc[idx], df["response_b"].iloc[idx], "B", label)
-#     if all_check or file is None or file == "":
-#         score_cols = ["avg_winner_model_a", "avg_winner_model_b", "avg_winner_tie"]
-#     else:
-#         score_cols = [
-#             f"winner_model_a_prob_{exps[file]}",
-#             f"winner_model_b_prob_{exps[file]}",
-#             f"winner_tie_prob_{exps[file]}",
-#         ]
-#     scores = df[score_cols].iloc[idx].tolist()
-#     if all_check or file is None or file == "":
-#         loss_col = "avg_loss"
-#     else:
-#         loss_col = f"loss_{exps[file]}"
-#     loss = df[loss_col].iloc[idx]
-#     return chat_a, chat_b, label, *scores, loss
 def show_chats(idx, df, file, all_check):
     if idx is None:
         return None, None
@@ -458,7 +296,7 @@ with gr.Blocks() as demo:
         with gr.Column():
             file = gr.Dropdown(label="File", choices=[x.split("/")[-1] for x in files])
         with gr.Column():
-            all_check = gr.Checkbox(label="Use average loss of all files")
     with gr.Row():
         lower_limit = gr.Slider(
             label="Show samples with loss > this value", minimum=0, maximum=5, value=1

     joined = pd.concat([x.drop("id", axis=1) for x in data.values()], axis=1)
     joined["id"] = id_col
     return joined, id2texts
 MAIN_DF, id2texts = make_df()
     return 0, temp
 def make_chat(prompt, response, side, label):
     prompts = json.loads(prompt)
     return chat
 def show_chats(idx, df, file, all_check):
     if idx is None:
         return None, None
         with gr.Column():
             file = gr.Dropdown(label="File", choices=[x.split("/")[-1] for x in files])
         with gr.Column():
+            all_check = gr.Checkbox(label="Use average loss of all files", value=True)
     with gr.Row():
         lower_limit = gr.Slider(
             label="Show samples with loss > this value", minimum=0, maximum=5, value=1