DABstep

Running on CPU Upgrade

eggie5-adyen commited on Mar 18

Commit

727eb6f

1 Parent(s): f477fda

added Validated tab

Files changed (2) hide show

app.py CHANGED Viewed

@@ -18,13 +18,31 @@ if __name__ == "__main__":
     with demo:
         gr.Markdown(TITLE)
         gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
-        leaderboard_table = gr.components.Dataframe(
-            value=generate_leaderboard_df(),
-            datatype=["markdown", "str", "str", "str", "markdown", "str", "str", "str"],
-            interactive=False,
-            column_widths=["20%"],
-            wrap=True,
         )
         # create a Gradio event listener that runs when the page is loaded to populate the dataframe
         demo.load(lambda: generate_leaderboard_df(), None, leaderboard_table)

     with demo:
         gr.Markdown(TITLE)
         gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
+        # Generate leaderboard data once
+        leaderboard_df = generate_leaderboard_df()
+        # Filter validated and unvalidated
+        validated = leaderboard_df[leaderboard_df["validated"] == True].drop(columns=["validated"]).copy()
+        unvalidated = leaderboard_df[leaderboard_df["validated"] == False].drop(columns=["validated"]).copy()
+        with gr.Tab("Validated"):
+            leaderboard_table = gr.components.Dataframe(
+                value=validated,
+                datatype=["markdown", "str", "str", "str", "markdown", "str", "str", "str"],
+                interactive=False,
+                column_widths=["20%"],
+                wrap=True,
+        )
+        with gr.Tab("Unvalidated"):
+            leaderboard_table = gr.components.Dataframe(
+                value=unvalidated,
+                datatype=["markdown", "str", "str", "str", "markdown", "str", "str", "str"],
+                interactive=False,
+                column_widths=["20%"],
+                wrap=True,
         )
         # create a Gradio event listener that runs when the page is loaded to populate the dataframe
         demo.load(lambda: generate_leaderboard_df(), None, leaderboard_table)

dabstep_benchmark/leaderboard.py CHANGED Viewed

@@ -154,6 +154,7 @@ def process_submission(
     submission_df["organisation"] = f"{organisation} | user {profile.username}"
     submission_df["repo_url"] = repo_url
     submission_df["date"] = datetime.date.today().strftime("%d-%m-%Y")
     # add empty reasoning trace if one is not provided to not break schema of datasets
     if "reasoning_trace" not in submission_df.columns:
@@ -242,7 +243,8 @@ def generate_leaderboard_df() -> pd.DataFrame:
                 "model_family",
                 "organisation",
                 "repo_url",
-                "date"
             ]
         ]
     )
@@ -288,7 +290,8 @@ def generate_leaderboard_df() -> pd.DataFrame:
         "organisation": "Organization",
         "repo_url": "Repo URL",
         "model_family": "Model Family",
-        "date": "Date"
     }
     col_order = [new_col_name for new_col_name in col_map.values()]
     leaderboard_df.rename(columns=col_map, inplace=True)

     submission_df["organisation"] = f"{organisation} | user {profile.username}"
     submission_df["repo_url"] = repo_url
     submission_df["date"] = datetime.date.today().strftime("%d-%m-%Y")
+    submission_df["validated"] = False #unvalidated by default
     # add empty reasoning trace if one is not provided to not break schema of datasets
     if "reasoning_trace" not in submission_df.columns:
                 "model_family",
                 "organisation",
                 "repo_url",
+                "date",
+                "validated"
             ]
         ]
     )
         "organisation": "Organization",
         "repo_url": "Repo URL",
         "model_family": "Model Family",
+        "date": "Date",
+        "validated": "validated"
     }
     col_order = [new_col_name for new_col_name in col_map.values()]
     leaderboard_df.rename(columns=col_map, inplace=True)