Spaces:

whitphx
/

transformersjs-performance-leaderboard-backend

Runtime error

App Files Files Community

whitphx HF Staff commited on 23 days ago

Commit

9438810

1 Parent(s): 4d725bc

fix

Browse files

Files changed (2) hide show

leaderboard/src/leaderboard/app.py +22 -5
leaderboard/src/leaderboard/data_loader.py +13 -1

leaderboard/src/leaderboard/app.py CHANGED Viewed

@@ -56,6 +56,7 @@ def filter_data(
     device_filter: str,
     mode_filter: str,
     dtype_filter: str,
 ) -> pd.DataFrame:
     """Filter benchmark data based on user inputs."""
     if df.empty:
@@ -89,6 +90,10 @@ def filter_data(
     if dtype_filter and dtype_filter != "All":
         filtered = filtered[filtered["dtype"] == dtype_filter]
     return filtered
@@ -99,10 +104,9 @@ def create_leaderboard_ui():
     df = load_data()
     formatted_df = format_dataframe(df)
-    # Cache raw data in Gradio state to avoid reloading on every filter change
-    raw_data_state = gr.State(df)
     with gr.Blocks(title="Transformers.js Benchmark Leaderboard") as demo:
         gr.Markdown("# 🏆 Transformers.js Benchmark Leaderboard")
         gr.Markdown(
             "Compare benchmark results for different models, platforms, and configurations."
@@ -156,6 +160,11 @@ def create_leaderboard_ui():
                 choices=get_unique_values(df, "dtype"),
                 value="All",
             )
         results_table = gr.DataFrame(
             value=formatted_df,
@@ -193,12 +202,13 @@ def create_leaderboard_ui():
                 gr.update(choices=get_unique_values(new_df, "device")),
                 gr.update(choices=get_unique_values(new_df, "mode")),
                 gr.update(choices=get_unique_values(new_df, "dtype")),
             )
-        def apply_filters(raw_df, model, task, platform, device, mode, dtype):
             """Apply filters and return filtered DataFrame."""
             # Use cached raw data instead of reloading
-            filtered = filter_data(raw_df, model, task, platform, device, mode, dtype)
             return format_dataframe(filtered)
         # Refresh button updates data and resets filters
@@ -212,6 +222,7 @@ def create_leaderboard_ui():
                 device_filter,
                 mode_filter,
                 dtype_filter,
             ],
         )
@@ -224,6 +235,7 @@ def create_leaderboard_ui():
             device_filter,
             mode_filter,
             dtype_filter,
         ]
         model_filter.change(
@@ -256,6 +268,11 @@ def create_leaderboard_ui():
             inputs=filter_inputs,
             outputs=results_table,
         )
     return demo

     device_filter: str,
     mode_filter: str,
     dtype_filter: str,
+    status_filter: str,
 ) -> pd.DataFrame:
     """Filter benchmark data based on user inputs."""
     if df.empty:
     if dtype_filter and dtype_filter != "All":
         filtered = filtered[filtered["dtype"] == dtype_filter]
+    # Status filter
+    if status_filter and status_filter != "All":
+        filtered = filtered[filtered["status"] == status_filter]
     return filtered
     df = load_data()
     formatted_df = format_dataframe(df)
     with gr.Blocks(title="Transformers.js Benchmark Leaderboard") as demo:
+        # Cache raw data in Gradio state to avoid reloading on every filter change
+        raw_data_state = gr.State(df)
         gr.Markdown("# 🏆 Transformers.js Benchmark Leaderboard")
         gr.Markdown(
             "Compare benchmark results for different models, platforms, and configurations."
                 choices=get_unique_values(df, "dtype"),
                 value="All",
             )
+            status_filter = gr.Dropdown(
+                label="Status",
+                choices=get_unique_values(df, "status"),
+                value="All",
+            )
         results_table = gr.DataFrame(
             value=formatted_df,
                 gr.update(choices=get_unique_values(new_df, "device")),
                 gr.update(choices=get_unique_values(new_df, "mode")),
                 gr.update(choices=get_unique_values(new_df, "dtype")),
+                gr.update(choices=get_unique_values(new_df, "status")),
             )
+        def apply_filters(raw_df, model, task, platform, device, mode, dtype, status):
             """Apply filters and return filtered DataFrame."""
             # Use cached raw data instead of reloading
+            filtered = filter_data(raw_df, model, task, platform, device, mode, dtype, status)
             return format_dataframe(filtered)
         # Refresh button updates data and resets filters
                 device_filter,
                 mode_filter,
                 dtype_filter,
+                status_filter,
             ],
         )
             device_filter,
             mode_filter,
             dtype_filter,
+            status_filter,
         ]
         model_filter.change(
             inputs=filter_inputs,
             outputs=results_table,
         )
+        status_filter.change(
+            fn=apply_filters,
+            inputs=filter_inputs,
+            outputs=results_table,
+        )
     return demo

leaderboard/src/leaderboard/data_loader.py CHANGED Viewed

@@ -109,6 +109,11 @@ def flatten_result(result: Dict[str, Any]) -> Dict[str, Any]:
         except (ValueError, OSError):
             timestamp_dt = None
     flat = {
         "id": result.get("id", ""),
         "platform": result.get("platform", ""),
@@ -121,9 +126,16 @@ def flatten_result(result: Dict[str, Any]) -> Dict[str, Any]:
         "browser": result.get("browser", ""),
         "dtype": result.get("dtype", ""),
         "headed": result.get("headed", False),
-        "status": result.get("status", ""),
         "timestamp": timestamp_dt,
         "runtime": result.get("runtime", ""),
     }
     # Extract metrics if available (already at top level)

         except (ValueError, OSError):
             timestamp_dt = None
+    # Determine actual status - if there's an error, it should be "failed"
+    status = result.get("status", "")
+    if "error" in result:
+        status = "failed"
     flat = {
         "id": result.get("id", ""),
         "platform": result.get("platform", ""),
         "browser": result.get("browser", ""),
         "dtype": result.get("dtype", ""),
         "headed": result.get("headed", False),
+        "status": status,
         "timestamp": timestamp_dt,
         "runtime": result.get("runtime", ""),
+        # Initialize metric fields with None (will be filled if metrics exist)
+        "load_ms_p50": None,
+        "load_ms_p90": None,
+        "first_infer_ms_p50": None,
+        "first_infer_ms_p90": None,
+        "subsequent_infer_ms_p50": None,
+        "subsequent_infer_ms_p90": None,
     }
     # Extract metrics if available (already at top level)