TuRTLe-Leaderboard

Running

App Files Files Community

arnauad3 commited on 22 days ago

Commit

7dd3ffd

1 Parent(s): 091340b

Other Models Leaderboard

Browse files

Files changed (5) hide show

app.py +122 -65
config/constants.py +11 -0
data_processing.py +13 -6
handlers/leaderboard_handlers.py +4 -2
utils.py +32 -4

app.py CHANGED Viewed

@@ -19,6 +19,78 @@ from static.html_content import (
 from style.css_html_js import custom_css
 with gr.Blocks(css=custom_css, theme=gr.themes.Default(primary_hue=colors.emerald)) as app:
     # Load csv results
     df_icarus = read_dataframe(C.ICARUS_RESULTS)
@@ -44,66 +116,33 @@ with gr.Blocks(css=custom_css, theme=gr.themes.Default(primary_hue=colors.emeral
     gr.HTML(NAV_BUTTONS_HTML)
     gr.HTML(INTRO_HTML)
     # Main view
     with gr.Tabs() as tabs:
         # Leaderboard
-        with gr.Tab("Leaderboard"):
-            # 1st row filters (select task, benchmark and sim)
-            with gr.Row(equal_height=True):
-                with gr.Column(scale=4):
-                    task_radio = gr.Radio(choices=C.TASKS, label="Select Task", value=C.DEFAULT_TASK)
-                with gr.Column(scale=3):
-                    benchmark_radio = gr.Radio(
-                        choices=[C.DEFAULT_BENCHMARK] + C.S2R_BENCHMARKS,
-                        label="Select Benchmark",
-                        value=C.DEFAULT_BENCHMARK,
-                    )
-                with gr.Column(scale=2, min_width=180):
-                    simulator_radio = gr.Radio(
-                        choices=C.SIMULATORS,
-                        value=C.SIMULATORS[0],
-                        label="Select Simulator",
-                        scale=1,
-                    )
-            # 2nd row filters (search, model type, params)
-            with gr.Row(equal_height=True):
-                search_box = gr.Textbox(
-                    label="Search Model",
-                    placeholder="Type model name...",
-                    scale=2,
-                )
-                model_type_dropdown = gr.Radio(
-                    choices=C.MODEL_TYPES,
-                    label="Select Model Type",
-                    value=C.DEFAULT_MODEL_TYPE,
-                    scale=3,
-                )
-                params_slider = gr.Slider(
-                    minimum=state.get_current_df()["Params"].min(),
-                    maximum=C.DEFAULT_MAX_PARAMS,
-                    value=C.DEFAULT_MAX_PARAMS,
-                    label="Max Params",
-                    step=1,
-                    scale=2,
-                )
-            # main leaderboard content
-            leaderboard = gr.DataFrame(
-                value=filter_leaderboard(
-                    C.DEFAULT_TASK, C.DEFAULT_BENCHMARK, C.DEFAULT_MODEL_TYPE, "", C.DEFAULT_MAX_PARAMS, state
-                ),
-                headers="first row",
-                show_row_numbers=True,
-                wrap=True,
-                datatype=["html", "html"],
-                interactive=False,
-                column_widths=["7%", "28%", "13%", "10%", "13%", "10%", "14%"],
-                elem_classes="dataframe-leaderboard",
-            )
-            # caption for the Base vs Instruct models
-            gr.HTML(LC_FOOTNOTE_HTML)
         # all plots using Plotly
         with gr.Tab("Plot View"):
@@ -161,17 +200,35 @@ with gr.Blocks(css=custom_css, theme=gr.themes.Default(primary_hue=colors.emeral
     create_leaderboard_handlers(
         filter_leaderboard_fn=filter_leaderboard,
         generate_scatter_plot_fn=generate_scatter_plot,
-        task_radio=task_radio,
-        benchmark_radio=benchmark_radio,
-        model_type_dropdown=model_type_dropdown,
-        search_box=search_box,
-        params_slider=params_slider,
         bubble_benchmark=bubble_benchmark,
         bubble_metric=bubble_metric,
         scatter_plot=scatter_plot,
-        leaderboard=leaderboard,
-        simulator_radio=simulator_radio,
         state=state,
     )
@@ -181,4 +238,4 @@ app.launch(
         "hpai_logo_grad.png",
         "bsc-logo.png",
     ]
-)

 from style.css_html_js import custom_css
+def make_leaderboard_tab(state: Simulator, name: str):
+    """Create a leaderboard tab with the given name and state."""
+    with gr.Tab(name):
+        # 1st row filters (select task, benchmark and sim)
+        with gr.Row(equal_height=True):
+            with gr.Column(scale=4):
+                task_radio = gr.Radio(choices=C.TASKS, label="Select Task", value=C.DEFAULT_TASK)
+            with gr.Column(scale=3):
+                benchmark_radio = gr.Radio(
+                    choices=[C.DEFAULT_BENCHMARK] + C.S2R_BENCHMARKS,
+                    label="Select Benchmark",
+                    value=C.DEFAULT_BENCHMARK,
+                )
+            with gr.Column(scale=2, min_width=180):
+                simulator_radio = gr.Radio(
+                    choices=C.SIMULATORS,
+                    value=C.SIMULATORS[0],
+                    label="Select Simulator",
+                    scale=1,
+                )
+        # 2nd row filters (search, model type, params)
+        with gr.Row(equal_height=True):
+            search_box = gr.Textbox(
+                label="Search Model",
+                placeholder="Type model name...",
+                scale=2,
+            )
+            model_type_dropdown = gr.Radio(
+                choices=C.MODEL_TYPES,
+                label="Select Model Type",
+                value=C.DEFAULT_MODEL_TYPE,
+                scale=3,
+            )
+            params_slider = gr.Slider(
+                minimum=state.get_current_df()["Params"].min(),
+                maximum=C.DEFAULT_MAX_PARAMS,
+                value=C.DEFAULT_MAX_PARAMS,
+                label="Max Params",
+                step=1,
+                scale=2,
+            )
+        if name == "Other Models":
+            show = False
+        else:
+            show = True
+        # main leaderboard content
+        leaderboard = gr.DataFrame(
+            value=filter_leaderboard(C.DEFAULT_TASK, C.DEFAULT_BENCHMARK, C.DEFAULT_MODEL_TYPE, "", C.DEFAULT_MAX_PARAMS, state, name),
+            headers="first row",
+            show_row_numbers=show,
+            wrap=True,
+            datatype=["html", "html"],
+            interactive=False,
+            column_widths=["7%", "28%", "13%", "10%", "13%", "10%", "14%"],
+            elem_classes="dataframe-leaderboard",
+        )
+        # caption for the Base vs Instruct models
+        gr.HTML(LC_FOOTNOTE_HTML)
+    return (
+        task_radio,
+        benchmark_radio,
+        simulator_radio,
+        search_box,
+        model_type_dropdown,
+        params_slider,
+        leaderboard,
+    )
 with gr.Blocks(css=custom_css, theme=gr.themes.Default(primary_hue=colors.emerald)) as app:
     # Load csv results
     df_icarus = read_dataframe(C.ICARUS_RESULTS)
     gr.HTML(NAV_BUTTONS_HTML)
     gr.HTML(INTRO_HTML)
     # Main view
     with gr.Tabs() as tabs:
         # Leaderboard
+        name_main = "Lastest Leaderboard"
+        (
+            task_radio_main,
+            benchmark_radio_main,
+            simulator_radio_main,
+            search_box_main,
+            model_type_dropdown_main,
+            params_slider_main,
+            leaderboard_main,
+        ) = make_leaderboard_tab(state, name_main)
+        # Other models
+        name_other = "Other Models"
+        (
+            task_radio_other,
+            benchmark_radio_other,
+            simulator_radio_other,
+            search_box_other,
+            model_type_dropdown_other,
+            params_slider_other,
+            leaderboard_other,
+        ) = make_leaderboard_tab(state, name_other)
         # all plots using Plotly
         with gr.Tab("Plot View"):
     create_leaderboard_handlers(
         filter_leaderboard_fn=filter_leaderboard,
         generate_scatter_plot_fn=generate_scatter_plot,
+        task_radio=task_radio_main,
+        benchmark_radio=benchmark_radio_main,
+        model_type_dropdown=model_type_dropdown_main,
+        search_box=search_box_main,
+        params_slider=params_slider_main,
         bubble_benchmark=bubble_benchmark,
         bubble_metric=bubble_metric,
         scatter_plot=scatter_plot,
+        leaderboard=leaderboard_main,
+        simulator_radio=simulator_radio_main,
         state=state,
+        name=name_main,
+    )
+    create_leaderboard_handlers(
+        filter_leaderboard_fn=filter_leaderboard,
+        generate_scatter_plot_fn=generate_scatter_plot,
+        task_radio=task_radio_other,
+        benchmark_radio=benchmark_radio_other,
+        model_type_dropdown=model_type_dropdown_other,
+        search_box=search_box_other,
+        params_slider=params_slider_other,
+        bubble_benchmark=bubble_benchmark,
+        bubble_metric=bubble_metric,
+        scatter_plot=scatter_plot,
+        leaderboard=leaderboard_other,
+        simulator_radio=simulator_radio_other,
+        state=state,
+        name=name_other,
     )
         "hpai_logo_grad.png",
         "bsc-logo.png",
     ]
+)

config/constants.py CHANGED Viewed

@@ -4,6 +4,17 @@ VERILATOR_RESULTS = f"{RESULTS_DIR}/results_verilator.json"
 ICARUS_AGG = f"{RESULTS_DIR}/aggregated_scores_icarus.csv"
 VERILATOR_AGG = f"{RESULTS_DIR}/aggregated_scores_verilator.csv"
 TASKS = ["Spec-to-RTL", "Code Completion", "Line Completion †"]
 S2R_BENCHMARKS = ["VerilogEval S2R", "RTLLM"]
 CC_BENCHMARKS = ["VerilogEval MC", "VeriGen"]

 ICARUS_AGG = f"{RESULTS_DIR}/aggregated_scores_icarus.csv"
 VERILATOR_AGG = f"{RESULTS_DIR}/aggregated_scores_verilator.csv"
+DISCARDED_MODELS = {
+}
+"""
+    "DeepSeek R1": "10/10/2025",
+    "QwenCoder 2.5 7B": "11/10/2025",
+    "RTLCoder Mistral": "14/10/2025"
+"""
 TASKS = ["Spec-to-RTL", "Code Completion", "Line Completion †"]
 S2R_BENCHMARKS = ["VerilogEval S2R", "RTLLM"]
 CC_BENCHMARKS = ["VerilogEval MC", "VeriGen"]

data_processing.py CHANGED Viewed

@@ -10,6 +10,7 @@ from config.constants import (
     SCATTER_PLOT_X_TICKS,
     TYPE_COLORS,
     Y_AXIS_LIMITS,
 )
 from utils import filter_bench, filter_bench_all, filter_RTLRepo, handle_special_cases
@@ -40,7 +41,7 @@ class Simulator:
 # filtering main function for the leaderboard body
-def filter_leaderboard(task, benchmark, model_type, search_query, max_params, state):
     """Filter leaderboard data based on user selections."""
     subset = state.get_current_df().copy()
@@ -69,15 +70,20 @@ def filter_leaderboard(task, benchmark, model_type, search_query, max_params, st
     max_params = float(max_params)
     subset = subset[subset["Params"] <= max_params]
     if benchmark == "All":
         if task == "Spec-to-RTL":
-            return filter_bench_all(subset, state.get_current_agg(), agg_column="Agg S2R")
         elif task == "Code Completion":
-            return filter_bench_all(subset, state.get_current_agg(), agg_column="Agg MC")
         elif task == "Line Completion †":
-            return filter_RTLRepo(subset)
     elif benchmark == "RTL-Repo":
-        return filter_RTLRepo(subset)
     else:
         agg_column = None
         if benchmark == "VerilogEval S2R":
@@ -89,7 +95,7 @@ def filter_leaderboard(task, benchmark, model_type, search_query, max_params, st
         elif benchmark == "VeriGen":
             agg_column = "Agg VeriGen"
-        return filter_bench(subset, state.get_current_agg(), agg_column)
 def generate_scatter_plot(benchmark, metric, state):
@@ -97,6 +103,7 @@ def generate_scatter_plot(benchmark, metric, state):
     benchmark, metric = handle_special_cases(benchmark, metric)
     subset = state.get_current_df()[state.get_current_df()["Benchmark"] == benchmark]
     if benchmark == "RTL-Repo":
         subset = subset[subset["Metric"].str.contains("EM", case=False, na=False)]
         detailed_scores = subset.groupby("Model", as_index=False)["Score"].mean()

     SCATTER_PLOT_X_TICKS,
     TYPE_COLORS,
     Y_AXIS_LIMITS,
+    DISCARDED_MODELS,
 )
 from utils import filter_bench, filter_bench_all, filter_RTLRepo, handle_special_cases
 # filtering main function for the leaderboard body
+def filter_leaderboard(task, benchmark, model_type, search_query, max_params, state, name):
     """Filter leaderboard data based on user selections."""
     subset = state.get_current_df().copy()
     max_params = float(max_params)
     subset = subset[subset["Params"] <= max_params]
+    if name == "Other Models":
+        subset = subset[subset["Model"].isin(DISCARDED_MODELS)]
+    else:
+        subset = subset[~subset["Model"].isin(DISCARDED_MODELS)]
     if benchmark == "All":
         if task == "Spec-to-RTL":
+            return filter_bench_all(subset, state.get_current_agg(), agg_column="Agg S2R", name=name)
         elif task == "Code Completion":
+            return filter_bench_all(subset, state.get_current_agg(), agg_column="Agg MC", name=name)
         elif task == "Line Completion †":
+            return filter_RTLRepo(subset, name=name)
     elif benchmark == "RTL-Repo":
+        return filter_RTLRepo(subset, name=name)
     else:
         agg_column = None
         if benchmark == "VerilogEval S2R":
         elif benchmark == "VeriGen":
             agg_column = "Agg VeriGen"
+        return filter_bench(subset, state.get_current_agg(), agg_column, name=name)
 def generate_scatter_plot(benchmark, metric, state):
     benchmark, metric = handle_special_cases(benchmark, metric)
     subset = state.get_current_df()[state.get_current_df()["Benchmark"] == benchmark]
+    subset = subset[~subset["Model"].isin(DISCARDED_MODELS)]
     if benchmark == "RTL-Repo":
         subset = subset[subset["Metric"].str.contains("EM", case=False, na=False)]
         detailed_scores = subset.groupby("Model", as_index=False)["Score"].mean()

handlers/leaderboard_handlers.py CHANGED Viewed

@@ -26,6 +26,7 @@ def create_leaderboard_handlers(
     leaderboard,
     simulator_radio,
     state,
 ):
     def update_benchmarks_by_task(task):
         if task == "Spec-to-RTL":
@@ -45,6 +46,7 @@ def create_leaderboard_handlers(
             search_box.value,
             params_slider.value,
             state,
         )
         return gr.update(value=benchmark_value, choices=new_benchmarks), filtered
@@ -77,7 +79,7 @@ def create_leaderboard_handlers(
     ):
         state.set_simulator(simulator)
-        leaderboard_df = filter_leaderboard_fn(task, benchmark, model_type, search, max_params, state)
         fig = generate_scatter_plot_fn(plot_bench, plot_metric, state)
         return leaderboard_df, fig
@@ -88,7 +90,7 @@ def create_leaderboard_handlers(
     )
     def filter_with_state(task, benchmark, model_type, search, max_params):
-        return filter_leaderboard_fn(task, benchmark, model_type, search, max_params, state)
     benchmark_radio.change(
         fn=filter_with_state,

     leaderboard,
     simulator_radio,
     state,
+    name,
 ):
     def update_benchmarks_by_task(task):
         if task == "Spec-to-RTL":
             search_box.value,
             params_slider.value,
             state,
+            name,
         )
         return gr.update(value=benchmark_value, choices=new_benchmarks), filtered
     ):
         state.set_simulator(simulator)
+        leaderboard_df = filter_leaderboard_fn(task, benchmark, model_type, search, max_params, state, name)
         fig = generate_scatter_plot_fn(plot_bench, plot_metric, state)
         return leaderboard_df, fig
     )
     def filter_with_state(task, benchmark, model_type, search, max_params):
+        return filter_leaderboard_fn(task, benchmark, model_type, search, max_params, state, name)
     benchmark_radio.change(
         fn=filter_with_state,

utils.py CHANGED Viewed

@@ -5,8 +5,9 @@ import numpy as np
 import pandas as pd
 import plotly.express as px
 import plotly.graph_objects as go
-from config.constants import COLUMN_MAPPINGS, COLUMN_ORDER, TYPE_EMOJI
 def model_hyperlink(link, model_name, release, thinking=False):
@@ -20,6 +21,20 @@ def model_hyperlink(link, model_name, release, thinking=False):
         return ret + reasoning_badge + new_badge if thinking == "Reasoning" else ret + new_badge
 def handle_special_cases(benchmark, metric):
     if metric == "Exact Matching (EM)":
         benchmark = "RTL-Repo"
@@ -28,7 +43,7 @@ def handle_special_cases(benchmark, metric):
     return benchmark, metric
-def filter_RTLRepo(subset: pd.DataFrame) -> pd.DataFrame:
     if subset.empty:
         return pd.DataFrame(columns=["Type", "Model", "Params", "Exact Matching (EM)"])
@@ -42,6 +57,7 @@ def filter_RTLRepo(subset: pd.DataFrame) -> pd.DataFrame:
         "Model"
     )
     filtered_df = subset[["Model", "Score"]].rename(columns={"Score": "Exact Matching (EM)"})
     filtered_df = pd.merge(filtered_df, details, on="Model", how="left")
     filtered_df["Model"] = filtered_df.apply(
         lambda row: model_hyperlink(
@@ -54,10 +70,13 @@ def filter_RTLRepo(subset: pd.DataFrame) -> pd.DataFrame:
     filtered_df["Type"] = filtered_df["Model Type"].map(lambda x: TYPE_EMOJI.get(x, ""))
     filtered_df = filtered_df[["Type", "Model", "Params", "Exact Matching (EM)"]]
     filtered_df = filtered_df.sort_values(by="Exact Matching (EM)", ascending=False).reset_index(drop=True)
     return filtered_df
-def filter_bench(subset: pd.DataFrame, df_agg=None, agg_column=None) -> pd.DataFrame:
     if subset.empty:
         return pd.DataFrame(columns=COLUMN_ORDER)
@@ -85,6 +104,8 @@ def filter_bench(subset: pd.DataFrame, df_agg=None, agg_column=None) -> pd.DataF
     # else:  # fallback
     #     pivot_df["Aggregated ⬆️"] = pivot_df.mean(axis=1, numeric_only=True).round(2)
     pivot_df = pd.merge(pivot_df, details, on="Model", how="left")
     pivot_df["Model"] = pivot_df.apply(
         lambda row: model_hyperlink(row["Model URL"], row["Model"], row["Release"], row["Thinking"]),
@@ -95,12 +116,16 @@ def filter_bench(subset: pd.DataFrame, df_agg=None, agg_column=None) -> pd.DataF
     if all(col in pivot_df.columns for col in ["Power", "Performance", "Area"]):
         pivot_df["Post-Synthesis (PSQ)"] = pivot_df[["Power", "Performance", "Area"]].mean(axis=1).round(2)
     pivot_df.rename(columns=COLUMN_MAPPINGS, inplace=True)
     pivot_df = pivot_df[[col for col in COLUMN_ORDER if col in pivot_df.columns]]
     if "Functionality" in pivot_df.columns:
         pivot_df = pivot_df.sort_values(by="Functionality", ascending=False).reset_index(drop=True)
     return pivot_df
@@ -128,7 +153,7 @@ def custom_agg_cc(vals):
     return round(result, 2)
-def filter_bench_all(subset: pd.DataFrame, df_agg=None, agg_column=None) -> pd.DataFrame:
     if subset.empty:
         return pd.DataFrame(columns=COLUMN_ORDER)
@@ -164,4 +189,7 @@ def filter_bench_all(subset: pd.DataFrame, df_agg=None, agg_column=None) -> pd.D
     if "Functionality" in pivot_df.columns:
         pivot_df = pivot_df.sort_values(by="Functionality", ascending=False).reset_index(drop=True)
     return pivot_df

 import pandas as pd
 import plotly.express as px
 import plotly.graph_objects as go
+import re
+from config.constants import COLUMN_MAPPINGS, COLUMN_ORDER, TYPE_EMOJI, DISCARDED_MODELS
 def model_hyperlink(link, model_name, release, thinking=False):
         return ret + reasoning_badge + new_badge if thinking == "Reasoning" else ret + new_badge
+def extract_name_from_link(html: str) -> str:
+    """
+    Extracts the model name from the HTML generated by model_hyperlink()
+    """
+    if not isinstance(html, str):
+        return html
+    match = re.search(r'<a[^>]*>(.*?)</a>', html)
+    if match:
+        return match.group(1).strip()
+    return re.sub(r'<[^>]+>', '', html).strip()
 def handle_special_cases(benchmark, metric):
     if metric == "Exact Matching (EM)":
         benchmark = "RTL-Repo"
     return benchmark, metric
+def filter_RTLRepo(subset: pd.DataFrame, name=str) -> pd.DataFrame:
     if subset.empty:
         return pd.DataFrame(columns=["Type", "Model", "Params", "Exact Matching (EM)"])
         "Model"
     )
     filtered_df = subset[["Model", "Score"]].rename(columns={"Score": "Exact Matching (EM)"})
     filtered_df = pd.merge(filtered_df, details, on="Model", how="left")
     filtered_df["Model"] = filtered_df.apply(
         lambda row: model_hyperlink(
     filtered_df["Type"] = filtered_df["Model Type"].map(lambda x: TYPE_EMOJI.get(x, ""))
     filtered_df = filtered_df[["Type", "Model", "Params", "Exact Matching (EM)"]]
     filtered_df = filtered_df.sort_values(by="Exact Matching (EM)", ascending=False).reset_index(drop=True)
+    if name == "Other Models":
+        filtered_df["Date Discarded"] = filtered_df["Model"].apply(lambda x: DISCARDED_MODELS.get(extract_name_from_link(x), "N/A"))
     return filtered_df
+def filter_bench(subset: pd.DataFrame, df_agg=None, agg_column=None, name=str) -> pd.DataFrame:
     if subset.empty:
         return pd.DataFrame(columns=COLUMN_ORDER)
     # else:  # fallback
     #     pivot_df["Aggregated ⬆️"] = pivot_df.mean(axis=1, numeric_only=True).round(2)
     pivot_df = pd.merge(pivot_df, details, on="Model", how="left")
     pivot_df["Model"] = pivot_df.apply(
         lambda row: model_hyperlink(row["Model URL"], row["Model"], row["Release"], row["Thinking"]),
     if all(col in pivot_df.columns for col in ["Power", "Performance", "Area"]):
         pivot_df["Post-Synthesis (PSQ)"] = pivot_df[["Power", "Performance", "Area"]].mean(axis=1).round(2)
     pivot_df.rename(columns=COLUMN_MAPPINGS, inplace=True)
     pivot_df = pivot_df[[col for col in COLUMN_ORDER if col in pivot_df.columns]]
     if "Functionality" in pivot_df.columns:
         pivot_df = pivot_df.sort_values(by="Functionality", ascending=False).reset_index(drop=True)
+    if name != "Other Models":
+        pivot_df["Date Discarded"] = pivot_df["Model"].apply(lambda x: DISCARDED_MODELS.get(extract_name_from_link(x), "N/A"))
     return pivot_df
     return round(result, 2)
+def filter_bench_all(subset: pd.DataFrame, df_agg=None, agg_column=None, name=str) -> pd.DataFrame:
     if subset.empty:
         return pd.DataFrame(columns=COLUMN_ORDER)
     if "Functionality" in pivot_df.columns:
         pivot_df = pivot_df.sort_values(by="Functionality", ascending=False).reset_index(drop=True)
+    if name == "Other Models":
+        pivot_df["Date Discarded"] = pivot_df["Model"].apply(lambda x: DISCARDED_MODELS.get(extract_name_from_link(x), "N/A"))
     return pivot_df