Spaces:

sparse-generative-ai
/

open-moe-llm-leaderboard

Running

App Files Files Community

future-xy commited on Mar 21, 2024

Commit

82a6ed1

1 Parent(s): a4a186c

fix result display bug

Browse files

Files changed (2) hide show

src/backend/envs.py +1 -1
src/display/utils.py +16 -18

src/backend/envs.py CHANGED Viewed

@@ -43,7 +43,7 @@ class Tasks(Enum):
     # task13 = Task("ifeval", "prompt_level_strict_acc", "IFEval", 0)
-    task14 = Task("selfcheckgpt", "max-selfcheckgpt", "SelfCheckGPT", 0)
     # task15 = Task("fever10", "acc", "FEVER", 16)
     # task15_1 = Task("fever11", "acc", "FEVER", 8)

     # task13 = Task("ifeval", "prompt_level_strict_acc", "IFEval", 0)
+    # task14 = Task("selfcheckgpt", "max-selfcheckgpt", "SelfCheckGPT", 0)
     # task15 = Task("fever10", "acc", "FEVER", 16)
     # task15_1 = Task("fever11", "acc", "FEVER", 8)

src/display/utils.py CHANGED Viewed

@@ -45,8 +45,8 @@ class Tasks(Enum):
     # halueval_dial = Task("halueval_dialogue", "acc", "HaluDial/Acc")
     # # XXX include me back at some point
-    selfcheck = Task("selfcheckgpt", "max-selfcheckgpt", "SelfCheckGPT")
-    mmlu = Task("hendrycksTest", "acc", "MMLU")
 # These classes are for user facing column names,
@@ -63,11 +63,9 @@ class ColumnContent:
 auto_eval_column_dict = []
-auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "str", True, never_hidden=True)])
-auto_eval_column_dict.append(["hardware", ColumnContent, ColumnContent("Hardware", "str", True, never_hidden=True)])
 # Init
-# auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
-# auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 # #Scores
 # # auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Avg", "number", True)])
@@ -75,18 +73,18 @@ auto_eval_column_dict.append(["hardware", ColumnContent, ColumnContent("Hardware
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
-# # Model information
-# auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
-# auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
-# auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
-# auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
-# auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
-# auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
-# auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
-# auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
-# auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
-# # Dummy column for the search bar (hidden by the custom CSS)
-# auto_eval_column_dict.append(["dummy", ColumnContent, ColumnContent("model_name_for_query", "str", False, dummy=True)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)

     # halueval_dial = Task("halueval_dialogue", "acc", "HaluDial/Acc")
     # # XXX include me back at some point
+    # selfcheck = Task("selfcheckgpt", "max-selfcheckgpt", "SelfCheckGPT")
+    mmlu = Task("mmlu", "acc", "MMLU/Acc")
 # These classes are for user facing column names,
 auto_eval_column_dict = []
 # Init
+auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
+auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 # #Scores
 # # auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Avg", "number", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
+# Model information
+auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
+auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
+auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
+auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
+auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
+auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
+auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
+auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
+auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
+# Dummy column for the search bar (hidden by the custom CSS)
+auto_eval_column_dict.append(["dummy", ColumnContent, ColumnContent("model_name_for_query", "str", False, dummy=True)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)