Spaces:

huggingface
/

hf-speech-bench

Running

App Files Files Community

speech-test commited on Mar 24, 2022

Commit

743f616

1 Parent(s): dcde789

apply suggestions

Browse files

Files changed (1) hide show

app.py +52 -33

app.py CHANGED Viewed

@@ -13,7 +13,6 @@ suggested_datasets = [
     "librispeech_asr",
     "mozilla-foundation/common_voice_8_0",
     "mozilla-foundation/common_voice_7_0",
-    "common_voice",
     "speech-recognition-community-v2/eval_data",
 ]
@@ -101,38 +100,32 @@ def get_data():
     return pd.DataFrame.from_records(data)
-def suggest_datasets(datasets):
-    ranked = set(suggested_datasets) & set(datasets)
-    ranked = sorted(ranked, key=suggested_datasets.index)[:3]
-    ranked = [f"* *{dataset_id}*\n" for dataset_id in ranked]
-    if len(ranked) > 0:
-        return f"""
-        For general-purpose automatic speech recognition, we currently advise to pick a model that performs well on:
-        {"".join(ranked)}
-        """
-    else:
-        return ""
 @st.cache(ttl=600)
-def generate_note(lang, lang_df):
-    lang_name = lang2name[lang] if lang in lang2name else ""
-    num_models = len(lang_df["model_id"].unique())
-    unique_datasets = sorted(lang_df["dataset"].unique())
-    num_datasets = len(unique_datasets)
     msg = f"""
-    For the `{lang}` ({lang_name}) language, there are currently `{num_models}` models
-    trained on `{num_datasets}` datasets available for `automatic-speech-recognition`.
     The models have been trained and/or evaluated on the following datasets:
     """
-    for dataset_id in unique_datasets:
-        msg += f"* [{dataset_id}](https://hf.co/datasets/{dataset_id})\n"
     msg += """
     Choose the dataset that is most relevant to your task and select it from the dropdown below.
     """
-    msg += suggest_datasets(unique_datasets)
-    msg += "Please click on the model's name to be redirected to its model card which includes documentation and examples on how to use it."
     msg = "\n".join([line.strip() for line in msg.split("\n")])
     return msg
@@ -140,7 +133,6 @@ def generate_note(lang, lang_df):
 dataframe = get_data()
 dataframe = dataframe.fillna("")
-dataframe["model_id"] = dataframe["model_id"].apply(make_clickable)
 _, col_center = st.columns([3, 6])
 with col_center:
@@ -148,26 +140,40 @@ with col_center:
 st.markdown("# Speech Recognition Models Leaderboard")
 st.markdown(
-    "This is a leaderboard over all speech recognition models and datasets. "
-    "Please select a language you want to find a model for from the dropdown:"
 )
-lang = st.selectbox(
     "Language",
     sorted(dataframe["lang"].unique()),
     index=0,
 )
 lang_df = dataframe[dataframe.lang == lang]
-msg = generate_note(lang, lang_df)
-st.markdown(msg)
-dataset = st.selectbox(
     "Dataset",
-    sorted(lang_df["dataset"].unique()),
     index=0,
 )
 dataset_df = lang_df[lang_df.dataset == dataset]
 if lang in cer_langs:
     dataset_df = dataset_df[["model_id", "cer"]]
     dataset_df.sort_values("cer", inplace=True)
@@ -183,7 +189,20 @@ dataset_df.rename(
     inplace=True,
 )
-st.write(dataset_df.to_html(escape=False, index=None), unsafe_allow_html=True)
 if lang in cer_langs:
     st.markdown(

     "librispeech_asr",
     "mozilla-foundation/common_voice_8_0",
     "mozilla-foundation/common_voice_7_0",
     "speech-recognition-community-v2/eval_data",
 ]
     return pd.DataFrame.from_records(data)
+def sort_datasets(datasets):
+    # 1. sort by name
+    datasets = sorted(datasets)
+    # 2. bring the suggested datasets to the top and append the rest
+    datasets = sorted(
+        datasets,
+        key=lambda dataset_id: suggested_datasets.index(dataset_id)
+        if dataset_id in suggested_datasets
+        else len(suggested_datasets),
+    )
+    return datasets
 @st.cache(ttl=600)
+def generate_dataset_info(datasets):
     msg = f"""
     The models have been trained and/or evaluated on the following datasets:
     """
+    for dataset_id in datasets:
+        if dataset_id in suggested_datasets:
+            msg += f"* [{dataset_id}](https://hf.co/datasets/{dataset_id}) *(recommended)*\n"
+        else:
+            msg += f"* [{dataset_id}](https://hf.co/datasets/{dataset_id})\n"
     msg += """
     Choose the dataset that is most relevant to your task and select it from the dropdown below.
     """
     msg = "\n".join([line.strip() for line in msg.split("\n")])
     return msg
 dataframe = get_data()
 dataframe = dataframe.fillna("")
 _, col_center = st.columns([3, 6])
 with col_center:
 st.markdown("# Speech Recognition Models Leaderboard")
 st.markdown(
+    "This is a leaderboard over all speech recognition models and datasets.\n\n"
+    "⬅ Please select a language you want to find a model for from the dropdown on the left."
 )
+lang = st.sidebar.selectbox(
     "Language",
     sorted(dataframe["lang"].unique()),
+    format_func=lambda key: lang2name.get(key, key),
     index=0,
 )
 lang_df = dataframe[dataframe.lang == lang]
+sorted_datasets = sort_datasets(lang_df["dataset"].unique())
+text = generate_dataset_info(sorted_datasets)
+st.sidebar.markdown(text)
+lang_name = lang2name[lang] if lang in lang2name else ""
+num_models = len(lang_df["model_id"].unique())
+num_datasets = len(lang_df["dataset"].unique())
+text = f"""
+For the `{lang}` ({lang_name}) language, there are currently `{num_models}` model(s)
+trained on `{num_datasets}` dataset(s) available for `automatic-speech-recognition`.
+"""
+st.markdown(text)
+dataset = st.sidebar.selectbox(
     "Dataset",
+    sorted_datasets,
     index=0,
 )
 dataset_df = lang_df[lang_df.dataset == dataset]
+# sort by WER or CER depending on the language
 if lang in cer_langs:
     dataset_df = dataset_df[["model_id", "cer"]]
     dataset_df.sort_values("cer", inplace=True)
     inplace=True,
 )
+st.markdown(
+    "Please click on the model's name to be redirected to its model card which includes documentation and examples on how to use it."
+)
+# display the model ranks
+dataset_df = dataset_df.reset_index(drop=True)
+dataset_df.index += 1
+# turn the model ids into clickable links
+dataset_df["model_id"] = dataset_df["model_id"].apply(make_clickable)
+table_html = dataset_df.to_html(escape=False)
+table_html = table_html.replace("<th>", '<th align="left">')  # left-align the headers
+st.write(table_html, unsafe_allow_html=True)
 if lang in cer_langs:
     st.markdown(