AudioBench-Leaderboard-Extend

Running

App Files Files Community

binwang commited on Jan 17

Commit

62dd38d

verified ·

1 Parent(s): a4d1edd

Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

app/content.py +87 -75
app/draw_diagram.py +1 -1
app/pages.py +166 -117
app/summarization.py +1 -1

app/content.py CHANGED Viewed

@@ -1,3 +1,54 @@
 asr_datsets = {'LibriSpeech-Test-Clean': 'A clean, high-quality testset of the LibriSpeech dataset, used for ASR testing.',
                 'LibriSpeech-Test-Other' : 'A more challenging, noisier testset of the LibriSpeech dataset for ASR testing.',
                 'Common-Voice-15-En-Test': 'Test set from the Common Voice project, which is a crowd-sourced, multilingual speech dataset.',
@@ -19,31 +70,39 @@ singlish_asr_datasets = {
                 }
 sqa_datasets = {'CN-College-Listen-MCQ-Test': 'Chinese College English Listening Test, with multiple-choice questions.',
-                'DREAM-TTS-MCQ-Test': 'DREAM dataset for spoken question-answering, derived from textual data and synthesized speech.',
-                'SLUE-P2-SQA5-Test': 'Spoken Language Understanding Evaluation (SLUE) dataset, part 2, focused on QA tasks.',
-                'Public-SG-Speech-QA-Test': 'Public dataset for speech-based question answering, gathered from Singapore.',
-                'Spoken-Squad-Test': 'Spoken SQuAD dataset, based on the textual SQuAD dataset, converted into audio.'
                 }
-si_datasets = {'OpenHermes-Audio-Test': 'Test set for spoken instructions. Synthesized from the OpenHermes dataset.',
-               'ALPACA-Audio-Test': 'Spoken version of the ALPACA dataset, used for evaluating instruction following in audio.'
                }
 ac_datasets = {
-    'WavCaps-Test': 'WavCaps is a dataset for testing audio captioning, where models generate textual descriptions of audio clips.',
     'AudioCaps-Test': 'AudioCaps dataset, used for generating captions from general audio events.'
 }
 asqa_datasets = {
-    'Clotho-AQA-Test': 'Clotho dataset adapted for audio-based question answering, containing audio clips and questions.',
-    'WavCaps-QA-Test': 'Question-answering test dataset derived from WavCaps, focusing on audio content.',
     'AudioCaps-QA-Test': 'AudioCaps adapted for question-answering tasks, using audio events as input for Q&A.'
 }
 er_datasets = {
-    'IEMOCAP-Emotion-Test': 'Emotion recognition test data from the IEMOCAP dataset, focusing on identifying emotions in speech.',
-    'MELD-Sentiment-Test': 'Sentiment recognition from speech using the MELD dataset, classifying positive, negative, or neutral sentiments.',
-    'MELD-Emotion-Test': 'Emotion classification in speech using MELD, detecting specific emotions like happiness, anger, etc.'
 }
 ar_datsets = {
@@ -51,17 +110,17 @@ ar_datsets = {
 }
 gr_datasets = {
-    'VoxCeleb-Gender-Test': 'Test dataset for gender classification, also derived from VoxCeleb.',
-    'IEMOCAP-Gender-Test': 'Gender classification based on the IEMOCAP dataset.'
 }
 spt_datasets = {
-    'Covost2-EN-ID-test': 'Covost 2 dataset for speech translation from English to Indonesian.',
-    'Covost2-EN-ZH-test': 'Covost 2 dataset for speech translation from English to Chinese.',
-    'Covost2-EN-TA-test': 'Covost 2 dataset for speech translation from English to Tamil.',
-    'Covost2-ID-EN-test': 'Covost 2 dataset for speech translation from Indonesian to English.',
-    'Covost2-ZH-EN-test': 'Covost 2 dataset for speech translation from Chinese to English.',
-    'Covost2-TA-EN-test': 'Covost 2 dataset for speech translation from Tamil to English.'
 }
 cnasr_datasets = {
@@ -73,65 +132,18 @@ MUSIC_MCQ_DATASETS = {
 }
 metrics = {
-    'wer': 'Word Error Rate (WER), a common metric for ASR evaluation. (The lower, the better)',
     'llama3_70b_judge_binary': 'Binary evaluation using the LLAMA3-70B model, for tasks requiring a binary outcome. (0-100 based on score 0-1)',
-    'llama3_70b_judge': 'General evaluation using the LLAMA3-70B model, typically scoring based on subjective judgments. (0-100 based on score 0-5)',
-    'meteor': 'METEOR, a metric used for evaluating text generation, often used in translation or summarization tasks. (Sensitive to output length)',
-    'bleu': 'BLEU (Bilingual Evaluation Understudy), another text generation evaluation metric commonly used in machine translation. (Sensitive to output length)',
 }
 metrics_info = {
-    'wer': 'Word Error Rate (WER) - The Lower, the better.',
     'llama3_70b_judge_binary': 'Model-as-a-Judge Peformance. Using LLAMA-3-70B. Scale from 0-100. The higher, the better.',
-    'llama3_70b_judge': 'Model-as-a-Judge Peformance. Using LLAMA-3-70B. Scale from 0-100. The higher, the better.',
-    'meteor': 'METEOR Score. The higher, the better.',
-    'bleu': 'BLEU Score. The higher, the better.',
 }
-dataname_column_rename_in_table = {
-    'librispeech_test_clean'    : 'LibriSpeech-Clean',
-    'librispeech_test_other'    : 'LibriSpeech-Other',
-    'common_voice_15_en_test'  : 'CommonVoice-15-EN',
-    'peoples_speech_test'       : 'Peoples-Speech',
-    'gigaspeech_test'           : 'GigaSpeech-1',
-    'earnings21_test'           : 'Earnings-21',
-    'earnings22_test'           : 'Earnings-22',
-    'tedlium3_test'             : 'TED-LIUM-3',
-    'tedlium3_long_form_test'   : 'TED-LIUM-3-Long',
-    'aishell_asr_zh_test'       : 'Aishell-ASR-ZH',
-    'covost2_en_id_test'        : 'Covost2-EN-ID',
-    'covost2_en_zh_test'        : 'Covost2-EN-ZH',
-    'covost2_en_ta_test'        : 'Covost2-EN-TA',
-    'covost2_id_en_test'        : 'Covost2-ID-EN',
-    'covost2_zh_en_test'        : 'Covost2-ZH-EN',
-    'covost2_ta_en_test'        : 'Covost2-TA-EN',
-    'cn_college_listen_mcq_test': 'CN-College-Listen-MCQ',
-    'dream_tts_mcq_test'        : 'DREAM-TTS-MCQ',
-    'slue_p2_sqa5_test'         : 'SLUE-P2-SQA5',
-    'public_sg_speech_qa_test'  : 'Public-SG-Speech-QA',
-    'spoken_squad_test'         : 'Spoken-SQuAD',
-    'openhermes_audio_test'     : 'OpenHermes-Audio',
-    'alpaca_audio_test'         : 'ALPACA-Audio',
-    'wavcaps_test'              : 'WavCaps',
-    'audiocaps_test'            : 'AudioCaps',
-    'clotho_aqa_test'           : 'Clotho-AQA',
-    'wavcaps_qa_test'           : 'WavCaps-QA',
-    'audiocaps_qa_test'         : 'AudioCaps-QA',
-    'voxceleb_accent_test'      : 'VoxCeleb-Accent',
-    'voxceleb_gender_test'      : 'VoxCeleb-Gender',
-    'iemocap_gender_test'       : 'IEMOCAP-Gender',
-    'iemocap_emotion_test'      : 'IEMOCAP-Emotion',
-    'meld_sentiment_test'       : 'MELD-Sentiment',
-    'meld_emotion_test'         : 'MELD-Emotion',
-    'imda_part1_asr_test'       : 'IMDA-Part1-ASR',
-    'imda_part2_asr_test'       : 'IMDA-Part2-ASR',
-    'imda_part3_30s_asr_test'   : 'IMDA-Part3-30s-ASR',
-    'imda_part4_30s_asr_test'   : 'IMDA-Part4-30s-ASR',
-    'imda_part5_30s_asr_test'   : 'IMDA-Part5-30s-ASR',
-    'imda_part6_30s_asr_test'   : 'IMDA-Part6-30s-ASR',
-    'muchomusic_test'          : 'MuChoMusic'
-}

+dataname_column_rename_in_table = {
+    'librispeech_test_clean'       : 'LibriSpeech-Clean',
+    'librispeech_test_other'       : 'LibriSpeech-Other',
+    'common_voice_15_en_test'      : 'CommonVoice-15-EN',
+    'peoples_speech_test'          : 'Peoples-Speech',
+    'gigaspeech_test'              : 'GigaSpeech-1',
+    'earnings21_test'              : 'Earnings-21',
+    'earnings22_test'              : 'Earnings-22',
+    'tedlium3_test'                : 'TED-LIUM-3',
+    'tedlium3_long_form_test'      : 'TED-LIUM-3-Long',
+    'aishell_asr_zh_test'          : 'Aishell-ASR-ZH',
+    'covost2_en_id_test'           : 'CoVoST2-EN-ID',
+    'covost2_en_zh_test'           : 'CoVoST2-EN-ZH',
+    'covost2_en_ta_test'           : 'CoVoST2-EN-TA',
+    'covost2_id_en_test'           : 'CoVoST2-ID-EN',
+    'covost2_zh_en_test'           : 'CoVoST2-ZH-EN',
+    'covost2_ta_en_test'           : 'CoVoST2-TA-EN',
+    'cn_college_listen_mcq_test'   : 'CN-College-Listen-MCQ',
+    'dream_tts_mcq_test'           : 'DREAM-TTS-MCQ',
+    'slue_p2_sqa5_test'            : 'SLUE-P2-SQA5',
+    'public_sg_speech_qa_test'     : 'Public-SG-Speech-QA',
+    'spoken_squad_test'            : 'Spoken-SQuAD',
+    'openhermes_audio_test'        : 'OpenHermes-Audio',
+    'alpaca_audio_test'            : 'ALPACA-Audio',
+    'wavcaps_test'                 : 'WavCaps',
+    'audiocaps_test'               : 'AudioCaps',
+    'clotho_aqa_test'              : 'Clotho-AQA',
+    'wavcaps_qa_test'              : 'WavCaps-QA',
+    'audiocaps_qa_test'            : 'AudioCaps-QA',
+    'voxceleb_accent_test'         : 'VoxCeleb-Accent',
+    'voxceleb_gender_test'         : 'VoxCeleb-Gender',
+    'iemocap_gender_test'          : 'IEMOCAP-Gender',
+    'iemocap_emotion_test'         : 'IEMOCAP-Emotion',
+    'meld_sentiment_test'          : 'MELD-Sentiment',
+    'meld_emotion_test'            : 'MELD-Emotion',
+    'imda_part1_asr_test'          : 'IMDA-Part1-ASR',
+    'imda_part2_asr_test'          : 'IMDA-Part2-ASR',
+    'imda_part3_30s_asr_test'      : 'IMDA-Part3-30s-ASR',
+    'imda_part4_30s_asr_test'      : 'IMDA-Part4-30s-ASR',
+    'imda_part5_30s_asr_test'      : 'IMDA-Part5-30s-ASR',
+    'imda_part6_30s_asr_test'      : 'IMDA-Part6-30s-ASR',
+    'muchomusic_test'              : 'MuChoMusic',
+    'imda_part3_30s_sqa_human_test': 'MNSC-PART3-SQA',
+    'imda_part4_30s_sqa_human_test': 'MNSC-PART4-SQA',
+    'imda_part5_30s_sqa_human_test': 'MNSC-PART5-SQA',
+    'imda_part6_30s_sqa_human_test': 'MNSC-PART6-SQA',
+}
 asr_datsets = {'LibriSpeech-Test-Clean': 'A clean, high-quality testset of the LibriSpeech dataset, used for ASR testing.',
                 'LibriSpeech-Test-Other' : 'A more challenging, noisier testset of the LibriSpeech dataset for ASR testing.',
                 'Common-Voice-15-En-Test': 'Test set from the Common Voice project, which is a crowd-sourced, multilingual speech dataset.',
                 }
 sqa_datasets = {'CN-College-Listen-MCQ-Test': 'Chinese College English Listening Test, with multiple-choice questions.',
+                'DREAM-TTS-MCQ-Test'      : 'DREAM dataset for spoken question-answering, derived from textual data and synthesized speech.',
+                'SLUE-P2-SQA5-Test'       : 'Spoken Language Understanding Evaluation (SLUE) dataset, part 2, focused on QA tasks.',
+                'Public-SG-Speech-QA-Test': 'Public dataset for speech-based question answering, gathered from Singapore.',
+                'Spoken-Squad-Test'       : 'Spoken SQuAD dataset, based on the textual SQuAD dataset, converted into audio.'
                 }
+sqa_singlish_datasets = {
+                'MNSC-PART3-SQA': 'Multitak National Speech Corpus (MNSC) dataset, Question answering task, Part 3.',
+                'MNSC-PART4-SQA': 'Multitak National Speech Corpus (MNSC) dataset, Question answering task, Part 4.',
+                'MNSC-PART5-SQA': 'Multitak National Speech Corpus (MNSC) dataset, Question answering task, Part 5.',
+                'MNSC-PART6-SQA': 'Multitak National Speech Corpus (MNSC) dataset, Question answering task, Part 6.',
+                }
+si_datasets = {
+               'OpenHermes-Audio-Test': 'Test set for spoken instructions. Synthesized from the OpenHermes dataset.',
+               'ALPACA-Audio-Test'    : 'Spoken version of the ALPACA dataset, used for evaluating instruction following in audio.'
                }
 ac_datasets = {
+    'WavCaps-Test'  : 'WavCaps is a dataset for testing audio captioning, where models generate textual descriptions of audio clips.',
     'AudioCaps-Test': 'AudioCaps dataset, used for generating captions from general audio events.'
 }
 asqa_datasets = {
+    'Clotho-AQA-Test'  : 'Clotho dataset adapted for audio-based question answering, containing audio clips and questions.',
+    'WavCaps-QA-Test'  : 'Question-answering test dataset derived from WavCaps, focusing on audio content.',
     'AudioCaps-QA-Test': 'AudioCaps adapted for question-answering tasks, using audio events as input for Q&A.'
 }
 er_datasets = {
+    'IEMOCAP-Emotion-Test': 'Emotion recognition test data from the IEMOCAP dataset, focusing on identifying emotions in speech.',
+    'MELD-Sentiment-Test' : 'Sentiment recognition from speech using the MELD dataset, classifying positive, negative, or neutral sentiments.',
+    'MELD-Emotion-Test'   : 'Emotion classification in speech using MELD, detecting specific emotions like happiness, anger, etc.'
 }
 ar_datsets = {
 }
 gr_datasets = {
+    'VoxCeleb-Gender-Test': 'Test dataset for gender classification, also derived from VoxCeleb.',
+    'IEMOCAP-Gender-Test' : 'Gender classification based on the IEMOCAP dataset.'
 }
 spt_datasets = {
+    'CoVoST2-EN-ID-test': 'CoVoST 2 dataset for speech translation from English to Indonesian.',
+    'CoVoST2-EN-ZH-test': 'CoVoST 2 dataset for speech translation from English to Chinese.',
+    'CoVoST2-EN-TA-test': 'CoVoST 2 dataset for speech translation from English to Tamil.',
+    'CoVoST2-ID-EN-test': 'CoVoST 2 dataset for speech translation from Indonesian to English.',
+    'CoVoST2-ZH-EN-test': 'CoVoST 2 dataset for speech translation from Chinese to English.',
+    'CoVoST2-TA-EN-test': 'CoVoST 2 dataset for speech translation from Tamil to English.'
 }
 cnasr_datasets = {
 }
 metrics = {
+    'wer'                    : 'Word Error Rate (WER), a common metric for ASR evaluation. (The lower, the better)',
     'llama3_70b_judge_binary': 'Binary evaluation using the LLAMA3-70B model, for tasks requiring a binary outcome. (0-100 based on score 0-1)',
+    'llama3_70b_judge'       : 'General evaluation using the LLAMA3-70B model, typically scoring based on subjective judgments. (0-100 based on score 0-5)',
+    'meteor'                 : 'METEOR, a metric used for evaluating text generation, often used in translation or summarization tasks. (Sensitive to output length)',
+    'bleu'                   : 'BLEU (Bilingual Evaluation Understudy), another text generation evaluation metric commonly used in machine translation. (Sensitive to output length)',
 }
 metrics_info = {
+    'wer'                    : 'Word Error Rate (WER) - The Lower, the better.',
     'llama3_70b_judge_binary': 'Model-as-a-Judge Peformance. Using LLAMA-3-70B. Scale from 0-100. The higher, the better.',
+    'llama3_70b_judge'       : 'Model-as-a-Judge Peformance. Using LLAMA-3-70B. Scale from 0-100. The higher, the better.',
+    'meteor'                 : 'METEOR Score. The higher, the better.',
+    'bleu'                   : 'BLEU Score. The higher, the better.',
 }

app/draw_diagram.py CHANGED Viewed

@@ -17,7 +17,7 @@ info_df = get_dataframe()
 def draw(folder_name, category_name, dataset_name, metrics, cus_sort=True):
-    folder = f"./results/{metrics}/"
     # Load the results from CSV
     data_path = f'{folder}/{category_name.lower()}.csv'

 def draw(folder_name, category_name, dataset_name, metrics, cus_sort=True):
+    folder = f"./results_organized/{metrics}/"
     # Load the results from CSV
     data_path = f'{folder}/{category_name.lower()}.csv'

app/pages.py CHANGED Viewed

@@ -29,38 +29,33 @@ def dataset_contents(dataset, metrics):
 def dashboard():
     with st.container():
-        st.title("AudioBench")
         st.markdown("""
-            [gh]: https://github.com/AudioLLMs/AudioBench
-            [![GitHub Repo stars](https://img.shields.io/github/stars/AudioLLMs/AudioBench?style=social)][gh]
-            [![GitHub watchers](https://img.shields.io/github/watchers/AudioLLMs/AudioBench?style=social)][gh]
             """)
     st.markdown("""
-            ### Changelog
-            - **Dec, 2024**:
-                - Added MuChoMusic dataset for Music Understanding - MCQ Questions. From Paper: https://arxiv.org/abs/2408.01337.
-                - Singlish ASR task added! The datasets are available on [HF](https://huggingface.co/datasets/MERaLiON/MNSC).
-            - **Dec, 2024**:
-                - Updated layout and added support for comparison between models with similar sizes.
-                - Reorganized layout for a better user experience.
-                - Added performance summary for each task.
-            - **Aug 2024**:
-                - Initial leaderboard is now online.
             """)
     st.divider()
     st.markdown("""
-                #### What is [AudioBench](https://arxiv.org/abs/2406.16020)?
                 - AudioBench is a comprehensive evaluation benchmark designed for general instruction-following audio large language models.
-                - AudioBench is a evaluation benchmark that we consistently put effort in updating and maintaining.
                 Below are the initial 26 datasets that are included in AudioBench. We are now exteneded to over 40 datasets and going to extend to more in the future.
                 """
@@ -68,27 +63,19 @@ def dashboard():
     with st.container():
-        left_co, center_co, right_co = st.columns([1, 0.5, 0.5])
-        with left_co:
-            st.image("./style/audio_overview.png",
-                     caption="Overview of the datasets in AudioBench.",
-                     )
         st.markdown('''
                 ''')
         st.markdown("###### :dart: Our Benchmark includes: ")
-        cols = st.columns(10)
         cols[0].metric(label="Tasks", value=">8")
         cols[1].metric(label="Datasets", value=">40")
         cols[2].metric(label="Evaluated Models", value=">5")
     st.divider()
     with st.container():
-        left_co, center_co, right_co = st.columns([1, 0.5, 0.5])
         with left_co:
             st.markdown("""
@@ -104,8 +91,10 @@ def dashboard():
                         """)
-def asr():
-    st.title("Task: Automatic Speech Recognition")
     sum = ['Overall']
     dataset_lists = [
@@ -122,20 +111,23 @@ def asr():
     filters_levelone = sum + dataset_lists
-    left, center, _, middle, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
-            sum_table_mulit_metrix('ASR', ['wer'])
         else:
             dataset_contents(asr_datsets[filter_1], metrics['wer'])
-            draw('su', 'ASR', filter_1, 'wer', cus_sort=True)
-def singlish_asr():
     st.title("Task: Automatic Speech Recognition - Singlish")
     sum = ['Overall']
@@ -150,20 +142,22 @@ def singlish_asr():
     filters_levelone = sum + dataset_lists
-    left, center, _, middle, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
-            sum_table_mulit_metrix('singlish_asr', ['wer'])
         else:
             dataset_contents(singlish_asr_datasets[filter_1], metrics['wer'])
-            draw('su', 'singlish_asr', filter_1, 'wer')
-def cnasr():
     st.title("Task: Automatic Speech Recognition - Mandarin")
     sum = ['Overall']
@@ -173,80 +167,151 @@ def cnasr():
     filters_levelone = sum + dataset_lists
-    left, center, _, middle, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
-            sum_table_mulit_metrix('CNASR', ['wer'])
         else:
             dataset_contents(cnasr_datasets[filter_1], metrics['wer'])
-            draw('su', 'CNASR', filter_1, 'wer')
-def sqa():
-    st.title("Task: Speech Question Answering")
     sum = ['Overall']
-    binary = ['CN-College-Listen-MCQ-Test', 'DREAM-TTS-MCQ-Test']
-    rest = ['SLUE-P2-SQA5-Test',
-            'Public-SG-Speech-QA-Test',
-            'Spoken-Squad-Test']
-    filters_levelone = sum + binary + rest
-    left, center, _, middle, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
-            sum_table_mulit_metrix('SQA', ['llama3_70b_judge_binary', 'llama3_70b_judge'])
-        elif filter_1 in binary:
-            dataset_contents(sqa_datasets[filter_1], metrics['llama3_70b_judge_binary'])
-            draw('su', 'SQA', filter_1, 'llama3_70b_judge_binary')
         else:
             dataset_contents(sqa_datasets[filter_1], metrics['llama3_70b_judge'])
-            draw('su', 'SQA', filter_1, 'llama3_70b_judge')
-def si():
     st.title("Task: Speech Instruction")
     sum = ['Overall']
     dataset_lists = ['OpenHermes-Audio-Test',
-                     'ALPACA-Audio-Test']
     filters_levelone = sum + dataset_lists
-    left, center, _, middle, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
-            sum_table_mulit_metrix('SI', ['llama3_70b_judge'])
         else:
             dataset_contents(si_datasets[filter_1], metrics['llama3_70b_judge'])
-            draw('su', 'SI', filter_1, 'llama3_70b_judge')
-def ac():
     st.title("Task: Audio Captioning")
     filters_levelone = ['WavCaps-Test',
-                        'AudioCaps-Test']
     filters_leveltwo = ['Llama3-70b-judge', 'Meteor']
-    left, center, _, middle, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
@@ -255,10 +320,12 @@ def ac():
     if filter_1 or metric:
         dataset_contents(ac_datasets[filter_1], metrics[metric.lower().replace('-', '_')])
-        draw('asu', 'AC',filter_1, metric.lower().replace('-', '_'))
-def asqa():
     st.title("Task: Audio Scene Question Answering")
     sum = ['Overall']
@@ -269,44 +336,50 @@ def asqa():
     filters_levelone = sum + dataset_lists
-    left, center, _, middle, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
-            sum_table_mulit_metrix('AQA', ['llama3_70b_judge'])
         else:
             dataset_contents(asqa_datasets[filter_1], metrics['llama3_70b_judge'])
-            draw('asu', 'AQA', filter_1, 'llama3_70b_judge')
-def er():
     st.title("Task: Emotion Recognition")
     sum = ['Overall']
-    dataset_lists = ['IEMOCAP-Emotion-Test',
-                        'MELD-Sentiment-Test',
-                        'MELD-Emotion-Test']
     filters_levelone = sum + dataset_lists
-    left, center, _, middle, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
-            sum_table_mulit_metrix('ER', ['llama3_70b_judge_binary'])
         else:
-            dataset_contents(er_datasets[filter_1], metrics['llama3_70b_judge_binary'])
-            draw('vu', 'ER', filter_1, 'llama3_70b_judge_binary')
-def ar():
     st.title("Task: Accent Recognition")
     sum = ['Overall']
@@ -315,7 +388,7 @@ def ar():
     filters_levelone = sum + dataset_lists
-    left, center, _, middle, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
@@ -323,14 +396,15 @@ def ar():
     if filter_1:
         if filter_1 in sum:
-            sum_table_mulit_metrix('AR', ['llama3_70b_judge'])
-        # sum_table('aR', 'llama3_70b_judge')
         else:
             dataset_contents(ar_datsets[filter_1], metrics['llama3_70b_judge'])
-            draw('vu', 'AR', filter_1, 'llama3_70b_judge')
-def gr():
     st.title("Task: Gender Recognition")
     sum = ['Overall']
@@ -340,47 +414,22 @@ def gr():
     filters_levelone = sum + dataset_lists
-    left, center, _, middle, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
-            sum_table_mulit_metrix('GR', ['llama3_70b_judge_binary'])
         else:
-            dataset_contents(gr_datasets[filter_1], metrics['llama3_70b_judge_binary'])
-            draw('vu', 'GR', filter_1, 'llama3_70b_judge_binary')
-def spt():
-    st.title("Task: Speech Translation")
-    sum = ['Overall']
-    dataset_lists = [
-                        'Covost2-EN-ID-test',
-                        'Covost2-EN-ZH-test',
-                        'Covost2-EN-TA-test',
-                        'Covost2-ID-EN-test',
-                        'Covost2-ZH-EN-test',
-                        'Covost2-TA-EN-test']
-    filters_levelone = sum + dataset_lists
-    left, center, _, middle, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
-    with left:
-        filter_1 = st.selectbox('Dataset', filters_levelone)
-    if filter_1:
-        if filter_1 in sum:
-            sum_table_mulit_metrix('st', ['bleu'])
-        else:
-            dataset_contents(spt_datasets[filter_1], metrics['bleu'])
-            draw('su', 'ST', filter_1, 'bleu')
-def music_mcq():
     st.title("Task: Music Understanding - MCQ Questions")
     sum = ['Overall']
@@ -390,17 +439,17 @@ def music_mcq():
     filters_levelone = sum + dataset_lists
-    left, center, _, middle, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
-            sum_table_mulit_metrix('music_mcq', ['llama3_70b_judge_binary'])
         else:
-            dataset_contents(MUSIC_MCQ_DATASETS[filter_1], metrics['llama3_70b_judge_binary'])
-            draw('vu', 'music_mcq', filter_1, 'llama3_70b_judge_binary')

 def dashboard():
     with st.container():
+        st.title("Leaderboard for AudioBench")
         st.markdown("""
+            [gh1]: https://github.com/AudioLLMs/AudioBench
+            [gh2]: https://github.com/AudioLLMs/AudioBench
+            **Toolkit:** [![GitHub Repo stars](https://img.shields.io/github/stars/AudioLLMs/AudioBench?style=social)][gh1] |
+            [**Research Paper**](https://arxiv.org/abs/2406.16020) |
+            **Resource for AudioLLMs:** [![GitHub Repo stars](https://img.shields.io/github/stars/AudioLLMs/Awesome-Audio-LLM?style=social)][gh2]
             """)
     st.markdown("""
+            #### Recent updates
+            - **Jan. 2025**: Update the layout.
+            - **Dec. 2024**: Added MuChoMusic dataset for Music Understanding - MCQ Questions. From Paper: https://arxiv.org/abs/2408.01337.
+            - **Dec. 2024**: Singlish ASR task added! The datasets are available on [HF](https://huggingface.co/datasets/MERaLiON/MNSC).
+            - **Dec. 2024**: Updated layout and added support for comparison between models with similar sizes. 1) Reorganized layout for a better user experience. 2) Added performance summary for each task.
+            - **Aug. 2024**: Initial leaderboard is now online.
             """)
     st.divider()
     st.markdown("""
+                #### Evaluating Audio-based Large Language Models
                 - AudioBench is a comprehensive evaluation benchmark designed for general instruction-following audio large language models.
+                - AudioBench is an evaluation benchmark that we continually improve and maintain.
                 Below are the initial 26 datasets that are included in AudioBench. We are now exteneded to over 40 datasets and going to extend to more in the future.
                 """
     with st.container():
         st.markdown('''
                 ''')
         st.markdown("###### :dart: Our Benchmark includes: ")
+        cols = st.columns(8)
         cols[0].metric(label="Tasks", value=">8")
         cols[1].metric(label="Datasets", value=">40")
         cols[2].metric(label="Evaluated Models", value=">5")
     st.divider()
     with st.container():
+        left_co, right_co = st.columns([1, 0.7])
         with left_co:
             st.markdown("""
                         """)
+def asr_english():
+    st.title("Task: Automatic Speech Recognition - English")
     sum = ['Overall']
     dataset_lists = [
     filters_levelone = sum + dataset_lists
+    left, center, _, middle, right = st.columns([0.4, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
+            sum_table_mulit_metrix('asr_english', ['wer'])
         else:
             dataset_contents(asr_datsets[filter_1], metrics['wer'])
+            draw('su', 'asr_english', filter_1, 'wer', cus_sort=True)
+def asr_singlish():
     st.title("Task: Automatic Speech Recognition - Singlish")
     sum = ['Overall']
     filters_levelone = sum + dataset_lists
+    left, center, _, middle, right = st.columns([0.4, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
+            sum_table_mulit_metrix('asr_singlish', ['wer'])
         else:
             dataset_contents(singlish_asr_datasets[filter_1], metrics['wer'])
+            draw('su', 'asr_singlish', filter_1, 'wer')
+def asr_mandarin():
     st.title("Task: Automatic Speech Recognition - Mandarin")
     sum = ['Overall']
     filters_levelone = sum + dataset_lists
+    left, center, _, middle, right = st.columns([0.4, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
+            sum_table_mulit_metrix('asr_mandarin', ['wer'])
         else:
             dataset_contents(cnasr_datasets[filter_1], metrics['wer'])
+            draw('su', 'asr_mandarin', filter_1, 'wer')
+def speech_translation():
+    st.title("Task: Speech Translation")
     sum = ['Overall']
+    dataset_lists = [
+                        'CoVoST2-EN-ID-test',
+                        'CoVoST2-EN-ZH-test',
+                        'CoVoST2-EN-TA-test',
+                        'CoVoST2-ID-EN-test',
+                        'CoVoST2-ZH-EN-test',
+                        'CoVoST2-TA-EN-test']
+    filters_levelone = sum + dataset_lists
+    left, center, _, middle, right = st.columns([0.4, 0.2, 0.2, 0.2 ,0.2])
+    with left:
+        filter_1 = st.selectbox('Dataset', filters_levelone)
+    if filter_1:
+        if filter_1 in sum:
+            sum_table_mulit_metrix('st', ['bleu'])
+        else:
+            dataset_contents(spt_datasets[filter_1], metrics['bleu'])
+            draw('su', 'ST', filter_1, 'bleu')
+def speech_question_answering_english():
+    st.title("Task: Spoken Question Answering - English")
+    sum = ['Overall']
+    dataset_lists = [
+                    'CN-College-Listen-MCQ-Test',
+                    'DREAM-TTS-MCQ-Test',
+                    'SLUE-P2-SQA5-Test',
+                    'Public-SG-Speech-QA-Test',
+                    'Spoken-Squad-Test',
+                     ]
+    filters_levelone = sum + dataset_lists
+    left, center, _, middle, right = st.columns([0.4, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
+            sum_table_mulit_metrix('sqa_english', ['llama3_70b_judge'])
+        #elif filter_1 in dataset_lists:
+        #    dataset_contents(sqa_datasets[filter_1], metrics['llama3_70b_judge'])
+        #    draw('su', 'SQA', filter_1, 'llama3_70b_judge')
+        else:
+            dataset_contents(sqa_datasets[filter_1], metrics['llama3_70b_judge'])
+            draw('su', 'sqa_english', filter_1, 'llama3_70b_judge')
+def speech_question_answering_singlish():
+    st.title("Task: Spoken Question Answering - Singlish")
+    sum = ['Overall']
+    dataset_lists = [
+              'MNSC-PART3-SQA',
+              'MNSC-PART4-SQA',
+              'MNSC-PART5-SQA',
+              'MNSC-PART6-SQA',
+              ]
+    filters_levelone = sum + dataset_lists
+    left, center, _, middle, right = st.columns([0.4, 0.2, 0.2, 0.2 ,0.2])
+    with left:
+        filter_1 = st.selectbox('Dataset', filters_levelone)
+    if filter_1:
+        if filter_1 in sum:
+            sum_table_mulit_metrix('sqa_singlish', ['llama3_70b_judge'])
         else:
             dataset_contents(sqa_datasets[filter_1], metrics['llama3_70b_judge'])
+            draw('su', 'sqa_singlish', filter_1, 'llama3_70b_judge')
+def speech_instruction():
     st.title("Task: Speech Instruction")
     sum = ['Overall']
     dataset_lists = ['OpenHermes-Audio-Test',
+                     'ALPACA-Audio-Test',
+                     ]
     filters_levelone = sum + dataset_lists
+    left, center, _, middle, right = st.columns([0.4, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
+            sum_table_mulit_metrix('speech_instruction', ['llama3_70b_judge'])
         else:
             dataset_contents(si_datasets[filter_1], metrics['llama3_70b_judge'])
+            draw('su', 'speech_instruction', filter_1, 'llama3_70b_judge')
+def audio_captioning():
     st.title("Task: Audio Captioning")
     filters_levelone = ['WavCaps-Test',
+                        'AudioCaps-Test',
+                        ]
     filters_leveltwo = ['Llama3-70b-judge', 'Meteor']
+    left, center, _, middle, right = st.columns([0.4, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1 or metric:
         dataset_contents(ac_datasets[filter_1], metrics[metric.lower().replace('-', '_')])
+        draw('asu', 'audio_captioning', filter_1, metric.lower().replace('-', '_'))
+def audio_scene_question_answering():
     st.title("Task: Audio Scene Question Answering")
     sum = ['Overall']
     filters_levelone = sum + dataset_lists
+    left, center, _, middle, right = st.columns([0.4, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
+            sum_table_mulit_metrix('audio_scene_question_answering', ['llama3_70b_judge'])
         else:
             dataset_contents(asqa_datasets[filter_1], metrics['llama3_70b_judge'])
+            draw('asu', 'audio_scene_question_answering', filter_1, 'llama3_70b_judge')
+def emotion_recognition():
     st.title("Task: Emotion Recognition")
     sum = ['Overall']
+    dataset_lists = [
+                    'IEMOCAP-Emotion-Test',
+                    'MELD-Sentiment-Test',
+                    'MELD-Emotion-Test',
+                    ]
     filters_levelone = sum + dataset_lists
+    left, center, _, middle, right = st.columns([0.4, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
+            sum_table_mulit_metrix('emotion_recognition', ['llama3_70b_judge'])
         else:
+            dataset_contents(er_datasets[filter_1], metrics['llama3_70b_judge'])
+            draw('vu', 'emotion_recognition', filter_1, 'llama3_70b_judge')
+def accent_recognition():
     st.title("Task: Accent Recognition")
     sum = ['Overall']
     filters_levelone = sum + dataset_lists
+    left, center, _, middle, right = st.columns([0.4, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
+            sum_table_mulit_metrix('accent_recognition', ['llama3_70b_judge'])
         else:
             dataset_contents(ar_datsets[filter_1], metrics['llama3_70b_judge'])
+            draw('vu', 'accent_recognition', filter_1, 'llama3_70b_judge')
+def gender_recognition():
     st.title("Task: Gender Recognition")
     sum = ['Overall']
     filters_levelone = sum + dataset_lists
+    left, center, _, middle, right = st.columns([0.4, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
+            sum_table_mulit_metrix('gender_recognition', ['llama3_70b_judge'])
         else:
+            dataset_contents(gr_datasets[filter_1], metrics['llama3_70b_judge'])
+            draw('vu', 'gender_recognition', filter_1, 'llama3_70b_judge')
+def music_understanding():
     st.title("Task: Music Understanding - MCQ Questions")
     sum = ['Overall']
     filters_levelone = sum + dataset_lists
+    left, center, _, middle, right = st.columns([0.4, 0.2, 0.2, 0.2 ,0.2])
     with left:
         filter_1 = st.selectbox('Dataset', filters_levelone)
     if filter_1:
         if filter_1 in sum:
+            sum_table_mulit_metrix('music_understanding', ['llama3_70b_judge'])
         else:
+            dataset_contents(MUSIC_MCQ_DATASETS[filter_1], metrics['llama3_70b_judge'])
+            draw('vu', 'music_understanding', filter_1, 'llama3_70b_judge')

app/summarization.py CHANGED Viewed

@@ -21,7 +21,7 @@ def sum_table_mulit_metrix(task_name, metrics_lists: List[str]):
     # combine chart data from multiple sources
     chart_data = pd.DataFrame()
     for metrics in metrics_lists:
-        folder = f"./results/{metrics}"
         data_path = f'{folder}/{task_name.lower()}.csv'
         one_chart_data = pd.read_csv(data_path).round(3)
         if len(chart_data) == 0:

     # combine chart data from multiple sources
     chart_data = pd.DataFrame()
     for metrics in metrics_lists:
+        folder = f"./results_organized/{metrics}"
         data_path = f'{folder}/{task_name.lower()}.csv'
         one_chart_data = pd.read_csv(data_path).round(3)
         if len(chart_data) == 0: