Spaces:

amaai-lab
/

music2emo

Running on Zero

App Files Files Community

kjysmu commited on Feb 11

Commit

dc42aef

verified ·

1 Parent(s): 3635ef6

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -39

app.py CHANGED Viewed

@@ -409,6 +409,9 @@ class Music2emo:
         midi.instruments.append(instrument)
         midi.write(save_path.replace('.lab', '.midi'))
         try:
             midi_file = converter.parse(save_path.replace('.lab', '.midi'))
             key_signature = str(midi_file.analyze('key'))
@@ -543,6 +546,14 @@ class Music2emo:
             "predicted_moods_all": predicted_moods_with_scores_all
         }
         return model_output_dic
 # Music2Emo Model Initialization
@@ -595,7 +606,7 @@ def plot_valence_arousal(valence, arousal):
     return fig
 # Prediction Formatting
 def format_prediction(model_output_dic):
     """Format the model output in a structured format"""
@@ -611,13 +622,13 @@ def format_prediction(model_output_dic):
     # Format mood output with scores
     if predicted_moods_with_scores:
         moods_text = ", ".join(
-            [f"**{m['mood']}** ({m['score']:.2f})" for m in predicted_moods_with_scores]
         )
     else:
         moods_text = "No significant moods detected."
     # Create formatted output
-    output_text = f""" 🎭 Predicted Mood Tags : {moods_text}
 💖 Valence: {valence:.2f} (Scale: 1-9)
 ⚡ Arousal: {arousal:.2f} (Scale: 1-9)"""
@@ -625,28 +636,15 @@ def format_prediction(model_output_dic):
     return output_text, va_chart, mood_chart
 # Gradio UI Elements
-title = "Music2Emo: Towards Unified Music Emotion Recognition across Dimensional and Categorical Models"
-# description_text = "Upload an audio file to analyze its emotional characteristics using Music2Emo. The model will predict: • Mood tags describing the emotional content • Valence score (1-9 scale, representing emotional positivity) • Arousal score (1-9 scale, representing emotional intensity) "
 description_text = """
-<p>Predict the emotion of music with Music2Emo!
-<br/><br/> Upload an audio file to analyze its emotional characteristics using Music2Emo. The model will predict: • Mood tags describing the emotional content • Valence score (1-9 scale, representing emotional positivity) • Arousal score (1-9 scale, representing emotional intensity)
-<br/><br/> This is the demo for Music2Emo for predicting emotion from music: <a href="https://arxiv.org/abs/2311.08355">Read our paper.</a>
-<p/>
 """
 # Custom CSS Styling
 css = """
-#output-text {
-    font-family: 'Inter', sans-serif;
-    white-space: pre-wrap;
-    font-size: 14px;
-    padding: 0spx;
-    border-radius: 8px;
-    border-left: 5px solid #4CAF50;
-    margin: 0px 0;
-}
 .gradio-container {
     font-family: 'Inter', -apple-system, system-ui, sans-serif;
 }
@@ -656,10 +654,22 @@ css = """
     border-radius: 8px;
     padding: 10px;
 }
 """
 with gr.Blocks(css=css) as demo:
     gr.HTML(f"<h1 style='text-align: center;'>{title}</h1>")
     gr.Markdown(description_text)
     with gr.Row():
         # Left Panel (Input)
@@ -680,34 +690,25 @@ with gr.Blocks(css=css) as demo:
         # Right Panel (Output)
         with gr.Column(scale=1):
-            output_text = gr.Markdown(label="Analysis Results", elem_id="output-text")
-            # ✅ Using `gr.Row(equal_height=True)` ensures both plots stay on the same level
             with gr.Row(equal_height=True):
-                mood_chart = gr.Plot(label=" ", scale=2)
-                va_chart = gr.Plot(label=" ", scale=1)
-    predict_btn.click(
-        fn=lambda audio, thresh: format_prediction(music2emo.predict(audio, thresh)),
-        inputs=[input_audio, threshold],
-        outputs=[output_text, va_chart, mood_chart]
-    )
-    # Button Click Function
     predict_btn.click(
         fn=lambda audio, thresh: format_prediction(music2emo.predict(audio, thresh)),
         inputs=[input_audio, threshold],
         outputs=[output_text, va_chart, mood_chart]
     )
-    # Notes Section
-    gr.Markdown("""
-    ### 📝 Notes:
-    - **Supported audio formats:** MP3, WAV
-    - **Recommended:** High-quality audio files
-    - **Processing time:** A few seconds, depending on file size
-    """)
 # Launch the App
 demo.queue().launch()

         midi.instruments.append(instrument)
         midi.write(save_path.replace('.lab', '.midi'))
         try:
             midi_file = converter.parse(save_path.replace('.lab', '.midi'))
             key_signature = str(midi_file.analyze('key'))
             "predicted_moods_all": predicted_moods_with_scores_all
         }
+        # predicted_moods = [mood_list[i] for i, p in enumerate(probs.squeeze().tolist()) if p > threshold]
+        # valence, arousal = regression_output.squeeze().tolist()
+        # model_output_dic = {
+        #     "valence": valence,
+        #     "arousal": arousal,
+        #     "predicted_moods": predicted_moods
+        # }
         return model_output_dic
 # Music2Emo Model Initialization
     return fig
 # Prediction Formatting
 def format_prediction(model_output_dic):
     """Format the model output in a structured format"""
     # Format mood output with scores
     if predicted_moods_with_scores:
         moods_text = ", ".join(
+            [f"{m['mood']} ({m['score']:.2f})" for m in predicted_moods_with_scores]
         )
     else:
         moods_text = "No significant moods detected."
     # Create formatted output
+    output_text = f"""🎭 Predicted Mood Tags: {moods_text}
 💖 Valence: {valence:.2f} (Scale: 1-9)
 ⚡ Arousal: {arousal:.2f} (Scale: 1-9)"""
     return output_text, va_chart, mood_chart
 # Gradio UI Elements
+title="Music2Emo: Toward Unified Music Recognition"
 description_text = """
+<p> Upload an audio file to analyze its emotional characteristics using Music2Emo. The model will predict: 1) Mood tags describing the emotional content, 2) Valence score (1-9 scale, representing emotional positivity), and 3) Arousal score (1-9 scale, representing emotional intensity)
+<br/><br/> This is the demo for Music2Emo for music emotion recognition: <a href="https://arxiv.org/abs/2502.03979">Read our paper.</a>
+</p>
 """
 # Custom CSS Styling
 css = """
 .gradio-container {
     font-family: 'Inter', -apple-system, system-ui, sans-serif;
 }
     border-radius: 8px;
     padding: 10px;
 }
+/* Add padding to the top of the two plot boxes */
+.gr-box {
+    padding-top: 25px !important;
+}
 """
 with gr.Blocks(css=css) as demo:
     gr.HTML(f"<h1 style='text-align: center;'>{title}</h1>")
     gr.Markdown(description_text)
+        # Notes Section
+    gr.Markdown("""
+    ### 📝 Notes:
+    - **Supported audio formats:** MP3, WAV
+    - **Recommended:** High-quality audio files
+    """)
     with gr.Row():
         # Left Panel (Input)
         # Right Panel (Output)
         with gr.Column(scale=1):
+            output_text = gr.Textbox(
+                label="Analysis Results",
+                lines=4,
+                interactive=False  # Prevent user input
+            )
+            # Ensure both plots have padding on top
             with gr.Row(equal_height=True):
+                mood_chart = gr.Plot(label="Mood Probabilities", scale=2, elem_classes=["gr-box"])
+                va_chart = gr.Plot(label="Valence-Arousal Space", scale=1, elem_classes=["gr-box"])
     predict_btn.click(
         fn=lambda audio, thresh: format_prediction(music2emo.predict(audio, thresh)),
         inputs=[input_audio, threshold],
         outputs=[output_text, va_chart, mood_chart]
     )
 # Launch the App
 demo.queue().launch()