Spaces:

napstablook911
/

ImageToSound

Running

App Files Files Community

napstablook911 commited on Jun 22

Commit

3a947b7

verified ·

1 Parent(s): c905e8e

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +148 -38

src/streamlit_app.py CHANGED Viewed

@@ -1,40 +1,150 @@
-import altair as alt
-import numpy as np
-import pandas as pd
 import streamlit as st
-"""
-# Welcome to Streamlit!
-Edit `/streamlit_app.py` to customize this app to your heart's desire :heart:.
-If you have any questions, checkout our [documentation](https://docs.streamlit.io) and [community
-forums](https://discuss.streamlit.io).
-In the meantime, below is an example of what you can do with just a few lines of code:
-"""
-num_points = st.slider("Number of points in spiral", 1, 10000, 1100)
-num_turns = st.slider("Number of turns in spiral", 1, 300, 31)
-indices = np.linspace(0, 1, num_points)
-theta = 2 * np.pi * num_turns * indices
-radius = indices
-x = radius * np.cos(theta)
-y = radius * np.sin(theta)
-df = pd.DataFrame({
-    "x": x,
-    "y": y,
-    "idx": indices,
-    "rand": np.random.randn(num_points),
-})
-st.altair_chart(alt.Chart(df, height=700, width=700)
-    .mark_point(filled=True)
-    .encode(
-        x=alt.X("x", axis=None),
-        y=alt.Y("y", axis=None),
-        color=alt.Color("idx", legend=None, scale=alt.Scale()),
-        size=alt.Size("rand", legend=None, scale=alt.Scale(range=[1, 150])),
-    ))

 import streamlit as st
+import io
+from PIL import Image
+import soundfile as sf
+import librosa
+import numpy as np
+import torch # Importa torch
+import sys
+sys.setrecursionlimit(2000) # Aumentiamo il limite di ricorsione
+# --- Configurazione del Dispositivo ---
+# Questo rileva automaticamente se MPS (GPU Apple Silicon) è disponibile
+# Per ora, useremo la CPU come fallback se MPS è problematico per Stable Audio
+device = "mps" if torch.backends.mps.is_available() else "cpu"
+# ******************** MODIFICA QUI: Forza device = "cpu" ********************
+# Per superare i problemi di Stable Audio su MPS con float16/float32
+# FORZA LA CPU PER TUTTI I MODELLI, per semplicità.
+# Se la caption genera velocemente, potremmo tornare indietro e mettere il modello vit_gpt2 su MPS
+device = "cpu"
+# **************************************************************************
+st.write(f"Utilizzo del dispositivo: {device}")
+# --- 1. Caricamento dei Modelli AI (spostati qui, fuori dalle funzioni Streamlit) ---
+@st.cache_resource
+def load_models():
+    # Caricamento del modello per la captioning (ViT-GPT2)
+    from transformers import AutoFeatureExtractor, AutoTokenizer, AutoModelForVision2Seq
+    st.write("Caricamento del modello ViT-GPT2 per la captioning dell'immagine...")
+    vit_gpt2_feature_extractor = AutoFeatureExtractor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
+    vit_gpt2_tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
+    # Questo modello andrà sulla CPU
+    vit_gpt2_model = AutoModelForVision2Seq.from_pretrained("nlpconnect/vit-gpt2-image-captioning").to(device)
+    st.write("Modello ViT-GPT2 caricato.")
+    # Caricamento del modello Text-to-Audio (Stable Audio Open - 1.0)
+    from diffusers import DiffusionPipeline
+    st.write("Caricamento del modello Stable Audio Open - 1.0 per la generazione del soundscape...")
+    # ******************** MODIFICA QUI ********************
+    # Assicurati che non ci sia torch_dtype=torch.float16 e che vada sulla CPU
+    stable_audio_pipeline = DiffusionPipeline.from_pretrained("stabilityai/stable-audio-open-1.0", force_download=True).to(device)
+    # ******************************************************
+    st.write("Modello Stable Audio Open 1.0 caricato.")
+    return vit_gpt2_feature_extractor, vit_gpt2_model, vit_gpt2_tokenizer, stable_audio_pipeline
+# Carica i modelli all'avvio dell'app
+vit_gpt2_feature_extractor, vit_gpt2_model, vit_gpt2_tokenizer, stable_audio_pipeline = load_models()
+# --- 2. Funzioni della Pipeline ---
+def generate_image_caption(image_pil):
+    pixel_values = vit_gpt2_feature_extractor(images=image_pil.convert("RGB"), return_tensors="pt").pixel_values
+    pixel_values = pixel_values.to(device) # Sposta input su CPU
+    # Token di inizio per GPT-2, assicurandosi che sia su CPU
+    # Ottieni il decoder_start_token_id dal modello o dal tokenizer
+    if hasattr(vit_gpt2_model.config, "decoder_start_token_id"):
+        decoder_start_token_id = vit_gpt2_model.config.decoder_start_token_id
+    else:
+        if vit_gpt2_tokenizer.pad_token_id is not None:
+            decoder_start_token_id = vit_gpt2_tokenizer.pad_token_id
+        else:
+            decoder_start_token_id = 50256 # Default GPT-2 EOS token
+    # Crea un input_ids iniziale con il decoder_start_token_id e spostalo su CPU
+    input_ids = torch.ones((1, 1), device=device, dtype=torch.long) * decoder_start_token_id
+    output_ids = vit_gpt2_model.generate(
+        pixel_values=pixel_values,
+        input_ids=input_ids,
+        max_length=50,
+        do_sample=True,
+        top_k=50,
+        temperature=0.7,
+        no_repeat_ngram_size=2,
+        early_stopping=True
+    )
+    caption = vit_gpt2_tokenizer.decode(output_ids[0], skip_special_tokens=True)
+    return caption
+def generate_soundscape_from_caption(caption: str, duration_seconds: int = 10):
+    st.write(f"Generazione soundscape per: '{caption}' (durata: {duration_seconds}s)")
+    with st.spinner("Generazione audio in corso..."):
+        try:
+            # Assicurati che il modello sia già su CPU dal caricamento
+            audio_output = stable_audio_pipeline(
+                prompt=caption,
+                audio_end_in_s=duration_seconds
+            ).audios
+            audio_data = audio_output[0].cpu().numpy()
+            sample_rate = stable_audio_pipeline.sample_rate
+            audio_data = audio_data.astype(np.float32)
+            audio_data = librosa.util.normalize(audio_data)
+            buffer = io.BytesIO()
+            sf.write(buffer, audio_data, sample_rate, format='WAV')
+            buffer.seek(0)
+            return buffer.getvalue(), sample_rate
+        except Exception as e:
+            st.error(f"Errore durante la generazione dell'audio: {e}")
+            return None, None
+# --- 3. Interfaccia Streamlit ---
+st.title("Generatore di Paesaggi Sonori da Immagini")
+st.write("Carica un'immagine e otterrai una descrizione testuale e un paesaggio sonoro generato!")
+uploaded_file = st.file_uploader("Scegli un'immagine...", type=["jpg", "jpeg", "png"])
+if uploaded_file is not None:
+    input_image = Image.open(uploaded_file)
+    st.image(input_image, caption='Immagine Caricata.', use_column_width=True)
+    st.write("")
+    audio_duration = st.slider("Durata audio (secondi):", 5, 30, 10, key="audio_duration_slider")
+    if st.button("Genera Paesaggio Sonoro"):
+        st.subheader("Processo in Corso...")
+        # PASSO 1: Genera la caption
+        st.write("Generazione della caption...")
+        caption = generate_image_caption(input_image)
+        st.write(f"Caption generata: **{caption}**")
+        # PASSO 2: Genera il soundscape
+        st.write("Generazione del paesaggio sonoro...")
+        audio_data_bytes, sample_rate = generate_soundscape_from_caption(caption, duration_seconds=audio_duration)
+        if audio_data_bytes is not None:
+            st.subheader("Paesaggio Sonoro Generato")
+            st.audio(audio_data_bytes, format='audio/wav', sample_rate=sample_rate)
+            st.download_button(
+                label="Scarica Audio WAV",
+                data=audio_data_bytes,
+                file_name="paesaggio_sonoro_generato.wav",
+                mime="audio/wav"
+            )
+        else:
+            st.error("La generazione del paesaggio sonoro è fallita.")