Spaces:

Bils
/

Generate-Sound-Effects-from-Image

Running on Zero

App Files Files Community

Bils commited on Jan 29

Commit

8a09658

verified ·

1 Parent(s): fa05f3c

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -7

app.py CHANGED Viewed

@@ -11,7 +11,7 @@ from PIL import Image
 import io
 from pydub import AudioSegment
 from typing import List
-import spaces
 # Load environment variables
 load_dotenv()
@@ -20,8 +20,8 @@ HF_TOKEN = os.getenv("HF_TKN")
 # Device configuration
 device = "cuda" if torch.cuda.is_available() else "cpu"
-# Initialize models
-@gr.cache()
 def load_caption_model():
     return pipeline(
         "image-to-text",
@@ -29,7 +29,7 @@ def load_caption_model():
         device=device
     )
-@gr.cache()
 def load_audio_model():
     pipe = DiffusionPipeline.from_pretrained(
         "cvssp/audioldm2",
@@ -40,7 +40,6 @@ def load_audio_model():
 caption_pipe = load_caption_model()
 audio_pipe = load_audio_model().to(device)
-@spaces.GPU(duration=120)
 def analyze_image(image_file):
     """Generate caption from image with validation"""
     try:
@@ -65,7 +64,6 @@ def analyze_image(image_file):
     except Exception as e:
         raise gr.Error(f"Image processing error: {str(e)}")
-@spaces.GPU(duration=120)
 def generate_audio(prompt: str, num_steps=100, guidance_scale=7.5):
     """Generate audio from single prompt"""
     try:
@@ -87,7 +85,6 @@ def generate_audio(prompt: str, num_steps=100, guidance_scale=7.5):
     except Exception as e:
         raise gr.Error(f"Audio generation error: {str(e)}")
-@spaces.GPU(duration=120)
 def blend_audios(audio_files: List[str]) -> str:
     """Mix multiple audio files into one"""
     try:
@@ -246,6 +243,8 @@ with gr.Blocks(css=css, theme=gr.themes.Default(primary_hue="emerald")) as app:
         # Footer
         gr.Markdown("""
         ---
         [GitHub Repository](https://github.com/bilsimaging/Imaginesound)*
         """)
@@ -256,5 +255,8 @@ with gr.Blocks(css=css, theme=gr.themes.Default(primary_hue="emerald")) as app:
         outputs=[prompt_display, final_audio, *track_components]
     )
 if __name__ == "__main__":
     app.launch(debug=True, share=True)

 import io
 from pydub import AudioSegment
 from typing import List
+from functools import lru_cache
 # Load environment variables
 load_dotenv()
 # Device configuration
 device = "cuda" if torch.cuda.is_available() else "cpu"
+# Initialize models with caching
+@lru_cache(maxsize=None)
 def load_caption_model():
     return pipeline(
         "image-to-text",
         device=device
     )
+@lru_cache(maxsize=None)
 def load_audio_model():
     pipe = DiffusionPipeline.from_pretrained(
         "cvssp/audioldm2",
 caption_pipe = load_caption_model()
 audio_pipe = load_audio_model().to(device)
 def analyze_image(image_file):
     """Generate caption from image with validation"""
     try:
     except Exception as e:
         raise gr.Error(f"Image processing error: {str(e)}")
 def generate_audio(prompt: str, num_steps=100, guidance_scale=7.5):
     """Generate audio from single prompt"""
     try:
     except Exception as e:
         raise gr.Error(f"Audio generation error: {str(e)}")
 def blend_audios(audio_files: List[str]) -> str:
     """Mix multiple audio files into one"""
     try:
         # Footer
         gr.Markdown("""
         ---
+        *Powered by [BLIP](https://huggingface.co/Salesforce/blip-image-captioning-base) and
+        [AudioLDM 2](https://huggingface.co/cvssp/audioldm2) •
         [GitHub Repository](https://github.com/bilsimaging/Imaginesound)*
         """)
         outputs=[prompt_display, final_audio, *track_components]
     )
+# Enable queuing for concurrent processing
+app.queue(concurrency_count=3)
 if __name__ == "__main__":
     app.launch(debug=True, share=True)