Spaces:

ASLP-lab
/

DiffRhythm2

Running on Zero

ASLP-lab commited on 17 days ago

Commit

1f98bdf

verified ·

1 Parent(s): 8070f6b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -133,13 +133,13 @@ def get_audio_prompt(model, audio_file, device, dtype):
     prompt_wav = prompt_wav.mean(dim=0, keepdim=True)
     with torch.no_grad():
         style_prompt_embed = model(wavs = prompt_wav)
-    return style_prompt_embed.squeeze(0)
 @spaces.GPU
 def get_text_prompt(model, text, device, dtype):
     with torch.no_grad():
         style_prompt_embed = model(texts = [text])
-    return style_prompt_embed.squeeze(0)
 @spaces.GPU
 def make_fake_stereo(audio, sampling_rate):
@@ -176,11 +176,11 @@ def inference(
             cfg_strength=cfg_strength,
             odeint_method=odeint_method
         )
-        latent = latent.transpose(1, 2)
-        audio = decoder.decode_audio(latent, overlap=5, chunk_size=20)
         num_channels = 1
-        audio = audio.float().cpu().squeeze()[None, :]
         if fake_stereo:
             audio = make_fake_stereo(audio, decoder.h.sampling_rate)
             num_channels = 2

     prompt_wav = prompt_wav.mean(dim=0, keepdim=True)
     with torch.no_grad():
         style_prompt_embed = model(wavs = prompt_wav)
+    return style_prompt_embed.squeeze(0).detach()
 @spaces.GPU
 def get_text_prompt(model, text, device, dtype):
     with torch.no_grad():
         style_prompt_embed = model(texts = [text])
+    return style_prompt_embed.squeeze(0).detach()
 @spaces.GPU
 def make_fake_stereo(audio, sampling_rate):
             cfg_strength=cfg_strength,
             odeint_method=odeint_method
         )
+        latent = latent.transpose(1, 2).detach()
+        audio = decoder.decode_audio(latent, overlap=5, chunk_size=20).detach()
         num_channels = 1
+        audio = audio.float().cpu().detach().squeeze()[None, :]
         if fake_stereo:
             audio = make_fake_stereo(audio, decoder.h.sampling_rate)
             num_channels = 2