Spaces:

yasserrmd
/

NotebookLlama

Running

yasserrmd commited on Oct 30, 2024

Commit

2cc9d7b

verified ·

1 Parent(s): c2b01a1

Update generate_audio.py

Files changed (1) hide show

generate_audio.py CHANGED Viewed

@@ -71,9 +71,24 @@ class TTSGenerator:
             np.array: Audio array.
             int: Sampling rate.
         """
-        input_ids = self.parler_tokenizer(self.speaker1_description, return_tensors="pt").input_ids.to(self.device)
-        prompt_input_ids = self.parler_tokenizer(text, return_tensors="pt").input_ids.to(self.device)
-        generation = self.parler_model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
         audio_arr = generation.cpu().numpy().squeeze()
         return audio_arr, self.parler_model.config.sampling_rate

             np.array: Audio array.
             int: Sampling rate.
         """
+        # input_ids = self.parler_tokenizer(self.speaker1_description, return_tensors="pt").input_ids.to(self.device)
+        # prompt_input_ids = self.parler_tokenizer(text, return_tensors="pt").input_ids.to(self.device)
+        # generation = self.parler_model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
+        # audio_arr = generation.cpu().numpy().squeeze()
+        # return audio_arr, self.parler_model.config.sampling_rate
+        input_ids = self.parler_tokenizer(self.speaker1_description, return_tensors="pt", padding=True).input_ids.to(self.device)
+        attention_mask_input = self.parler_tokenizer(self.speaker1_description, return_tensors="pt", padding=True).attention_mask.to(self.device)
+        prompt_input_ids = self.parler_tokenizer(text, return_tensors="pt", padding=True).input_ids.to(self.device)
+        attention_mask_prompt = self.parler_tokenizer(text, return_tensors="pt", padding=True).attention_mask.to(self.device)
+        # Generate audio with input IDs and attention masks
+        generation = self.parler_model.generate(
+            input_ids=input_ids,
+            attention_mask=attention_mask_input,
+            prompt_input_ids=prompt_input_ids,
+            prompt_attention_mask=attention_mask_prompt
+        )
         audio_arr = generation.cpu().numpy().squeeze()
         return audio_arr, self.parler_model.config.sampling_rate