Spaces:

Ganbatte
/

STT-parakeet-tdt-0.6b-v2

Runtime error

App Files Files Community

Ganbatte commited on Jun 17

Commit

0e9ef5e

verified ·

1 Parent(s): e422552

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -22

app.py CHANGED Viewed

@@ -1,30 +1,40 @@
 import torch
-from transformers import AutoProcessor, AutoModelForTextToWaveform
 import gradio as gr
-import scipy.io.wavfile
-# โหลด processor และโมเดล
-processor = AutoProcessor.from_pretrained("nvidia/parakeet-tdt-0.6b-v2")
-model = AutoModelForTextToWaveform.from_pretrained("nvidia/parakeet-tdt-0.6b-v2").to("cuda" if torch.cuda.is_available() else "cpu")
-# รายชื่อ speaker ที่รองรับ (mock list - ต้องดูจาก actual model config ด้วย)
-speakers = ["emma", "ryan", "brian", "karen", "amy", "john"]
-def synthesize(text, speaker):
-    inputs = processor(text, speaker=speaker, return_tensors="pt").to(model.device)
-    with torch.no_grad():
-        waveform = model(**inputs).waveform
-    waveform = waveform.squeeze().cpu().numpy()
-    return (24000, waveform)  # sample rate 24kHz
-# สร้าง Gradio Interface
 gr.Interface(
-    fn=synthesize,
     inputs=[
-        gr.Textbox(label="Enter text to synthesize"),
-        gr.Dropdown(choices=speakers, label="Select speaker")
-    ],
-    outputs=gr.Audio(label="Generated Speech"),
-    title="🗣️ NVIDIA Parakeet TTS Demo",
-    description="Text-to-Speech using NVIDIA Parakeet-TDT-0.6B-v2 model"
-).launch()

 import torch
+import torchaudio
+from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
 import gradio as gr
+model_name = "ibm-granite/granite-speech-3.3-8b"
+device = "cuda" if torch.cuda.is_available() else "cpu"
+processor = AutoProcessor.from_pretrained(model_name)
+model = AutoModelForSpeechSeq2Seq.from_pretrained(model_name).to(device)
+def transcribe(audio, translate_to=None):
+    # audio: (sampling rate, numpy array) from Gradio
+    sr, audio_data = audio
+    waveform = torch.from_numpy(audio_data).unsqueeze(0)  # shape: (1, seq)
+    # Resample if not 16kHz
+    if sr != 16000:
+        waveform = torchaudio.functional.resample(waveform, sr, 16000)
+    inputs = processor(waveform, sampling_rate=16000, return_tensors="pt").to(device)
+    # Set beam size >1 แนะนำ beam=5
+    outputs = model.generate(**inputs, num_beams=5, max_new_tokens=512)
+    text = processor.tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]
+    # ถ้ามี translate_to, เติม prompt: e.g. "<|translate_to=es|>"
+    if translate_to:
+        text = f"<|translate_to={translate_to}|> " + text
+        inputs2 = processor(text, return_tensors="pt").to(device)
+        outputs2 = model.generate(**inputs2, num_beams=5)
+        text = processor.tokenizer.batch_decode(outputs2, skip_special_tokens=True)[0]
+    return text
+translator_options = [None, "fr", "es", "it", "de", "pt", "ja", "zh"]
 gr.Interface(
+    fn=transcribe,
     inputs=[
+        gr.Audio(source="microphone", type="numpy", label="Upload