talk-to-smolvox

Running on T4

App Files Files Community

freddyaboulton HF Staff commited on Nov 15, 2024

Commit

042390d

1 Parent(s): 3202126

Add code

Browse files

Files changed (1) hide show

app.py +23 -15

app.py CHANGED Viewed

@@ -32,7 +32,11 @@ else:
     rtc_configuration = None
-def transcribe(audio: tuple[int, np.ndarray], conversation: list[dict]):
     original_sr = audio[0]
     target_sr = 16000
@@ -41,15 +45,17 @@ def transcribe(audio: tuple[int, np.ndarray], conversation: list[dict]):
     )
     output = pipe(
-        {"audio": audio_sr, "turns": conversation, "sampling_rate": target_sr},
         max_new_tokens=512,
     )
     transcription = whisper({"array": audio_sr.squeeze(), "sampling_rate": target_sr})
     conversation.append({"role": "user", "content": transcription["text"]})
     conversation.append({"role": "assistant", "content": output})
-    yield AdditionalOutputs(conversation)
 with gr.Blocks() as demo:
@@ -68,17 +74,16 @@ with gr.Blocks() as demo:
     """
     )
     with gr.Row():
         with gr.Group():
-            transcript = gr.Chatbot(
-                label="transcript",
-                type="messages",
-                value=[
-                    {
-                        "role": "system",
-                        "content": "You are a friendly and helpful character. You love to answer questions for people.",
-                    }
-                ],
-            )
             audio = WebRTC(
                 rtc_configuration=rtc_configuration,
                 label="Stream",
@@ -88,12 +93,15 @@ with gr.Blocks() as demo:
     audio.stream(
         ReplyOnPause(transcribe),
-        inputs=[audio, transcript],
         outputs=[audio],
         time_limit=90,
     )
     audio.on_additional_outputs(
-        lambda s: s, outputs=[transcript], queue=False, show_progress="hidden"
     )
 if __name__ == "__main__":

     rtc_configuration = None
+def transcribe(
+    audio: tuple[int, np.ndarray],
+    transformers_chat: list[dict],
+    conversation: list[dict],
+):
     original_sr = audio[0]
     target_sr = 16000
     )
     output = pipe(
+        {"audio": audio_sr, "turns": transformers_chat, "sampling_rate": target_sr},
         max_new_tokens=512,
     )
     transcription = whisper({"array": audio_sr.squeeze(), "sampling_rate": target_sr})
     conversation.append({"role": "user", "content": transcription["text"]})
     conversation.append({"role": "assistant", "content": output})
+    transformers_chat.append({"role": "user", "content": transcription["text"]})
+    transformers_chat.append({"role": "assistant", "content": output})
+    yield AdditionalOutputs(transformers_chat, conversation)
 with gr.Blocks() as demo:
     """
     )
     with gr.Row():
+        transformers_chat = gr.State(
+            value=[
+                {
+                    "role": "system",
+                    "content": "You are a friendly and helpful character. You love to answer questions for people.",
+                }
+            ]
+        )
         with gr.Group():
+            transcript = gr.Chatbot(label="transcript", type="messages")
             audio = WebRTC(
                 rtc_configuration=rtc_configuration,
                 label="Stream",
     audio.stream(
         ReplyOnPause(transcribe),
+        inputs=[audio, transformers_chat, transcript],
         outputs=[audio],
         time_limit=90,
     )
     audio.on_additional_outputs(
+        lambda t, g: (t, g),
+        outputs=[transformers_chat, transcript],
+        queue=False,
+        show_progress="hidden",
     )
 if __name__ == "__main__":