Spaces:

datbkpro
/

voicebot

Sleeping

App Files Files Community

datbkpro commited on 20 days ago

Commit

a42e45a

verified ·

1 Parent(s): 0943c25

Update services/audio_service.py

Browse files

Files changed (1) hide show

services/audio_service.py +30 -20

services/audio_service.py CHANGED Viewed

@@ -5,22 +5,26 @@ from groq import Groq
 from config.settings import settings
 from core.rag_system import EnhancedRAGSystem
 from core.tts_service import EnhancedTTSService
-from core.multilingual_manager import MultilingualManager  # NEW
 class AudioService:
     def __init__(self, groq_client: Groq, rag_system: EnhancedRAGSystem, tts_service: EnhancedTTSService):
         self.groq_client = groq_client
-        self.rag_system = EnhancedRAGSystem()
-        self.tts_service = EnhancedTTSService()
-        self.multilingual_manager = MultilingualManager()  # NEW
-    def transcribe_audio(self, audio: str) -> str:
         """Chuyển đổi giọng nói thành văn bản sử dụng mô hình Whisper."""
         if not audio:
-            raise ValueError("Audio input is empty.")
-        sr, y =audio
         if y.ndim > 1:
             y = np.mean(y, axis=1)  # Chuyển đổi sang mono nếu cần
@@ -32,26 +36,27 @@ class AudioService:
         buffer.seek(0)
         try:
-            completion = self.groq_client.audio.transcribe(
                 model=settings.WHISPER_MODEL,
-                audio=buffer,
                 response_format="text"
             )
-            transcription = completion
         except Exception as e:
             transcription = f"Error trong quá trình chuyển đổi giọng nói thành văn bản: {e}"
         language = self.multilingual_manager.detect_language(transcription)
-        respone = self._generate_response_with_rag(transcription, language)
         tts_audio = None
-        if respone and respone.startswith("Error") is False:
-            tts_bytes = self.tts_service.text_to_speech(respone, language)
             if tts_bytes:
                 tts_audio_path = self.tts_service.save_tts_audio(tts_bytes)
                 tts_audio = tts_audio_path
-            return transcription, respone, tts_audio, language
     def _generate_response_with_rag(self, query: str, language: str) -> str:
         """Tạo phản hồi sử dụng hệ thống RAG dựa trên truy vấn và ngôn ngữ."""
         if not query or query.startswith("Error"):
@@ -62,7 +67,9 @@ class AudioService:
             if rag_results:
                 for result in rag_results:
                     context_text += result.document + "\n"
             llm_model = self.multilingual_manager.get_llm_model(language)
             if language == "vi":
                 system_prompt = """Bạn là trợ lý AI thông minh chuyên về tiếng Việt. Hãy sử dụng thông tin từ cơ sở kiến thức được cung cấp để trả lời câu hỏi một cách chính xác và hữu ích bằng tiếng Việt.
                     Thông tin tham khảo từ cơ sở kiến thức:
@@ -75,17 +82,20 @@ class AudioService:
                     {context}
                     If the information from the knowledge base is not sufficient to answer, rely on your general knowledge. Always respond in natural and easy-to-understand language matching the user's language."""
-            message = [
                 {"role": "system", "content": system_prompt.format(context=context_text)},
                 {"role": "user", "content": query}
             ]
             completion = self.groq_client.chat.completions.create(
                 model=llm_model,
-                messages=message,
                 max_tokens=512,
                 temperature=0.7,
             )
-            return completion.choices[0].message['content'].strip()
         except Exception as e:
-            return f"Error trong quá trình tạo phản hồi với RAG: {e}"

 from config.settings import settings
 from core.rag_system import EnhancedRAGSystem
 from core.tts_service import EnhancedTTSService
+from core.multilingual_manager import MultilingualManager
 class AudioService:
     def __init__(self, groq_client: Groq, rag_system: EnhancedRAGSystem, tts_service: EnhancedTTSService):
         self.groq_client = groq_client
+        self.rag_system = rag_system  # Sử dụng parameter thay vì tạo mới
+        self.tts_service = tts_service  # Sử dụng parameter thay vì tạo mới
+        self.multilingual_manager = MultilingualManager()
+    def transcribe_audio(self, audio: tuple) -> tuple:
         """Chuyển đổi giọng nói thành văn bản sử dụng mô hình Whisper."""
         if not audio:
+            return "Error: Audio input is empty.", "Error: Không có dữ liệu âm thanh", None, "unknown"
+        # Xử lý audio input từ Gradio
+        if isinstance(audio, tuple):
+            sr, y = audio
+        else:
+            return "Error: Invalid audio format", "Error: Định dạng âm thanh không hợp lệ", None, "unknown"
         if y.ndim > 1:
             y = np.mean(y, axis=1)  # Chuyển đổi sang mono nếu cần
         buffer.seek(0)
         try:
+            completion = self.groq_client.audio.transcriptions.create(
                 model=settings.WHISPER_MODEL,
+                file=buffer,
                 response_format="text"
             )
+            transcription = completion.text
         except Exception as e:
             transcription = f"Error trong quá trình chuyển đổi giọng nói thành văn bản: {e}"
         language = self.multilingual_manager.detect_language(transcription)
+        response = self._generate_response_with_rag(transcription, language)
         tts_audio = None
+        if response and not response.startswith("Error"):
+            tts_bytes = self.tts_service.text_to_speech(response, language)
             if tts_bytes:
                 tts_audio_path = self.tts_service.save_tts_audio(tts_bytes)
                 tts_audio = tts_audio_path
+        return transcription, response, tts_audio, language
     def _generate_response_with_rag(self, query: str, language: str) -> str:
         """Tạo phản hồi sử dụng hệ thống RAG dựa trên truy vấn và ngôn ngữ."""
         if not query or query.startswith("Error"):
             if rag_results:
                 for result in rag_results:
                     context_text += result.document + "\n"
             llm_model = self.multilingual_manager.get_llm_model(language)
             if language == "vi":
                 system_prompt = """Bạn là trợ lý AI thông minh chuyên về tiếng Việt. Hãy sử dụng thông tin từ cơ sở kiến thức được cung cấp để trả lời câu hỏi một cách chính xác và hữu ích bằng tiếng Việt.
                     Thông tin tham khảo từ cơ sở kiến thức:
                     {context}
                     If the information from the knowledge base is not sufficient to answer, rely on your general knowledge. Always respond in natural and easy-to-understand language matching the user's language."""
+            messages = [
                 {"role": "system", "content": system_prompt.format(context=context_text)},
                 {"role": "user", "content": query}
             ]
             completion = self.groq_client.chat.completions.create(
                 model=llm_model,
+                messages=messages,
                 max_tokens=512,
                 temperature=0.7,
             )
+            return completion.choices[0].message.content.strip()
         except Exception as e:
+            return f"Error trong quá trình tạo phản hồi với RAG: {e}"