Spaces:

datbkpro
/

voicebot

Sleeping

App Files Files Community

datbkpro commited on Oct 21

Commit

65be612

verified ·

1 Parent(s): 5b64acb

Update core/multilingual_manager.py

Browse files

Files changed (1) hide show

core/multilingual_manager.py +54 -54

core/multilingual_manager.py CHANGED Viewed

@@ -2,15 +2,13 @@ import re
 from typing import Dict, Tuple, Optional
 from sentence_transformers import SentenceTransformer
 from config.settings import settings
-import logging
-logger = logging.getLogger(__name__)
 class MultilingualManager:
     def __init__(self):
-        self.embedding_model = None
-        self.current_language = 'vi'
         # Phát hiện thuộc ngôn ngữ dựa trên các mẫu ký tự và từ phổ biến
         self.language_patterns = {
             'vi': {
@@ -39,45 +37,31 @@ class MultilingualManager:
             },
             'ko': {
                 'chars': set('가-힣'),
-                'common_words': ['이', '그', '에', '를', 'の', '에', '에서', '으로', '하다', '이다']
             },
             'zh': {
                 'chars': set('一-鿌'),
                 'common_words': ['的', '是', '在', '有', '和', '了', '人', '我', '他', '这']
             }
         }
-        self._initialize_model()
-    def _initialize_model(self):
-        """Khởi tạo mô hình embedding với fallback"""
-        model_attempts = [
-            settings.VIETNAMESE_EMBEDDING_MODEL,
-            settings.MULTILINGUAL_EMBEDDING_MODEL,
-            settings.FALLBACK_EMBEDDING_MODEL,
-            'all-MiniLM-L6-v2',  # Model mặc định
-            'paraphrase-MiniLM-L6-v2'  # Model fallback cuối cùng
-        ]
-        for model_name in model_attempts:
-            try:
-                logger.info(f"🔄 Đang thử tải mô hình embedding: {model_name}")
-                self.embedding_model = SentenceTransformer(model_name)
-                logger.info(f"✅ Đã tải thành công mô hình: {model_name}")
-                break
-            except Exception as e:
-                logger.warning(f"❌ Không thể tải {model_name}: {e}")
-                continue
-        if self.embedding_model is None:
-            logger.error("❌ Không thể tải bất kỳ mô hình embedding nào!")
-            # Tạo một model đơn giản để tránh crash
-            try:
-                self.embedding_model = SentenceTransformer('all-MiniLM-L6-v2', device='cpu')
-            except:
-                # Fallback cứng
-                from sentence_transformers import SentenceTransformer as ST
-                self.embedding_model = ST('sentence-transformers/all-MiniLM-L6-v2')
     def detect_language(self, text: str) -> str:
         """Phát hiện ngôn ngữ với độ chính xác cao"""
@@ -118,29 +102,45 @@ class MultilingualManager:
                 return 'en'  # Default to English for other cases
         return detected_lang
     def get_embedding_model(self, language: str = None) -> Optional[SentenceTransformer]:
-        """Lấy mô hình embedding - sử dụng model chung cho tất cả ngôn ngữ"""
-        return self.embedding_model
-    def get_llm_model(self, language: str = None) -> str:
-        """Lấy tên mô hình LLM dựa trên ngôn ngữ"""
         lang = language if language in settings.SUPPORTED_LANGUAGES else self.current_language
-        # Groq models - sử dụng model chung
         if lang == 'vi':
-            return "llama-3.1-8b-instant"  # Model Groq hỗ trợ tiếng Việt
         else:
-            return "llama-3.1-8b-instant"  # Model Groq đa ngôn ngữ
     def get_language_info(self, language: str = None) -> Dict:
-        """Lấy thông tin ngôn ngữ"""
         lang = language if language in settings.SUPPORTED_LANGUAGES else self.current_language
-        return {
-            'code': lang,
-            'name': settings.SUPPORTED_LANGUAGES.get(lang, 'Unknown'),
-            'embedding_model': getattr(self.embedding_model, 'get_sentence_embedding_dimension', 'N/A'),
-            'llm_model': self.get_llm_model(lang),
-            'status': 'active' if self.embedding_model else 'inactive'
-        }

 from typing import Dict, Tuple, Optional
 from sentence_transformers import SentenceTransformer
 from config.settings import settings
 class MultilingualManager:
     def __init__(self):
+        self.vietnamese_model = None
+        self.multilingual_model = None
+        self.current_language = 'vi'
         # Phát hiện thuộc ngôn ngữ dựa trên các mẫu ký tự và từ phổ biến
         self.language_patterns = {
             'vi': {
             },
             'ko': {
                 'chars': set('가-힣'),
+                'common_words': ['이', '그', '에', '를', '의', '에', '에서', '으로', '하다', '이다']
             },
             'zh': {
                 'chars': set('一-鿌'),
                 'common_words': ['的', '是', '在', '有', '和', '了', '人', '我', '他', '这']
             }
         }
+        self._initialize_models()
+    def _initialize_models(self):
+        """Khởi tạo các mô hình đa ngôn ngữ"""
+        try:
+            print("🔄 Đang tải mô hình embedding tiếng Việt...")
+            self.vietnamese_model = SentenceTransformer(settings.VIETNAMESE_EMBEDDING_MODEL)
+            print("✅ Đã tải mô hình embedding tiếng Việt")
+        except Exception as e:
+            print(f"❌ Lỗi tải mô hình embedding tiếng Việt: {e}")
+            self.vietnamese_model = None
+        try:
+            print("🔄 Đang tải mô hình embedding đa ngôn ngữ...")
+            self.multilingual_model = SentenceTransformer(settings.MULTILINGUAL_EMBEDDING_MODEL,trust_remote_code=True )
+            print("✅ Đã tải mô hình embedding đa ngôn ngữ")
+        except Exception as e:
+            print(f"❌ Lỗi tải mô hình embedding đa ngôn ngữ: {e}")
+            self.multilingual_model = None
     def detect_language(self, text: str) -> str:
         """Phát hiện ngôn ngữ với độ chính xác cao"""
                 return 'en'  # Default to English for other cases
         return detected_lang
     def get_embedding_model(self, language: str = None) -> Optional[SentenceTransformer]:
+        """Lấy mô hình embedding dựa trên ngôn ngữ đã phát hiện"""
+        lang = language if language in settings.SUPPORTED_LANGUAGES else self.current_language
+        if lang == 'vi':
+            return self.vietnamese_model
+        else:
+            return self.multilingual_model
+    def get_llm_model_name(self, language: str = None) -> str:
+        """Lấy tên mô hình LLM dựa trên ngôn ngữ đã phát hiện"""
         lang = language if language in settings.SUPPORTED_LANGUAGES else self.current_language
         if lang == 'vi':
+            return settings.VIETNAMESE_LLM_MODEL
         else:
+            return settings.MULTILINGUAL_LLM_MODEL
     def get_language_info(self, language: str = None) -> Dict:
+        """Lấy thông tin ngôn ngữ bao gồm mã và tên đầy đủ"""
         lang = language if language in settings.SUPPORTED_LANGUAGES else self.current_language
+        model_info = {
+            'vi': {
+                'name': 'Tiếng Việt',
+                'embedding_model': settings.VIETNAMESE_EMBEDDING_MODEL,
+                'llm_model': settings.VIETNAMESE_LLM_MODEL,
+                'status': 'active' if self.vietnamese_model else 'inactive'
+            },
+            'other': {
+                'name': 'Multilingual',
+                'embedding_model': settings.MULTILINGUAL_EMBEDDING_MODEL,
+                'llm_model': settings.MULTILINGUAL_LLM_MODEL,
+                'status': 'active' if self.multilingual_model else 'inactive'
+            }
+        }
+        if lang == 'vi':
+            return model_info['vi']
+        else:
+            return model_info['other']