Spaces:

sirochild
/

mari

Sleeping

App Files Files Community

sirochild commited on Jul 24

Commit

1b3d9b9

verified ·

1 Parent(s): ebc78dc

Upload 5 files

Browse files

Files changed (3) hide show

.gitignore +30 -0
app.py +70 -9
generate_dialogue_with_swallow.py +1 -1

.gitignore ADDED Viewed

	@@ -0,0 +1,30 @@

+# Python
+__pycache__/
+*.py[cod]
+*$py.class
+*.so
+.Python
+env/
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+*.egg-info/
+.installed.cfg
+*.egg
+# ログファイル
+*.log
+# 環境変数
+.env
+# キャッシュ
+.cache/

app.py CHANGED Viewed

@@ -24,6 +24,10 @@ print("Swallowモデルをロード中...")
 MODEL_REPO = "mmnga/tokyotech-llm-Swallow-MX-8x7b-NVE-v0.1-gguf"
 MODEL_FILE = "tokyotech-llm-Swallow-MX-8x7b-NVE-v0.1-q4_K_M.gguf"
 try:
     # モデルファイルをダウンロード
     print(f"モデルファイル {MODEL_FILE} をダウンロード中...")
@@ -32,21 +36,78 @@ try:
     # 最も安全な設定でモデルをロード（CPUのみ）
     print("CPUモードでモデルをロードします")
-    swallow_model = Llama(
-        model_path=model_path,
-        n_ctx=2048,  # コンテキスト長
-        n_gpu_layers=0,  # GPUを使用しない
-        n_threads=4,  # スレッド数を制限
-        verbose=True  # デバッグ出力を有効化
-    )
-    print("モデルのロード完了")
     print("Swallowモデルのロード完了")
     tokenizer = None  # llama-cppではtokenizerは不要
 except Exception as e:
     print(f"Swallowモデルのロードエラー: {e}")
     import traceback
     traceback.print_exc()
-    swallow_model = None
     tokenizer = None
 # 日本語感情分析モデルの初期化（グローバル変数として保持）

 MODEL_REPO = "mmnga/tokyotech-llm-Swallow-MX-8x7b-NVE-v0.1-gguf"
 MODEL_FILE = "tokyotech-llm-Swallow-MX-8x7b-NVE-v0.1-q4_K_M.gguf"
+# メモリ使用量を確認
+import psutil
+print(f"利用可能なメモリ: {psutil.virtual_memory().available / (1024 * 1024 * 1024):.2f} GB")
 try:
     # モデルファイルをダウンロード
     print(f"モデルファイル {MODEL_FILE} をダウンロード中...")
     # 最も安全な設定でモデルをロード（CPUのみ）
     print("CPUモードでモデルをロードします")
+    try:
+        swallow_model = Llama(
+            model_path=model_path,
+            n_ctx=2048,  # コンテキスト長
+            n_gpu_layers=0,  # GPUを使用しない
+            n_threads=4,  # スレッド数を制限
+            verbose=True  # デバッグ出力を有効化
+        )
+        print("モデルのロード完了")
+    except Exception as e:
+        print(f"モデルのロードに失敗しました: {e}")
+        import traceback
+        traceback.print_exc()
+        # 再試行（より安全な設定で）
+        print("より安全な設定でモデルのロードを再試行します...")
+        swallow_model = Llama(
+            model_path=model_path,
+            n_ctx=1024,  # より短いコンテキスト長
+            n_gpu_layers=0,  # GPUを使用しない
+            n_threads=1,  # 最小スレッド数
+            verbose=True,  # デバッグ出力を有効化
+            seed=42  # 固定シード値
+        )
+        print("モデルのロード完了（安全モード）")
     print("Swallowモデルのロード完了")
     tokenizer = None  # llama-cppではtokenizerは不要
 except Exception as e:
     print(f"Swallowモデルのロードエラー: {e}")
     import traceback
     traceback.print_exc()
+    # フォールバックとして非常に小さなモデルを使用
+    try:
+        print("フォールバックとして非常に小さなモデルを使用します...")
+        from transformers import pipeline
+        # テキスト生成用の小さなモデルをロード
+        small_model = pipeline("text-generation", model="TinyLlama/TinyLlama-1.1B-Chat-v1.0")
+        # Llamaクラスと同様のインターフェースを持つラッパークラスを作成
+        class SmallModelWrapper:
+            def __call__(self, prompt, max_tokens=100, temperature=0.7, top_p=0.9, stop=None, echo=False):
+                try:
+                    result = small_model(
+                        prompt,
+                        max_length=len(prompt.split()) + max_tokens,
+                        temperature=temperature,
+                        top_p=top_p,
+                        do_sample=temperature > 0
+                    )
+                    generated_text = result[0]["generated_text"]
+                    # echoがFalseの場合はプロンプトを除去
+                    if not echo and generated_text.startswith(prompt):
+                        generated_text = generated_text[len(prompt):]
+                    return {
+                        "choices": [{"text": generated_text}]
+                    }
+                except Exception as gen_error:
+                    print(f"小さなモデルでの生成エラー: {gen_error}")
+                    return {
+                        "choices": [{"text": "（……システムエラーが発生しました）"}]
+                    }
+        swallow_model = SmallModelWrapper()
+        print("フォールバックモデルのロード完了")
+    except Exception as fallback_error:
+        print(f"フォールバックモデルのロードエラー: {fallback_error}")
+        swallow_model = None
     tokenizer = None
 # 日本語感情分析モデルの初期化（グローバル変数として保持）

generate_dialogue_with_swallow.py CHANGED Viewed

@@ -28,7 +28,7 @@ def generate_dialogue_with_swallow(history, message, affection, stage_name, scen
     # モデルがロードされていない場合はフォールバック応答を返す
     if swallow_model is None:
         print("モデルがロードされていないため、フォールバック応答を返します")
-        return "（……システムエラーが発生しました）"
     history_text = "\n".join([f"ユーザー: {u}\n麻理: {m}" for u, m in history])
     task_prompt = f"指示: {instruction}" if instruction else f"ユーザー: {message}"

     # モデルがロードされていない場合はフォールバック応答を返す
     if swallow_model is None:
         print("モデルがロードされていないため、フォールバック応答を返します")
+        return "（……システムエラーが発生しました。しばらく待ってから再度お試しください）"
     history_text = "\n".join([f"ユーザー: {u}\n麻理: {m}" for u, m in history])
     task_prompt = f"指示: {instruction}" if instruction else f"ユーザー: {message}"