Spaces:

AlphaPhoenix
/

MATRIX

Sleeping

App Files Files Community

laserbeam2045 commited on May 4

Commit

7f80d8c

1 Parent(s): b2b7327

fix

Browse files

Files changed (2) hide show

app.py +71 -41
requirements.txt +4 -8

app.py CHANGED Viewed

@@ -1,47 +1,77 @@
 import os
 import torch
-from fastapi import FastAPI
-from transformers import AutoTokenizer, AutoModelForCausalLM
 from pydantic import BaseModel
-import logging
-logging.basicConfig(level=logging.INFO)
-logger = logging.getLogger(__name__)
-app = FastAPI()
-model_name = "google/gemma-2-2b-it"
-tokenizer = None
-model = None
-try:
-    logger.info(f"Loading model: {model_name}")
-    tokenizer = AutoTokenizer.from_pretrained(model_name, token=os.getenv("HF_TOKEN"))
-    model = AutoModelForCausalLM.from_pretrained(
-        model_name,
-        torch_dtype=torch.float16,  # メモリ削減
-        device_map="cpu",  # GPU利用不可
-        token=os.getenv("HF_TOKEN"),
-        low_cpu_mem_usage=True
-    )
-    logger.info("Model loaded successfully")
-except Exception as e:
-    logger.error(f"Model load error: {e}")
-    raise
-class TextInput(BaseModel):
-    text: str
-    max_length: int = 50
 @app.post("/generate")
-async def generate_text(input: TextInput):
-    try:
-        logger.info(f"Generating text for input: {input.text}")
-        inputs = tokenizer(input.text, return_tensors="pt", max_length=512, truncation=True).to("cpu")
-        outputs = model.generate(**inputs, max_length=input.max_length)
-        result = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        logger.info(f"Generated text: {result}")
-        return {"generated_text": result}
-    except Exception as e:
-        logger.error(f"Generation error: {e}")
-        return {"error": str(e)}

+# app.py
 import os
 import torch
+from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
+from transformers import AutoTokenizer, AutoModelForCausalLM
+# -----------------------------------------------------------------------------
+# 設定
+# -----------------------------------------------------------------------------
+MODEL_ID = "google/gemma-3-4b-it"
+# Hugging Face token が必要な場合は環境変数 HUGGINGFACE_TOKEN をセット
+HF_TOKEN = os.environ.get("HF_TOKEN", None)
+# -----------------------------------------------------------------------------
+# デバイス設定（Spaces の無料枠では CPU のみです）
+# -----------------------------------------------------------------------------
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# -----------------------------------------------------------------------------
+# トークナイザーとモデルのロード
+# -----------------------------------------------------------------------------
+tokenizer = AutoTokenizer.from_pretrained(
+    MODEL_ID,
+    use_auth_token=HF_TOKEN,
+    trust_remote_code=True
+)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_ID,
+    use_auth_token=HF_TOKEN,
+    torch_dtype=torch.float32,    # CPU 環境では float32
+    device_map="auto" if torch.cuda.is_available() else None
+)
+model.to(device)
+# -----------------------------------------------------------------------------
+# FastAPI 定義
+# -----------------------------------------------------------------------------
+app = FastAPI(title="Gemma3-4B-IT API")
+class GenerationRequest(BaseModel):
+    prompt: str
+    max_new_tokens: int = 128
+    temperature: float = 0.8
+    top_p: float = 0.95
 @app.post("/generate")
+async def generate(req: GenerationRequest):
+    if not req.prompt:
+        raise HTTPException(status_code=400, detail="prompt は必須です。")
+    # トークナイズ
+    inputs = tokenizer(
+        req.prompt,
+        return_tensors="pt",
+        padding=True,
+        truncation=True,
+    ).to(device)
+    # 生成
+    generation_output = model.generate(
+        **inputs,
+        max_new_tokens=req.max_new_tokens,
+        temperature=req.temperature,
+        top_p=req.top_p,
+        do_sample=True,
+        pad_token_id=tokenizer.eos_token_id
+    )
+    text = tokenizer.decode(generation_output[0], skip_special_tokens=True)
+    return {"generated_text": text}
+# -----------------------------------------------------------------------------
+# ローカル起動用
+# -----------------------------------------------------------------------------
+if __name__ == "__main__":
+    import uvicorn
+    port = int(os.environ.get("PORT", 8000))
+    uvicorn.run("app:app", host="0.0.0.0", port=port, log_level="info")

requirements.txt CHANGED Viewed

@@ -1,9 +1,5 @@
 huggingface_hub==0.25.2
-torch==2.1.0
-numpy<2.0
-transformers==4.44.2
-bitsandbytes==0.42.0
-accelerate==0.26.1
-fastapi==0.115.0
-uvicorn==0.30.6
-gradio==4.15.0

 huggingface_hub==0.25.2
+fastapi
+uvicorn[standard]
+transformers>=4.50.0.dev0
+torch