Spaces:

MANOJSEQ
/

newsglobe-backend

Sleeping

App Files Files Community

MANOJSEQ commited on Aug 19

Commit

54cb7c1

verified ·

1 Parent(s): ab6969d

Upload 2 files

Browse files

Files changed (2) hide show

Dockerfile +20 -8
main.py +19 -2

Dockerfile CHANGED Viewed

@@ -5,13 +5,14 @@ ENV PYTHONUNBUFFERED=1 \
     PIP_NO_CACHE_DIR=1 \
     HF_HUB_DISABLE_TELEMETRY=1 \
     PORT=7860 \
-    # ✅ Writable + persistent on HF Spaces:
     HF_HOME=/data/hf_cache \
-    TRANSFORMERS_CACHE=/data/hf_cache \
     SENTENCE_TRANSFORMERS_HOME=/data/hf_cache \
-    NLTK_DATA=/data/nltk_data
-# small tools
 RUN apt-get update && apt-get install -y --no-install-recommends curl git && \
     rm -rf /var/lib/apt/lists/*
@@ -20,6 +21,7 @@ WORKDIR /app
 # ---- Python deps ----
 COPY requirements.txt ./
 RUN python -m pip install --upgrade pip && \
     pip install torch --index-url https://download.pytorch.org/whl/cpu && \
     pip install -r requirements.txt && \
     pip install sentencepiece
@@ -28,23 +30,33 @@ RUN python -m pip install --upgrade pip && \
 COPY . .
 # ✅ Make caches writable for the runtime user
-RUN mkdir -p /data/hf_cache /data/nltk_data && chmod -R 777 /data
-# (optional) pre-warm models into /data caches to speed first run
 RUN python - <<'PY'
 from sentence_transformers import SentenceTransformer
 SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
 print("✅ SBERT cached")
 PY
 RUN python - <<'PY'
 import os, nltk
 os.makedirs(os.getenv("NLTK_DATA","/data/nltk_data"), exist_ok=True)
-nltk.download("vader_lexicon")
 print("✅ VADER cached")
 PY
-# ensure everything under /data is writable after warm
 RUN chmod -R 777 /data
 EXPOSE 7860

     PIP_NO_CACHE_DIR=1 \
     HF_HUB_DISABLE_TELEMETRY=1 \
     PORT=7860 \
+    # ✅ Writable + persistent on Spaces
     HF_HOME=/data/hf_cache \
     SENTENCE_TRANSFORMERS_HOME=/data/hf_cache \
+    NLTK_DATA=/data/nltk_data \
+    TLDEXTRACT_CACHE=/data/tld_cache \
+    HOME=/data
+# Handy tools
 RUN apt-get update && apt-get install -y --no-install-recommends curl git && \
     rm -rf /var/lib/apt/lists/*
 # ---- Python deps ----
 COPY requirements.txt ./
 RUN python -m pip install --upgrade pip && \
+    # CPU-only PyTorch first
     pip install torch --index-url https://download.pytorch.org/whl/cpu && \
     pip install -r requirements.txt && \
     pip install sentencepiece
 COPY . .
 # ✅ Make caches writable for the runtime user
+RUN mkdir -p /data/hf_cache /data/nltk_data /data/tld_cache && chmod -R 777 /data
+# ---- Warm caches into the image layer ----
+# 1) Cache SBERT
 RUN python - <<'PY'
 from sentence_transformers import SentenceTransformer
 SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
 print("✅ SBERT cached")
 PY
+# 2) Cache NLTK VADER
 RUN python - <<'PY'
 import os, nltk
 os.makedirs(os.getenv("NLTK_DATA","/data/nltk_data"), exist_ok=True)
+nltk.download("vader_lexicon", download_dir=os.getenv("NLTK_DATA","/data/nltk_data"))
 print("✅ VADER cached")
 PY
+# 3) (Recommended) Pre-warm tweet-topic model so first request is instant
+RUN python - <<'PY'
+from transformers import pipeline
+p = pipeline("text-classification", model="cardiffnlp/tweet-topic-21-multi", top_k=1)
+p("warmup")
+print("✅ Topic model cached")
+PY
+# Ensure everything under /data is writable after warms
 RUN chmod -R 777 /data
 EXPOSE 7860

main.py CHANGED Viewed

@@ -29,6 +29,7 @@ import difflib
 from starlette.middleware.gzip import GZipMiddleware
 from transformers import pipeline as hf_pipeline
 os.environ.setdefault("OMP_NUM_THREADS", "1")
 import torch
 torch.set_num_threads(2)
@@ -52,6 +53,14 @@ _news_clf = None
 _sbert = None
 # --- Translation runtime flags / caches ---
@@ -887,7 +896,7 @@ def geocode_source(source_text: str, domain: str = "", do_network: bool = False)
     if cache_key in domain_geo_cache:
         return domain_geo_cache[cache_key]
-    ext = tldextract.extract(domain or "")
     fqdn = ".".join([p for p in (ext.domain, ext.suffix) if p]) if (ext.domain or ext.suffix) else ""
     # 0) Major outlets / domain map
@@ -1468,7 +1477,7 @@ def enrich_article(a, language=None, translate=False, target_lang=None):
     # Canonicalize URL & derive domain
     article_url = _canonical_url(a.get("url") or "")
     try:
-        ext = tldextract.extract(article_url)
         domain = ".".join([p for p in (ext.domain, ext.suffix) if p]) if (ext.domain or ext.suffix) else ""
     except Exception:
         domain = ""
@@ -2032,3 +2041,11 @@ def diag_translate():
         "libre_ok": bool(libre),
         "sample": libre or remote or local
     }

 from starlette.middleware.gzip import GZipMiddleware
 from transformers import pipeline as hf_pipeline
 os.environ.setdefault("OMP_NUM_THREADS", "1")
+from fastapi.responses import PlainTextResponse
 import torch
 torch.set_num_threads(2)
 _sbert = None
+# set a writable cache for tldextract and avoid network PSL fetches
+_TLD_CACHE = os.getenv("TLDEXTRACT_CACHE", "/data/tld_cache")
+try:
+    # suffix_list_urls=None => use cached public suffix list only (no HTTP on startup)
+    _tld = tldextract.TLDExtract(cache_dir=_TLD_CACHE, suffix_list_urls=None)
+except Exception:
+    # safe fallback: still parses domains without PSL refresh
+    _tld = tldextract.extract
 # --- Translation runtime flags / caches ---
     if cache_key in domain_geo_cache:
         return domain_geo_cache[cache_key]
+    ext = _tld(domain or "")
     fqdn = ".".join([p for p in (ext.domain, ext.suffix) if p]) if (ext.domain or ext.suffix) else ""
     # 0) Major outlets / domain map
     # Canonicalize URL & derive domain
     article_url = _canonical_url(a.get("url") or "")
     try:
+        ext = _tld(article_url)
         domain = ".".join([p for p in (ext.domain, ext.suffix) if p]) if (ext.domain or ext.suffix) else ""
     except Exception:
         domain = ""
         "libre_ok": bool(libre),
         "sample": libre or remote or local
     }
+@app.get("/", include_in_schema=False)
+def root():
+    return {"ok": True, "service": "newsglobe-backend"}
+@app.get("/favicon.ico", include_in_schema=False)
+def favicon():
+    return PlainTextResponse("", status_code=204)