Spaces:

IotaCluster
/

embedding-model

Running

IotaCluster commited on Jun 30

Commit

b974815

verified ·

1 Parent(s): 445b813

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -24,7 +24,11 @@ def embed_sparse(text: str):
     scores = bm25.get_scores(tokens)
     # Map each term to its BM25 weight
     term_weights = {tok: float(score) for tok, score in zip(tokens, scores)}
-    return {"sparse_embedding": term_weights}
 # 3. Late-interaction embedding model (ColBERT)
 colbert_tokenizer = AutoTokenizer.from_pretrained('colbert-ir/colbertv2.0', use_fast=True)

     scores = bm25.get_scores(tokens)
     # Map each term to its BM25 weight
     term_weights = {tok: float(score) for tok, score in zip(tokens, scores)}
+    # Build a consistent vocabulary (sorted for deterministic indices)
+    terms = sorted(term_weights.keys())
+    indices = list(range(len(terms)))
+    values = [term_weights[term] for term in terms]
+    return {"indices": indices, "values": values, "terms": terms}  # 'terms' is optional, for debugging
 # 3. Late-interaction embedding model (ColBERT)
 colbert_tokenizer = AutoTokenizer.from_pretrained('colbert-ir/colbertv2.0', use_fast=True)