Spaces:

AbhinavGavireddi
/

Document_intelligence

Running

Abhinav Gavireddi commited on Jun 19

Commit

c613bb1

1 Parent(s): f5d3669

[fix]: Fixed code issues

Files changed (5) hide show

.github/workflows/{ci.yaml → pipeline.yaml} RENAMED Viewed

File without changes

src/gpp.py CHANGED Viewed

@@ -19,7 +19,8 @@ from typing import List, Dict, Any, Optional
 import re
 from src import EmbeddingConfig, GPPConfig
-from src.utils import OpenAIEmbedder, LLMClient, logger
 def parse_markdown_table(md: str) -> Optional[Dict[str, Any]]:
     """

 import re
 from src import EmbeddingConfig, GPPConfig
+from src.utils import OpenAIEmbedder, LLMClient
+from src import logger
 def parse_markdown_table(md: str) -> Optional[Dict[str, Any]]:
     """

src/qa.py CHANGED Viewed

@@ -10,6 +10,7 @@ Each component is modular and can be swapped or extended (e.g., add HyDE retriev
 """
 import os
 from typing import List, Dict, Any, Tuple
 from src import RerankerConfig, logger
 from src.utils import LLMClient
@@ -19,13 +20,18 @@ class Reranker:
     """
     Cross-encoder re-ranker using a transformer-based sequence classification model.
     """
     def __init__(self, config: RerankerConfig):
         try:
-            from transformers import AutoTokenizer, AutoModelForSequenceClassification
-            import torch
-            self.tokenizer = AutoTokenizer.from_pretrained(config.MODEL_NAME)
-            self.model = AutoModelForSequenceClassification.from_pretrained(config.MODEL_NAME)
-            self.model.to(config.DEVICE)
         except Exception as e:
             logger.error(f'Failed to load reranker model: {e}')
             raise

 """
 import os
 from typing import List, Dict, Any, Tuple
+import streamlit as st
 from src import RerankerConfig, logger
 from src.utils import LLMClient
     """
     Cross-encoder re-ranker using a transformer-based sequence classification model.
     """
+    @staticmethod
+    @st.cache_resource(show_spinner="Loading reranker model...")
+    def load_model_and_tokenizer(model_name, device):
+        from transformers import AutoTokenizer, AutoModelForSequenceClassification
+        tokenizer = AutoTokenizer.from_pretrained(model_name)
+        model = AutoModelForSequenceClassification.from_pretrained(model_name)
+        model.to(device)
+        return tokenizer, model
     def __init__(self, config: RerankerConfig):
         try:
+            self.tokenizer, self.model = self.load_model_and_tokenizer(config.MODEL_NAME, config.DEVICE)
         except Exception as e:
             logger.error(f'Failed to load reranker model: {e}')
             raise

src/retriever.py CHANGED Viewed

@@ -1,18 +1,23 @@
 import os
 from typing import List, Dict, Any
-from src.config import RetrieverConfig
-from src import logger  # Use logger from src/__init__.py
 class Retriever:
     """
     Hybrid retriever combining BM25 sparse and dense retrieval (no Redis).
     """
     def __init__(self, chunks: List[Dict[str, Any]], config: RetrieverConfig):
         # Lazy import heavy libraries
         import numpy as np
         import hnswlib
-        from sentence_transformers import SentenceTransformer
         from rank_bm25 import BM25Okapi
         self.chunks = chunks
         try:
@@ -21,7 +26,7 @@ class Retriever:
                 raise ValueError("Chunks must be a list of dicts.")
             corpus = [c.get('narration', '').split() for c in chunks]
             self.bm25 = BM25Okapi(corpus)
-            self.embedder = SentenceTransformer(config.DENSE_MODEL)
             dim = len(self.embedder.encode(["test"])[0])
             self.ann = hnswlib.Index(space='cosine', dim=dim)
             self.ann.init_index(max_elements=len(chunks))

 import os
 from typing import List, Dict, Any
+import streamlit as st
+from src import RetrieverConfig, logger
 class Retriever:
     """
     Hybrid retriever combining BM25 sparse and dense retrieval (no Redis).
     """
+    @staticmethod
+    @st.cache_resource(show_spinner="Loading embedding model...")
+    def load_embedder(model_name):
+        from sentence_transformers import SentenceTransformer
+        return SentenceTransformer(model_name)
     def __init__(self, chunks: List[Dict[str, Any]], config: RetrieverConfig):
         # Lazy import heavy libraries
         import numpy as np
         import hnswlib
         from rank_bm25 import BM25Okapi
         self.chunks = chunks
         try:
                 raise ValueError("Chunks must be a list of dicts.")
             corpus = [c.get('narration', '').split() for c in chunks]
             self.bm25 = BM25Okapi(corpus)
+            self.embedder = self.load_embedder(config.DENSE_MODEL)
             dim = len(self.embedder.encode(["test"])[0])
             self.ann = hnswlib.Index(space='cosine', dim=dim)
             self.ann.init_index(max_elements=len(chunks))

src/utils.py CHANGED Viewed

@@ -6,7 +6,7 @@ import openai
 from typing import List
 from openai import AzureOpenAI
 from langchain_openai import AzureOpenAIEmbeddings
-from src import logger  # Import logger from src/__init__.py
 class LLMClient:

 from typing import List
 from openai import AzureOpenAI
 from langchain_openai import AzureOpenAIEmbeddings
+from src import logger
 class LLMClient: