OpenSearch-AI

Running on CPU Upgrade

App Files Files

prasadnu commited on May 21

Commit

f3cf390

1 Parent(s): c005379

mvectors

Browse files

Files changed (2) hide show

semantic_search/all_search_execute.py +0 -1
utilities/mvectors.py +4 -11

semantic_search/all_search_execute.py CHANGED Viewed

@@ -217,7 +217,6 @@ def handler(input_,session_id):
         if(st.session_state.input_mvector_rerank):
             query_vector = cb.vectorise(query,False)
             vector_field = "description_vector"
-            print("-------------COLBERT-----1-------------------------------------------------")
             vector_payload = {"knn": {}}
             vector_payload["knn"][vector_field]= {
                             "vector":query_vector,

         if(st.session_state.input_mvector_rerank):
             query_vector = cb.vectorise(query,False)
             vector_field = "description_vector"
             vector_payload = {"knn": {}}
             vector_payload["knn"][vector_field]= {
                             "vector":query_vector,

utilities/mvectors.py CHANGED Viewed

@@ -8,7 +8,7 @@ import json
 runtime = boto3.client('sagemaker-runtime',aws_access_key_id=st.secrets['user_access_key'],
     aws_secret_access_key=st.secrets['user_secret_key'],region_name='us-east-1')
-# Load model from HuggingFace Hub
 tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')
 endpoint_name = 'huggingface-pytorch-inference-2025-05-21-16-31-07-967'
@@ -20,7 +20,6 @@ def mean_pooling(token_embeddings, attention_mask):
 def vectorise(sentence,token_level_vectors):
-    print("-------------colbert ---- 2-----------")
     encoded_input = tokenizer(sentence, padding=True, truncation=True, return_tensors='pt')
     # Get input IDs (token IDs)
     input_ids = encoded_input['input_ids'][0]
@@ -48,7 +47,6 @@ def vectorise(sentence,token_level_vectors):
     return sentence_embeddings[0].tolist()
 def search(hits):
-    print("-------------COLBERT------------4------------------------------------------")
     tokens,token_vectors = vectorise(st.session_state.input_text,True)
     final_docs = []
     for ind,j in enumerate(hits):
@@ -64,7 +62,6 @@ def search(hits):
             doc["_source"]["gender_affinity"] = j["_source"]["gender_affinity"]
         else:
             doc["_source"]["gender_affinity"] = ""
-        #print(j["_source"]["title"])
         source_doc_token_keys = list(j["_source"].keys())
         with_s = [x for x in source_doc_token_keys if x.startswith("description-token-")]
         add_score = 0
@@ -79,26 +76,22 @@ def search(hits):
                 for m in with_s:
                     m_arr = m.split("-")
                     if(m_arr[-1]!='[SEP]' and m_arr[-1]!='[CLS]'):
-                        #print("document token: "+m_arr[3])
                         doc_token_vector = np.array(j["_source"][m])
                         score = np.dot(query_token_vector,doc_token_vector)
                         scores.append({"doc_token":m_arr[3],"score":score})
-                        #print({"doc_token":m_arr[3],"score":score})
                 newlist = sorted(scores, key=lambda d: d['score'], reverse=True)
                 max_score = newlist[0]['score']
                 add_score+=max_score
                 max_score_dict_list.append(newlist[0])
-                print(newlist[0])
         max_score_dict_list_sorted = sorted(max_score_dict_list, key=lambda d: d['score'], reverse=True)
         print(max_score_dict_list_sorted)
-        # print(add_score)
         doc["total_score"] = add_score
         doc['max_score_dict_list_sorted'] = max_score_dict_list_sorted
         final_docs.append(doc)
     final_docs_sorted = sorted(final_docs, key=lambda d: d['total_score'], reverse=True)
-    print("-------------COLBERT-----final--------")
-    print(final_docs_sorted)
     return final_docs_sorted

 runtime = boto3.client('sagemaker-runtime',aws_access_key_id=st.secrets['user_access_key'],
     aws_secret_access_key=st.secrets['user_secret_key'],region_name='us-east-1')
+# Load Tokenizer from HuggingFace Hub
 tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')
 endpoint_name = 'huggingface-pytorch-inference-2025-05-21-16-31-07-967'
 def vectorise(sentence,token_level_vectors):
     encoded_input = tokenizer(sentence, padding=True, truncation=True, return_tensors='pt')
     # Get input IDs (token IDs)
     input_ids = encoded_input['input_ids'][0]
     return sentence_embeddings[0].tolist()
 def search(hits):
     tokens,token_vectors = vectorise(st.session_state.input_text,True)
     final_docs = []
     for ind,j in enumerate(hits):
             doc["_source"]["gender_affinity"] = j["_source"]["gender_affinity"]
         else:
             doc["_source"]["gender_affinity"] = ""
         source_doc_token_keys = list(j["_source"].keys())
         with_s = [x for x in source_doc_token_keys if x.startswith("description-token-")]
         add_score = 0
                 for m in with_s:
                     m_arr = m.split("-")
                     if(m_arr[-1]!='[SEP]' and m_arr[-1]!='[CLS]'):
                         doc_token_vector = np.array(j["_source"][m])
                         score = np.dot(query_token_vector,doc_token_vector)
                         scores.append({"doc_token":m_arr[3],"score":score})
                 newlist = sorted(scores, key=lambda d: d['score'], reverse=True)
                 max_score = newlist[0]['score']
                 add_score+=max_score
                 max_score_dict_list.append(newlist[0])
         max_score_dict_list_sorted = sorted(max_score_dict_list, key=lambda d: d['score'], reverse=True)
         print(max_score_dict_list_sorted)
         doc["total_score"] = add_score
         doc['max_score_dict_list_sorted'] = max_score_dict_list_sorted
         final_docs.append(doc)
     final_docs_sorted = sorted(final_docs, key=lambda d: d['total_score'], reverse=True)
     return final_docs_sorted