Spaces:

DanielIglesias97
/

TextEmbeddings

Sleeping

DanielIglesias97 commited on Jul 23

Commit

08d728e

1 Parent(s): 9019d6b

We have changed the embeddings' model that was being used with one

that was trained with texts in Spanish. We have also gone back to
use float numbers for the embeddings in order to recover the
original level of precision.

Files changed (2) hide show

main_service.py +5 -4
utils_model.py +14 -3

main_service.py CHANGED Viewed

@@ -7,17 +7,18 @@ class GradioAppManager():
         model_factory_obj = ModelFactory()
         self.model = model_factory_obj.create_model(model_type)
-    def __retrieve_embeddings__(self, input_queries_df):
         queries_list = input_queries_df.values
-        queries_embeddings_list = self.model.retrieve_embeddings_from_texts_list(queries_list)
         return queries_embeddings_list
     def build(self):
         gr_input_dataframe = gr.Dataframe(headers=['queries'], datatype=['str'], row_count=2, col_count=(1, 'fixed'))
         app = gr.Interface(fn=self.__retrieve_embeddings__,
-                        inputs=[gr_input_dataframe],
                         outputs="dataframe")
         return app
@@ -25,6 +26,6 @@ class GradioAppManager():
     def run(self, app):
         app.launch(server_name='0.0.0.0')
-gradio_app_manager_obj = GradioAppManager('sentence_similarity_spanish')
 app = gradio_app_manager_obj.build()
 gradio_app_manager_obj.run(app)

         model_factory_obj = ModelFactory()
         self.model = model_factory_obj.create_model(model_type)
+    def __retrieve_embeddings__(self, input_queries_df, limitnoffeatures):
         queries_list = input_queries_df.values
+        queries_embeddings_list = self.model.retrieve_embeddings_from_texts_list(queries_list, limitnoffeatures=limitnoffeatures)
         return queries_embeddings_list
     def build(self):
         gr_input_dataframe = gr.Dataframe(headers=['queries'], datatype=['str'], row_count=2, col_count=(1, 'fixed'))
+        gr_number_limitnoffeatures = gr.Number(50)
         app = gr.Interface(fn=self.__retrieve_embeddings__,
+                        inputs=[gr_input_dataframe, gr_number_limitnoffeatures],
                         outputs="dataframe")
         return app
     def run(self, app):
         app.launch(server_name='0.0.0.0')
+gradio_app_manager_obj = GradioAppManager('multilingual-e5-large-ft-sts-spanish-matryoshka-768-64-5e')
 app = gradio_app_manager_obj.build()
 gradio_app_manager_obj.run(app)

utils_model.py CHANGED Viewed

@@ -16,6 +16,9 @@ class ModelFactory():
         if (model_type=='sentence_similarity_spanish'):
             model = SentenceSimilaritySpanishModel()
         return model
 class BaseModel():
@@ -25,12 +28,11 @@ class BaseModel():
     def retrieve_embeddings_from_single_input_text(self, input_text):
         embeddings = self.model.encode(input_text, batch_size=32)
-        embeddings *= 255
-        embeddings = embeddings.astype(np.uint8).astype(str).tolist()
         return embeddings
-    def retrieve_embeddings_from_texts_list(self, input_texts_list):
         all_embeddings_list = []
         for current_input_text_aux in input_texts_list:
             embeddings = self.retrieve_embeddings_from_single_input_text(current_input_text_aux)
@@ -41,6 +43,10 @@ class BaseModel():
         columns_list = ['text'] + [f'feature_{idx}' for idx in range(0, nof_features)]
         queries_embeddings_df.columns = columns_list
         return queries_embeddings_df
 class MiniLM_L6_v2_Model(BaseModel):
@@ -52,3 +58,8 @@ class SentenceSimilaritySpanishModel(BaseModel):
     def __init__(self):
         self.model = SentenceTransformer('hiiamsid/sentence_similarity_spanish_es')

         if (model_type=='sentence_similarity_spanish'):
             model = SentenceSimilaritySpanishModel()
+        if (model_type=='multilingual-e5-large-ft-sts-spanish-matryoshka-768-64-5e'):
+            model = Multilingual_E5_Large_Ft_Sts_Spanish_Matryoshka()
         return model
 class BaseModel():
     def retrieve_embeddings_from_single_input_text(self, input_text):
         embeddings = self.model.encode(input_text, batch_size=32)
+        embeddings = embeddings.astype(np.float16).astype(str).tolist()
         return embeddings
+    def retrieve_embeddings_from_texts_list(self, input_texts_list, limitnoffeatures=-1):
         all_embeddings_list = []
         for current_input_text_aux in input_texts_list:
             embeddings = self.retrieve_embeddings_from_single_input_text(current_input_text_aux)
         columns_list = ['text'] + [f'feature_{idx}' for idx in range(0, nof_features)]
         queries_embeddings_df.columns = columns_list
+        if (limitnoffeatures>-1):
+            columns_to_choose = queries_embeddings_df.columns[0:limitnoffeatures+1]
+            queries_embeddings_df = queries_embeddings_df[columns_to_choose]
         return queries_embeddings_df
 class MiniLM_L6_v2_Model(BaseModel):
     def __init__(self):
         self.model = SentenceTransformer('hiiamsid/sentence_similarity_spanish_es')
+class Multilingual_E5_Large_Ft_Sts_Spanish_Matryoshka(BaseModel):
+    def __init__(self):
+        self.model = SentenceTransformer('mrm8488/multilingual-e5-large-ft-sts-spanish-matryoshka-768-64-5e')