Spaces:

microsoft
/

llmlingua-2

Running

Fix error when force_tokens includes multi-word sequence to preserve

by cornzz - opened Oct 16, 2024

←

Files changed (1) hide show

app.py CHANGED Viewed

@@ -47,7 +47,7 @@ def compress(original_prompt, compression_rate, base_model="xlm-roberta-large",
     lines = results["fn_labeled_original_prompt"].split(word_sep)
     preserved_tokens = []
     for line in lines:
-        word, label = line.split(label_sep)
         preserved_tokens.append((word, '+') if label == '1' else (word, None))
     return compressed_prompt, preserved_tokens, n_word_compressed

     lines = results["fn_labeled_original_prompt"].split(word_sep)
     preserved_tokens = []
     for line in lines:
+        word, label = line.rsplit(label_sep, 1)
         preserved_tokens.append((word, '+') if label == '1' else (word, None))
     return compressed_prompt, preserved_tokens, n_word_compressed