Something

Sleeping

Pclanglais commited on Jul 8, 2024

Commit

b97dcbf

verified ·

1 Parent(s): f4adb15

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -66,6 +66,31 @@ def split_text(text, max_tokens=500):
     return chunks
 def remove_punctuation(text):
     return re.sub(r'[^\w\s]', '', text)
@@ -165,6 +190,9 @@ class CombinedProcessor:
             bibtex_entry = create_bibtex_entry(bibtex_data)
             bibtex_entries.append(bibtex_entry)
         # Join BibTeX entries with HTML formatting
         formatted_entries = [html.escape(entry) for entry in bibtex_entries]

     return chunks
+def disambiguate_bibtex_ids(bibtex_entries):
+    id_count = {}
+    disambiguated_entries = []
+    for entry in bibtex_entries:
+        # Extract the current ID
+        match = re.search(r'@\w+{(\w+),', entry)
+        if not match:
+            disambiguated_entries.append(entry)
+            continue
+        original_id = match.group(1)
+        # Check if this ID has been seen before
+        if original_id in id_count:
+            id_count[original_id] += 1
+            new_id = f"{original_id}{chr(96 + id_count[original_id])}"  # 'a', 'b', 'c', etc.
+            new_entry = re.sub(r'(@\w+{)(\w+)(,)', f'\\1{new_id}\\3', entry, 1)
+            disambiguated_entries.append(new_entry)
+        else:
+            id_count[original_id] = 0
+            disambiguated_entries.append(entry)
+    return disambiguated_entries
 def remove_punctuation(text):
     return re.sub(r'[^\w\s]', '', text)
             bibtex_entry = create_bibtex_entry(bibtex_data)
             bibtex_entries.append(bibtex_entry)
+        #Disambiguation to avoid duplicate ids.
+        bibtex_entries = disambiguate_bibtex_ids(bibtex_entries)
         # Join BibTeX entries with HTML formatting
         formatted_entries = [html.escape(entry) for entry in bibtex_entries]