Spaces:

Shami96
/

PDF-Data_Extractor

Running

App Files Files Community

Shami96 commited on Sep 23

Commit

274cd20

verified ·

1 Parent(s): d053da2

Update updated_word.py

Browse files

Files changed (1) hide show

updated_word.py +80 -14

updated_word.py CHANGED Viewed

@@ -603,6 +603,59 @@ def split_sentences_keep(text: str) -> List[str]:
 _sent_split = re.compile(r'(?<=[.!?])\s+|\n+')
 _date_pat   = re.compile(r'\b(?:\d{1,2}(?:st|nd|rd|th)\s+[A-Za-z]+\s+\d{4}|\d{1,2}/\d{1,2}/\d{2,4}|[A-Za-z]+\s+\d{1,2},\s*\d{4})\b')
 def extract_summary_snippets(desired_text: str):
     sents = _sentences(desired_text)
     dates = [m.group(0) for m in _date_pat.finditer(desired_text)]
@@ -1349,12 +1402,18 @@ def map_driver_cols(table: Table) -> Dict[str,int]:
             if all(n in t for n in needles):
                 return j
         return None
-    idx["name"]  = first_col("driver", "name")
-    idx["roster"]= first_col("roster", "safe")
-    idx["fit"]   = first_col("fit for duty")
-    # Work diary might be split across two headers; match "work diary" OR "electronic work diary"
-    wd = first_col("work diary") or first_col("electronic work diary")
     if wd is not None: idx["wd"] = wd
     return {k:v for k,v in idx.items() if v is not None}
 def fill_driver_table(table: Table, arrays: Dict[str, List[str]]):
@@ -1362,12 +1421,15 @@ def fill_driver_table(table: Table, arrays: Dict[str, List[str]]):
     if not colmap:
         return
-    names   = arrays.get("Driver / Scheduler Name", [])
-    rosters = arrays.get("Roster / Schedule / Safe Driving Plan (Date Range)", [])
-    fit     = arrays.get("Fit for Duty Statement Completed (Yes/No)", [])
-    wd      = arrays.get("Work Diary Pages (Page Numbers) Electronic Work Diary Records (Date Range)", [])
-    n = max(len(rosters), len(fit), len(wd), len(names))
     clear_data_rows_keep_headers(table, header_rows=1)
     ensure_rows(table, n)
@@ -1377,14 +1439,18 @@ def fill_driver_table(table: Table, arrays: Dict[str, List[str]]):
         row = table.rows[i+1]
         if "name" in colmap and has_any_name:
             replace_red_in_cell(row.cells[colmap["name"]], names[i] if i < len(names) else "")
         if "roster" in colmap:
             replace_red_in_cell(row.cells[colmap["roster"]], rosters[i] if i < len(rosters) else "")
         if "fit" in colmap:
-            replace_red_in_cell(row.cells[colmap["fit"]],     fit[i] if i < len(fit) else "")
         if "wd" in colmap:
-            replace_red_in_cell(row.cells[colmap["wd"]],      wd[i]  if i < len(wd)  else "")
 # ----------------------------- main mapping -----------------------------
 def flatten_simple_sections(data: Dict) -> Dict[str, str]:

 _sent_split = re.compile(r'(?<=[.!?])\s+|\n+')
 _date_pat   = re.compile(r'\b(?:\d{1,2}(?:st|nd|rd|th)\s+[A-Za-z]+\s+\d{4}|\d{1,2}/\d{1,2}/\d{2,4}|[A-Za-z]+\s+\d{1,2},\s*\d{4})\b')
+def _sentences(text: str) -> list:
+    """Split text into sentences."""
+    if not text:
+        return []
+    return [s.strip() for s in _sent_split.split(text) if s.strip()]
+def _extract_sheet_phrase_from_desired(text: str) -> str:
+    """Extract sheet-related phrase from desired text."""
+    if not text:
+        return ""
+    # Simple extraction of sheet-related content
+    sheet_match = re.search(r'([^.]*?\bsheet\b[^.]*)', text, re.I)
+    return sheet_match.group(1).strip() if sheet_match else ""
+def find_all_summary_tables(doc):
+    """Find all summary tables in the document."""
+    summary_tables = []
+    for table in doc.tables:
+        # Check if this is a summary table by looking at headers
+        if table.rows:
+            header_text = ' '.join(cell_text(cell) for cell in table.rows[0].cells).lower()
+            if 'summary' in header_text or 'details' in header_text:
+                # Determine section type
+                section_key = 'maintenance' if 'maintenance' in header_text else 'mass' if 'mass' in header_text else 'fatigue' if 'fatigue' in header_text else None
+                if section_key:
+                    # Find label and details columns
+                    lcol, dcol = 0, 1  # Default assumption
+                    for i, cell in enumerate(table.rows[0].cells):
+                        if 'details' in cell_text(cell).lower():
+                            dcol = i
+                            break
+                    summary_tables.append((section_key, table, lcol, dcol))
+    return summary_tables
+def patch_details_cell_from_json(cell, value):
+    """Patch details cell with value from JSON."""
+    if not value:
+        return
+    # Clear existing content
+    for paragraph in cell.paragraphs:
+        for run in paragraph.runs:
+            run.clear()
+    # Add new content
+    if cell.paragraphs:
+        p = cell.paragraphs[0]
+    else:
+        p = cell.add_paragraph()
+    run = p.add_run(str(value))
+    run.font.color.rgb = RGBColor(0, 0, 0)  # Set to black
 def extract_summary_snippets(desired_text: str):
     sents = _sentences(desired_text)
     dates = [m.group(0) for m in _date_pat.finditer(desired_text)]
             if all(n in t for n in needles):
                 return j
         return None
+    # Enhanced column detection
+    idx["name"]    = first_col("driver", "name") or first_col("scheduler", "name")
+    idx["driver_tlif"] = first_col("driver", "tlif") or first_col("driver", "course")
+    idx["scheduler_tlif"] = first_col("scheduler", "tlif") or first_col("scheduler", "course")
+    idx["medical"] = first_col("medical", "certificates") or first_col("medical")
+    idx["roster"]  = first_col("roster", "safe") or first_col("roster") or first_col("schedule")
+    idx["fit"]     = first_col("fit for duty") or first_col("fit", "duty")
+    # Work diary might be split across two headers
+    wd = first_col("work diary") or first_col("electronic work diary") or first_col("diary")
     if wd is not None: idx["wd"] = wd
     return {k:v for k,v in idx.items() if v is not None}
 def fill_driver_table(table: Table, arrays: Dict[str, List[str]]):
     if not colmap:
         return
+    names     = arrays.get("Driver / Scheduler Name", [])
+    driver_tlif = arrays.get("Driver TLIF Course # Completed", [])
+    scheduler_tlif = arrays.get("Scheduler TLIF Course # Completed", [])
+    medical   = arrays.get("Medical Certificates (Current Yes/No) Date of expiry", [])
+    rosters   = arrays.get("Roster / Schedule / Safe Driving Plan (Date Range)", [])
+    fit       = arrays.get("Fit for Duty Statement Completed (Yes/No)", [])
+    wd        = arrays.get("Work Diary Pages (Page Numbers) Electronic Work Diary Records (Date Range)", [])
+    n = max(len(names), len(driver_tlif), len(scheduler_tlif), len(medical), len(rosters), len(fit), len(wd))
     clear_data_rows_keep_headers(table, header_rows=1)
     ensure_rows(table, n)
         row = table.rows[i+1]
         if "name" in colmap and has_any_name:
             replace_red_in_cell(row.cells[colmap["name"]], names[i] if i < len(names) else "")
+        if "driver_tlif" in colmap:
+            replace_red_in_cell(row.cells[colmap["driver_tlif"]], driver_tlif[i] if i < len(driver_tlif) else "")
+        if "scheduler_tlif" in colmap:
+            replace_red_in_cell(row.cells[colmap["scheduler_tlif"]], scheduler_tlif[i] if i < len(scheduler_tlif) else "")
+        if "medical" in colmap:
+            replace_red_in_cell(row.cells[colmap["medical"]], medical[i] if i < len(medical) else "")
         if "roster" in colmap:
             replace_red_in_cell(row.cells[colmap["roster"]], rosters[i] if i < len(rosters) else "")
         if "fit" in colmap:
+            replace_red_in_cell(row.cells[colmap["fit"]], fit[i] if i < len(fit) else "")
         if "wd" in colmap:
+            replace_red_in_cell(row.cells[colmap["wd"]], wd[i] if i < len(wd) else "")
 # ----------------------------- main mapping -----------------------------
 def flatten_simple_sections(data: Dict) -> Dict[str, str]: