Spaces:

Dataset-Tools
/

pdf-to-page-images-dataset

Running

App Files Files Community

davanstrien HF Staff commited on Sep 19, 2024

Commit

90cd056

1 Parent(s): ca4bcc4

add try except

Browse files

Files changed (1) hide show

app.py +34 -26

app.py CHANGED Viewed

@@ -19,37 +19,45 @@ def pdf_to_images(pdf_files, sample_size, temp_dir, progress=gr.Progress()):
         os.makedirs(temp_dir)
     progress(0, desc="Starting conversion")
     all_images = []
     for pdf_file in progress.tqdm(pdf_files, desc="Converting PDFs"):
-        pdf_path = pdf_file.name
-        pdf = PdfReader(pdf_path)
-        total_pages = len(pdf.pages)
-        # Determine the number of pages to convert
-        pages_to_convert = (
-            total_pages if sample_size == 0 else min(sample_size, total_pages)
-        )
-        # Select random pages if sampling
-        if sample_size > 0 and sample_size < total_pages:
-            selected_pages = sorted(
-                random.sample(range(1, total_pages + 1), pages_to_convert)
             )
-        else:
-            selected_pages = range(1, total_pages + 1)
-        # Convert selected PDF pages to images
-        for page_num in selected_pages:
-            images = convert_from_path(
-                pdf_path, first_page=page_num, last_page=page_num
-            )
-            for image in images:
-                image_path = os.path.join(
-                    temp_dir, f"{os.path.basename(pdf_path)}_page_{page_num}.jpg"
                 )
-                image.save(image_path, "JPEG")
-                all_images.append(image_path)
-    return all_images, f"Saved {len(all_images)} images to temporary directory"
 def get_size_category(num_images):

         os.makedirs(temp_dir)
     progress(0, desc="Starting conversion")
     all_images = []
+    skipped_pdfs = []
     for pdf_file in progress.tqdm(pdf_files, desc="Converting PDFs"):
+        try:
+            pdf_path = pdf_file.name
+            pdf = PdfReader(pdf_path)
+            total_pages = len(pdf.pages)
+            # Determine the number of pages to convert
+            pages_to_convert = (
+                total_pages if sample_size == 0 else min(sample_size, total_pages)
             )
+            # Select random pages if sampling
+            if sample_size > 0 and sample_size < total_pages:
+                selected_pages = sorted(
+                    random.sample(range(1, total_pages + 1), pages_to_convert)
                 )
+            else:
+                selected_pages = range(1, total_pages + 1)
+            # Convert selected PDF pages to images
+            for page_num in selected_pages:
+                images = convert_from_path(
+                    pdf_path, first_page=page_num, last_page=page_num
+                )
+                for image in images:
+                    image_path = os.path.join(
+                        temp_dir, f"{os.path.basename(pdf_path)}_page_{page_num}.jpg"
+                    )
+                    image.save(image_path, "JPEG")
+                    all_images.append(image_path)
+        except Exception as e:
+            skipped_pdfs.append(pdf_file.name)
+            gr.Info(f"Skipped PDF {pdf_file.name} due to error: {str(e)}")
+    message = f"Saved {len(all_images)} images to temporary directory"
+    if skipped_pdfs:
+        message += f"\nSkipped {len(skipped_pdfs)} PDFs due to errors: {', '.join(skipped_pdfs)}"
+    return all_images, message
 def get_size_category(num_images):