Spaces:

Eathprompt
/

OCRtest

Paused

Eathprompt commited on 5 days ago

Commit

2ed3b5f

verified ·

1 Parent(s): 9cab613

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,12 +1,13 @@
 import gradio as gr
 import spaces
-from transformers import AutoModel, AutoTokenizer
 from PIL import Image
 import torch
 # Load PaddleOCR-VL model
 model_name = "PaddlePaddle/PaddleOCR-VL"
 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 model = AutoModel.from_pretrained(model_name, trust_remote_code=True)
 if torch.cuda.is_available():
@@ -25,8 +26,19 @@ def ocr_inference(image):
         if not isinstance(image, Image.Image):
             image = Image.fromarray(image)
         # Run OCR inference
-        result = model.chat(tokenizer, image, "Extract all text from this image.")
         return result
     except Exception as e:
         return f"Error during OCR: {str(e)}"

 import gradio as gr
 import spaces
+from transformers import AutoModel, AutoTokenizer, AutoProcessor
 from PIL import Image
 import torch
 # Load PaddleOCR-VL model
 model_name = "PaddlePaddle/PaddleOCR-VL"
 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
+processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
 model = AutoModel.from_pretrained(model_name, trust_remote_code=True)
 if torch.cuda.is_available():
         if not isinstance(image, Image.Image):
             image = Image.fromarray(image)
+        # Prepare inputs
+        prompt = "Extract all text from this image."
+        inputs = processor(images=image, text=prompt, return_tensors="pt")
+        if torch.cuda.is_available():
+            inputs = {k: v.cuda() for k, v in inputs.items()}
         # Run OCR inference
+        with torch.no_grad():
+            outputs = model.generate(**inputs, max_new_tokens=512)
+        # Decode the output
+        result = tokenizer.decode(outputs[0], skip_special_tokens=True)
         return result
     except Exception as e:
         return f"Error during OCR: {str(e)}"