VQA_new

Running

App Files Files Community

SahilJ2 commited on May 1, 2024

Commit

20ceca0

1 Parent(s): 1072512

Eigth commit

Browse files

Files changed (1) hide show

app.py +4 -5

app.py CHANGED Viewed

@@ -78,9 +78,9 @@ processor = ViTImageProcessor.from_pretrained('microsoft/swin-tiny-patch4-window
 def m1(que, image):
     processor3 = BlipProcessor.from_pretrained("Salesforce/blip-vqa-capfilt-large")
-    model3 = BlipForQuestionAnswering.from_pretrained("Salesforce/blip-vqa-capfilt-large").to("cuda")
-    inputs = processor3(image, que, return_tensors="pt").to("cuda")
     out = model3.generate(**inputs)
     return processor3.decode(out[0], skip_special_tokens=True)
@@ -102,7 +102,6 @@ def m3(que, image):
     processor3 = DonutProcessor.from_pretrained("naver-clova-ix/donut-base-finetuned-docvqa")
     model3 = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base-finetuned-docvqa")
-    device = "cuda" if torch.cuda.is_available() else "cpu"
     model3.to(device)
     prompt = "<s_docvqa><s_question>{que}</s_question><s_answer>"
@@ -139,7 +138,7 @@ def m5(que, image):
     processor3 = AutoProcessor.from_pretrained("google/pix2struct-ocrvqa-large")
     model3 = AutoModelForSeq2SeqLM.from_pretrained("google/pix2struct-ocrvqa-large")
-    inputs = processor3(images=image, text=que, return_tensors="pt").to("cuda")
     predictions = model3.generate(**inputs)
     return processor3.decode(predictions[0], skip_special_tokens=True)
@@ -148,7 +147,7 @@ def m6(que, image):
     processor3 = AutoProcessor.from_pretrained("google/pix2struct-infographics-vqa-large")
     model3 = AutoModelForSeq2SeqLM.from_pretrained("google/pix2struct-infographics-vqa-large")
-    inputs = processor3(images=image, text=que, return_tensors="pt").to("cuda")
     predictions = model3.generate(**inputs)
     return processor3.decode(predictions[0], skip_special_tokens=True)

 def m1(que, image):
     processor3 = BlipProcessor.from_pretrained("Salesforce/blip-vqa-capfilt-large")
+    model3 = BlipForQuestionAnswering.from_pretrained("Salesforce/blip-vqa-capfilt-large")
+    inputs = processor3(image, que, return_tensors="pt")
     out = model3.generate(**inputs)
     return processor3.decode(out[0], skip_special_tokens=True)
     processor3 = DonutProcessor.from_pretrained("naver-clova-ix/donut-base-finetuned-docvqa")
     model3 = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base-finetuned-docvqa")
     model3.to(device)
     prompt = "<s_docvqa><s_question>{que}</s_question><s_answer>"
     processor3 = AutoProcessor.from_pretrained("google/pix2struct-ocrvqa-large")
     model3 = AutoModelForSeq2SeqLM.from_pretrained("google/pix2struct-ocrvqa-large")
+    inputs = processor3(images=image, text=que, return_tensors="pt")
     predictions = model3.generate(**inputs)
     return processor3.decode(predictions[0], skip_special_tokens=True)
     processor3 = AutoProcessor.from_pretrained("google/pix2struct-infographics-vqa-large")
     model3 = AutoModelForSeq2SeqLM.from_pretrained("google/pix2struct-infographics-vqa-large")
+    inputs = processor3(images=image, text=que, return_tensors="pt")
     predictions = model3.generate(**inputs)
     return processor3.decode(predictions[0], skip_special_tokens=True)