comparing-VQA-models

Runtime error

AnonymousSub commited on Dec 30, 2023

Commit

627fbe3

1 Parent(s): df847c3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -38,7 +38,7 @@ def generate_answer_git(processor, model, image, question):
     input_ids = [processor.tokenizer.cls_token_id] + input_ids
     input_ids = torch.tensor(input_ids).unsqueeze(0)
-    generated_ids = model.generate(pixel_values=pixel_values, input_ids=input_ids, max_length=256)#50)
     generated_answer = processor.batch_decode(generated_ids, skip_special_tokens=True)
     return generated_answer
@@ -48,7 +48,7 @@ def generate_answer_blip(processor, model, image, question):
     # prepare image + question
     inputs = processor(images=image, text=question, return_tensors="pt")
-    generated_ids = model.generate(**inputs, max_length=256)#50)
     generated_answer = processor.batch_decode(generated_ids, skip_special_tokens=True)
     return generated_answer
@@ -56,10 +56,10 @@ def generate_answer_blip(processor, model, image, question):
 def generate_answer_vilt(processor, model, image, question):
     # prepare image + question
-    encoding = processor(images=image, text=question, return_tensors="pt")
     with torch.no_grad():
-        outputs = model(**encoding, max_length=256)
     predicted_class_idx = outputs.logits.argmax(-1).item()

     input_ids = [processor.tokenizer.cls_token_id] + input_ids
     input_ids = torch.tensor(input_ids).unsqueeze(0)
+    generated_ids = model.generate(pixel_values=pixel_values, input_ids=input_ids, max_length=128)#50)
     generated_answer = processor.batch_decode(generated_ids, skip_special_tokens=True)
     return generated_answer
     # prepare image + question
     inputs = processor(images=image, text=question, return_tensors="pt")
+    generated_ids = model.generate(**inputs, max_length=128)#50)
     generated_answer = processor.batch_decode(generated_ids, skip_special_tokens=True)
     return generated_answer
 def generate_answer_vilt(processor, model, image, question):
     # prepare image + question
+    encoding = processor(images=image, text=question, max_length=128, return_tensors="pt")
     with torch.no_grad():
+        outputs = model(**encoding)
     predicted_class_idx = outputs.logits.argmax(-1).item()