comparing-captioning-models

Sleeping

App Files Files Community

nielsr HF Staff commited on Feb 4, 2023

Commit

340acb8

1 Parent(s): b713d8f

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -11

app.py CHANGED Viewed

@@ -25,13 +25,10 @@ vitgpt_processor = AutoImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image
 vitgpt_model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 vitgpt_tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
-# not using CoCa for the moment as it requires too much RAM
-# filepath = hf_hub_download(repo_id="gpucce/CoCa", filename="laion2B-s13B-b90k-mscoco-2014.pt", repo_type="space")
-# coca_model, _, coca_transform = open_clip.create_model_and_transforms(
-#     "coca_ViT-L-14",
-#     pretrained=filepath,
-# )
 device = "cuda" if torch.cuda.is_available() else "cpu"
@@ -40,7 +37,7 @@ blip_model_base.to(device)
 git_model_large.to(device)
 blip_model_large.to(device)
 vitgpt_model.to(device)
-# coca_model.to(device)
 def generate_caption(processor, model, image, tokenizer=None):
     inputs = processor(images=image, return_tensors="pt").to(device)
@@ -72,13 +69,13 @@ def generate_captions(image):
     caption_vitgpt = generate_caption(vitgpt_processor, vitgpt_model, image, vitgpt_tokenizer)
-    # caption_coca = generate_caption_coca(coca_model, coca_transform, image)
-    return caption_git_base, caption_git_large, caption_blip_base, caption_blip_large, caption_vitgpt
 examples = [["cats.jpg"], ["stop_sign.png"], ["astronaut.jpg"]]
-outputs = [gr.outputs.Textbox(label="Caption generated by GIT-base"), gr.outputs.Textbox(label="Caption generated by GIT-large"), gr.outputs.Textbox(label="Caption generated by BLIP-base"), gr.outputs.Textbox(label="Caption generated by BLIP-large"), gr.outputs.Textbox(label="Caption generated by ViT+GPT-2")]
 title = "Interactive demo: comparing image captioning models"
 description = "Gradio Demo to compare GIT, BLIP and ViT+GPT2, 3 state-of-the-art vision+language models. To use it, simply upload your image and click 'submit', or click one of the examples to load them. Read more at the links below."

 vitgpt_model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 vitgpt_tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
+coca_model, _, coca_transform = open_clip.create_model_and_transforms(
+  model_name="coca_ViT-L-14",
+  pretrained="mscoco_finetuned_laion2B-s13B-b90k"
+)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 git_model_large.to(device)
 blip_model_large.to(device)
 vitgpt_model.to(device)
+coca_model.to(device)
 def generate_caption(processor, model, image, tokenizer=None):
     inputs = processor(images=image, return_tensors="pt").to(device)
     caption_vitgpt = generate_caption(vitgpt_processor, vitgpt_model, image, vitgpt_tokenizer)
+    caption_coca = generate_caption_coca(coca_model, coca_transform, image)
+    return caption_git_base, caption_git_large, caption_blip_base, caption_blip_large, caption_vitgpt, caption_coca
 examples = [["cats.jpg"], ["stop_sign.png"], ["astronaut.jpg"]]
+outputs = [gr.outputs.Textbox(label="Caption generated by GIT-base"), gr.outputs.Textbox(label="Caption generated by GIT-large"), gr.outputs.Textbox(label="Caption generated by BLIP-base"), gr.outputs.Textbox(label="Caption generated by BLIP-large"), gr.outputs.Textbox(label="Caption generated by ViT+GPT-2"), gr.outputs.Textbox(label="Caption generated by CoCa")]
 title = "Interactive demo: comparing image captioning models"
 description = "Gradio Demo to compare GIT, BLIP and ViT+GPT2, 3 state-of-the-art vision+language models. To use it, simply upload your image and click 'submit', or click one of the examples to load them. Read more at the links below."