Spaces:

fffiloni
/

soft-video-understanding

Paused

fffiloni commited on Mar 7, 2024

Commit

042d40b

verified ·

1 Parent(s): 53b4fd0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -81,12 +81,15 @@ def extract_frames(video_in, interval=24, output_format='.jpg'):
     return frames
-from transformers import AutoModelForCausalLM, CodeGenTokenizerFast as Tokenizer
 from PIL import Image
-cap_model_id = "vikhyatk/moondream1"
-cap_model = AutoModelForCausalLM.from_pretrained(cap_model_id, trust_remote_code=True)
-cap_tokenizer = Tokenizer.from_pretrained(cap_model_id)
 def process_image(image_in):
     '''
@@ -100,9 +103,9 @@ def process_image(image_in):
     print(result)
     return result
     '''
-    image = Image.open(image_in)
-    enc_image = cap_model.encode_image(image)
-    result = cap_model.answer_question(enc_image, "Describe precisely the image in one sentence.", cap_tokenizer)
     print(result)
     return result

     return frames
+from transformers import AutoModelForCausalLM, AutoTokenizer
 from PIL import Image
+model_id = "vikhyatk/moondream2"
+revision = "2024-03-06"
+model = AutoModelForCausalLM.from_pretrained(
+    model_id, trust_remote_code=True, revision=revision
+)
+tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
 def process_image(image_in):
     '''
     print(result)
     return result
     '''
+    image = Image.open('<IMAGE_PATH>')
+    enc_image = model.encode_image(image)
+    result = model.answer_question(enc_image, "Describe the image in one sentence.", tokenizer)
     print(result)
     return result