Spaces:

AC2513
/

gemma-demo

Running on Zero

AC2513 commited on Jun 12

Commit

45a53c4

1 Parent(s): 6a31985

Added frame capture for video inputs

Files changed (3) hide show

.vscode/settings.json ADDED Viewed

+{
+    "python.testing.pytestArgs": [
+        "src"
+    ],
+    "python.testing.unittestEnabled": false,
+    "python.testing.pytestEnabled": true
+}

src/app.py CHANGED Viewed

@@ -11,6 +11,8 @@ import cv2
 from loguru import logger
 from PIL import Image
 dotenv_path = find_dotenv()
 load_dotenv(dotenv_path)
@@ -25,3 +27,29 @@ model = Gemma3ForConditionalGeneration.from_pretrained(
     device_map="auto",
     attn_implementation="eager",
 )

 from loguru import logger
 from PIL import Image
+MAX_NUM_IMAGES = 6
 dotenv_path = find_dotenv()
 load_dotenv(dotenv_path)
     device_map="auto",
     attn_implementation="eager",
 )
+def get_frames(video_path: str) -> list[tuple[Image.Image, float]]:
+    capture = cv2.VideoCapture(video_path)
+    if not capture.isOpened():
+        raise ValueError(f"Could not open video file: {video_path}")
+    fps = capture.get(cv2.CAP_PROP_FPS)
+    total_frames = int(capture.get(cv2.CAP_PROP_FRAME_COUNT))
+    frame_interval = max(total_frames // MAX_NUM_IMAGES, 1)
+    frames: list[tuple[Image.Image, float]] = []
+    for i in range(0, min(total_frames, MAX_NUM_IMAGES * frame_interval), frame_interval):
+        if len(frames) >= MAX_NUM_IMAGES:
+            break
+        capture.set(cv2.CAP_PROP_POS_FRAMES, i)
+        success, image = capture.read()
+        if success:
+            image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
+            pil_image = Image.fromarray(image)
+            timestamp = round(i / fps, 2)
+            frames.append((pil_image, timestamp))
+    capture.release()
+    return frames

src/requirements.txt CHANGED Viewed

@@ -2,4 +2,5 @@ torch
 spaces
 gradio
 transformers==4.50.2
-accelerate

 spaces
 gradio
 transformers==4.50.2
+accelerate
+pytest