Spaces:

VOIDER
/

image-eval

Sleeping

App Files Files Community

VOIDER commited on May 16

Commit

e196a20

verified ·

1 Parent(s): f89e218

Upload 11 files

Browse files

Files changed (2) hide show

app.py +1 -1
modules/aesthetic_metrics.py +19 -19

app.py CHANGED Viewed

@@ -309,7 +309,7 @@ def create_interface():
                     upload_input = gr.File(
                         label="Upload Images (PNG format)",
                         file_count="multiple",
-                        type="file"
                     )
                     upload_button = gr.Button("Process Uploaded Images")

                     upload_input = gr.File(
                         label="Upload Images (PNG format)",
                         file_count="multiple",
+                        type="filepath"  # Changed from 'file' to 'filepath'
                     )
                     upload_button = gr.Button("Process Uploaded Images")

modules/aesthetic_metrics.py CHANGED Viewed

@@ -6,9 +6,8 @@ These metrics evaluate subjective aspects of images like aesthetic appeal, compo
 import torch
 import numpy as np
 from PIL import Image
-from transformers import AutoFeatureExtractor, AutoModelForImageClassification
-import clip
-from torchvision import transforms
 class AestheticMetrics:
@@ -21,9 +20,12 @@ class AestheticMetrics:
     def _initialize_models(self):
         """Initialize all required models."""
-        # Initialize CLIP model for text-image similarity
         try:
-            self.clip_model, self.clip_preprocess = clip.load("ViT-B/32", device=self.device)
             self.clip_loaded = True
         except Exception as e:
             print(f"Warning: Could not load CLIP model: {e}")
@@ -203,26 +205,24 @@ class AestheticMetrics:
             return 5.0  # Default middle score if model not loaded or no prompt
         try:
-            # Load and preprocess image
             image = Image.open(image_path).convert('RGB')
-            image_input = self.clip_preprocess(image).unsqueeze(0).to(self.device)
-            # Process text
-            text_input = clip.tokenize([prompt]).to(self.device)
             # Calculate similarity
             with torch.no_grad():
-                image_features = self.clip_model.encode_image(image_input)
-                text_features = self.clip_model.encode_text(text_input)
-                # Normalize features
-                image_features = image_features / image_features.norm(dim=-1, keepdim=True)
-                text_features = text_features / text_features.norm(dim=-1, keepdim=True)
-                # Calculate similarity
-                similarity = (100.0 * image_features @ text_features.T).item()
-            # Convert to 0-10 scale
             return min(10, max(0, similarity / 10))
         except Exception as e:
             print(f"Error calculating prompt similarity: {e}")

 import torch
 import numpy as np
 from PIL import Image
+from transformers import AutoFeatureExtractor, AutoModelForImageClassification, CLIPProcessor, CLIPModel
+import torchvision.transforms as transforms
 class AestheticMetrics:
     def _initialize_models(self):
         """Initialize all required models."""
+        # Initialize CLIP model for text-image similarity using transformers
         try:
+            self.clip_model_name = "openai/clip-vit-base-patch32"
+            self.clip_processor = CLIPProcessor.from_pretrained(self.clip_model_name)
+            self.clip_model = CLIPModel.from_pretrained(self.clip_model_name)
+            self.clip_model.to(self.device)
             self.clip_loaded = True
         except Exception as e:
             print(f"Warning: Could not load CLIP model: {e}")
             return 5.0  # Default middle score if model not loaded or no prompt
         try:
+            # Load image
             image = Image.open(image_path).convert('RGB')
+            # Process inputs with CLIP processor
+            inputs = self.clip_processor(
+                text=[prompt],
+                images=image,
+                return_tensors="pt",
+                padding=True
+            ).to(self.device)
             # Calculate similarity
             with torch.no_grad():
+                outputs = self.clip_model(**inputs)
+                logits_per_image = outputs.logits_per_image
+                similarity = logits_per_image.item()
+            # Convert to 0-10 scale (CLIP similarity is typically in 0-100 range)
             return min(10, max(0, similarity / 10))
         except Exception as e:
             print(f"Error calculating prompt similarity: {e}")