Spaces:

synthetic-data-universe
/

synth

Sleeping

App Files Files Community

edbeeching commited on Sep 16

Commit

a2a9a72

1 Parent(s): 385de10

add default username

Browse files

Files changed (1) hide show

app.py +51 -15

app.py CHANGED Viewed

@@ -194,7 +194,7 @@ def validate_request(request: GenerationRequest, oauth_token: Optional[Union[gr.
     return request
-def load_dataset_info(dataset_name, model_name, oauth_token=None, dataset_token=None, ):
     """Load dataset information and return choices for dropdowns"""
     if not dataset_name.strip():
         return (
@@ -250,28 +250,47 @@ def load_dataset_info(dataset_name, model_name, oauth_token=None, dataset_token=
         # Set slider maximum to the minimum of dataset samples and user limit
         slider_max = min(dataset_sample_count, user_max_samples) if dataset_sample_count > 0 else user_max_samples
-        # Generate a suggested output dataset name with model name and timestamp
-        dataset_base_name = dataset_name.split('/')[-1] if '/' in dataset_name else dataset_name
-        # Extract model short name (e.g., "Qwen/Qwen3-4B-Instruct-2507" -> "Qwen3-4B-Instruct-2507")
-        model_short_name = model_name.split('/')[-1]
-        # Create a compact timestamp (YYMMDD-HHMM format)
-        from datetime import datetime
-        timestamp = datetime.now().strftime("%y%m%d-%H%M")
-        # Build the output name: MODEL-dataset-timestamp
-        suggested_output_name = f"{model_short_name}-{dataset_base_name}-{timestamp}"
         # Limit to 86 characters
         if len(suggested_output_name) > 86:
             # Truncate dataset name to fit within limit
-            available_for_dataset = 86 - len(model_short_name) - len(timestamp) - 2  # -2 for the hyphens
             if available_for_dataset > 0:
                 dataset_base_name = dataset_base_name[:available_for_dataset]
-                suggested_output_name = f"{model_short_name}-{dataset_base_name}-{timestamp}"
             else:
-                suggested_output_name = f"{model_short_name}-{timestamp}"
         status_msg = f"✅ Dataset info loaded successfully! Found {len(config_choices)} config(s), {len(split_choices)} split(s), and {len(column_choices)} column(s)."
         if dataset_sample_count > 0:
@@ -582,7 +601,24 @@ def main():
                 model_token = False # This is currently not supported
                 input_dataset_token = None # This is currently not supported
                 output_dataset_token = os.getenv("OUTPUT_DATASET_TOKEN")
                 try:
                     request = GenerationRequest(
                         id="",  # Will be generated when adding to the database
@@ -604,7 +640,7 @@ def main():
                         input_dataset_token=input_dataset_token if input_dataset_token else None,
                         output_dataset_token=output_dataset_token,
                         num_output_examples=num_output_samples,  # will be set after validating the input dataset
-                        username="user",
                         email="n/a",
                     )

     return request
+def load_dataset_info(dataset_name, model_name, oauth_token=None, dataset_token=None):
     """Load dataset information and return choices for dropdowns"""
     if not dataset_name.strip():
         return (
         # Set slider maximum to the minimum of dataset samples and user limit
         slider_max = min(dataset_sample_count, user_max_samples) if dataset_sample_count > 0 else user_max_samples
+        # Get username from OAuth token
+        username = "anonymous"
+        if oauth_token:
+            try:
+                if isinstance(oauth_token, gr.OAuthToken):
+                    token_str = oauth_token.token
+                elif isinstance(oauth_token, str):
+                    token_str = oauth_token
+                else:
+                    token_str = None
+                if token_str:
+                    user_info = whoami(token=token_str)
+                    username = user_info.get("name", "anonymous")
+            except Exception:
+                username = "anonymous"
+        # Generate a suggested output dataset name: username-model-dataset
+        dataset_base_name = dataset_name.split('/')[-1] if '/' in dataset_name else dataset_name
+        # Extract model short name (e.g., "Qwen/Qwen3-4B-Instruct-2507" -> "qwen3-4b")
+        model_short_name = model_name.split('/')[-1].lower()
+        # Remove common suffixes and simplify
+        model_short_name = model_short_name.replace('-instruct', '').replace('-2507', '').replace('_', '-')
+        # Take first part if it's still long
+        if len(model_short_name) > 15:
+            parts = model_short_name.split('-')
+            model_short_name = '-'.join(parts[:2]) if len(parts) > 1 else parts[0][:15]
+        # Build the output name: username-model-dataset
+        suggested_output_name = f"{username}-{model_short_name}-{dataset_base_name}"
         # Limit to 86 characters
         if len(suggested_output_name) > 86:
             # Truncate dataset name to fit within limit
+            available_for_dataset = 86 - len(username) - len(model_short_name) - 2  # -2 for the hyphens
             if available_for_dataset > 0:
                 dataset_base_name = dataset_base_name[:available_for_dataset]
+                suggested_output_name = f"{username}-{model_short_name}-{dataset_base_name}"
             else:
+                suggested_output_name = f"{username}-{model_short_name}"
         status_msg = f"✅ Dataset info loaded successfully! Found {len(config_choices)} config(s), {len(split_choices)} split(s), and {len(column_choices)} column(s)."
         if dataset_sample_count > 0:
                 model_token = False # This is currently not supported
                 input_dataset_token = None # This is currently not supported
                 output_dataset_token = os.getenv("OUTPUT_DATASET_TOKEN")
+                # Get username from OAuth token
+                username = "anonymous"
+                if oauth_token:
+                    try:
+                        if isinstance(oauth_token, gr.OAuthToken):
+                            token_str = oauth_token.token
+                        elif isinstance(oauth_token, str):
+                            token_str = oauth_token
+                        else:
+                            token_str = None
+                        if token_str:
+                            user_info = whoami(token=token_str)
+                            username = user_info.get("name", "unknown")
+                    except Exception:
+                        username = "unknown"
                 try:
                     request = GenerationRequest(
                         id="",  # Will be generated when adding to the database
                         input_dataset_token=input_dataset_token if input_dataset_token else None,
                         output_dataset_token=output_dataset_token,
                         num_output_examples=num_output_samples,  # will be set after validating the input dataset
+                        username=username,
                         email="n/a",
                     )