Spaces:

duckdb-nsql-hub
/

DuckDB-SQL-Eval

Sleeping

cfahlgren1 HF Staff commited on Oct 25, 2024

Commit

ee5875c

1 Parent(s): 3445f6a

flatten results for dataset

Files changed (1) hide show

evaluation_logic.py CHANGED Viewed

@@ -58,33 +58,29 @@ def save_evaluation(inference_api, model_name, prompt_format, metrics):
     evaluation_file = evaluation_folder / f"evaluation_{file_uuid}.json"
     evaluation_folder.mkdir(parents=True, exist_ok=True)
-    # Extract only the category-specific execution metrics
     categories = ['easy', 'medium', 'hard', 'duckdb', 'ddl', 'all']
-    simplified_metrics = {}
     for category in categories:
         if category in metrics['exec']:
             category_metrics = metrics['exec'][category]
-            simplified_metrics[category] = {
-                'count': category_metrics['count'],
-                'execution_accuracy': category_metrics['exec']
-            }
         else:
-            simplified_metrics[category] = {
-                'count': 0,
-                'execution_accuracy': 0.0
-            }
     with evaluation_scheduler.lock:
         with evaluation_file.open("a") as f:
-            json.dump({
-                "inference_api": inference_api,
-                "model_name": model_name,
-                "prompt_format": prompt_format,
-                "category_metrics": simplified_metrics,
-                "timestamp": datetime.now().isoformat()
-            }, f)
-            f.write('\n')
 def run_prediction(inference_api, model_name, prompt_format, output_file):
     dataset_path = str(eval_dir / "data/dev.json")

     evaluation_file = evaluation_folder / f"evaluation_{file_uuid}.json"
     evaluation_folder.mkdir(parents=True, exist_ok=True)
+    # Extract and flatten the category-specific execution metrics
     categories = ['easy', 'medium', 'hard', 'duckdb', 'ddl', 'all']
+    flattened_metrics = {
+        "inference_api": inference_api,
+        "model_name": model_name,
+        "prompt_format": prompt_format,
+        "timestamp": datetime.now().isoformat()
+    }
+    # Flatten each category's metrics into separate columns
     for category in categories:
         if category in metrics['exec']:
             category_metrics = metrics['exec'][category]
+            flattened_metrics[f"{category}_count"] = category_metrics['count']
+            flattened_metrics[f"{category}_execution_accuracy"] = category_metrics['exec']
         else:
+            flattened_metrics[f"{category}_count"] = 0
+            flattened_metrics[f"{category}_execution_accuracy"] = 0.0
     with evaluation_scheduler.lock:
         with evaluation_file.open("a") as f:
+            json.dump(flattened_metrics, f)
+            f.write('\n')
 def run_prediction(inference_api, model_name, prompt_format, output_file):
     dataset_path = str(eval_dir / "data/dev.json")