Spaces:

duckdb-nsql-hub
/

DuckDB-SQL-Eval

Sleeping

tdoehmen commited on Oct 24, 2024

Commit

3445f6a

1 Parent(s): 470a9a5

save just the eval main results

Files changed (1) hide show

evaluation_logic.py CHANGED Viewed

@@ -57,15 +57,34 @@ def save_prediction(inference_api, model_name, prompt_format, question, generate
 def save_evaluation(inference_api, model_name, prompt_format, metrics):
     evaluation_file = evaluation_folder / f"evaluation_{file_uuid}.json"
     evaluation_folder.mkdir(parents=True, exist_ok=True)
     with evaluation_scheduler.lock:
         with evaluation_file.open("a") as f:
             json.dump({
                 "inference_api": inference_api,
                 "model_name": model_name,
                 "prompt_format": prompt_format,
-                "metrics": metrics,
                 "timestamp": datetime.now().isoformat()
             }, f)
 def run_prediction(inference_api, model_name, prompt_format, output_file):
     dataset_path = str(eval_dir / "data/dev.json")

 def save_evaluation(inference_api, model_name, prompt_format, metrics):
     evaluation_file = evaluation_folder / f"evaluation_{file_uuid}.json"
     evaluation_folder.mkdir(parents=True, exist_ok=True)
+    # Extract only the category-specific execution metrics
+    categories = ['easy', 'medium', 'hard', 'duckdb', 'ddl', 'all']
+    simplified_metrics = {}
+    for category in categories:
+        if category in metrics['exec']:
+            category_metrics = metrics['exec'][category]
+            simplified_metrics[category] = {
+                'count': category_metrics['count'],
+                'execution_accuracy': category_metrics['exec']
+            }
+        else:
+            simplified_metrics[category] = {
+                'count': 0,
+                'execution_accuracy': 0.0
+            }
     with evaluation_scheduler.lock:
         with evaluation_file.open("a") as f:
             json.dump({
                 "inference_api": inference_api,
                 "model_name": model_name,
                 "prompt_format": prompt_format,
+                "category_metrics": simplified_metrics,
                 "timestamp": datetime.now().isoformat()
             }, f)
+            f.write('\n')
 def run_prediction(inference_api, model_name, prompt_format, output_file):
     dataset_path = str(eval_dir / "data/dev.json")