Spaces:

duckdb-nsql-hub
/

DuckDB-SQL-Eval

Sleeping

tdoehmen commited on Oct 4, 2024

Commit

6fdb323

1 Parent(s): 0e01bbd

output formatting

Files changed (1) hide show

evaluation_logic.py CHANGED Viewed

@@ -166,23 +166,17 @@ def run_evaluation(inference_api, model_name, prompt_format="duckdbinstgranitesh
         if metrics:
             yield "Overall Results:"
             overall_metrics = metrics['exec']['all']
-            yield f"Count: {overall_metrics['count']}"
-            yield f"Execution Accuracy: {overall_metrics['exec']:.3f}"
-            yield f"Exact Match Accuracy: {overall_metrics['exact']:.3f}"
-            yield f"Equality: {metrics['equality']['equality']:.3f}"
-            yield f"Edit Distance: {metrics['edit_distance']['edit_distance']:.3f}"
-            yield "\nResults by Category:"
             categories = ['easy', 'medium', 'hard', 'duckdb', 'ddl', 'all']
             for category in categories:
                 if category in metrics['exec']:
-                    yield f"\n{category}:"
                     category_metrics = metrics['exec'][category]
-                    yield f"Count: {category_metrics['count']}"
-                    yield f"Execution Accuracy: {category_metrics['exec']:.3f}"
                 else:
-                    yield f"\n{category}: No data available"
         else:
             yield "No evaluation metrics returned."
     except Exception as e:

         if metrics:
             yield "Overall Results:"
             overall_metrics = metrics['exec']['all']
+            yield f"All (n={overall_metrics['count']}) - Execution Accuracy: {overall_metrics['exec']:.3f}"
+            yield f"All (n={overall_metrics['count']}) - Edit Distance: {metrics['edit_distance']['edit_distance']:.3f}"
             categories = ['easy', 'medium', 'hard', 'duckdb', 'ddl', 'all']
             for category in categories:
                 if category in metrics['exec']:
                     category_metrics = metrics['exec'][category]
+                    yield f"{category} (n={category_metrics['count']}) - Execution Accuracy: {category_metrics['exec']:.3f}"
                 else:
+                    yield f"{category}: No data available"
         else:
             yield "No evaluation metrics returned."
     except Exception as e: