Spaces:

KeenWoo
/

AD_Multimodal_Chatbot

Running

App Files Files Community

KeenWoo commited on Sep 13

Commit

8ec6b4d

verified ·

1 Parent(s): f208226

Update evaluate.py

Browse files

Files changed (1) hide show

evaluate.py +30 -8

evaluate.py CHANGED Viewed

@@ -338,7 +338,36 @@ def run_comprehensive_evaluation(
     if not df.empty:
         cols = ["test_id", "title", "route_correct", "expected_route", "actual_route", "context_precision", "context_recall", "faithfulness", "answer_correctness", "behavior_f1", "emotion_f1", "topic_f1", "context_f1", "source_count", "latency_ms", "sources", "generated_answer", "category", "error_class"]
-        df = df[[c for c in cols if c in df.columns]]
         output_path = "evaluation_results.csv"
         df.to_csv(output_path, index=False, encoding="utf-8")
         print(f"Evaluation results saved to {output_path}")
@@ -369,13 +398,6 @@ def run_comprehensive_evaluation(
                 logf.write("\n")
             except Exception as e:
                 print(f"WARNING: Could not build confusion matrix: {e}")
-        pct = df["route_correct"].value_counts(normalize=True).get("✅", 0) * 100
-        to_f = lambda s: pd.to_numeric(s, errors="coerce")
-        summary_text = f"""## Evaluation Summary\n- **Routing Accuracy**: {pct:.2f}%\n- **RAG: Context Precision**: {(to_f(df["context_precision"]).mean() * 100):.1f}%\n- **RAG: Context Recall**: {(to_f(df["context_recall"]).mean() * 100):.1f}%\n- **RAG: Answer Correctness (LLM-judge)**: {(to_f(df["answer_correctness"]).mean() * 100):.1f}%"""
-        df_display = df.rename(columns={"context_precision": "Ctx. Precision", "context_recall": "Ctx. Recall"})
-        table_rows = df_display.values.tolist()
-        headers = df_display.columns.tolist()
     return summary_text, table_rows, headers

     if not df.empty:
         cols = ["test_id", "title", "route_correct", "expected_route", "actual_route", "context_precision", "context_recall", "faithfulness", "answer_correctness", "behavior_f1", "emotion_f1", "topic_f1", "context_f1", "source_count", "latency_ms", "sources", "generated_answer", "category", "error_class"]
+        df = df[[c for c in cols if c in df.columns]]
+        # --- START OF MODIFICATION ---
+        pct = df["route_correct"].value_counts(normalize=True).get("✅", 0) * 100
+        to_f = lambda s: pd.to_numeric(s, errors="coerce")
+        # Calculate the mean for the NLU F1 scores
+        bf1_mean = to_f(df["behavior_f1"]).mean() * 100
+        ef1_mean = to_f(df["emotion_f1"]).mean() * 100
+        tf1_mean = to_f(df["topic_f1"]).mean() * 100
+        cf1_mean = to_f(df["context_f1"]).mean() * 100
+        # Add the NLU metrics to the summary f-string
+        summary_text = f"""## Evaluation Summary
+- **Routing Accuracy**: {pct:.2f}%
+- **Behaviour F1 (avg)**: {bf1_mean:.2f}%
+- **Emotion F1 (avg)**: {ef1_mean:.2f}%
+- **Topic F1 (avg)**: {tf1_mean:.2f}%
+- **Context F1 (avg)**: {cf1_mean:.2f}%
+- **RAG: Context Precision**: {(to_f(df["context_precision"]).mean() * 100):.1f}%
+- **RAG: Context Recall**: {(to_f(df["context_recall"]).mean() * 100):.1f}%
+- **RAG: Answer Correctness (LLM-judge)**: {(to_f(df["answer_correctness"]).mean() * 100):.1f}%"""
+        # --- END OF MODIFICATION ---
+        df_display = df.rename(columns={"context_precision": "Ctx. Precision", "context_recall": "Ctx. Recall"})
+        table_rows = df_display.values.tolist()
+        headers = df_display.columns.tolist
         output_path = "evaluation_results.csv"
         df.to_csv(output_path, index=False, encoding="utf-8")
         print(f"Evaluation results saved to {output_path}")
                 logf.write("\n")
             except Exception as e:
                 print(f"WARNING: Could not build confusion matrix: {e}")
     return summary_text, table_rows, headers