Spaces:

Sa-m
/

llm-evaluation-framework

Running

App Files Files Community

Sa-m commited on Aug 28

Commit

f010cb1

verified ·

1 Parent(s): 8fb1201

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -13

app.py CHANGED Viewed

@@ -403,17 +403,17 @@ def process_input(input_mode: str, reference_text: str, candidate_text: str, mod
         time.sleep(0.1)
         cleaned_candidate = clean_text(candidate_text)
-    # Format metrics for display
     metrics_table = [
-        ["Metric", "Raw Score", "Normalized"],
-        ["AnswerRelevancy", f"{result['metrics']['AnswerRelevancy']:.4f}", f"{result['normalized']['AnswerRelevancy']:.4f}"],
-        ["Faithfulness", f"{result['metrics']['Faithfulness']:.4f}", f"{result['normalized']['Faithfulness']:.4f}"],
-        ["GEval", f"{result['metrics']['GEval']:.4f}", f"{result['normalized']['GEval']:.4f}"],
-        ["BERTScore", f"{result['metrics']['BERTScore']:.4f}", f"{result['normalized']['BERTScore']:.4f}"],
-        ["ROUGE", f"{result['metrics']['ROUGE']:.4f}", f"{result['normalized']['ROUGE']:.4f}"],
-        ["BLEU", f"{result['metrics']['BLEU']:.4f}", f"{result['normalized']['BLEU']:.4f}"],
-        ["METEOR", f"{result['metrics']['METEOR']:.4f}", f"{result['normalized']['METEOR']:.4f}"],
-        ["Weighted Score", f"{result['weighted_score']:.4f}", "N/A"]
     ]
     return (
@@ -435,7 +435,7 @@ def load_example():
         candidate_text                 # candidate_text
     )
-# Create Gradio interface
 with gr.Blocks(title="LLM Evaluation Framework", theme=gr.themes.Soft()) as demo:
     gr.Markdown("# 📊 LLM Evaluation Framework for Professional Content Rewriting")
     gr.Markdown("Evaluate the quality of LLM-generated content using multiple metrics with proper normalization.")
@@ -571,10 +571,9 @@ with gr.Blocks(title="LLM Evaluation Framework", theme=gr.themes.Soft()) as demo
         | **METEOR** | Linguistic quality with synonyms | How natural does the cleaned output read? |
         """)
-# Launch the app
 if __name__ == "__main__":
     demo.launch(
         server_name="0.0.0.0",
         server_port=7860,
-        share=True
     )

         time.sleep(0.1)
         cleaned_candidate = clean_text(candidate_text)
+    # Format metrics for display - ONLY SHOWING NORMALIZED SCORES AND HYBRID SCORE
     metrics_table = [
+        ["Metric", "Normalized Score"],
+        ["AnswerRelevancy", f"{result['normalized']['AnswerRelevancy']:.4f}"],
+        ["Faithfulness", f"{result['normalized']['Faithfulness']:.4f}"],
+        ["GEval", f"{result['normalized']['GEval']:.4f}"],
+        ["BERTScore", f"{result['normalized']['BERTScore']:.4f}"],
+        ["ROUGE", f"{result['normalized']['ROUGE']:.4f}"],
+        ["BLEU", f"{result['normalized']['BLEU']:.4f}"],
+        ["METEOR", f"{result['normalized']['METEOR']:.4f}"],
+        ["Hybrid Score", f"{result['weighted_score']:.4f}"]
     ]
     return (
         candidate_text                 # candidate_text
     )
 with gr.Blocks(title="LLM Evaluation Framework", theme=gr.themes.Soft()) as demo:
     gr.Markdown("# 📊 LLM Evaluation Framework for Professional Content Rewriting")
     gr.Markdown("Evaluate the quality of LLM-generated content using multiple metrics with proper normalization.")
         | **METEOR** | Linguistic quality with synonyms | How natural does the cleaned output read? |
         """)
 if __name__ == "__main__":
     demo.launch(
         server_name="0.0.0.0",
         server_port=7860,
     )