Spaces:

SiangKai
/

KCG_Smart_Search

Running

App Files Files Community

SiangKai commited on Aug 14

Commit

48d19d2

verified ·

1 Parent(s): 2df3f20

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -35

app.py CHANGED Viewed

@@ -18,9 +18,8 @@ import gradio as gr
 import pandas as pd
 import google.generativeai as genai
 from typing import Type
-from collections import defaultdict, OrderedDict
 from typing import List, Dict
 # LangChain & SentenceTransformers
 from langchain_community.vectorstores import FAISS
@@ -116,15 +115,15 @@ def load_data(file_path: str = EXCEL_FILE_PATH) -> pd.DataFrame:
 def batch_find_relevant_tables(api_key: str, sub_queries: list[str], top_k: int = 1) -> dict:
     """
-    (結構化版) 為每個子問題獨立查找候選表，並將完整的配對結構交由 Gemini 判斷。
     """
-    print("🧠 (結構化模式) 正在為每個子問題獨立查找其專屬候選表...")
-    # Step 1: 為每個子問題獨立獲取候選表，並存入字典
     query_to_candidates_map = {}
     for query in sub_queries:
         print(f"  -> 正在處理: '{query}'")
-        # 為每個子問題找回 10 個最相關的候選表
         candidates_per_query = extract_project_names_from_rag_manual_mix(query, db_jb, db_sim, top_k=20)
        # test
         print(candidates_per_query)
@@ -140,7 +139,7 @@ def batch_find_relevant_tables(api_key: str, sub_queries: list[str], top_k: int
     # --- Step 2: 動態建構一個新的、結構化的 Prompt ---
-    # 建立一個清晰的任務描述文字區塊
     tasks_text_parts = []
     for i, (query, candidates) in enumerate(query_to_candidates_map.items()):
         # 將候選表列表格式化
@@ -161,8 +160,7 @@ def batch_find_relevant_tables(api_key: str, sub_queries: list[str], top_k: int
     你是一個專業的數據庫助理。你的任務是從下方的「待處理的配對任務清單」中，根據每一個query，找出最相關的資料表。其餘捨棄。
     你必須依[輸出範例]回傳問題及表名，不要有任何多餘的文字、編號、引號或說明。
-    特殊情形：如query為高雄市或各行政區整體(全部))人口數，請一律查詢表名"高雄市戶數、人口密度及性比例"
     [待處理的配對任務清單]:
     {tasks_text}
@@ -177,10 +175,10 @@ def batch_find_relevant_tables(api_key: str, sub_queries: list[str], top_k: int
     }}
     """.strip()
-    # --- Step 3: 呼叫 Gemini 並解析結果---
     try:
         print("--- Structured Batch Prompt to Gemini ---")
-        # print(repr(batch_prompt)) # 如果需要偵錯，可以取消註解此行
         print("---------------------------------------")
         response_text = reply(api_key, "", batch_prompt)
@@ -195,7 +193,7 @@ def batch_find_relevant_tables(api_key: str, sub_queries: list[str], top_k: int
 def batch_parse_sub_queries_with_gemini(api_key: str, sub_queries: List[str]) -> Dict[str, Dict]:
     """
-    (優化) 一次性批次解析所有子問題，提取時間、地區和查詢項目。
     回傳一個以子問題為鍵(key)的字典。
     """
     print(f"🤖 正在請求 Gemini 批次解析 {len(sub_queries)} 個子問題...")
@@ -214,7 +212,6 @@ def batch_parse_sub_queries_with_gemini(api_key: str, sub_queries: List[str]) ->
         1.  **時間正規化**：當使用者輸入的時間包含 "年底"、"年中"、"年初"、"年度" 等描述時，請將 `time_query` 正規化為年份。例如，"113年底" 應轉換為 "113年"。
         2.  **時間校正**：當使用者輸入的時間包含 "年底"、"年中"、"年初" 等描述時，如該問題是有關學校類型(國中小、補習班等概況)，請將 `time_query` 修正為學年。例如，"113年" 應轉換為 "113學年"。
         3.  `district_query` 為可選項目，若無則設為"高雄市全區"。如為"高雄市"或"高雄"等泛指整體者，亦設為"高雄市全區"
-        4.  當使用者問題為高雄市或未指定行政區時，item_query: 「總計」+ (time_query轉為西元表示的時間) + <查詢項目文字>
         4.  請勿遺漏使用者輸入的任何關鍵詞。
         **情境二：問題模糊，無法查詢**
@@ -230,8 +227,8 @@ def batch_parse_sub_queries_with_gemini(api_key: str, sub_queries: List[str]) ->
         ---
         [規則]:
         1.  **時間正規化**：當使用者輸入的時間包含 "年底"、"年中"、"年初"、"年度" 等描述時，請將 `time_query` 正規化為年份。例如，"113年底" 應轉換為 "113年"。
-        2.  **時間校正**：當使用者輸入的時間包含 "年底"、"年中"、"年初" 等描述時，如該問題是有關教育類型，請將 `time_query` 修正為學年。例如，"113年" 應轉換為 "113學年"。
-        3.  `district_query` 為可選項目，若無則設為空值。如為"高雄市"亦設為空值。
         4.  請勿遺漏使用者輸入的任何關鍵詞。
         ---
         [輸出格式]:
@@ -267,17 +264,17 @@ def batch_parse_sub_queries_with_gemini(api_key: str, sub_queries: List[str]) ->
 # --- 動態查詢工具 ---
 def semantic_query_logic(time_query: str, item_query: str, project_name: str, district_query: str = "") -> str:
     """
-    (最終優化版) 直接接收已匹配好的表名，專注於 RAG 檢索排序。
     """
     print(f"--- 執行查詢: 表名='{project_name}', 時間='{time_query}', 地區='{district_query}', 項目='{item_query}' ---")
     df = load_data()
     if df is None: return "[]"
-    # 步驟 1: (優化) 先用精確的表名進行篩選，大幅縮小範圍
     filtered_df = df[df['表名'] == project_name].copy()
     if filtered_df.empty:
-        # 如果光是表名就找不到任何資料，直接返回
         return "[]"
     # 步驟 2: 在已縮小的範圍內，進行時間和地區的篩選
@@ -294,16 +291,16 @@ def semantic_query_logic(time_query: str, item_query: str, project_name: str, di
     if filtered_df.empty: return "[]"
     # 關鍵安全閥
-    MAX_CANDIDATES = 500
     if len(filtered_df) > MAX_CANDIDATES:
         print(f"⚠️ 篩選結果超過{MAX_CANDIDATES}筆({len(filtered_df)})，僅取前{MAX_CANDIDATES}筆進行向量分析以節省資源。")
         filtered_df = filtered_df.head(MAX_CANDIDATES)
-    # 步驟 3: (核心) 對最終篩選出的結果進行向量化與語意比對
     print(f"向量化階段：對 {len(filtered_df)} 筆資料進行向量化...")
     combined_texts = (filtered_df['表名'].astype(str) + " " + filtered_df['表首資訊'].astype(str) + " " + filtered_df['表側資訊'].astype(str)).tolist()
-    # 在送入模型前手動加上前綴
     prefixed_passage_texts = [f"passage: {t}" for t in combined_texts]
     prefixed_query_text = f"query: {item_query}"
@@ -319,7 +316,7 @@ def semantic_query_logic(time_query: str, item_query: str, project_name: str, di
     results.sort(key=lambda x: x['語意分數'], reverse=True)
-    FINAL_K = 80
     top_results = results[:FINAL_K]
     print("--- semantic_query_logic 執行完畢 ---")
@@ -331,7 +328,7 @@ from langchain.tools import StructuredTool
 semantic_query_tool = StructuredTool.from_function(
     func=semantic_query_logic,
     name="semantic_query_tool",
-    description="(純RAG簡化版) 直接使用向量語意模型進行檢索排序。" # 更新描述
 )
 # =======================================================================
@@ -344,7 +341,6 @@ system_reviewer = """
 1. 涉及高雄市以外或全國性資料，請直接回傳：「抱歉～我是高雄市查詢機器人，無法查詢高雄以外資料。」
 2. 未提及明確時間（如112年、113年3月），請回傳：「抱歉～請問查詢的資料時間。」
    📌 明確時間＝出現「具體年份」、「年月」、「季」或「學年」。模糊詞（平均、近年、目前、歷年等）皆視為未指定。
-3. 問題中的「高雄市」字樣請略過，例如「113年底高雄市人口」視為「113年總人口」。
 📌 回傳格式（**僅限 JSON 陣列**，不得加上任何文字）：
 [
@@ -390,9 +386,9 @@ system_integration = """
 4. **條列推論**：逐項列出比較結果，明確指出最高、最低、差異。
 5. **禁止**：不得使用科學記號、英文、原欄位名稱；不得補資料或推論未查到的年份。
 ### 二、一般整合型問題（如「113年底苓雅區人口？」）：
-1. **條件驗證**：若資料年份不同，請說明「您問的是 113 年，我找到的是 114 年…」
 2. **缺資料處理**：無資料請說「資料缺乏，無法回答」；不���用其他時間資料代替。
-3. **作答格式**：300 字內、結論先行、條列清楚、千分位數字，不使用科學記號。開頭統一：「關於您提出的問題，綜合參考資料如下：」，結尾列出參考資料表名（參考資料：高雄市原住民戶口數）。
 ---
 ## 📌 共通禁止事項（適用所有問題）：
 - ❌ 不得推論或補未查到的資料
@@ -409,7 +405,7 @@ system_integration = """
 def reply(api_key: str, system: str, prompt: str, model: str = "gemini-2.0-flash-lite"):
     """
-    (非串流版) 一次性獲取完整的 Gemini 回應。
     """
     try:
         genai.configure(api_key=api_key)
@@ -449,9 +445,8 @@ def extract_json(text: str) -> list | dict:
         raise ValueError(f"清理後仍然無法解析 JSON。原始錯誤: {e}")
-def reflect_post(api_key, user_input):
     """
-    (最終優化版 / Gemini批次解析 / 非串流)
     API 呼叫總次數固定為 4 次。
     """
     # Step 1：拆解子問題 (API Call #1)
@@ -478,7 +473,7 @@ def reflect_post(api_key, user_input):
         return all_querys_summary, "⚠️ 系統無法為您的查詢匹配到合適的資料表。"
     # Step 3: 批次解析所有子問題的參數 (API Call #3)
-    params_map = batch_parse_sub_queries_with_gemini(api_key, sub_query_texts)
     if not params_map:
         return all_querys_summary, "⚠️ 系統無法解析您問題中的查詢參數。"
@@ -514,7 +509,7 @@ def reflect_post(api_key, user_input):
     # Step 5：整合分析 (API Call #4)
     integration_prompt = f"使用者問題：{user_input}\n\n查詢資料如下：\n{combined_context}"
-    integration_result = reply(api_key, system_integration, integration_prompt)
     return all_querys_summary, integration_result
 # =======================================================================
@@ -522,8 +517,9 @@ def reflect_post(api_key, user_input):
 # =======================================================================
 def gradio_interface(user_input):
-    """Gradio 的主要處理函式"""
     api_key = os.getenv('Gemini')
     if not api_key:
         return "❌ 查詢失敗", "錯誤：未在伺服器環境中設定 'Gemini' API 金鑰。"
@@ -546,6 +542,7 @@ with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="orange"))
         """
         # 🤖 高雄市公務統計資料智慧查詢
         歡迎使用！您可以透過自然語言提出關於高雄市的公務統計問題，系統將盡力為您查找相關資訊。
         """
     )
@@ -553,15 +550,16 @@ with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="orange"))
         with gr.Column(scale=1):
             user_input_box = gr.Textbox(
                 label="請在此輸入您的問題",
-                placeholder="例如：113年底前金區全區人口數？",
                 lines=5
             )
             gr.Examples(
                 examples=[
-                    "113年底前金區全區人口數？",
                     "110-113年高雄市總人口數趨勢？",
                     "110-113年失業率情形",
-                    "國小一年級學生人數(缺少時間不能查)",
                 ],
                 inputs=user_input_box,
                 label="💡 範例問題"

 import pandas as pd
 import google.generativeai as genai
 from typing import Type
 from typing import List, Dict
+from collections import defaultdict, OrderedDict
 # LangChain & SentenceTransformers
 from langchain_community.vectorstores import FAISS
 def batch_find_relevant_tables(api_key: str, sub_queries: list[str], top_k: int = 1) -> dict:
     """
+    為每個子問題獨立查找候選表，並將完整的配對結構交由 Gemini 判斷。
     """
+    print("🧠 正在為每個子問題獨立查找其相對應候選表...")
+    # --- Step 1: 為每個子問題獨立獲取候選表，並存入字典 ---
     query_to_candidates_map = {}
     for query in sub_queries:
         print(f"  -> 正在處理: '{query}'")
+        # 為每個子問題找回 20 個最相關的候選表
         candidates_per_query = extract_project_names_from_rag_manual_mix(query, db_jb, db_sim, top_k=20)
        # test
         print(candidates_per_query)
     # --- Step 2: 動態建構一個新的、結構化的 Prompt ---
+    # 建立任務描述文字
     tasks_text_parts = []
     for i, (query, candidates) in enumerate(query_to_candidates_map.items()):
         # 將候選表列表格式化
     你是一個專業的數據庫助理。你的任務是從下方的「待處理的配對任務清單」中，根據每一個query，找出最相關的資料表。其餘捨棄。
     你必須依[輸出範例]回傳問題及表名，不要有任何多餘的文字、編號、引號或說明。
+    特殊情形：如query為高雄市或各行政區整體(全部)人口數，請一律查詢表名"高雄市戶數、人口密度及性比例"
     [待處理的配對任務清單]:
     {tasks_text}
     }}
     """.strip()
+    # --- Step 3: 呼叫 Gemini 並解析結果 ---
     try:
         print("--- Structured Batch Prompt to Gemini ---")
+        # print(repr(batch_prompt)) # 如需偵錯，可取消註解
         print("---------------------------------------")
         response_text = reply(api_key, "", batch_prompt)
 def batch_parse_sub_queries_with_gemini(api_key: str, sub_queries: List[str]) -> Dict[str, Dict]:
     """
+    批次解析所有子問題，提取時間、地區及查詢項目。
     回傳一個以子問題為鍵(key)的字典。
     """
     print(f"🤖 正在請求 Gemini 批次解析 {len(sub_queries)} 個子問題...")
         1.  **時間正規化**：當使用者輸入的時間包含 "年底"、"年中"、"年初"、"年度" 等描述時，請將 `time_query` 正規化為年份。例如，"113年底" 應轉換為 "113年"。
         2.  **時間校正**：當使用者輸入的時間包含 "年底"、"年中"、"年初" 等描述時，如該問題是有關學校類型(國中小、補習班等概況)，請將 `time_query` 修正為學年。例如，"113年" 應轉換為 "113學年"。
         3.  `district_query` 為可選項目，若無則設為"高雄市全區"。如為"高雄市"或"高雄"等泛指整體者，亦設為"高雄市全區"
         4.  請勿遺漏使用者輸入的任何關鍵詞。
         **情境二：問題模糊，無法查詢**
         ---
         [規則]:
         1.  **時間正規化**：當使用者輸入的時間包含 "年底"、"年中"、"年初"、"年度" 等描述時，請將 `time_query` 正規化為年份。例如，"113年底" 應轉換為 "113年"。
+        2.  **時間校正**：當使用者輸入的時間包含 "年底"、"年中"、"年初" 等描述時，如該問題是有關學校類型(國中小、補習班等概況)，請將 `time_query` 修正為學年。例如，"113年" 應轉換為 "113學年"。
+        3.  `district_query` 為可選項目，若無則設為"高雄市全區"。如為"高雄市"或"高雄"等泛指整體者，亦設為"高雄市全區"
         4.  請勿遺漏使用者輸入的任何關鍵詞。
         ---
         [輸出格式]:
 # --- 動態查詢工具 ---
 def semantic_query_logic(time_query: str, item_query: str, project_name: str, district_query: str = "") -> str:
     """
+    直接以已匹配好的表名、時間及統計指標查詢合併資料。
     """
     print(f"--- 執行查詢: 表名='{project_name}', 時間='{time_query}', 地區='{district_query}', 項目='{item_query}' ---")
     df = load_data()
     if df is None: return "[]"
+    # 步驟 1: 先用精確的表名進行篩選，大幅縮小範圍
     filtered_df = df[df['表名'] == project_name].copy()
     if filtered_df.empty:
+        # 如果表名就找不到任何資料，直接返回
         return "[]"
     # 步驟 2: 在已縮小的範圍內，進行時間和地區的篩選
     if filtered_df.empty: return "[]"
     # 關鍵安全閥
+    MAX_CANDIDATES = 300
     if len(filtered_df) > MAX_CANDIDATES:
         print(f"⚠️ 篩選結果超過{MAX_CANDIDATES}筆({len(filtered_df)})，僅取前{MAX_CANDIDATES}筆進行向量分析以節省資源。")
         filtered_df = filtered_df.head(MAX_CANDIDATES)
+    # 步驟 3: 對最終篩選出的結果進行向量化與語意比對
     print(f"向量化階段：對 {len(filtered_df)} 筆資料進行向量化...")
     combined_texts = (filtered_df['表名'].astype(str) + " " + filtered_df['表首資訊'].astype(str) + " " + filtered_df['表側資訊'].astype(str)).tolist()
+    # 加上前綴
     prefixed_passage_texts = [f"passage: {t}" for t in combined_texts]
     prefixed_query_text = f"query: {item_query}"
     results.sort(key=lambda x: x['語意分數'], reverse=True)
+    FINAL_K = 50
     top_results = results[:FINAL_K]
     print("--- semantic_query_logic 執行完畢 ---")
 semantic_query_tool = StructuredTool.from_function(
     func=semantic_query_logic,
     name="semantic_query_tool",
+    description="直接使用向量語意模型進行檢索排序。
 )
 # =======================================================================
 1. 涉及高雄市以外或全國性資料，請直接回傳：「抱歉～我是高雄市查詢機器人，無法查詢高雄以外資料。」
 2. 未提及明確時間（如112年、113年3月），請回傳：「抱歉～請問查詢的資料時間。」
    📌 明確時間＝出現「具體年份」、「年月」、「季」或「學年」。模糊詞（平均、近年、目前、歷年等）皆視為未指定。
 📌 回傳格式（**僅限 JSON 陣列**，不得加上任何文字）：
 [
 4. **條列推論**：逐項列出比較結果，明確指出最高、最低、差異。
 5. **禁止**：不得使用科學記號、英文、原欄位名稱；不得補資料或推論未查到的年份。
 ### 二、一般整合型問題（如「113年底苓雅區人口？」）：
+1. **條件驗證**：若資料年份不同，請說明「您問的是 113 年，我找到的是 114 年…」。
 2. **缺資料處理**：無資料請說「資料缺乏，無法回答」；不���用其他時間資料代替。
+3. **作答格式**：300 字內、結論先行、條列清楚、千分位數字，不使用科學記號。開頭統一：「關於您提出的問題，綜合參考資料如下：」，結尾列出參考資料表名：「參考資料：高雄市原住民戶口數」。
 ---
 ## 📌 共通禁止事項（適用所有問題）：
 - ❌ 不得推論或補未查到的資料
 def reply(api_key: str, system: str, prompt: str, model: str = "gemini-2.0-flash-lite"):
     """
+    獲取 Gemini 回應。
     """
     try:
         genai.configure(api_key=api_key)
         raise ValueError(f"清理後仍然無法解析 JSON。原始錯誤: {e}")
+def reflect_post(api_key, api_key2, user_input):
     """
     API 呼叫總次數固定為 4 次。
     """
     # Step 1：拆解子問題 (API Call #1)
         return all_querys_summary, "⚠️ 系統無法為您的查詢匹配到合適的資料表。"
     # Step 3: 批次解析所有子問題的參數 (API Call #3)
+    params_map = batch_parse_sub_queries_with_gemini(api_key2, sub_query_texts)
     if not params_map:
         return all_querys_summary, "⚠️ 系統無法解析您問題中的查詢參數。"
     # Step 5：整合分析 (API Call #4)
     integration_prompt = f"使用者問題：{user_input}\n\n查詢資料如下：\n{combined_context}"
+    integration_result = reply(api_key2, system_integration, integration_prompt)
     return all_querys_summary, integration_result
 # =======================================================================
 # =======================================================================
 def gradio_interface(user_input):
+    """Gradio 主要處理函式"""
     api_key = os.getenv('Gemini')
+    api_key2 = os.getenv('Gemini2')
     if not api_key:
         return "❌ 查詢失敗", "錯誤：未在伺服器環境中設定 'Gemini' API 金鑰。"
         """
         # 🤖 高雄市公務統計資料智慧查詢
         歡迎使用！您可以透過自然語言提出關於高雄市的公務統計問題，系統將盡力為您查找相關資訊。
+        本系統運作於2v cpu & 16 GB RAM 免費資源，系統速度稍慢(產生結果時間依問題複雜度而定，一般為10至15秒)。
         """
     )
         with gr.Column(scale=1):
             user_input_box = gr.Textbox(
                 label="請在此輸入您的問題",
+                placeholder="例如：113年底前金區人口數？",
                 lines=5
             )
             gr.Examples(
                 examples=[
+                    "113年底前金區人口數？",
                     "110-113年高雄市總人口數趨勢？",
                     "110-113年失業率情形",
+                    "113學年國小一年級學生人數",
+                    "113年底鹽埕區、三民區、前鎮區、林園區及美濃區人口數"
                 ],
                 inputs=user_input_box,
                 label="💡 範例問題"