Spaces:

phyloforfun
/

VoucherVision

Running

App Files Files Community

phyloforfun commited on Feb 2, 2024

Commit

806953a

1 Parent(s): cea3abb

Major update. Support for 15 LLMs, World Flora Online taxonomy validation, geolocation, 2 OCR methods, significant UI changes, stability improvements, consistent JSON parsing

Browse files

Files changed (11) hide show

app.py +5 -5
vouchervision/LLM_GoogleGemini.py +2 -2
vouchervision/LLM_GooglePalm2.py +4 -4
vouchervision/OCR_google_cloud_vision.py +4 -4
vouchervision/VoucherVision_Config_Builder.py +282 -282
vouchervision/directory_structure_VV.py +6 -6
vouchervision/model_maps.py +5 -5
vouchervision/tool_wikipedia.py +1 -1
vouchervision/utils_VoucherVision.py +7 -7
vouchervision/utils_hf.py +1 -1
vouchervision/vouchervision_main.py +2 -2

app.py CHANGED Viewed

@@ -10,12 +10,12 @@ from streamlit_extras.let_it_rain import rain
 from annotated_text import annotated_text
 from vouchervision.LeafMachine2_Config_Builder import write_config_file
-from vouchervision.VoucherVision_Config_Builder import build_VV_config, run_demo_tests_GPT, run_demo_tests_Palm , TestOptionsGPT, TestOptionsPalm, check_if_usable, run_api_tests
-from vouchervision.vouchervision_main import voucher_vision, voucher_vision_OCR_test
-from vouchervision.general_utils import test_GPU, get_cfg_from_full_path, summarize_expense_report, create_google_ocr_yaml_config, validate_dir
 from vouchervision.model_maps import ModelMaps
 from vouchervision.API_validation import APIvalidation
-from vouchervision.utils_hf import upload_to_drive, image_to_base64, setup_streamlit_config, save_uploaded_file, check_prompt_yaml_filename, save_uploaded_local
@@ -27,7 +27,7 @@ st.set_page_config(layout="wide", page_icon='img/icon.ico', page_title='VoucherV
 # Parse the 'is_hf' argument and set it in session state
 if 'is_hf' not in st.session_state:
-    st.session_state['is_hf'] = False
 ########################################################################################################

 from annotated_text import annotated_text
 from vouchervision.LeafMachine2_Config_Builder import write_config_file
+from vouchervision.VoucherVision_Config_Builder import build_VV_config, TestOptionsGPT, TestOptionsPalm, check_if_usable
+from vouchervision.vouchervision_main import voucher_vision
+from vouchervision.general_utils import test_GPU, get_cfg_from_full_path, summarize_expense_report, validate_dir
 from vouchervision.model_maps import ModelMaps
 from vouchervision.API_validation import APIvalidation
+from vouchervision.utils_hf import setup_streamlit_config, save_uploaded_file, check_prompt_yaml_filename, save_uploaded_local
 # Parse the 'is_hf' argument and set it in session state
 if 'is_hf' not in st.session_state:
+    st.session_state['is_hf'] = True
 ########################################################################################################

vouchervision/LLM_GoogleGemini.py CHANGED Viewed

@@ -3,10 +3,10 @@ import vertexai
 from vertexai.preview.generative_models import GenerativeModel
 from vertexai.generative_models._generative_models import HarmCategory, HarmBlockThreshold
 from langchain.output_parsers import RetryWithErrorOutputParser
-from langchain.schema import HumanMessage
 from langchain.prompts import PromptTemplate
 from langchain_core.output_parsers import JsonOutputParser
-from langchain_google_genai import ChatGoogleGenerativeAI
 from langchain_google_vertexai import VertexAI
 from vouchervision.utils_LLM import SystemLoadMonitor, count_tokens, save_individual_prompt

 from vertexai.preview.generative_models import GenerativeModel
 from vertexai.generative_models._generative_models import HarmCategory, HarmBlockThreshold
 from langchain.output_parsers import RetryWithErrorOutputParser
+# from langchain.schema import HumanMessage
 from langchain.prompts import PromptTemplate
 from langchain_core.output_parsers import JsonOutputParser
+# from langchain_google_genai import ChatGoogleGenerativeAI
 from langchain_google_vertexai import VertexAI
 from vouchervision.utils_LLM import SystemLoadMonitor, count_tokens, save_individual_prompt

vouchervision/LLM_GooglePalm2.py CHANGED Viewed

@@ -1,14 +1,14 @@
 import os, time, json
-import vertexai
 from vertexai.language_models import TextGenerationModel
 from vertexai.generative_models._generative_models import HarmCategory, HarmBlockThreshold
 from vertexai.language_models import TextGenerationModel
-from vertexai.preview.generative_models import GenerativeModel
 from langchain.output_parsers import RetryWithErrorOutputParser
-from langchain.schema import HumanMessage
 from langchain.prompts import PromptTemplate
 from langchain_core.output_parsers import JsonOutputParser
-from langchain_google_genai import ChatGoogleGenerativeAI
 from langchain_google_vertexai import VertexAI
 from vouchervision.utils_LLM import SystemLoadMonitor, count_tokens, save_individual_prompt

 import os, time, json
+# import vertexai
 from vertexai.language_models import TextGenerationModel
 from vertexai.generative_models._generative_models import HarmCategory, HarmBlockThreshold
 from vertexai.language_models import TextGenerationModel
+# from vertexai.preview.generative_models import GenerativeModel
 from langchain.output_parsers import RetryWithErrorOutputParser
+# from langchain.schema import HumanMessage
 from langchain.prompts import PromptTemplate
 from langchain_core.output_parsers import JsonOutputParser
+# from langchain_google_genai import ChatGoogleGenerativeAI
 from langchain_google_vertexai import VertexAI
 from vouchervision.utils_LLM import SystemLoadMonitor, count_tokens, save_individual_prompt

vouchervision/OCR_google_cloud_vision.py CHANGED Viewed

@@ -8,10 +8,10 @@ import colorsys
 from tqdm import tqdm
 from google.oauth2 import service_account
-currentdir = os.path.dirname(os.path.abspath(
-    inspect.getfile(inspect.currentframe())))
-parentdir = os.path.dirname(currentdir)
-sys.path.append(parentdir)
 '''

 from tqdm import tqdm
 from google.oauth2 import service_account
+# currentdir = os.path.dirname(os.path.abspath(
+#     inspect.getfile(inspect.currentframe())))
+# parentdir = os.path.dirname(currentdir)
+# sys.path.append(parentdir)
 '''

vouchervision/VoucherVision_Config_Builder.py CHANGED Viewed

@@ -1,7 +1,7 @@
-import os, yaml, platform, traceback
-from vouchervision.LeafMachine2_Config_Builder import get_default_download_folder, write_config_file
-from vouchervision.general_utils import validate_dir, print_main_fail
-from vouchervision.vouchervision_main import voucher_vision
 from general_utils import get_cfg_from_full_path
 def build_VV_config(loaded_cfg=None):
@@ -224,166 +224,166 @@ def assemble_config(dir_home, run_name, dir_images_local,dir_output,
     return config_data, dir_home
-def build_api_tests(api):
-    dir_home = os.path.dirname(os.path.dirname(__file__))
-    path_to_configs = os.path.join(dir_home,'demo','demo_configs')
-    dir_home = os.path.dirname(os.path.dirname(__file__))
-    dir_images_local = os.path.join(dir_home,'demo','demo_images')
-    validate_dir(os.path.join(dir_home,'demo','demo_configs'))
-    path_domain_knowledge = os.path.join(dir_home,'domain_knowledge','SLTP_UM_AllAsiaMinimalInRegion.xlsx')
-    embeddings_database_name = os.path.splitext(os.path.basename(path_domain_knowledge))[0]
-    prefix_removal = ''
-    suffix_removal = ''
-    catalog_numerical_only = False
-    batch_size = 500
-    do_create_OCR_helper_image = False
-    # ### Option 1: "GPT 4" of ["GPT 4", "GPT 3.5", "Azure GPT 4", "Azure GPT 3.5", "PaLM 2"]
-    # LLM_version_user = 'Azure GPT 4'
-    # ### Option 2: False of [False, True]
-    # use_LeafMachine2_collage_images = False
-    # ### Option 3: False of [False, True]
-    # use_domain_knowledge = True
-    test_results = {}
-    if api == 'openai':
-        OPT1, OPT2, OPT3 = TestOptionsAPI_openai.get_options()
-    elif api == 'palm':
-        OPT1, OPT2, OPT3 = TestOptionsAPI_palm.get_options()
-    elif api == 'azure_openai':
-        OPT1, OPT2, OPT3 = TestOptionsAPI_azure_openai.get_options()
-    else:
-        raise
-    ind = -1
-    ind_opt1 = -1
-    ind_opt2 = -1
-    ind_opt3 = -1
-    for opt1 in OPT1:
-        ind_opt1+= 1
-        for opt2 in OPT2:
-            ind_opt2 += 1
-            for opt3 in OPT3:
-                ind += 1
-                ind_opt3 += 1
-                LLM_version_user = opt1
-                use_LeafMachine2_collage_images = opt2
-                prompt_version = opt3
-                filename = f"{ind}__OPT1-{ind_opt1}__OPT2-{ind_opt2}__OPT3-{ind_opt3}.yaml"
-                run_name = f"{ind}__OPT1-{ind_opt1}__OPT2-{ind_opt2}__OPT3-{ind_opt3}"
-                dir_output = os.path.join(dir_home,'demo','demo_output','run_name')
-                validate_dir(dir_output)
-                config_data, dir_home = assemble_config(dir_home, run_name, dir_images_local,dir_output,
-                    prefix_removal,suffix_removal,catalog_numerical_only,LLM_version_user,batch_size,
-                    path_domain_knowledge,embeddings_database_name,use_LeafMachine2_collage_images,
-                    prompt_version,do_create_OCR_helper_image)
-                write_config_file(config_data, os.path.join(dir_home,'demo','demo_configs'),filename=filename)
-                test_results[run_name] = False
-            ind_opt3 = -1
-        ind_opt2 = -1
-    ind_opt1 = -1
-    return dir_home, path_to_configs, test_results
-def build_demo_tests(llm_version):
-    dir_home = os.path.dirname(os.path.dirname(__file__))
-    path_to_configs = os.path.join(dir_home,'demo','demo_configs')
-    dir_home = os.path.dirname(os.path.dirname(__file__))
-    dir_images_local = os.path.join(dir_home,'demo','demo_images')
-    validate_dir(os.path.join(dir_home,'demo','demo_configs'))
-    path_domain_knowledge = os.path.join(dir_home,'domain_knowledge','SLTP_UM_AllAsiaMinimalInRegion.xlsx')
-    embeddings_database_name = os.path.splitext(os.path.basename(path_domain_knowledge))[0]
-    prefix_removal = ''
-    suffix_removal = ''
-    catalog_numerical_only = False
-    batch_size = 500
-    do_create_OCR_helper_image = False
-    # ### Option 1: "GPT 4" of ["GPT 4", "GPT 3.5", "Azure GPT 4", "Azure GPT 3.5", "PaLM 2"]
-    # LLM_version_user = 'Azure GPT 4'
-    # ### Option 2: False of [False, True]
-    # use_LeafMachine2_collage_images = False
-    # ### Option 3: False of [False, True]
-    # use_domain_knowledge = True
-    test_results = {}
-    if llm_version == 'gpt':
-        OPT1, OPT2, OPT3 = TestOptionsGPT.get_options()
-    elif llm_version == 'palm':
-        OPT1, OPT2, OPT3 = TestOptionsPalm.get_options()
-    else:
-        raise
-    ind = -1
-    ind_opt1 = -1
-    ind_opt2 = -1
-    ind_opt3 = -1
-    for opt1 in OPT1:
-        ind_opt1+= 1
-        for opt2 in OPT2:
-            ind_opt2 += 1
-            for opt3 in OPT3:
-                ind += 1
-                ind_opt3 += 1
-                LLM_version_user = opt1
-                use_LeafMachine2_collage_images = opt2
-                prompt_version = opt3
-                filename = f"{ind}__OPT1-{ind_opt1}__OPT2-{ind_opt2}__OPT3-{ind_opt3}.yaml"
-                run_name = f"{ind}__OPT1-{ind_opt1}__OPT2-{ind_opt2}__OPT3-{ind_opt3}"
-                dir_output = os.path.join(dir_home,'demo','demo_output','run_name')
-                validate_dir(dir_output)
-                if llm_version == 'gpt':
-                    if prompt_version in ['Version 1']:
-                        config_data, dir_home = assemble_config(dir_home, run_name, dir_images_local,dir_output,
-                            prefix_removal,suffix_removal,catalog_numerical_only,LLM_version_user,batch_size,
-                            path_domain_knowledge,embeddings_database_name,use_LeafMachine2_collage_images,
-                            prompt_version, do_create_OCR_helper_image, use_domain_knowledge=True)
-                    else:
-                        config_data, dir_home = assemble_config(dir_home, run_name, dir_images_local,dir_output,
-                            prefix_removal,suffix_removal,catalog_numerical_only,LLM_version_user,batch_size,
-                            path_domain_knowledge,embeddings_database_name,use_LeafMachine2_collage_images,
-                            prompt_version, do_create_OCR_helper_image)
-                elif llm_version == 'palm':
-                    if prompt_version in ['Version 1 PaLM 2']:
-                        config_data, dir_home = assemble_config(dir_home, run_name, dir_images_local,dir_output,
-                            prefix_removal,suffix_removal,catalog_numerical_only,LLM_version_user,batch_size,
-                            path_domain_knowledge,embeddings_database_name,use_LeafMachine2_collage_images,
-                            prompt_version, do_create_OCR_helper_image, use_domain_knowledge=True)
-                    else:
-                        config_data, dir_home = assemble_config(dir_home, run_name, dir_images_local,dir_output,
-                            prefix_removal,suffix_removal,catalog_numerical_only,LLM_version_user,batch_size,
-                            path_domain_knowledge,embeddings_database_name,use_LeafMachine2_collage_images,
-                            prompt_version, do_create_OCR_helper_image)
-                write_config_file(config_data, os.path.join(dir_home,'demo','demo_configs'),filename=filename)
-                test_results[run_name] = False
-            ind_opt3 = -1
-        ind_opt2 = -1
-    ind_opt1 = -1
-    return dir_home, path_to_configs, test_results
 class TestOptionsGPT:
     OPT1 = ["gpt-4-1106-preview","GPT 4", "GPT 3.5", "Azure GPT 4", "Azure GPT 3.5"]
@@ -445,138 +445,138 @@ class TestOptionsAPI_palm:
     def get_length(cls):
         return 6
-def run_demo_tests_GPT(progress_report):
-    dir_home, path_to_configs, test_results = build_demo_tests('gpt')
-    progress_report.set_n_overall(len(test_results.items()))
-    JSON_results = {}
-    for ind, (cfg, result) in enumerate(test_results.items()):
-        OPT1, OPT2, OPT3 = TestOptionsGPT.get_options()
-        test_ind, ind_opt1, ind_opt2, ind_opt3 = cfg.split('__')
-        opt1_readable = OPT1[int(ind_opt1.split('-')[1])]
-        if opt1_readable in ["Azure GPT 4", "Azure GPT 3.5"]:
-            api_version = 'gpt-azure'
-        elif opt1_readable in ["GPT 4", "GPT 3.5"]:
-            api_version = 'gpt'
-        else:
-            raise
-        opt2_readable = "Use LeafMachine2 for Collage Images" if OPT2[int(ind_opt2.split('-')[1])] else "Don't use LeafMachine2 for Collage Images"
-        opt3_readable = f"Prompt {OPT3[int(ind_opt3.split('-')[1])]}"
-        # Construct the human-readable test name
-        human_readable_name = f"{opt1_readable}, {opt2_readable}, {opt3_readable}"
-        get_n_overall = progress_report.get_n_overall()
-        progress_report.update_overall(f"Test {int(test_ind)+1} of {get_n_overall} --- Validating {human_readable_name}")
-        print_main_fail(f"Starting validation test: {human_readable_name}")
-        cfg_file_path = os.path.join(path_to_configs,'.'.join([cfg,'yaml']))
-        if check_API_key(dir_home, api_version) and check_API_key(dir_home, 'google-vision-ocr'):
-            try:
-                last_JSON_response, total_cost = voucher_vision(cfg_file_path, dir_home, cfg_test=None, progress_report=progress_report, test_ind=int(test_ind))
-                test_results[cfg] = True
-                JSON_results[ind] = last_JSON_response
-            except Exception as e:
-                JSON_results[ind] = None
-                test_results[cfg] = False
-                print(f"An exception occurred: {e}")
-                traceback.print_exc()  # This will print the full traceback
-        else:
-            fail_response = ''
-            if not check_API_key(dir_home, 'google-vision-ocr'):
-                fail_response += "No API key found for Google Vision OCR"
-            if not check_API_key(dir_home, api_version):
-                fail_response += f"  +  No API key found for {api_version}"
-            test_results[cfg] = False
-            JSON_results[ind] = fail_response
-            print(f"No API key found for {fail_response}")
-    return test_results, JSON_results
-def run_demo_tests_Palm(progress_report):
-    api_version = 'palm'
-    dir_home, path_to_configs, test_results = build_demo_tests('palm')
-    progress_report.set_n_overall(len(test_results.items()))
-    JSON_results = {}
-    for ind, (cfg, result) in enumerate(test_results.items()):
-        OPT1, OPT2, OPT3 = TestOptionsPalm.get_options()
-        test_ind, ind_opt1, ind_opt2, ind_opt3 = cfg.split('__')
-        opt1_readable = OPT1[int(ind_opt1.split('-')[1])]
-        opt2_readable = "Use LeafMachine2 for Collage Images" if OPT2[int(ind_opt2.split('-')[1])] else "Don't use LeafMachine2 for Collage Images"
-        opt3_readable = f"Prompt {OPT3[int(ind_opt3.split('-')[1])]}"
-        # opt3_readable = "Use Domain Knowledge" if OPT3[int(ind_opt3.split('-')[1])] else "Don't use Domain Knowledge"
-        # Construct the human-readable test name
-        human_readable_name = f"{opt1_readable}, {opt2_readable}, {opt3_readable}"
-        get_n_overall = progress_report.get_n_overall()
-        progress_report.update_overall(f"Test {int(test_ind)+1} of {get_n_overall} --- Validating {human_readable_name}")
-        print_main_fail(f"Starting validation test: {human_readable_name}")
-        cfg_file_path = os.path.join(path_to_configs,'.'.join([cfg,'yaml']))
-        if check_API_key(dir_home, api_version) and check_API_key(dir_home, 'google-vision-ocr') :
-            try:
-                last_JSON_response, total_cost = voucher_vision(cfg_file_path, dir_home, cfg_test=None, path_custom_prompts=None, progress_report=progress_report, test_ind=int(test_ind))
-                test_results[cfg] = True
-                JSON_results[ind] = last_JSON_response
-            except Exception as e:
-                test_results[cfg] = False
-                JSON_results[ind] = None
-                print(f"An exception occurred: {e}")
-                traceback.print_exc()  # This will print the full traceback
-        else:
-            fail_response = ''
-            if not check_API_key(dir_home, 'google-vision-ocr'):
-                fail_response += "No API key found for Google Vision OCR"
-            if not check_API_key(dir_home, api_version):
-                fail_response += f"  +  No API key found for {api_version}"
-            test_results[cfg] = False
-            JSON_results[ind] = fail_response
-            print(f"No API key found for {fail_response}")
-    return test_results, JSON_results
-def run_api_tests(api):
-    try:
-        dir_home, path_to_configs, test_results = build_api_tests(api)
-        JSON_results = {}
-        for ind, (cfg, result) in enumerate(test_results.items()):
-            if api == 'openai':
-                OPT1, OPT2, OPT3 = TestOptionsAPI_openai.get_options()
-            elif 'azure_openai':
-                OPT1, OPT2, OPT3 = TestOptionsAPI_azure_openai.get_options()
-            elif 'palm':
-                OPT1, OPT2, OPT3 = TestOptionsAPI_palm.get_options()
-            test_ind, ind_opt1, ind_opt2, ind_opt3 = cfg.split('__')
-            opt1_readable = OPT1[int(ind_opt1.split('-')[1])]
-            opt2_readable = "Use LeafMachine2 for Collage Images" if OPT2[int(ind_opt2.split('-')[1])] else "Don't use LeafMachine2 for Collage Images"
-            opt3_readable = f"Prompt {OPT3[int(ind_opt3.split('-')[1])]}"
-            # opt3_readable = "Use Domain Knowledge" if OPT3[int(ind_opt3.split('-')[1])] else "Don't use Domain Knowledge"
-            # Construct the human-readable test name
-            human_readable_name = f"{opt1_readable}, {opt2_readable}, {opt3_readable}"
-            print_main_fail(f"Starting validation test: {human_readable_name}")
-            cfg_file_path = os.path.join(path_to_configs,'.'.join([cfg,'yaml']))
-            if check_API_key(dir_home, api) and check_API_key(dir_home, 'google-vision-ocr') :
-                try:
-                    last_JSON_response, total_cost = voucher_vision(cfg_file_path, dir_home, None,path_custom_prompts=None , cfg_test=None, progress_report=None, test_ind=int(test_ind))
-                    test_results[cfg] = True
-                    JSON_results[ind] = last_JSON_response
-                    return True
-                except Exception as e:
-                    print(e)
-                    return False
-            else:
-                return False
-    except Exception as e:
-        print(e)
-        return False
 def has_API_key(val):
         if val != '':
@@ -606,24 +606,24 @@ def check_if_usable(is_hf): ####################################################
         else:
             return False
-def check_API_key(dir_home, api_version):
-    dir_home = os.path.dirname(os.path.dirname(__file__))
-    path_cfg_private = os.path.join(dir_home, 'PRIVATE_DATA.yaml')
-    cfg_private = get_cfg_from_full_path(path_cfg_private)
-    has_key_openai = has_API_key(cfg_private['openai']['OPENAI_API_KEY'])
-    has_key_azure_openai = has_API_key(cfg_private['openai_azure']['api_version'])
-    # has_key_palm2 = has_API_key(cfg_private['google_palm']['google_palm_api'])
-    has_key_google_OCR = has_API_key(cfg_private['google']['GOOGLE_APPLICATION_CREDENTIALS'])
-    if api_version in ['gpt','openai'] and has_key_openai:
-        return True
-    elif api_version in ['gpt-azure', 'azure_openai'] and has_key_azure_openai:
-        return True
-    elif api_version == 'google-vision-ocr' and has_key_google_OCR:
-        return True
-    else:
-        return False

+import os #, yaml, platform, traceback
+from vouchervision.LeafMachine2_Config_Builder import get_default_download_folder #, write_config_file
+# from vouchervision.general_utils import validate_dir, print_main_fail
+# from vouchervision.vouchervision_main import voucher_vision
 from general_utils import get_cfg_from_full_path
 def build_VV_config(loaded_cfg=None):
     return config_data, dir_home
+# def build_api_tests(api):
+#     dir_home = os.path.dirname(os.path.dirname(__file__))
+#     path_to_configs = os.path.join(dir_home,'demo','demo_configs')
+#     dir_home = os.path.dirname(os.path.dirname(__file__))
+#     dir_images_local = os.path.join(dir_home,'demo','demo_images')
+#     validate_dir(os.path.join(dir_home,'demo','demo_configs'))
+#     path_domain_knowledge = os.path.join(dir_home,'domain_knowledge','SLTP_UM_AllAsiaMinimalInRegion.xlsx')
+#     embeddings_database_name = os.path.splitext(os.path.basename(path_domain_knowledge))[0]
+#     prefix_removal = ''
+#     suffix_removal = ''
+#     catalog_numerical_only = False
+#     batch_size = 500
+#     do_create_OCR_helper_image = False
+#     # ### Option 1: "GPT 4" of ["GPT 4", "GPT 3.5", "Azure GPT 4", "Azure GPT 3.5", "PaLM 2"]
+#     # LLM_version_user = 'Azure GPT 4'
+#     # ### Option 2: False of [False, True]
+#     # use_LeafMachine2_collage_images = False
+#     # ### Option 3: False of [False, True]
+#     # use_domain_knowledge = True
+#     test_results = {}
+#     if api == 'openai':
+#         OPT1, OPT2, OPT3 = TestOptionsAPI_openai.get_options()
+#     elif api == 'palm':
+#         OPT1, OPT2, OPT3 = TestOptionsAPI_palm.get_options()
+#     elif api == 'azure_openai':
+#         OPT1, OPT2, OPT3 = TestOptionsAPI_azure_openai.get_options()
+#     else:
+#         raise
+#     ind = -1
+#     ind_opt1 = -1
+#     ind_opt2 = -1
+#     ind_opt3 = -1
+#     for opt1 in OPT1:
+#         ind_opt1+= 1
+#         for opt2 in OPT2:
+#             ind_opt2 += 1
+#             for opt3 in OPT3:
+#                 ind += 1
+#                 ind_opt3 += 1
+#                 LLM_version_user = opt1
+#                 use_LeafMachine2_collage_images = opt2
+#                 prompt_version = opt3
+#                 filename = f"{ind}__OPT1-{ind_opt1}__OPT2-{ind_opt2}__OPT3-{ind_opt3}.yaml"
+#                 run_name = f"{ind}__OPT1-{ind_opt1}__OPT2-{ind_opt2}__OPT3-{ind_opt3}"
+#                 dir_output = os.path.join(dir_home,'demo','demo_output','run_name')
+#                 validate_dir(dir_output)
+#                 config_data, dir_home = assemble_config(dir_home, run_name, dir_images_local,dir_output,
+#                     prefix_removal,suffix_removal,catalog_numerical_only,LLM_version_user,batch_size,
+#                     path_domain_knowledge,embeddings_database_name,use_LeafMachine2_collage_images,
+#                     prompt_version,do_create_OCR_helper_image)
+#                 write_config_file(config_data, os.path.join(dir_home,'demo','demo_configs'),filename=filename)
+#                 test_results[run_name] = False
+#             ind_opt3 = -1
+#         ind_opt2 = -1
+#     ind_opt1 = -1
+#     return dir_home, path_to_configs, test_results
+# def build_demo_tests(llm_version):
+#     dir_home = os.path.dirname(os.path.dirname(__file__))
+#     path_to_configs = os.path.join(dir_home,'demo','demo_configs')
+#     dir_home = os.path.dirname(os.path.dirname(__file__))
+#     dir_images_local = os.path.join(dir_home,'demo','demo_images')
+#     validate_dir(os.path.join(dir_home,'demo','demo_configs'))
+#     path_domain_knowledge = os.path.join(dir_home,'domain_knowledge','SLTP_UM_AllAsiaMinimalInRegion.xlsx')
+#     embeddings_database_name = os.path.splitext(os.path.basename(path_domain_knowledge))[0]
+#     prefix_removal = ''
+#     suffix_removal = ''
+#     catalog_numerical_only = False
+#     batch_size = 500
+#     do_create_OCR_helper_image = False
+#     # ### Option 1: "GPT 4" of ["GPT 4", "GPT 3.5", "Azure GPT 4", "Azure GPT 3.5", "PaLM 2"]
+#     # LLM_version_user = 'Azure GPT 4'
+#     # ### Option 2: False of [False, True]
+#     # use_LeafMachine2_collage_images = False
+#     # ### Option 3: False of [False, True]
+#     # use_domain_knowledge = True
+#     test_results = {}
+#     if llm_version == 'gpt':
+#         OPT1, OPT2, OPT3 = TestOptionsGPT.get_options()
+#     elif llm_version == 'palm':
+#         OPT1, OPT2, OPT3 = TestOptionsPalm.get_options()
+#     else:
+#         raise
+#     ind = -1
+#     ind_opt1 = -1
+#     ind_opt2 = -1
+#     ind_opt3 = -1
+#     for opt1 in OPT1:
+#         ind_opt1+= 1
+#         for opt2 in OPT2:
+#             ind_opt2 += 1
+#             for opt3 in OPT3:
+#                 ind += 1
+#                 ind_opt3 += 1
+#                 LLM_version_user = opt1
+#                 use_LeafMachine2_collage_images = opt2
+#                 prompt_version = opt3
+#                 filename = f"{ind}__OPT1-{ind_opt1}__OPT2-{ind_opt2}__OPT3-{ind_opt3}.yaml"
+#                 run_name = f"{ind}__OPT1-{ind_opt1}__OPT2-{ind_opt2}__OPT3-{ind_opt3}"
+#                 dir_output = os.path.join(dir_home,'demo','demo_output','run_name')
+#                 validate_dir(dir_output)
+#                 if llm_version == 'gpt':
+#                     if prompt_version in ['Version 1']:
+#                         config_data, dir_home = assemble_config(dir_home, run_name, dir_images_local,dir_output,
+#                             prefix_removal,suffix_removal,catalog_numerical_only,LLM_version_user,batch_size,
+#                             path_domain_knowledge,embeddings_database_name,use_LeafMachine2_collage_images,
+#                             prompt_version, do_create_OCR_helper_image, use_domain_knowledge=True)
+#                     else:
+#                         config_data, dir_home = assemble_config(dir_home, run_name, dir_images_local,dir_output,
+#                             prefix_removal,suffix_removal,catalog_numerical_only,LLM_version_user,batch_size,
+#                             path_domain_knowledge,embeddings_database_name,use_LeafMachine2_collage_images,
+#                             prompt_version, do_create_OCR_helper_image)
+#                 elif llm_version == 'palm':
+#                     if prompt_version in ['Version 1 PaLM 2']:
+#                         config_data, dir_home = assemble_config(dir_home, run_name, dir_images_local,dir_output,
+#                             prefix_removal,suffix_removal,catalog_numerical_only,LLM_version_user,batch_size,
+#                             path_domain_knowledge,embeddings_database_name,use_LeafMachine2_collage_images,
+#                             prompt_version, do_create_OCR_helper_image, use_domain_knowledge=True)
+#                     else:
+#                         config_data, dir_home = assemble_config(dir_home, run_name, dir_images_local,dir_output,
+#                             prefix_removal,suffix_removal,catalog_numerical_only,LLM_version_user,batch_size,
+#                             path_domain_knowledge,embeddings_database_name,use_LeafMachine2_collage_images,
+#                             prompt_version, do_create_OCR_helper_image)
+#                 write_config_file(config_data, os.path.join(dir_home,'demo','demo_configs'),filename=filename)
+#                 test_results[run_name] = False
+#             ind_opt3 = -1
+#         ind_opt2 = -1
+#     ind_opt1 = -1
+#     return dir_home, path_to_configs, test_results
 class TestOptionsGPT:
     OPT1 = ["gpt-4-1106-preview","GPT 4", "GPT 3.5", "Azure GPT 4", "Azure GPT 3.5"]
     def get_length(cls):
         return 6
+# def run_demo_tests_GPT(progress_report):
+#     dir_home, path_to_configs, test_results = build_demo_tests('gpt')
+#     progress_report.set_n_overall(len(test_results.items()))
+#     JSON_results = {}
+#     for ind, (cfg, result) in enumerate(test_results.items()):
+#         OPT1, OPT2, OPT3 = TestOptionsGPT.get_options()
+#         test_ind, ind_opt1, ind_opt2, ind_opt3 = cfg.split('__')
+#         opt1_readable = OPT1[int(ind_opt1.split('-')[1])]
+#         if opt1_readable in ["Azure GPT 4", "Azure GPT 3.5"]:
+#             api_version = 'gpt-azure'
+#         elif opt1_readable in ["GPT 4", "GPT 3.5"]:
+#             api_version = 'gpt'
+#         else:
+#             raise
+#         opt2_readable = "Use LeafMachine2 for Collage Images" if OPT2[int(ind_opt2.split('-')[1])] else "Don't use LeafMachine2 for Collage Images"
+#         opt3_readable = f"Prompt {OPT3[int(ind_opt3.split('-')[1])]}"
+#         # Construct the human-readable test name
+#         human_readable_name = f"{opt1_readable}, {opt2_readable}, {opt3_readable}"
+#         get_n_overall = progress_report.get_n_overall()
+#         progress_report.update_overall(f"Test {int(test_ind)+1} of {get_n_overall} --- Validating {human_readable_name}")
+#         print_main_fail(f"Starting validation test: {human_readable_name}")
+#         cfg_file_path = os.path.join(path_to_configs,'.'.join([cfg,'yaml']))
+#         if check_API_key(dir_home, api_version) and check_API_key(dir_home, 'google-vision-ocr'):
+#             try:
+#                 last_JSON_response, total_cost = voucher_vision(cfg_file_path, dir_home, cfg_test=None, progress_report=progress_report, test_ind=int(test_ind))
+#                 test_results[cfg] = True
+#                 JSON_results[ind] = last_JSON_response
+#             except Exception as e:
+#                 JSON_results[ind] = None
+#                 test_results[cfg] = False
+#                 print(f"An exception occurred: {e}")
+#                 traceback.print_exc()  # This will print the full traceback
+#         else:
+#             fail_response = ''
+#             if not check_API_key(dir_home, 'google-vision-ocr'):
+#                 fail_response += "No API key found for Google Vision OCR"
+#             if not check_API_key(dir_home, api_version):
+#                 fail_response += f"  +  No API key found for {api_version}"
+#             test_results[cfg] = False
+#             JSON_results[ind] = fail_response
+#             print(f"No API key found for {fail_response}")
+#     return test_results, JSON_results
+# def run_demo_tests_Palm(progress_report):
+#     api_version = 'palm'
+#     dir_home, path_to_configs, test_results = build_demo_tests('palm')
+#     progress_report.set_n_overall(len(test_results.items()))
+#     JSON_results = {}
+#     for ind, (cfg, result) in enumerate(test_results.items()):
+#         OPT1, OPT2, OPT3 = TestOptionsPalm.get_options()
+#         test_ind, ind_opt1, ind_opt2, ind_opt3 = cfg.split('__')
+#         opt1_readable = OPT1[int(ind_opt1.split('-')[1])]
+#         opt2_readable = "Use LeafMachine2 for Collage Images" if OPT2[int(ind_opt2.split('-')[1])] else "Don't use LeafMachine2 for Collage Images"
+#         opt3_readable = f"Prompt {OPT3[int(ind_opt3.split('-')[1])]}"
+#         # opt3_readable = "Use Domain Knowledge" if OPT3[int(ind_opt3.split('-')[1])] else "Don't use Domain Knowledge"
+#         # Construct the human-readable test name
+#         human_readable_name = f"{opt1_readable}, {opt2_readable}, {opt3_readable}"
+#         get_n_overall = progress_report.get_n_overall()
+#         progress_report.update_overall(f"Test {int(test_ind)+1} of {get_n_overall} --- Validating {human_readable_name}")
+#         print_main_fail(f"Starting validation test: {human_readable_name}")
+#         cfg_file_path = os.path.join(path_to_configs,'.'.join([cfg,'yaml']))
+#         if check_API_key(dir_home, api_version) and check_API_key(dir_home, 'google-vision-ocr') :
+#             try:
+#                 last_JSON_response, total_cost = voucher_vision(cfg_file_path, dir_home, cfg_test=None, path_custom_prompts=None, progress_report=progress_report, test_ind=int(test_ind))
+#                 test_results[cfg] = True
+#                 JSON_results[ind] = last_JSON_response
+#             except Exception as e:
+#                 test_results[cfg] = False
+#                 JSON_results[ind] = None
+#                 print(f"An exception occurred: {e}")
+#                 traceback.print_exc()  # This will print the full traceback
+#         else:
+#             fail_response = ''
+#             if not check_API_key(dir_home, 'google-vision-ocr'):
+#                 fail_response += "No API key found for Google Vision OCR"
+#             if not check_API_key(dir_home, api_version):
+#                 fail_response += f"  +  No API key found for {api_version}"
+#             test_results[cfg] = False
+#             JSON_results[ind] = fail_response
+#             print(f"No API key found for {fail_response}")
+#     return test_results, JSON_results
+# def run_api_tests(api):
+#     try:
+#         dir_home, path_to_configs, test_results = build_api_tests(api)
+#         JSON_results = {}
+#         for ind, (cfg, result) in enumerate(test_results.items()):
+#             if api == 'openai':
+#                 OPT1, OPT2, OPT3 = TestOptionsAPI_openai.get_options()
+#             elif 'azure_openai':
+#                 OPT1, OPT2, OPT3 = TestOptionsAPI_azure_openai.get_options()
+#             elif 'palm':
+#                 OPT1, OPT2, OPT3 = TestOptionsAPI_palm.get_options()
+#             test_ind, ind_opt1, ind_opt2, ind_opt3 = cfg.split('__')
+#             opt1_readable = OPT1[int(ind_opt1.split('-')[1])]
+#             opt2_readable = "Use LeafMachine2 for Collage Images" if OPT2[int(ind_opt2.split('-')[1])] else "Don't use LeafMachine2 for Collage Images"
+#             opt3_readable = f"Prompt {OPT3[int(ind_opt3.split('-')[1])]}"
+#             # opt3_readable = "Use Domain Knowledge" if OPT3[int(ind_opt3.split('-')[1])] else "Don't use Domain Knowledge"
+#             # Construct the human-readable test name
+#             human_readable_name = f"{opt1_readable}, {opt2_readable}, {opt3_readable}"
+#             print_main_fail(f"Starting validation test: {human_readable_name}")
+#             cfg_file_path = os.path.join(path_to_configs,'.'.join([cfg,'yaml']))
+#             if check_API_key(dir_home, api) and check_API_key(dir_home, 'google-vision-ocr') :
+#                 try:
+#                     last_JSON_response, total_cost = voucher_vision(cfg_file_path, dir_home, None,path_custom_prompts=None , cfg_test=None, progress_report=None, test_ind=int(test_ind))
+#                     test_results[cfg] = True
+#                     JSON_results[ind] = last_JSON_response
+#                     return True
+#                 except Exception as e:
+#                     print(e)
+#                     return False
+#             else:
+#                 return False
+#     except Exception as e:
+#         print(e)
+#         return False
 def has_API_key(val):
         if val != '':
         else:
             return False
+# def check_API_key(dir_home, api_version):
+#     dir_home = os.path.dirname(os.path.dirname(__file__))
+#     path_cfg_private = os.path.join(dir_home, 'PRIVATE_DATA.yaml')
+#     cfg_private = get_cfg_from_full_path(path_cfg_private)
+#     has_key_openai = has_API_key(cfg_private['openai']['OPENAI_API_KEY'])
+#     has_key_azure_openai = has_API_key(cfg_private['openai_azure']['api_version'])
+#     # has_key_palm2 = has_API_key(cfg_private['google_palm']['google_palm_api'])
+#     has_key_google_OCR = has_API_key(cfg_private['google']['GOOGLE_APPLICATION_CREDENTIALS'])
+#     if api_version in ['gpt','openai'] and has_key_openai:
+#         return True
+#     elif api_version in ['gpt-azure', 'azure_openai'] and has_key_azure_openai:
+#         return True
+#     elif api_version == 'google-vision-ocr' and has_key_google_OCR:
+#         return True
+#     else:
+#         return False

vouchervision/directory_structure_VV.py CHANGED Viewed

@@ -1,9 +1,9 @@
-import os, pathlib, sys, inspect
-from dataclasses import dataclass, field
-currentdir = os.path.dirname(os.path.dirname(inspect.getfile(inspect.currentframe())))
-parentdir = os.path.dirname(currentdir)
-sys.path.append(parentdir)
-sys.path.append(currentdir)
 from vouchervision.general_utils import validate_dir, get_datetime
 @dataclass

+import os, pathlib #, sys, inspect
+from dataclasses import dataclass
+# currentdir = os.path.dirname(os.path.dirname(inspect.getfile(inspect.currentframe())))
+# parentdir = os.path.dirname(currentdir)
+# sys.path.append(parentdir)
+# sys.path.append(currentdir)
 from vouchervision.general_utils import validate_dir, get_datetime
 @dataclass

vouchervision/model_maps.py CHANGED Viewed

@@ -84,7 +84,7 @@ class ModelMaps:
     }
     @classmethod
-    def get_version_has_key(cls, key, has_key_openai, has_key_azure_openai, has_key_palm2, has_key_mistral):
         # Define the mapping for 'has_key' values
         version_has_key = {
             'GPT 4 Turbo 1106-preview': has_key_openai,
@@ -99,10 +99,10 @@ class ModelMaps:
             'Azure GPT 4 Turbo 1106-preview': has_key_azure_openai,
             'Azure GPT 4 32k': has_key_azure_openai,
-            'PaLM 2 text-bison@001':  has_key_palm2,
-            'PaLM 2 text-bison@002':  has_key_palm2,
-            'PaLM 2 text-unicorn@001':  has_key_palm2,
-            'Gemini Pro':  has_key_palm2,
             'Mistral Tiny':  has_key_mistral,
             'Mistral Small':  has_key_mistral,

     }
     @classmethod
+    def get_version_has_key(cls, key, has_key_openai, has_key_azure_openai, has_key_google_application_credentials, has_key_mistral):
         # Define the mapping for 'has_key' values
         version_has_key = {
             'GPT 4 Turbo 1106-preview': has_key_openai,
             'Azure GPT 4 Turbo 1106-preview': has_key_azure_openai,
             'Azure GPT 4 32k': has_key_azure_openai,
+            'PaLM 2 text-bison@001':  has_key_google_application_credentials,
+            'PaLM 2 text-bison@002':  has_key_google_application_credentials,
+            'PaLM 2 text-unicorn@001':  has_key_google_application_credentials,
+            'Gemini Pro':  has_key_google_application_credentials,
             'Mistral Tiny':  has_key_mistral,
             'Mistral Small':  has_key_mistral,

vouchervision/tool_wikipedia.py CHANGED Viewed

@@ -1,4 +1,4 @@
-import itertools, yaml,wikipediaapi, requests, re, json
 from langchain_community.tools import WikipediaQueryRun
 from langchain_community.utilities import WikipediaAPIWrapper
 # from langchain_community.tools.wikidata.tool import WikidataAPIWrapper, WikidataQueryRun

+import itertools, wikipediaapi, requests, re, json
 from langchain_community.tools import WikipediaQueryRun
 from langchain_community.utilities import WikipediaAPIWrapper
 # from langchain_community.tools.wikidata.tool import WikidataAPIWrapper, WikidataQueryRun

vouchervision/utils_VoucherVision.py CHANGED Viewed

@@ -1,14 +1,14 @@
 import openai
-import os, json, glob, shutil, yaml, torch, logging, tempfile
 import openpyxl
 from openpyxl import Workbook, load_workbook
 import vertexai
 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
 from langchain_openai import AzureChatOpenAI
 from OCR_google_cloud_vision import OCRGoogle
-import google.generativeai as genai
 from google.oauth2 import service_account
-from googleapiclient.discovery import build
 from vouchervision.LLM_OpenAI import OpenAIHandler
 from vouchervision.LLM_GooglePalm2 import GooglePalm2Handler
@@ -883,10 +883,10 @@ class VoucherVision():
             self.logger.removeHandler(handler)
-    def process_specimen_batch_OCR_test(self, path_to_crop):
-        for img_filename in os.listdir(path_to_crop):
-            img_path = os.path.join(path_to_crop, img_filename)
-        self.OCR, self.bounds, self.text_to_box_mapping = detect_text(img_path)

 import openai
+import os, json, glob, shutil, yaml, torch, logging
 import openpyxl
 from openpyxl import Workbook, load_workbook
 import vertexai
 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
 from langchain_openai import AzureChatOpenAI
 from OCR_google_cloud_vision import OCRGoogle
+# import google.generativeai as genai
 from google.oauth2 import service_account
+# from googleapiclient.discovery import build
 from vouchervision.LLM_OpenAI import OpenAIHandler
 from vouchervision.LLM_GooglePalm2 import GooglePalm2Handler
             self.logger.removeHandler(handler)
+    # def process_specimen_batch_OCR_test(self, path_to_crop):
+    #     for img_filename in os.listdir(path_to_crop):
+    #         img_path = os.path.join(path_to_crop, img_filename)
+    #     self.OCR, self.bounds, self.text_to_box_mapping = detect_text(img_path)

vouchervision/utils_hf.py CHANGED Viewed

@@ -7,7 +7,7 @@ from PIL import Image
 from PIL import Image
 from io import BytesIO
-from vouchervision.general_utils import get_cfg_from_full_path
 def setup_streamlit_config(dir_home):

 from PIL import Image
 from io import BytesIO
+# from vouchervision.general_utils import get_cfg_from_full_path
 def setup_streamlit_config(dir_home):

vouchervision/vouchervision_main.py CHANGED Viewed

@@ -1,14 +1,14 @@
 '''
 VoucherVision - based on LeafMachine2 Processes
 '''
-import os, inspect, sys, logging, subprocess, shutil
 from time import perf_counter
 currentdir = os.path.dirname(os.path.dirname(inspect.getfile(inspect.currentframe())))
 parentdir = os.path.dirname(currentdir)
 sys.path.append(parentdir)
 sys.path.append(currentdir)
 from vouchervision.component_detector.component_detector import detect_plant_components, detect_archival_components
-from general_utils import add_to_expense_report, save_token_info_as_csv, print_main_start, check_for_subdirs_VV, load_config_file, load_config_file_testing, report_config, save_config_file, subset_dir_images, crop_detections_from_images_VV
 from directory_structure_VV import Dir_Structure
 from data_project import Project_Info
 from LM2_logger import start_logging

 '''
 VoucherVision - based on LeafMachine2 Processes
 '''
+import os, inspect, sys, shutil
 from time import perf_counter
 currentdir = os.path.dirname(os.path.dirname(inspect.getfile(inspect.currentframe())))
 parentdir = os.path.dirname(currentdir)
 sys.path.append(parentdir)
 sys.path.append(currentdir)
 from vouchervision.component_detector.component_detector import detect_plant_components, detect_archival_components
+from general_utils import save_token_info_as_csv, print_main_start, check_for_subdirs_VV, load_config_file, load_config_file_testing, report_config, save_config_file, crop_detections_from_images_VV
 from directory_structure_VV import Dir_Structure
 from data_project import Project_Info
 from LM2_logger import start_logging