Spaces:

rishiraj
/

dataset-chat-template

Sleeping

App Files Files Community

rishiraj commited on Nov 14, 2023

Commit

4efce51

1 Parent(s): a229104

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -15

app.py CHANGED Viewed

@@ -7,17 +7,16 @@ from alignment import (
     get_tokenizer,
 )
-def template(base_model, trained_adapter, token):
-    data_args = DataArguments(chat_template=None, dataset_mixer={'HuggingFaceH4/no_robots': 1.0}, dataset_splits=['train_sft', 'test_sft'], max_train_samples=None, max_eval_samples=None, preprocessing_num_workers=12, truncation_side=None)
-    model_args = ModelArguments(base_model_revision=None, model_name_or_path='mistralai/Mistral-7B-v0.1', model_revision='main', model_code_revision=None, torch_dtype='auto', trust_remote_code=True, use_flash_attention_2=True, use_peft=True, lora_r=64, lora_alpha=16, lora_dropout=0.1, lora_target_modules=['q_proj', 'k_proj', 'v_proj', 'o_proj'], lora_modules_to_save=None, load_in_8bit=False, load_in_4bit=True, bnb_4bit_quant_type='nf4', use_bnb_nested_quant=False)
     ###############
     # Load datasets
     ###############
     raw_datasets = get_datasets(data_args, splits=data_args.dataset_splits)
-    logger.info(
-        f"Training on the following datasets and their proportions: {[split + ' : ' + str(dset.num_rows) for split, dset in raw_datasets.items()]}"
-    )
     ################
     # Load tokenizer
@@ -31,9 +30,15 @@ def template(base_model, trained_adapter, token):
     train_dataset = raw_datasets["train"]
     eval_dataset = raw_datasets["test"]
 with gr.Blocks() as demo:
-    gr.Markdown("## AutoTrain Merge Adapter")
-    gr.Markdown("Please duplicate this space and attach a GPU in order to use it.")
     token = gr.Textbox(
         label="Hugging Face Write Token",
         value="",
@@ -42,23 +47,44 @@ with gr.Blocks() as demo:
         interactive=True,
         type="password",
     )
-    base_model = gr.Textbox(
-        label="Base Model (e.g. meta-llama/Llama-2-7b-chat-hf)",
-        value="",
         lines=1,
         max_lines=1,
         interactive=True,
     )
-    trained_adapter = gr.Textbox(
-        label="Trained Adapter Model (e.g. username/autotrain-my-llama)",
         value="",
         lines=1,
         max_lines=1,
         interactive=True,
     )
-    submit = gr.Button(value="Merge & Push")
     op = gr.Markdown(interactive=False)
-    submit.click(merge, inputs=[base_model, trained_adapter, token], outputs=[op])
 if __name__ == "__main__":

     get_tokenizer,
 )
+def reformat(dataset_name, train_split, test_split, model_name, upload_name, token):
+    data_args = DataArguments(chat_template=None, dataset_mixer={dataset_name: 1.0}, dataset_splits=[train_split, test_split], max_train_samples=None, max_eval_samples=None, preprocessing_num_workers=12, truncation_side=None)
+    model_args = ModelArguments(base_model_revision=None, model_name_or_path=model_name, model_revision='main', model_code_revision=None, torch_dtype='auto', trust_remote_code=True, use_flash_attention_2=True, use_peft=True, lora_r=64, lora_alpha=16, lora_dropout=0.1, lora_target_modules=['q_proj', 'k_proj', 'v_proj', 'o_proj'], lora_modules_to_save=None, load_in_8bit=False, load_in_4bit=True, bnb_4bit_quant_type='nf4', use_bnb_nested_quant=False)
     ###############
     # Load datasets
     ###############
     raw_datasets = get_datasets(data_args, splits=data_args.dataset_splits)
+    output = f"Dataset successfully formatted and pushed! Dataset and their proportions: {[split + ' : ' + str(dset.num_rows) for split, dset in raw_datasets.items()]}"
     ################
     # Load tokenizer
     train_dataset = raw_datasets["train"]
     eval_dataset = raw_datasets["test"]
+    raw_dataset.push_to_hub(upload_name)
+    return gr.Markdown.update(
+        value=output
+    )
 with gr.Blocks() as demo:
+    gr.Markdown("## Dataset Chat Template")
+    gr.Markdown("Format Datasets like HuggingFaceH4/no_robots to be AutoTrain compatible.")
     token = gr.Textbox(
         label="Hugging Face Write Token",
         value="",
         interactive=True,
         type="password",
     )
+    dataset_name = gr.Textbox(
+        label="Dataset Name (e.g. HuggingFaceH4/no_robots)",
+        value="HuggingFaceH4/no_robots",
+        lines=1,
+        max_lines=1,
+        interactive=True,
+    )
+    train_split = gr.Textbox(
+        label="Train Split Name (e.g. train_sft)",
+        value="train_sft",
+        lines=1,
+        max_lines=1,
+        interactive=True,
+    )
+    test_split = gr.Textbox(
+        label="Test Split Name (e.g. test_sft)",
+        value="test_sft",
+        lines=1,
+        max_lines=1,
+        interactive=True,
+    )
+    model_name = gr.Textbox(
+        label="Model Name (e.g. mistralai/Mistral-7B-v0.1)",
+        value="mistralai/Mistral-7B-v0.1",
         lines=1,
         max_lines=1,
         interactive=True,
     )
+    upload_name = gr.Textbox(
+        label="Your Dataset Name (e.g. rishiraj/no_robots)",
         value="",
         lines=1,
         max_lines=1,
         interactive=True,
     )
+    submit = gr.Button(value="Apply Template & Push")
     op = gr.Markdown(interactive=False)
+    submit.click(reformat, inputs=[dataset_name, train_split, test_split, model_name, upload_name, token], outputs=[op])
 if __name__ == "__main__":