Spaces:

JuanJoseMV
/

neuraltextgen_BERT

Paused

App Files Files Community

JuanJoseMV commited on Mar 24, 2023

Commit

8bff16c

1 Parent(s): 65145f1

testing locally

Browse files

Files changed (5) hide show

NeuralTextGenerator.py +4 -1
__pycache__/NeuralTextGenerator.cpython-310.pyc +0 -0
__pycache__/app.cpython-310.pyc +0 -0
app.py +63 -39
flagged/log.csv +6 -0

NeuralTextGenerator.py CHANGED Viewed

@@ -20,7 +20,7 @@ DEFAULT_DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
 class BertTextGenerator:
-    def __init__(self, model_version, tokenizer, device=DEFAULT_DEVICE, use_apex=APEX_AVAILABLE, use_fast=True,
                  do_basic_tokenize=True):
         """
         Wrapper of a BERT model from AutoModelForMaskedLM from huggingfaces.
@@ -47,6 +47,9 @@ class BertTextGenerator:
             self.model, optimizer = amp.initialize(self.model, optimizer, opt_level="O2", keep_batchnorm_fp32=True,
                                                    loss_scale="dynamic")
         self.tokenizer = AutoTokenizer.from_pretrained(tokenizer, do_lower_case="uncased" in model_version,
                                                        use_fast=use_fast,
                                                        do_basic_tokenize=do_basic_tokenize)  # added to avoid splitting of unused tokens

 class BertTextGenerator:
+    def __init__(self, model_version, tokenizer=None, device=DEFAULT_DEVICE, use_apex=APEX_AVAILABLE, use_fast=True,
                  do_basic_tokenize=True):
         """
         Wrapper of a BERT model from AutoModelForMaskedLM from huggingfaces.
             self.model, optimizer = amp.initialize(self.model, optimizer, opt_level="O2", keep_batchnorm_fp32=True,
                                                    loss_scale="dynamic")
+        if tokenizer is None:
+            tokenizer = model_version
         self.tokenizer = AutoTokenizer.from_pretrained(tokenizer, do_lower_case="uncased" in model_version,
                                                        use_fast=use_fast,
                                                        do_basic_tokenize=do_basic_tokenize)  # added to avoid splitting of unused tokens

__pycache__/NeuralTextGenerator.cpython-310.pyc CHANGED Viewed

Binary files a/__pycache__/NeuralTextGenerator.cpython-310.pyc and b/__pycache__/NeuralTextGenerator.cpython-310.pyc differ

__pycache__/app.cpython-310.pyc ADDED Viewed

Binary file (2.49 kB). View file

app.py CHANGED Viewed

@@ -1,25 +1,12 @@
 import gradio as gr
 from NeuralTextGenerator import BertTextGenerator
 # Load models
-## BERT
-BERT_model_name = "Twitter/twhin-bert-large"
-BERT = BertTextGenerator(BERT_model_name, tokenizer=BERT_model_name)
-## RoBERTa
-RoBERTa_model_name = "cardiffnlp/twitter-xlm-roberta-base"
-RoBERTa = BertTextGenerator(RoBERTa_model_name, tokenizer=RoBERTa_model_name)
-## Finetuned BERT
-finetunned_BERT_model_name = "JuanJoseMV/BERT_text_gen"
-finetunned_BERT = BertTextGenerator(finetunned_BERT_model_name, tokenizer='bert-base-uncased')
-## Finetuned RoBERTa
-finetunned_RoBERTa_model_name = "JuanJoseMV/XLM_RoBERTa_text_gen"
-finetunned_RoBERTa = BertTextGenerator(finetunned_RoBERTa_model_name, tokenizer=finetunned_RoBERTa_model_name)
-## Add special tokens
 special_tokens = [
     '[POSITIVE-0]',
     '[POSITIVE-1]',
@@ -29,58 +16,95 @@ special_tokens = [
     '[NEGATIVE-2]'
     ]
-BERT.tokenizer.add_special_tokens({'additional_special_tokens': special_tokens})
-BERT.model.resize_token_embeddings(len(BERT.tokenizer))
-RoBERTa.tokenizer.add_special_tokens({'additional_special_tokens': special_tokens})
-RoBERTa.model.resize_token_embeddings(len(RoBERTa.tokenizer))
-finetunned_BERT.tokenizer.add_special_tokens({'additional_special_tokens': special_tokens})
-finetunned_BERT.model.resize_token_embeddings(len(finetunned_BERT.tokenizer))
-def sentence_builder(selected_model, n_sentences, max_iter, sentiment, seed_text):
     if selected_model == "Finetuned_RoBERTa":
         generator = finetunned_RoBERTa
-    elif selected_model == "Finetuned_BERT":
-        generator = finetunned_BERT
-    elif selected_model == "RoBERTa":
         generator = RoBERTa
     else:
         generator = BERT
     parameters = {'n_sentences': n_sentences,
-              'batch_size': 2,
               'avg_len':30,
               'max_len':50,
-              # 'std_len' : 3,
               'generation_method':'parallel',
               'sample': True,
               'burnin': 450,
               'max_iter': max_iter,
-              'top_k': 100,
               'seed_text': f"[{sentiment}-0] [{sentiment}-1] [{sentiment}-2] {seed_text}",
               'verbose': True
               }
     sents = generator.generate(**parameters)
-    gen_text = ''
     for i, s in enumerate(sents):
-        gen_text += f'- GENERATED TWEET #{i}: {s}\n'
     return gen_text
 demo = gr.Interface(
     sentence_builder,
     [
-        gr.Radio(["BERT", "RoBERTa", "Finetuned_RoBERTa", "Finetunned_BERT"], value="BERT", label="Generator model"),
-        gr.Slider(1, 15, value=2, label="Num. Tweets", step=1, info="Number of tweets to be generated."),
-        gr.Slider(50, 500, value=100, label="Max. iter", info="Maximum number of iterations for the generation."),
-        gr.Radio(["POSITIVE", "NEGATIVE"], value="POSITIVE", label="Sentiment to generate"),
-        gr.Textbox('', label="Seed text", info="Seed text for the generation.")
     ],
     "text",
 )
 demo.launch()

+import os
+os.environ["CUDA_VISIBLE_DEVICES"] = "1"
+import re
 import gradio as gr
 from NeuralTextGenerator import BertTextGenerator
 # Load models
+## Special tokens
 special_tokens = [
     '[POSITIVE-0]',
     '[POSITIVE-1]',
     '[NEGATIVE-2]'
     ]
+## Finetuned RoBERTa
+finetunned_RoBERTa_model_name = "JuanJoseMV/XLM_RoBERTa_text_gen"
+finetunned_RoBERTa = BertTextGenerator(finetunned_RoBERTa_model_name)
+finetunned_RoBERTa.tokenizer.add_special_tokens({'additional_special_tokens': special_tokens})
+finetunned_RoBERTa.model.resize_token_embeddings(len(finetunned_RoBERTa.tokenizer))
+## Finetuned RoBERTa hate
+finetunned_RoBERTa_Hate_model_name = "JuanJoseMV/XLM_RoBERTa_text_gen_FT_Hate"
+finetunned_RoBERTa_Hate = BertTextGenerator(finetunned_RoBERTa_Hate_model_name)
+# finetunned_RoBERTa_Hate.tokenizer.add_special_tokens({'additional_special_tokens': special_tokens})
+# finetunned_RoBERTa_Hate.model.resize_token_embeddings(len(finetunned_RoBERTa_Hate.tokenizer))
+# ## Finetuned BERT
+# finetunned_BERT_model_name = "JuanJoseMV/BERT_text_gen"
+# finetunned_BERT = BertTextGenerator(finetunned_BERT_model_name, tokenizer='Twitter/twhin-bert-large')
+# finetunned_BERT.tokenizer.add_special_tokens({'additional_special_tokens': special_tokens})
+# finetunned_BERT.model.resize_token_embeddings(len(finetunned_BERT.tokenizer))
+## RoBERTa
+RoBERTa_model_name = "cardiffnlp/twitter-xlm-roberta-base"
+RoBERTa = BertTextGenerator(RoBERTa_model_name)
+## BERT
+BERT_model_name = "Twitter/twhin-bert-large"
+BERT = BertTextGenerator(BERT_model_name)
+def sentence_builder(
+        selected_model,
+        n_sentences,
+        max_iter,
+        temperature,
+        top_k,
+        sentiment,
+        seed_text
+        ):
+    # Select model
     if selected_model == "Finetuned_RoBERTa":
         generator = finetunned_RoBERTa
+    elif selected_model == "Finetuned_RoBERTa_Hate":
+        generator = finetunned_RoBERTa_Hate
+        sentiment = 'HATE'
+    if selected_model == "RoBERTa":
         generator = RoBERTa
     else:
         generator = BERT
+    # Generate
     parameters = {'n_sentences': n_sentences,
+              'batch_size': n_sentences if n_sentences < 10 else 10,
               'avg_len':30,
               'max_len':50,
+              'std_len' : 3,
               'generation_method':'parallel',
               'sample': True,
               'burnin': 450,
               'max_iter': max_iter,
+              'top_k': top_k,
               'seed_text': f"[{sentiment}-0] [{sentiment}-1] [{sentiment}-2] {seed_text}",
+              'temperature': temperature,
               'verbose': True
               }
     sents = generator.generate(**parameters)
+    # Clean
+    gen_text = ''
     for i, s in enumerate(sents):
+        clean_sent = re.sub(r'\[.*?\]', '', s)
+        gen_text += f'- GENERATED TWEET #{i + 1}: {clean_sent}\n\n'
     return gen_text
+# Set Demo
 demo = gr.Interface(
     sentence_builder,
     [
+        gr.Radio(["BERT", "RoBERTa", "Finetuned_RoBERTa", "Finetuned_RoBERTa_Hate"], value="RoBERTa", label="Generator model"),
+        # gr.Radio(["BERT", "RoBERTa"], value="BERT", label="Generator model"),
+        gr.Slider(1, 15, value=5, label="Num. Tweets", step=1, info="Number of tweets to be generated."),
+        gr.Slider(50, 500, value=300, label="Max. iter", info="Maximum number of iterations for the generation."),
+        gr.Slider(0, 1.0, value=0.8, step=0.05, label="Temperature", info="Temperature parameter for the generation."),
+        gr.Slider(1, 200, value=130, step=1, label="Top k", info="Top k parameter for the generation."),
+        gr.Radio(["POSITIVE", "NEGATIVE"], value="NEGATIVE", label="Sentiment to generate"),
+        gr.Textbox('ATP Finals in Turin', label="Seed text", info="Seed text for the generation.")
     ],
     "text",
 )
+# Run Demo
 demo.launch()

flagged/log.csv ADDED Viewed

	@@ -0,0 +1,6 @@

+Generator model,Num. Tweets,Max. iter,Temperature,Top k,Sentiment to generate,Seed text,output,flag,username,timestamp
+BERT,2,300,0.7,130,POSITIVE,Awesome ATP Finals in Turin,"'- GENERATED TWEET #1:    Awesome ATP Finals in Turin,,,,,,,,,,,,,,,,,,,,, from Nikita Dancin ⚡️
+- GENERATED TWEET #2:    Awesome ATP Finals in Turin👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏👏
+",,,2023-03-24 11:04:02.609689