Auto_Classifier

Sleeping

App Files Files Community

kisooofficial

minseokKoo commited on Jan 31, 2023

Commit

0c774af

0 Parent(s):

Duplicate from minseokKoo/Auto_Classifier

Browse files

Co-authored-by: KooMinSeok <minseokKoo@users.noreply.huggingface.co>

Files changed (33) hide show

.gitattributes +34 -0
.vs/VSWorkspaceState.json +7 -0
.vs/false_alarm_detection/FileContentIndex/c4b8d8b1-bdcf-465a-8b48-9a548a0e40d4.vsidx +0 -0
.vs/false_alarm_detection/FileContentIndex/read.lock +0 -0
.vs/false_alarm_detection/v17/.wsuo +0 -0
.vs/slnx.sqlite +0 -0
README.md +14 -0
app.py +231 -0
models/CFA-CodeBERTa-small.pt/config.json +28 -0
models/CFA-CodeBERTa-small.pt/pytorch_model.bin +3 -0
models/CFA-codeT5/config.json +60 -0
models/CFA-codeT5/logs.txt +3 -0
models/CFA-codeT5/predictions.csv +2 -0
models/CFA-codeT5/pytorch_model.bin +3 -0
models/CFA-codeT5/special_tokens_map.json +107 -0
models/CFA-codeT5/spiece.model +3 -0
models/CFA-codeT5/tokenizer_config.json +113 -0
models/CFA-codebert-c-v2.pt/config.json +29 -0
models/CFA-codebert-c-v2.pt/merges.txt +0 -0
models/CFA-codebert-c-v2.pt/pytorch_model.bin +3 -0
models/CFA-codebert-c-v2.pt/special_tokens_map.json +15 -0
models/CFA-codebert-c-v2.pt/tokenizer_config.json +65 -0
models/CFA-codebert-c-v2.pt/training_args.bin +3 -0
models/CFA-codebert-c-v2.pt/vocab.json +0 -0
models/CFA-codebert-c.pt/config.json +29 -0
models/CFA-codebert-c.pt/merges.txt +0 -0
models/CFA-codebert-c.pt/pytorch_model.bin +3 -0
models/CFA-codebert-c.pt/special_tokens_map.json +15 -0
models/CFA-codebert-c.pt/tokenizer.json +0 -0
models/CFA-codebert-c.pt/tokenizer_config.json +65 -0
models/CFA-codebert-c.pt/training_args.bin +3 -0
models/CFA-codebert-c.pt/vocab.json +0 -0
requirements.txt +6 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

.vs/VSWorkspaceState.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "ExpandedNodes": [
+    ""
+  ],
+  "SelectedNode": "\\predict.py",
+  "PreviewInSolutionExplorer": false
+}

.vs/false_alarm_detection/FileContentIndex/c4b8d8b1-bdcf-465a-8b48-9a548a0e40d4.vsidx ADDED Viewed

Binary file (298 kB). View file

.vs/false_alarm_detection/FileContentIndex/read.lock ADDED Viewed

File without changes

.vs/false_alarm_detection/v17/.wsuo ADDED Viewed

Binary file (22 kB). View file

.vs/slnx.sqlite ADDED Viewed

Binary file (90.1 kB). View file

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: Auto Classifier
+emoji: 💻
+colorFrom: red
+colorTo: purple
+sdk: gradio
+sdk_version: 3.16.2
+app_file: app.py
+pinned: false
+license: openrail
+duplicated_from: minseokKoo/Auto_Classifier
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,231 @@

+import pandas as pd
+import numpy as np
+import re
+import os
+import sys
+import random
+import transformers
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+from transformers import RobertaTokenizer, RobertaForSequenceClassification
+import torch
+import torch.nn.functional as F
+from torch.utils.data import Dataset, DataLoader, RandomSampler, SequentialSampler
+from transformers import T5Tokenizer, T5ForConditionalGeneration
+import gradio as gr
+def greet(co):
+    code_text = []
+    code_text.append(co)
+    code_text = ' '.join(code_text)
+    code_text = re.sub('\/\*[\S\s]*\*\/', '', code_text)
+    code_text = re.sub('\/\/.*', '', code_text)
+    code_text = re.sub('(\\\\n)+', '\\n', code_text)
+    # 1. CFA-CodeBERTa-small.pt -> CodeBERTa-small-v1 finetunig model
+    path = os.getcwd() + '/models/CFA-CodeBERTa-small.pt'
+    tokenizer = AutoTokenizer.from_pretrained("huggingface/CodeBERTa-small-v1")
+    input_ids = tokenizer.encode(
+        code_text, max_length=512, truncation=True, padding='max_length')
+    input_ids = torch.tensor([input_ids])
+    model = RobertaForSequenceClassification.from_pretrained(
+        path, num_labels=2)
+    model.to('cpu')
+    pred_1 = model(input_ids)[0].detach().cpu().numpy()[0]
+    # model(input_ids)[0].argmax().detach().cpu().numpy().item()
+    # 2. CFA-codebert-c.pt -> codebert-c finetuning model
+    path = os.getcwd() + '/models/CFA-codebert-c.pt'
+    tokenizer = AutoTokenizer.from_pretrained(path)
+    input_ids = tokenizer(code_text, padding=True, max_length=512,
+                          truncation=True, return_token_type_ids=True)['input_ids']
+    input_ids = torch.tensor([input_ids])
+    model = AutoModelForSequenceClassification.from_pretrained(
+        path, num_labels=2)
+    model.to('cpu')
+    pred_2 = model(input_ids)[0].detach().cpu().numpy()[0]
+    # 3. CFA-codebert-c-v2.pt -> undersampling + codebert-c finetuning model
+    path = os.getcwd() + '/models/CFA-codebert-c-v2.pt'
+    tokenizer = RobertaTokenizer.from_pretrained(path)
+    input_ids = tokenizer(code_text, padding=True, max_length=512,
+                          truncation=True, return_token_type_ids=True)['input_ids']
+    input_ids = torch.tensor([input_ids])
+    model = RobertaForSequenceClassification.from_pretrained(
+        path, num_labels=2)
+    model.to('cpu')
+    pred_3 = model(input_ids)[0].detach().cpu().numpy()
+    # 4. codeT5 finetuning model
+    path = os.getcwd() + '/models/CFA-codeT5'
+    model_params = {
+        # model_type: t5-base/t5-large
+        "MODEL": path,
+        "TRAIN_BATCH_SIZE": 8,  # training batch size
+        "VALID_BATCH_SIZE": 8,  # validation batch size
+        "VAL_EPOCHS": 1,  # number of validation epochs
+        "MAX_SOURCE_TEXT_LENGTH": 512,  # max length of source text
+        "MAX_TARGET_TEXT_LENGTH": 3,  # max length of target text
+        "SEED": 2022,  # set seed for reproducibility
+    }
+    data = pd.DataFrame({'code': [code_text]})
+    pred_4 = T5Trainer(
+        dataframe=data,
+        source_text="code",
+        model_params=model_params
+    )
+    pred_4 = int(pred_4[0])
+    # ensemble
+    tot_result = (pred_1 * 0.8 + pred_2 * 0.1 +
+                  pred_3 * 0.1 + pred_4 * 0.1).argmax()
+    if tot_result == 0:
+        return "false positive !!"
+    else:
+        return "true positive !!"
+# codeT5
+class YourDataSetClass(Dataset):
+    def __init__(
+            self, dataframe, tokenizer, source_len, source_text):
+        self.tokenizer = tokenizer
+        self.data = dataframe
+        self.source_len = source_len
+        # self.summ_len = target_len
+        # self.target_text = self.data[target_text]
+        self.source_text = self.data[source_text]
+    def __len__(self):
+        return len(self.source_text)
+    def __getitem__(self, index):
+        source_text = str(self.source_text[index])
+        source_text = " ".join(source_text.split())
+        source = self.tokenizer.batch_encode_plus(
+            [source_text],
+            max_length=self.source_len,
+            pad_to_max_length=True,
+            truncation=True,
+            padding="max_length",
+            return_tensors="pt",
+        )
+        source_ids = source["input_ids"].squeeze()
+        source_mask = source["attention_mask"].squeeze()
+        return {
+            "source_ids": source_ids.to(dtype=torch.long),
+            "source_mask": source_mask.to(dtype=torch.long),
+        }
+def validate(epoch, tokenizer, model, device, loader):
+    model.eval()
+    predictions = []
+    with torch.no_grad():
+        for _, data in enumerate(loader, 0):
+            ids = data['source_ids'].to(device, dtype=torch.long)
+            mask = data['source_mask'].to(device, dtype=torch.long)
+            generated_ids = model.generate(
+                input_ids=ids,
+                attention_mask=mask,
+                max_length=150,
+                num_beams=2,
+                repetition_penalty=2.5,
+                length_penalty=1.0,
+                early_stopping=True
+            )
+            preds = [tokenizer.decode(
+                g, skip_special_tokens=True, clean_up_tokenization_spaces=True) for g in generated_ids]
+            if ((preds != '0') | (preds != '1')):
+                preds = '0'
+            predictions.extend(preds)
+    return predictions
+def T5Trainer(dataframe, source_text, model_params, step="test",):
+    torch.manual_seed(model_params["SEED"])  # pytorch random seed
+    np.random.seed(model_params["SEED"])  # numpy random seed
+    torch.backends.cudnn.deterministic = True
+    tokenizer = T5Tokenizer.from_pretrained(model_params["MODEL"])
+    model = T5ForConditionalGeneration.from_pretrained(model_params["MODEL"])
+    model = model.to('cpu')
+    dataframe = dataframe[[source_text]]
+    val_dataset = dataframe
+    val_set = YourDataSetClass(
+        val_dataset, tokenizer, model_params["MAX_SOURCE_TEXT_LENGTH"],  source_text)
+    val_params = {
+        'batch_size': model_params["VALID_BATCH_SIZE"],
+        'shuffle': False,
+        'num_workers': 0
+    }
+    val_loader = DataLoader(val_set, **val_params)
+    for epoch in range(model_params["VAL_EPOCHS"]):
+        predictions = validate(epoch, tokenizer, model, 'cpu', val_loader)
+    return predictions
+#################################################################################
+'''demo = gr.Interface(
+    fn = greet,
+    inputs = "text",
+    outputs= "number")
+demo.launch(share=True)
+'''
+with gr.Blocks() as demo1:
+    gr.Markdown(
+    """
+    <h1 align="center">
+    False-Alarm-Detector
+    </h1>
+    """)
+    gr.Markdown(
+    """
+    정적 분석기로 오류라고 보고된 코드를 입력하면,
+    오류가 True-positive 인지 False-positive 인지 분류 해 주는 프로그램이다.
+    """)
+    with gr.Accordion(label='모델에 대한 설명 ( 여기를 클릭 하시오. )',open=False):
+        gr.Markdown(
+        """
+        총 3개의 모델을 사용하였다.
+        1. codeBERTa-small-v1
+        - codeBERTa-small-v1 설명
+        2. codeBERT - C
+        - codeBERT - C 설명
+        3. codeT5
+        - codeT5 설명
+        """
+        )
+    with gr.Row():
+        with gr.Column():
+            inputs_1 = gr.Textbox(placeholder="코드를 입력하시오.", label='Code')
+            with gr.Row():
+                btn = gr.Button("결과 출력")
+        with gr.Column():
+            outputs_1 = gr.Text(label = 'Result')
+    btn.click(fn = greet, inputs = inputs_1, outputs= outputs_1)
+if __name__ == "__main__":
+    demo1.launch()

models/CFA-CodeBERTa-small.pt/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "/content/drive/MyDrive/sanhak_d2a/checkpoint_ver2/model_48000.pt",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 52000
+}

models/CFA-CodeBERTa-small.pt/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ebc62a218f82300fb2dff958c293f6526b00be7bc92adf3d4012ce0c79f340e
+size 333849845

models/CFA-codeT5/config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "_name_or_path": "t5-small",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 6,
+  "num_heads": 8,
+  "num_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}

models/CFA-codeT5/logs.txt ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ [14:31:15] [Data]: Reading data... <ipython-input-13-7b186dfd070a>:122
2	+
3	+ VALID Dataset: (1, 1)

models/CFA-codeT5/predictions.csv ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ ,Generated Text
2	+ 0,0

models/CFA-codeT5/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:116cfaf06330d424e695fb5780b8dd91eb9593a68f14d4b7bb60edb5a6d603c6
+size 242071641

models/CFA-codeT5/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

models/CFA-codeT5/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

models/CFA-codeT5/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,113 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 512,
+  "name_or_path": "t5-small",
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "special_tokens_map_file": null,
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

models/CFA-codebert-c-v2.pt/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "neulab/codebert-c",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

models/CFA-codebert-c-v2.pt/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

models/CFA-codebert-c-v2.pt/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4700941c692199dd089f27a8e009b9b16a07807cc00dde7efd2b786e171438e
+size 498662069

models/CFA-codebert-c-v2.pt/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

models/CFA-codebert-c-v2.pt/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "errors": "replace",
+  "mask_token": {
+    "__type": "AddedToken",
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 512,
+  "name_or_path": "neulab/codebert-c",
+  "pad_token": {
+    "__type": "AddedToken",
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "special_tokens_map_file": "/home/ualon/.cache/huggingface/transformers/6b6d54aefb63b9d58f063d74c065c9b46f06a8d4021859f4a1334aa6779e2528.0dc5b1041f62041ebbd23b1297f2f573769d5c97d8b7c28180ec86b8f6185aa8",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

models/CFA-codebert-c-v2.pt/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51f91209766606979ae7781ee99d8c562fd6a4679bf01919c4b35438b5192fbb
+size 3387

models/CFA-codebert-c-v2.pt/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

models/CFA-codebert-c.pt/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "neulab/codebert-c",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

models/CFA-codebert-c.pt/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

models/CFA-codebert-c.pt/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7822986c75e0f31144128a9f4e4601053c46862ce51ae9d4eb10b579df4ce769
+size 498662069

models/CFA-codebert-c.pt/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

models/CFA-codebert-c.pt/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

models/CFA-codebert-c.pt/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "errors": "replace",
+  "mask_token": {
+    "__type": "AddedToken",
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 512,
+  "name_or_path": "neulab/codebert-c",
+  "pad_token": {
+    "__type": "AddedToken",
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "special_tokens_map_file": "/home/ualon/.cache/huggingface/transformers/6b6d54aefb63b9d58f063d74c065c9b46f06a8d4021859f4a1334aa6779e2528.0dc5b1041f62041ebbd23b1297f2f573769d5c97d8b7c28180ec86b8f6185aa8",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

models/CFA-codebert-c.pt/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d79cc06ab8ecfdc58775613d97db99b1198279b90238c9c5b6801ea168e6c393
+size 3387

models/CFA-codebert-c.pt/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+numpy
+pandas
+torch
+transformers
+tensorflow-cpu
+sentencepiece