Spaces:

dbleek
/

cs-gy-6613-project-final

Sleeping

App Files Files Community

dbleek commited on May 2, 2023

Commit

0d30c2b

1 Parent(s): 1e95f51

added new classifier

Browse files

Files changed (2) hide show

milestone-3.py +25 -22
patent_classifier_v4.pt +3 -0

milestone-3.py CHANGED Viewed

@@ -1,8 +1,8 @@
 import streamlit as st
 import torch
 from datasets import load_dataset
 from transformers import AutoTokenizer
-from transformers import AutoModelForSequenceClassification
 from transformers import pipeline
 # Load HUPD dataset
@@ -21,21 +21,24 @@ dataset_dict = load_dataset(
 filtered_dataset = dataset_dict["validation"].filter(
     lambda e: e["decision"] == "ACCEPTED" or e["decision"] == "REJECTED"
 )
-dataset = filtered_dataset.shuffle(seed=42).select(range(20))
 dataset = dataset.sort("patent_number")
 # Create pipeline using model trainned on Colab
-model = torch.load("patent_classifier_v2.pt", map_location=torch.device("cpu"))
 tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")
-classifier = pipeline("text-classification", model=model, tokenizer=tokenizer)
-def load_patent():
     selected_application = dataset.select([applications[st.session_state.id]])
     st.session_state.abstract = selected_application["abstract"][0]
     st.session_state.claims = selected_application["claims"][0]
     st.session_state.title = selected_application["title"][0]
 st.title("CS-GY-6613 Project Milestone 3")
@@ -44,11 +47,12 @@ applications = {}
 for ds_index, example in enumerate(dataset):
     applications.update({example["patent_number"]: ds_index})
 st.selectbox(
-    "Select a patent application:", applications, on_change=load_patent, key="id"
 )
-# Application title displayed for additional context only, not used with model
-st.text_area("Title", key="title", value=dataset[0]["title"], height=50)
 # Classifier input form
 with st.form("Input Form"):
@@ -61,16 +65,15 @@ with st.form("Input Form"):
     submitted = st.form_submit_button("Get Patentability Score")
 if submitted:
-    selected_application = dataset.select([applications[st.session_state.id]])
-    res = classifier(abstract, claims)
-    if res[0]["label"] == "LABEL_0":
-        pred = "ACCEPTED"
-    elif res[0]["label"] == "LABEL_1":
-        pred = "REJECTED"
-    score = res[0]["score"]
-    label = selected_application["decision"][0]
-    result = st.markdown(
-        "This text was classified as  **{}** with a confidence score of **{}**.".format(
-            pred, score
-        )
     )

 import streamlit as st
 import torch
+from datasets import combine
 from datasets import load_dataset
 from transformers import AutoTokenizer
 from transformers import pipeline
 # Load HUPD dataset
 filtered_dataset = dataset_dict["validation"].filter(
     lambda e: e["decision"] == "ACCEPTED" or e["decision"] == "REJECTED"
 )
+seed = 88
+accepted = filtered_dataset.filter(lambda e: e["decision"] == "ACCEPTED").shuffle(seed).select(range(5))
+rejected = filtered_dataset.filter(lambda e: e["decision"] == "REJECTED").shuffle(seed).select(range(5))
+dataset = combine.concatenate_datasets([accepted, rejected])
 dataset = dataset.sort("patent_number")
 # Create pipeline using model trainned on Colab
+model = torch.load("patent_classifier_v4.pt", map_location=torch.device("cpu"))
 tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")
+tokenizer_kwargs = {'padding':True,'truncation':True}
+classifier = pipeline("text-classification", model=model, tokenizer=tokenizer, **tokenizer_kwargs)
+def load_data():
     selected_application = dataset.select([applications[st.session_state.id]])
     st.session_state.abstract = selected_application["abstract"][0]
     st.session_state.claims = selected_application["claims"][0]
     st.session_state.title = selected_application["title"][0]
+    st.session_state.decision = selected_application["decision"][0]
 st.title("CS-GY-6613 Project Milestone 3")
 for ds_index, example in enumerate(dataset):
     applications.update({example["patent_number"]: ds_index})
 st.selectbox(
+    "Select a sample patent application:", applications, on_change=load_data, key="id"
 )
+# Sample title/decision displayed for additional context only, not used with model
+st.text_input("Sample Title", key="title", value=dataset[0]["title"])
+st.text_input("Sample Decision", key="decision", value=dataset[0]["decision"])
 # Classifier input form
 with st.form("Input Form"):
     submitted = st.form_submit_button("Get Patentability Score")
 if submitted:
+    tokens = tokenizer(abstract, claims, return_tensors='pt', **tokenizer_kwargs)
+    with torch.no_grad():
+        output = model(**tokens)
+    logits = output.logits
+    pred = torch.softmax(logits, dim=1)
+    score = pred[0][1] # index 1 of softmax output is probability that decision = ACCEPTED
+    st.markdown(
+        "This application's patentability score is  **{}**".format(score)
     )

patent_classifier_v4.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae0d471894ba6a7847254acda873e574837547b684b854eaa96efe3b593f8c2d
+size 267882526