Spaces:

LLM360
/

TxT360

Running

App Files Files Community

victormiller commited on Oct 2, 2024

Commit

48b277d

verified ·

1 Parent(s): 5e5aef1

Update curated.py

Browse files

Files changed (1) hide show

curated.py +52 -52

curated.py CHANGED Viewed

@@ -89,19 +89,19 @@ table_div_wikipedia = Div(NotStr(table_html_wikipedia), style="margin: 40px;")
 freelaw_filter = pd.DataFrame(
         {
             "Dataset": [
-                "Wikipedia",
             ],
             "Lines Downloaded": [
-                "61614907",
             ],
             "Percent Removed After Language Filter": [
-                "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
-                "1.86%",
             ],
             "Percent Removed After Unigram Probability Filter": [
-                "0.00%",
             ],
             "Percent Removed After Local Dedup": [
                 "",
@@ -118,16 +118,16 @@ table_div_freelaw = Div(NotStr(table_html_freelaw), style="margin: 40px;")
 dmm_filter = pd.DataFrame(
         {
             "Dataset": [
-                "Wikipedia",
             ],
             "Lines Downloaded": [
-                "61614907",
             ],
             "Percent Removed After Language Filter": [
                 "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
-                "1.86%",
             ],
             "Percent Removed After Unigram Probability Filter": [
                 "0.00%",
@@ -148,19 +148,19 @@ table_div_dmm = Div(NotStr(table_html_dmm), style="margin: 40px;")
 uspto_filter = pd.DataFrame(
         {
             "Dataset": [
-                "Wikipedia",
             ],
             "Lines Downloaded": [
-                "61614907",
             ],
             "Percent Removed After Language Filter": [
-                "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
-                "1.86%",
             ],
             "Percent Removed After Unigram Probability Filter": [
-                "0.00%",
             ],
             "Percent Removed After Local Dedup": [
                 "",
@@ -177,19 +177,19 @@ table_div_uspto = Div(NotStr(table_html_uspto), style="margin: 40px;")
 pg19_filter = pd.DataFrame(
         {
             "Dataset": [
-                "Wikipedia",
             ],
             "Lines Downloaded": [
-                "61614907",
             ],
             "Percent Removed After Language Filter": [
-                "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
-                "1.86%",
             ],
             "Percent Removed After Unigram Probability Filter": [
-                "0.00%",
             ],
             "Percent Removed After Local Dedup": [
                 "",
@@ -207,19 +207,19 @@ table_div_pg19 = Div(NotStr(table_html_pg19), style="margin: 40px;")
 hn_filter = pd.DataFrame(
         {
             "Dataset": [
-                "Wikipedia",
             ],
             "Lines Downloaded": [
-                "61614907",
             ],
             "Percent Removed After Language Filter": [
-                "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
-                "1.86%",
             ],
             "Percent Removed After Unigram Probability Filter": [
-                "0.00%",
             ],
             "Percent Removed After Local Dedup": [
                 "",
@@ -237,19 +237,19 @@ table_div_hn = Div(NotStr(table_html_hn), style="margin: 40px;")
 uirc_filter = pd.DataFrame(
         {
             "Dataset": [
-                "Wikipedia",
             ],
             "Lines Downloaded": [
-                "61614907",
             ],
             "Percent Removed After Language Filter": [
-                "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
-                "1.86%",
             ],
             "Percent Removed After Unigram Probability Filter": [
-                "0.00%",
             ],
             "Percent Removed After Local Dedup": [
                 "",
@@ -266,16 +266,16 @@ table_div_uirc = Div(NotStr(table_html_uirc), style="margin: 40px;")
 up_filter = pd.DataFrame(
         {
             "Dataset": [
-                "Wikipedia",
             ],
             "Lines Downloaded": [
-                "61614907",
             ],
             "Percent Removed After Language Filter": [
                 "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
-                "1.86%",
             ],
             "Percent Removed After Unigram Probability Filter": [
                 "0.00%",
@@ -295,16 +295,16 @@ table_div_up = Div(NotStr(table_html_up), style="margin: 40px;")
 se_filter = pd.DataFrame(
         {
             "Dataset": [
-                "Wikipedia",
             ],
             "Lines Downloaded": [
-                "61614907",
             ],
             "Percent Removed After Language Filter": [
                 "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
-                "1.86%",
             ],
             "Percent Removed After Unigram Probability Filter": [
                 "0.00%",
@@ -324,19 +324,19 @@ table_div_se = Div(NotStr(table_html_se), style="margin: 40px;")
 arx_filter = pd.DataFrame(
         {
             "Dataset": [
-                "Wikipedia",
             ],
             "Lines Downloaded": [
-                "61614907",
             ],
             "Percent Removed After Language Filter": [
-                "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
-                "1.86%",
             ],
             "Percent Removed After Unigram Probability Filter": [
-                "0.00%",
             ],
             "Percent Removed After Local Dedup": [
                 "",
@@ -353,16 +353,16 @@ table_div_arx = Div(NotStr(table_html_arx), style="margin: 40px;")
 s2o_filter = pd.DataFrame(
         {
             "Dataset": [
-                "Wikipedia",
             ],
             "Lines Downloaded": [
-                "61614907",
             ],
             "Percent Removed After Language Filter": [
                 "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
-                "1.86%",
             ],
             "Percent Removed After Unigram Probability Filter": [
                 "0.00%",
@@ -382,19 +382,19 @@ table_div_s2o = Div(NotStr(table_html_s2o), style="margin: 40px;")
 med_filter = pd.DataFrame(
         {
             "Dataset": [
-                "Wikipedia",
             ],
             "Lines Downloaded": [
-                "61614907",
             ],
             "Percent Removed After Language Filter": [
-                "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
-                "1.86%",
             ],
             "Percent Removed After Unigram Probability Filter": [
-                "0.00%",
             ],
             "Percent Removed After Local Dedup": [
                 "",
@@ -411,19 +411,19 @@ table_div_med = Div(NotStr(table_html_med), style="margin: 40px;")
 phil_filter = pd.DataFrame(
         {
             "Dataset": [
-                "Wikipedia",
             ],
             "Lines Downloaded": [
-                "61614907",
             ],
             "Percent Removed After Language Filter": [
-                "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
-                "1.86%",
             ],
             "Percent Removed After Unigram Probability Filter": [
-                "0.00%",
             ],
             "Percent Removed After Local Dedup": [
                 "",

 freelaw_filter = pd.DataFrame(
         {
             "Dataset": [
+                "FreeLaw",
             ],
             "Lines Downloaded": [
+                "75971288",
             ],
             "Percent Removed After Language Filter": [
+                "3.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
+                "7.49%",
             ],
             "Percent Removed After Unigram Probability Filter": [
+                "0.07%",
             ],
             "Percent Removed After Local Dedup": [
                 "",
 dmm_filter = pd.DataFrame(
         {
             "Dataset": [
+                "DM Math",
             ],
             "Lines Downloaded": [
+                "112559888",
             ],
             "Percent Removed After Language Filter": [
                 "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
+                "0.00%",
             ],
             "Percent Removed After Unigram Probability Filter": [
                 "0.00%",
 uspto_filter = pd.DataFrame(
         {
             "Dataset": [
+                "USPTO",
             ],
             "Lines Downloaded": [
+                "6880276",
             ],
             "Percent Removed After Language Filter": [
+                "0.02%",
             ],
             "Percent Removed After Min Word Count Filter": [
+                "1.88%",
             ],
             "Percent Removed After Unigram Probability Filter": [
+                "0.01%",
             ],
             "Percent Removed After Local Dedup": [
                 "",
 pg19_filter = pd.DataFrame(
         {
             "Dataset": [
+                "PG-19",
             ],
             "Lines Downloaded": [
+                "28752",
             ],
             "Percent Removed After Language Filter": [
+                "0.24%",
             ],
             "Percent Removed After Min Word Count Filter": [
+                "0.00%",
             ],
             "Percent Removed After Unigram Probability Filter": [
+                "0.17%",
             ],
             "Percent Removed After Local Dedup": [
                 "",
 hn_filter = pd.DataFrame(
         {
             "Dataset": [
+                "HackerNews",
             ],
             "Lines Downloaded": [
+                "2064931",
             ],
             "Percent Removed After Language Filter": [
+                "2.62%%",
             ],
             "Percent Removed After Min Word Count Filter": [
+                "0.02%",
             ],
             "Percent Removed After Unigram Probability Filter": [
+                "0.34%",
             ],
             "Percent Removed After Local Dedup": [
                 "",
 uirc_filter = pd.DataFrame(
         {
             "Dataset": [
+                "Ubunutu IRC",
             ],
             "Lines Downloaded": [
+                "37966",
             ],
             "Percent Removed After Language Filter": [
+                "38.10%",
             ],
             "Percent Removed After Min Word Count Filter": [
+                "0.14%",
             ],
             "Percent Removed After Unigram Probability Filter": [
+                "1.12%",
             ],
             "Percent Removed After Local Dedup": [
                 "",
 up_filter = pd.DataFrame(
         {
             "Dataset": [
+                "EuroParl",
             ],
             "Lines Downloaded": [
+                "69814",
             ],
             "Percent Removed After Language Filter": [
                 "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
+                "0.00%",
             ],
             "Percent Removed After Unigram Probability Filter": [
                 "0.00%",
 se_filter = pd.DataFrame(
         {
             "Dataset": [
+                "StackExchange",
             ],
             "Lines Downloaded": [
+                "23246548",
             ],
             "Percent Removed After Language Filter": [
                 "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
+                "0.00%",
             ],
             "Percent Removed After Unigram Probability Filter": [
                 "0.00%",
 arx_filter = pd.DataFrame(
         {
             "Dataset": [
+                "ArXiv",
             ],
             "Lines Downloaded": [
+                "1911867",
             ],
             "Percent Removed After Language Filter": [
+                "2.22%",
             ],
             "Percent Removed After Min Word Count Filter": [
+                "5.65%",
             ],
             "Percent Removed After Unigram Probability Filter": [
+                "0.07%",
             ],
             "Percent Removed After Local Dedup": [
                 "",
 s2o_filter = pd.DataFrame(
         {
             "Dataset": [
+                "S2ORC",
             ],
             "Lines Downloaded": [
+                "12963563",
             ],
             "Percent Removed After Language Filter": [
                 "0.00%",
             ],
             "Percent Removed After Min Word Count Filter": [
+                "0.00%",
             ],
             "Percent Removed After Unigram Probability Filter": [
                 "0.00%",
 med_filter = pd.DataFrame(
         {
             "Dataset": [
+                "PubMed - Central",
             ],
             "Lines Downloaded": [
+                "5230932",
             ],
             "Percent Removed After Language Filter": [
+                "7.66%",
             ],
             "Percent Removed After Min Word Count Filter": [
+                "1.29%",
             ],
             "Percent Removed After Unigram Probability Filter": [
+                "0.02%",
             ],
             "Percent Removed After Local Dedup": [
                 "",
 phil_filter = pd.DataFrame(
         {
             "Dataset": [
+                "Phil Papers",
             ],
             "Lines Downloaded": [
+                "49389",
             ],
             "Percent Removed After Language Filter": [
+                "20.68%",
             ],
             "Percent Removed After Min Word Count Filter": [
+                "0.00%",
             ],
             "Percent Removed After Unigram Probability Filter": [
+                "0.12%",
             ],
             "Percent Removed After Local Dedup": [
                 "",