Spaces:

huggingface
/

data-measurements-tool

Build error

App Files Files Community

meg-huggingface commited on Dec 7, 2021

Commit

9f6cc2b

1 Parent(s): 79d1ddf

Addressing lengths bug; changing example; changing default way of running to be the feature-specified version

Browse files

Files changed (1) hide show

run_data_measurements.py +6 -11

run_data_measurements.py CHANGED Viewed

@@ -30,13 +30,15 @@ def load_or_prepare_widgets(ds_args, show_embeddings=False, use_cache=False):
     dstats = dataset_statistics.DatasetStatisticsCacheClass(**ds_args,
                                                             use_cache=use_cache)
     # Header widget
     dstats.load_or_prepare_dset_peek()
     # General stats widget
     dstats.load_or_prepare_general_stats()
     # Labels widget
     try:
-        dstats.set_label_field("label")
         dstats.load_or_prepare_labels()
     except:
         pass
@@ -79,15 +81,7 @@ def load_or_prepare(dataset_args, do_html=False, use_cache=False):
     if all or dataset_args["calculation"] == "lengths":
         print("\n* Calculating text lengths.")
-        fig_tok_length_fid = pjoin(dstats.cache_path, "lengths_fig.html")
-        tok_length_json_fid = pjoin(dstats.cache_path, "lengths.json")
         dstats.load_or_prepare_text_lengths()
-        with open(tok_length_json_fid, "w+") as f:
-            json.dump(dstats.fig_tok_length.to_json(), f)
-            print("Token lengths now available at %s." % tok_length_json_fid)
-        if do_html:
-            dstats.fig_tok_length.write_html(fig_tok_length_fid)
-            print("Figure saved to %s." % fig_tok_length_fid)
         print("Done!")
     if all or dataset_args["calculation"] == "labels":
@@ -95,6 +89,7 @@ def load_or_prepare(dataset_args, do_html=False, use_cache=False):
             print("Warning: You asked for label calculation, but didn't provide "
                   "the labels field name.  Assuming it is 'label'...")
             dstats.set_label_field("label")
             print("\n* Calculating label distribution.")
             dstats.load_or_prepare_labels()
             fig_label_html = pjoin(dstats.cache_path, "labels_fig.html")
@@ -190,7 +185,7 @@ def get_text_label_df(
         "calculation": calculation,
         "cache_dir": out_dir,
     }
-    load_or_prepare_widgets(dataset_args, use_cache=use_cache)
 def main():
@@ -272,7 +267,7 @@ def main():
     args = parser.parse_args()
     print("Proceeding with the following arguments:")
     print(args)
-    # run_data_measurements.py -n hate_speech18 -c default -s train -f text -w npmi
     get_text_label_df(
         args.dataset,
         args.config,

     dstats = dataset_statistics.DatasetStatisticsCacheClass(**ds_args,
                                                             use_cache=use_cache)
+    # Embeddings widget
+    dstats.load_or_prepare_dataset()
     # Header widget
     dstats.load_or_prepare_dset_peek()
     # General stats widget
     dstats.load_or_prepare_general_stats()
     # Labels widget
     try:
+        dstats.set_label_field(ds_args['label_field'])
         dstats.load_or_prepare_labels()
     except:
         pass
     if all or dataset_args["calculation"] == "lengths":
         print("\n* Calculating text lengths.")
         dstats.load_or_prepare_text_lengths()
         print("Done!")
     if all or dataset_args["calculation"] == "labels":
             print("Warning: You asked for label calculation, but didn't provide "
                   "the labels field name.  Assuming it is 'label'...")
             dstats.set_label_field("label")
+        else:
             print("\n* Calculating label distribution.")
             dstats.load_or_prepare_labels()
             fig_label_html = pjoin(dstats.cache_path, "labels_fig.html")
         "calculation": calculation,
         "cache_dir": out_dir,
     }
+    load_or_prepare(dataset_args, use_cache=use_cache)
 def main():
     args = parser.parse_args()
     print("Proceeding with the following arguments:")
     print(args)
+    # run_data_measurements.py -d hate_speech18 -c default -s train -f text -w npmi
     get_text_label_df(
         args.dataset,
         args.config,