Spaces:
Runtime error
Runtime error
Commit
·
2b811ac
1
Parent(s):
ea01f38
update visu for Portuguese
Browse files- app.py +1 -1
- ar.arpa.bin +3 -0
- ar.sp.model +3 -0
- flagged_words.py +12 -161
- pt.arpa.bin +3 -0
- pt.sp.model +3 -0
- pt_examples_with_stats.json +3 -0
- vi.arpa.bin +3 -0
- vi.sp.model +3 -0
app.py
CHANGED
|
@@ -909,7 +909,7 @@ param_visu_langs = {
|
|
| 909 |
"path_sentencepiece_model": f"./{lang_dataset_id}.sp.model",
|
| 910 |
"path_kenlm_model": f"./{lang_dataset_id}.arpa.bin",
|
| 911 |
}
|
| 912 |
-
for lang_dataset_id in ["eu", "ca", "zh", "en", "fr", "id", "es"]
|
| 913 |
}
|
| 914 |
|
| 915 |
visualization = Visualization(path_instructions, param_visu_langs)
|
|
|
|
| 909 |
"path_sentencepiece_model": f"./{lang_dataset_id}.sp.model",
|
| 910 |
"path_kenlm_model": f"./{lang_dataset_id}.arpa.bin",
|
| 911 |
}
|
| 912 |
+
for lang_dataset_id in ["eu", "ca", "zh", "en", "fr", "id", "pt", "es"]
|
| 913 |
}
|
| 914 |
|
| 915 |
visualization = Visualization(path_instructions, param_visu_langs)
|
ar.arpa.bin
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:e5ad5fe3355e9775d0045ac38ee24ef585b373c99350bc612e5bda9cbdd701fe
|
| 3 |
+
size 2824717990
|
ar.sp.model
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:281e3d75365a1801a8fe5def0b89dd0e5bb73ac0a2451be8bc5a55495760e115
|
| 3 |
+
size 1070890
|
flagged_words.py
CHANGED
|
@@ -778,145 +778,33 @@ flagged_words = {
|
|
| 778 |
],
|
| 779 |
"pt": english_flagged_words
|
| 780 |
+ [
|
| 781 |
-
"aborto",
|
| 782 |
-
"amador",
|
| 783 |
-
"anal",
|
| 784 |
-
"aparafusar",
|
| 785 |
-
"aranha",
|
| 786 |
-
"ariano",
|
| 787 |
-
"arrebatar",
|
| 788 |
-
"ass-filho da puta",
|
| 789 |
-
"asses",
|
| 790 |
"balalao",
|
| 791 |
-
"bastardo",
|
| 792 |
"bate uma",
|
| 793 |
-
"
|
| 794 |
-
"bestial",
|
| 795 |
-
"bestialidade",
|
| 796 |
-
"bicha",
|
| 797 |
-
"bichano",
|
| 798 |
-
"bichanos",
|
| 799 |
-
"bichas",
|
| 800 |
-
"biscate",
|
| 801 |
-
"bissexual",
|
| 802 |
"boceta",
|
| 803 |
-
"bolas",
|
| 804 |
-
"bollok",
|
| 805 |
-
"boob",
|
| 806 |
"boquete",
|
| 807 |
-
"bosta",
|
| 808 |
-
"braulio de borracha",
|
| 809 |
"buceta",
|
| 810 |
-
"bumbum",
|
| 811 |
-
"bunda",
|
| 812 |
-
"burro",
|
| 813 |
-
"cabrao",
|
| 814 |
-
"cacete",
|
| 815 |
-
"cadela",
|
| 816 |
-
"cadelas",
|
| 817 |
-
"cagando",
|
| 818 |
-
"cagar",
|
| 819 |
-
"calçado",
|
| 820 |
-
"camisinha",
|
| 821 |
"caralho",
|
| 822 |
-
"cerveja",
|
| 823 |
"chochota",
|
| 824 |
-
"chupar",
|
| 825 |
-
"cipa",
|
| 826 |
-
"clitoris",
|
| 827 |
-
"clitóris",
|
| 828 |
-
"cobiçoso",
|
| 829 |
-
"cocaína",
|
| 830 |
-
"cocô",
|
| 831 |
"coito",
|
| 832 |
-
"colhoes",
|
| 833 |
-
"com tesão",
|
| 834 |
-
"comedor de tapetes",
|
| 835 |
-
"comer",
|
| 836 |
"cona",
|
| 837 |
"consolo",
|
| 838 |
-
"coon",
|
| 839 |
-
"coragem",
|
| 840 |
"corno",
|
| 841 |
"cu",
|
| 842 |
-
"
|
| 843 |
"dar o rabo",
|
| 844 |
-
"desgraçado",
|
| 845 |
"dildo",
|
| 846 |
"dildos",
|
| 847 |
-
"
|
| 848 |
-
"
|
| 849 |
-
"droga",
|
| 850 |
-
"duche",
|
| 851 |
-
"dum raio",
|
| 852 |
-
"ejacula",
|
| 853 |
-
"ejaculado",
|
| 854 |
-
"ejacular",
|
| 855 |
-
"ejaculação",
|
| 856 |
-
"empacotador de fudge",
|
| 857 |
-
"escroto",
|
| 858 |
-
"esporra",
|
| 859 |
-
"estuprador",
|
| 860 |
-
"estupro",
|
| 861 |
-
"fagging",
|
| 862 |
-
"fanny",
|
| 863 |
-
"fecal",
|
| 864 |
"felação",
|
| 865 |
-
"felching",
|
| 866 |
-
"fenda",
|
| 867 |
"filho da puta",
|
| 868 |
"filhos da puta",
|
| 869 |
-
"foda",
|
| 870 |
-
"foda-se",
|
| 871 |
-
"fode",
|
| 872 |
-
"foder",
|
| 873 |
-
"fodido",
|
| 874 |
-
"frango assado",
|
| 875 |
-
"galo",
|
| 876 |
-
"galos",
|
| 877 |
"gozada",
|
| 878 |
-
"
|
| 879 |
-
"
|
| 880 |
-
"heroína",
|
| 881 |
-
"homoerótico",
|
| 882 |
-
"homosexual",
|
| 883 |
-
"hore",
|
| 884 |
-
"idiota",
|
| 885 |
-
"idiotas",
|
| 886 |
-
"inferno",
|
| 887 |
-
"kock",
|
| 888 |
-
"lolita",
|
| 889 |
-
"luxúria",
|
| 890 |
-
"lábios",
|
| 891 |
-
"lésbica",
|
| 892 |
-
"maldito",
|
| 893 |
-
"mama",
|
| 894 |
-
"masoquista",
|
| 895 |
-
"masturbar",
|
| 896 |
-
"merda",
|
| 897 |
-
"merdas",
|
| 898 |
-
"mesa",
|
| 899 |
-
"mijando",
|
| 900 |
-
"mijar",
|
| 901 |
-
"nazista",
|
| 902 |
-
"negro",
|
| 903 |
-
"niggers",
|
| 904 |
-
"não me chateies",
|
| 905 |
-
"orgasim",
|
| 906 |
-
"orgasmo",
|
| 907 |
-
"orgasmos",
|
| 908 |
-
"otário",
|
| 909 |
-
"paneleiro",
|
| 910 |
-
"passar um cheque",
|
| 911 |
-
"pau",
|
| 912 |
-
"peidar",
|
| 913 |
-
"peitos",
|
| 914 |
-
"peituda",
|
| 915 |
"pica",
|
| 916 |
-
"
|
| 917 |
-
"pinto",
|
| 918 |
-
"pisser",
|
| 919 |
-
"porcaria",
|
| 920 |
"porno",
|
| 921 |
"pornografia",
|
| 922 |
"pornô",
|
|
@@ -924,55 +812,18 @@ flagged_words = {
|
|
| 924 |
"prostituta",
|
| 925 |
"pube",
|
| 926 |
"punheta",
|
| 927 |
-
"
|
| 928 |
-
"puta que pariu",
|
| 929 |
-
"puta que te pariu",
|
| 930 |
"putaria",
|
| 931 |
-
"puto",
|
| 932 |
-
"pênis",
|
| 933 |
"queca",
|
| 934 |
-
"retardar",
|
| 935 |
-
"reto",
|
| 936 |
-
"rimming",
|
| 937 |
-
"sacanagem",
|
| 938 |
-
"saco",
|
| 939 |
-
"saco de bola",
|
| 940 |
-
"sangrento",
|
| 941 |
-
"sapatona",
|
| 942 |
"sexo",
|
| 943 |
-
"
|
| 944 |
-
"
|
| 945 |
-
"smegma",
|
| 946 |
-
"spac",
|
| 947 |
-
"sujeira",
|
| 948 |
-
"sádico",
|
| 949 |
-
"sêmen",
|
| 950 |
-
"testículo",
|
| 951 |
-
"tetas",
|
| 952 |
-
"titt",
|
| 953 |
-
"torneira",
|
| 954 |
-
"transando",
|
| 955 |
-
"transar",
|
| 956 |
-
"transsexual",
|
| 957 |
"trepada",
|
| 958 |
-
"
|
| 959 |
-
"vadias",
|
| 960 |
-
"vagabunda",
|
| 961 |
-
"vagabundo",
|
| 962 |
-
"vagina",
|
| 963 |
-
"vai tomar no cu",
|
| 964 |
-
"vai-te foder",
|
| 965 |
-
"veado",
|
| 966 |
-
"viagra",
|
| 967 |
"vibrador",
|
| 968 |
-
"vulva",
|
| 969 |
-
"wang",
|
| 970 |
-
"x avaliado",
|
| 971 |
"xana",
|
| 972 |
-
"xixi",
|
| 973 |
"xochota",
|
| 974 |
-
"
|
| 975 |
-
"ânus",
|
| 976 |
],
|
| 977 |
"ta": english_flagged_words
|
| 978 |
+ [
|
|
|
|
| 778 |
],
|
| 779 |
"pt": english_flagged_words
|
| 780 |
+ [
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 781 |
"balalao",
|
|
|
|
| 782 |
"bate uma",
|
| 783 |
+
"beijo grego",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 784 |
"boceta",
|
|
|
|
|
|
|
|
|
|
| 785 |
"boquete",
|
|
|
|
|
|
|
| 786 |
"buceta",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 787 |
"caralho",
|
|
|
|
| 788 |
"chochota",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 789 |
"coito",
|
|
|
|
|
|
|
|
|
|
|
|
|
| 790 |
"cona",
|
| 791 |
"consolo",
|
|
|
|
|
|
|
| 792 |
"corno",
|
| 793 |
"cu",
|
| 794 |
+
"dar a bunda",
|
| 795 |
"dar o rabo",
|
|
|
|
| 796 |
"dildo",
|
| 797 |
"dildos",
|
| 798 |
+
"esporrar",
|
| 799 |
+
"estrovenga",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 800 |
"felação",
|
|
|
|
|
|
|
| 801 |
"filho da puta",
|
| 802 |
"filhos da puta",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 803 |
"gozada",
|
| 804 |
+
"jeba",
|
| 805 |
+
"perereca",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 806 |
"pica",
|
| 807 |
+
"piru",
|
|
|
|
|
|
|
|
|
|
| 808 |
"porno",
|
| 809 |
"pornografia",
|
| 810 |
"pornô",
|
|
|
|
| 812 |
"prostituta",
|
| 813 |
"pube",
|
| 814 |
"punheta",
|
| 815 |
+
"punheteiro",
|
|
|
|
|
|
|
| 816 |
"putaria",
|
|
|
|
|
|
|
| 817 |
"queca",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 818 |
"sexo",
|
| 819 |
+
"siririca",
|
| 820 |
+
"tesão",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 821 |
"trepada",
|
| 822 |
+
"verga",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 823 |
"vibrador",
|
|
|
|
|
|
|
|
|
|
| 824 |
"xana",
|
|
|
|
| 825 |
"xochota",
|
| 826 |
+
"xoxota",
|
|
|
|
| 827 |
],
|
| 828 |
"ta": english_flagged_words
|
| 829 |
+ [
|
pt.arpa.bin
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:ad7241c4b11d902fa092506b731f61e5f67177897c2598b750d1a2e519be87ad
|
| 3 |
+
size 3220168756
|
pt.sp.model
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:1707a7517b61ca9d4d333dabcc5ec7024e44c6466ff6faea9ccc95a0f1b2737c
|
| 3 |
+
size 958101
|
pt_examples_with_stats.json
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:72a681cc82b2a0f9e11a8fa052143f7eaad5a67d31269bbd96653715e0ff776a
|
| 3 |
+
size 135498651
|
vi.arpa.bin
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:983460dc00aaaec7325139cd87e89e937fcf5ac0cba4b16f23241fcc52d3c0ca
|
| 3 |
+
size 1414396214
|
vi.sp.model
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:b1393f7ca703337a5b94f86ddb8e17e3171fc1ca388ca035942f594e0f0d958d
|
| 3 |
+
size 906762
|