Spaces:
Runtime error
Runtime error
Commit
·
09be6e1
1
Parent(s):
2c00f52
Upated files + more languages
Browse files- app.py +2 -2
- ar.arpa.bin +3 -0
- ar.sp.model +3 -0
- ar_examples_with_stats.json +3 -0
- bn.arpa.bin +3 -0
- bn.sp.model +3 -0
- bn_examples_with_stats.json +3 -0
- flagged_words.py +81 -0
- hi.arpa.bin +3 -0
- hi.sp.model +3 -0
- hi_examples_with_stats.json +3 -0
- languages_id.py +4 -4
- parameters_filtering.py +31 -31
- stopwords.py +891 -1162
- ur.arpa.bin +3 -0
- ur.sp.model +3 -0
- ur_examples_with_stats.json +3 -0
- vi.arpa.bin +3 -0
- vi.sp.model +3 -0
- vi_examples_with_stats.json +3 -0
app.py
CHANGED
|
@@ -787,7 +787,7 @@ class Visualization_for_lang:
|
|
| 787 |
st.markdown(
|
| 788 |
f"Language identification confidence score: {lang_id_score}"
|
| 789 |
)
|
| 790 |
-
if is_doc_discarded(key,
|
| 791 |
self.lang_dataset_id != lang_pred_dataset_id
|
| 792 |
):
|
| 793 |
is_discarded = True
|
|
@@ -909,7 +909,7 @@ param_visu_langs = {
|
|
| 909 |
"path_sentencepiece_model": f"./{lang_dataset_id}.sp.model",
|
| 910 |
"path_kenlm_model": f"./{lang_dataset_id}.arpa.bin",
|
| 911 |
}
|
| 912 |
-
for lang_dataset_id in ["en", "pt"]
|
| 913 |
}
|
| 914 |
|
| 915 |
visualization = Visualization(path_instructions, param_visu_langs)
|
|
|
|
| 787 |
st.markdown(
|
| 788 |
f"Language identification confidence score: {lang_id_score}"
|
| 789 |
)
|
| 790 |
+
if is_doc_discarded(key, lang_id_score) or (
|
| 791 |
self.lang_dataset_id != lang_pred_dataset_id
|
| 792 |
):
|
| 793 |
is_discarded = True
|
|
|
|
| 909 |
"path_sentencepiece_model": f"./{lang_dataset_id}.sp.model",
|
| 910 |
"path_kenlm_model": f"./{lang_dataset_id}.arpa.bin",
|
| 911 |
}
|
| 912 |
+
for lang_dataset_id in ["ar", "bn", "en", "hi", "pt", "ur", "vi"]
|
| 913 |
}
|
| 914 |
|
| 915 |
visualization = Visualization(path_instructions, param_visu_langs)
|
ar.arpa.bin
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:e5ad5fe3355e9775d0045ac38ee24ef585b373c99350bc612e5bda9cbdd701fe
|
| 3 |
+
size 2824717990
|
ar.sp.model
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:281e3d75365a1801a8fe5def0b89dd0e5bb73ac0a2451be8bc5a55495760e115
|
| 3 |
+
size 1070890
|
ar_examples_with_stats.json
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:24ca349877e08bbbc65b6025aa90339bec0b10b9e89641a1a9ad70397a1d542f
|
| 3 |
+
size 193786592
|
bn.arpa.bin
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:9d2148db7af960f9468adc5c0b2c39f75d969b816014098c45de93517ac1c555
|
| 3 |
+
size 612069451
|
bn.sp.model
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:e4e90d25ca0c465b9c8da8c93b6591be30dbb8c123b24d52177c2027f81a264d
|
| 3 |
+
size 1366364
|
bn_examples_with_stats.json
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:faa6a1ee54edfd440f8fd32930de81636c3a4a12243f2e18ee972f18b394e1ac
|
| 3 |
+
size 202010217
|
flagged_words.py
CHANGED
|
@@ -141,6 +141,47 @@ flagged_words = {
|
|
| 141 |
"نكاح",
|
| 142 |
"نيك",
|
| 143 |
],
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 144 |
"ca": english_flagged_words
|
| 145 |
+ [
|
| 146 |
"cagarro",
|
|
@@ -985,6 +1026,46 @@ flagged_words = {
|
|
| 985 |
"x రేట్",
|
| 986 |
"xxx",
|
| 987 |
],
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 988 |
"vi": english_flagged_words
|
| 989 |
+ [
|
| 990 |
"cặc",
|
|
|
|
| 141 |
"نكاح",
|
| 142 |
"نيك",
|
| 143 |
],
|
| 144 |
+
"bn": english_flagged_words
|
| 145 |
+
+ [
|
| 146 |
+
"আঙ্গুলি করা",
|
| 147 |
+
"আচোদা",
|
| 148 |
+
"খানকি",
|
| 149 |
+
"খানকি মাগি",
|
| 150 |
+
"গান্ড মারানো",
|
| 151 |
+
"গুদ মারানি",
|
| 152 |
+
"চুচুক",
|
| 153 |
+
"চোদ",
|
| 154 |
+
"চোদনা",
|
| 155 |
+
"চোদা",
|
| 156 |
+
"চোদা বোন",
|
| 157 |
+
"চোদাচুদি",
|
| 158 |
+
"জারজ",
|
| 159 |
+
"নাঙ্গ",
|
| 160 |
+
"নেংটা",
|
| 161 |
+
"পর্ণহাব",
|
| 162 |
+
"পর্ন",
|
| 163 |
+
"পর্নস্টার",
|
| 164 |
+
"পর্নোগ্রাফি",
|
| 165 |
+
"পোঁদ",
|
| 166 |
+
"পোঁদ মারানি",
|
| 167 |
+
"পোদ মারানি",
|
| 168 |
+
"বাঁড়া",
|
| 169 |
+
"বানচোদ",
|
| 170 |
+
"বেশ্যা",
|
| 171 |
+
"বেশ্যার ছেলে",
|
| 172 |
+
"বোকাচোদা",
|
| 173 |
+
"ভগ",
|
| 174 |
+
"মা চোদা",
|
| 175 |
+
"মাগী",
|
| 176 |
+
"মাদারচোদ",
|
| 177 |
+
"মুখে নিবি",
|
| 178 |
+
"মোরগ",
|
| 179 |
+
"রেন্ডি",
|
| 180 |
+
"শিশ্ন",
|
| 181 |
+
"স্তন",
|
| 182 |
+
"স্তনবৃন্ত",
|
| 183 |
+
"হস্তমৈথুন",
|
| 184 |
+
],
|
| 185 |
"ca": english_flagged_words
|
| 186 |
+ [
|
| 187 |
"cagarro",
|
|
|
|
| 1026 |
"x రేట్",
|
| 1027 |
"xxx",
|
| 1028 |
],
|
| 1029 |
+
"ur": english_flagged_words
|
| 1030 |
+
+ [
|
| 1031 |
+
"انگلی کرنا",
|
| 1032 |
+
"ایکس ریٹیڈ",
|
| 1033 |
+
"بلو جاب",
|
| 1034 |
+
"بٹ",
|
| 1035 |
+
"جھٹکا بند",
|
| 1036 |
+
"دلڈو",
|
| 1037 |
+
"رنڈی",
|
| 1038 |
+
"سلٹ",
|
| 1039 |
+
"سکلیرا",
|
| 1040 |
+
"سیڈسٹ",
|
| 1041 |
+
"سیکس بم",
|
| 1042 |
+
"شہوانی",
|
| 1043 |
+
"شہوت انگیز",
|
| 1044 |
+
"فحش نگاری",
|
| 1045 |
+
"لن",
|
| 1046 |
+
"لنڈ",
|
| 1047 |
+
"لنڈ چوسنے والا",
|
| 1048 |
+
"لوڑہ",
|
| 1049 |
+
"ماں کمینے",
|
| 1050 |
+
"مشت زنی",
|
| 1051 |
+
"ممے",
|
| 1052 |
+
"مٹھ",
|
| 1053 |
+
"مٹھی",
|
| 1054 |
+
"ویشیا",
|
| 1055 |
+
"پورن",
|
| 1056 |
+
"پھدی",
|
| 1057 |
+
"پیگنگ",
|
| 1058 |
+
"چدائ",
|
| 1059 |
+
"چدک",
|
| 1060 |
+
"چوت",
|
| 1061 |
+
"چودنا",
|
| 1062 |
+
"چوچی",
|
| 1063 |
+
"کسبی",
|
| 1064 |
+
"کسنگ",
|
| 1065 |
+
"گانڈ",
|
| 1066 |
+
"گدا",
|
| 1067 |
+
"ہینڈ جاب",
|
| 1068 |
+
],
|
| 1069 |
"vi": english_flagged_words
|
| 1070 |
+ [
|
| 1071 |
"cặc",
|
hi.arpa.bin
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:f76e9238ccab63fc175ed40786888c0078cc7bb1de9519536a89473a60a17f8d
|
| 3 |
+
size 547247715
|
hi.sp.model
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:bd2408405c7884b129600c427c5ccb919a8f5a5597437e4127ee20b85a70ab4f
|
| 3 |
+
size 1256555
|
hi_examples_with_stats.json
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:635666d75bfcb305c2b3c46e38f4e16c0749072f47f89388506057c1a0e0cfcf
|
| 3 |
+
size 202843494
|
languages_id.py
CHANGED
|
@@ -32,7 +32,7 @@ langs_id = [
|
|
| 32 |
{
|
| 33 |
"lang": "Assamese",
|
| 34 |
"dataset_id": "as",
|
| 35 |
-
"stopwords_id":
|
| 36 |
"flagged_words_id": None,
|
| 37 |
"fasttext_id": "as",
|
| 38 |
"sentencepiece_id": "as",
|
|
@@ -42,7 +42,7 @@ langs_id = [
|
|
| 42 |
"lang": "Bengali",
|
| 43 |
"dataset_id": "bn",
|
| 44 |
"stopwords_id": "bn",
|
| 45 |
-
"flagged_words_id":
|
| 46 |
"fasttext_id": "bn",
|
| 47 |
"sentencepiece_id": "bn",
|
| 48 |
"kenlm_id": "bn",
|
|
@@ -95,7 +95,7 @@ langs_id = [
|
|
| 95 |
{
|
| 96 |
"lang": "Gujarati",
|
| 97 |
"dataset_id": "gu",
|
| 98 |
-
"stopwords_id":
|
| 99 |
"flagged_words_id": None,
|
| 100 |
"fasttext_id": "gu",
|
| 101 |
"sentencepiece_id": "gu",
|
|
@@ -186,7 +186,7 @@ langs_id = [
|
|
| 186 |
"lang": "Urdu",
|
| 187 |
"dataset_id": "ur",
|
| 188 |
"stopwords_id": "ur",
|
| 189 |
-
"flagged_words_id":
|
| 190 |
"fasttext_id": "ur",
|
| 191 |
"sentencepiece_id": "ur",
|
| 192 |
"kenlm_id": "ur",
|
|
|
|
| 32 |
{
|
| 33 |
"lang": "Assamese",
|
| 34 |
"dataset_id": "as",
|
| 35 |
+
"stopwords_id": "as",
|
| 36 |
"flagged_words_id": None,
|
| 37 |
"fasttext_id": "as",
|
| 38 |
"sentencepiece_id": "as",
|
|
|
|
| 42 |
"lang": "Bengali",
|
| 43 |
"dataset_id": "bn",
|
| 44 |
"stopwords_id": "bn",
|
| 45 |
+
"flagged_words_id": "bn",
|
| 46 |
"fasttext_id": "bn",
|
| 47 |
"sentencepiece_id": "bn",
|
| 48 |
"kenlm_id": "bn",
|
|
|
|
| 95 |
{
|
| 96 |
"lang": "Gujarati",
|
| 97 |
"dataset_id": "gu",
|
| 98 |
+
"stopwords_id": "gu",
|
| 99 |
"flagged_words_id": None,
|
| 100 |
"fasttext_id": "gu",
|
| 101 |
"sentencepiece_id": "gu",
|
|
|
|
| 186 |
"lang": "Urdu",
|
| 187 |
"dataset_id": "ur",
|
| 188 |
"stopwords_id": "ur",
|
| 189 |
+
"flagged_words_id": "ur",
|
| 190 |
"fasttext_id": "ur",
|
| 191 |
"sentencepiece_id": "ur",
|
| 192 |
"kenlm_id": "ur",
|
parameters_filtering.py
CHANGED
|
@@ -223,35 +223,35 @@ parameters_filtering_bn = {
|
|
| 223 |
parameters_filtering_ca = {
|
| 224 |
"cond_uniform_whitespace": True,
|
| 225 |
"cond_replace_unicode_punctuation": False,
|
| 226 |
-
"cond_remove_words_with_incorrect_substrings":
|
| 227 |
"incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
|
| 228 |
"cond_remove_long_words": True,
|
| 229 |
-
"length_word_max_cutoff":
|
| 230 |
"cond_check_number_words": True,
|
| 231 |
"tokenization": False,
|
| 232 |
"strip_characters": special_characters_default,
|
| 233 |
-
"number_words_min_cutoff":
|
| 234 |
"number_words_max_cutoff": 100000,
|
| 235 |
"cond_check_character_repetition_removal": True,
|
| 236 |
"character_repetition_length": 10,
|
| 237 |
-
"character_repetition_max_cutoff": 0.
|
| 238 |
"cond_check_word_repetition_removal": True,
|
| 239 |
"word_repetition_length": 5,
|
| 240 |
-
"word_repetition_max_cutoff": 0.
|
| 241 |
"cond_check_special_characters": True,
|
| 242 |
"special_characters": special_characters_default,
|
| 243 |
-
"special_characters_max_cutoff": 0.
|
| 244 |
"cond_words_augmentation": False,
|
| 245 |
"words_augmentation_group_sizes": [],
|
| 246 |
"words_augmentation_join_char": "",
|
| 247 |
"cond_check_stopwords": True,
|
| 248 |
-
"stopwords_min_cutoff": 0,
|
| 249 |
"cond_check_flagged_words": False,
|
| 250 |
-
"flagged_words_max_cutoff": 0.
|
| 251 |
"cond_check_lang_id": True,
|
| 252 |
-
"lang_id_min_cutoff": 0.
|
| 253 |
"cond_check_perplexity": True,
|
| 254 |
-
"perplexity_max_cutoff":
|
| 255 |
}
|
| 256 |
|
| 257 |
parameters_filtering_en = {
|
|
@@ -285,7 +285,7 @@ parameters_filtering_en = {
|
|
| 285 |
"cond_check_lang_id": True,
|
| 286 |
"lang_id_min_cutoff": 0.80,
|
| 287 |
"cond_check_perplexity": True,
|
| 288 |
-
"perplexity_max_cutoff":
|
| 289 |
}
|
| 290 |
|
| 291 |
parameters_filtering_es = {
|
|
@@ -359,35 +359,35 @@ parameters_filtering_eu = {
|
|
| 359 |
parameters_filtering_fr = {
|
| 360 |
"cond_uniform_whitespace": True,
|
| 361 |
"cond_replace_unicode_punctuation": False,
|
| 362 |
-
"cond_remove_words_with_incorrect_substrings":
|
| 363 |
"incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
|
| 364 |
"cond_remove_long_words": True,
|
| 365 |
-
"length_word_max_cutoff":
|
| 366 |
"cond_check_number_words": True,
|
| 367 |
"tokenization": False,
|
| 368 |
"strip_characters": special_characters_default,
|
| 369 |
-
"number_words_min_cutoff":
|
| 370 |
"number_words_max_cutoff": 100000,
|
| 371 |
"cond_check_character_repetition_removal": True,
|
| 372 |
"character_repetition_length": 10,
|
| 373 |
-
"character_repetition_max_cutoff": 0.
|
| 374 |
"cond_check_word_repetition_removal": True,
|
| 375 |
"word_repetition_length": 5,
|
| 376 |
-
"word_repetition_max_cutoff": 0.
|
| 377 |
"cond_check_special_characters": True,
|
| 378 |
"special_characters": special_characters_default,
|
| 379 |
-
"special_characters_max_cutoff": 0.
|
| 380 |
"cond_words_augmentation": False,
|
| 381 |
"words_augmentation_group_sizes": [],
|
| 382 |
"words_augmentation_join_char": "",
|
| 383 |
"cond_check_stopwords": True,
|
| 384 |
-
"stopwords_min_cutoff": 0.
|
| 385 |
"cond_check_flagged_words": False,
|
| 386 |
-
"flagged_words_max_cutoff": 0.
|
| 387 |
"cond_check_lang_id": True,
|
| 388 |
-
"lang_id_min_cutoff": 0.
|
| 389 |
"cond_check_perplexity": True,
|
| 390 |
-
"perplexity_max_cutoff":
|
| 391 |
}
|
| 392 |
|
| 393 |
parameters_filtering_gu = {
|
|
@@ -597,35 +597,35 @@ parameters_filtering_mr = {
|
|
| 597 |
parameters_filtering_pt = {
|
| 598 |
"cond_uniform_whitespace": True,
|
| 599 |
"cond_replace_unicode_punctuation": False,
|
| 600 |
-
"cond_remove_words_with_incorrect_substrings":
|
| 601 |
"incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
|
| 602 |
"cond_remove_long_words": True,
|
| 603 |
-
"length_word_max_cutoff":
|
| 604 |
"cond_check_number_words": True,
|
| 605 |
"tokenization": False,
|
| 606 |
"strip_characters": special_characters_default,
|
| 607 |
-
"number_words_min_cutoff":
|
| 608 |
"number_words_max_cutoff": 100000,
|
| 609 |
"cond_check_character_repetition_removal": True,
|
| 610 |
"character_repetition_length": 10,
|
| 611 |
-
"character_repetition_max_cutoff": 0.
|
| 612 |
"cond_check_word_repetition_removal": True,
|
| 613 |
"word_repetition_length": 5,
|
| 614 |
-
"word_repetition_max_cutoff": 0.
|
| 615 |
"cond_check_special_characters": True,
|
| 616 |
"special_characters": special_characters_default,
|
| 617 |
-
"special_characters_max_cutoff": 0.
|
| 618 |
"cond_words_augmentation": False,
|
| 619 |
"words_augmentation_group_sizes": [],
|
| 620 |
"words_augmentation_join_char": "",
|
| 621 |
"cond_check_stopwords": True,
|
| 622 |
-
"stopwords_min_cutoff": 0.
|
| 623 |
"cond_check_flagged_words": False,
|
| 624 |
-
"flagged_words_max_cutoff": 0.
|
| 625 |
"cond_check_lang_id": True,
|
| 626 |
-
"lang_id_min_cutoff": 0.
|
| 627 |
"cond_check_perplexity": True,
|
| 628 |
-
"perplexity_max_cutoff":
|
| 629 |
}
|
| 630 |
|
| 631 |
parameters_filtering_sw = {
|
|
|
|
| 223 |
parameters_filtering_ca = {
|
| 224 |
"cond_uniform_whitespace": True,
|
| 225 |
"cond_replace_unicode_punctuation": False,
|
| 226 |
+
"cond_remove_words_with_incorrect_substrings": True,
|
| 227 |
"incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
|
| 228 |
"cond_remove_long_words": True,
|
| 229 |
+
"length_word_max_cutoff": 20,
|
| 230 |
"cond_check_number_words": True,
|
| 231 |
"tokenization": False,
|
| 232 |
"strip_characters": special_characters_default,
|
| 233 |
+
"number_words_min_cutoff": 15,
|
| 234 |
"number_words_max_cutoff": 100000,
|
| 235 |
"cond_check_character_repetition_removal": True,
|
| 236 |
"character_repetition_length": 10,
|
| 237 |
+
"character_repetition_max_cutoff": 0.2,
|
| 238 |
"cond_check_word_repetition_removal": True,
|
| 239 |
"word_repetition_length": 5,
|
| 240 |
+
"word_repetition_max_cutoff": 0.4,
|
| 241 |
"cond_check_special_characters": True,
|
| 242 |
"special_characters": special_characters_default,
|
| 243 |
+
"special_characters_max_cutoff": 0.25,
|
| 244 |
"cond_words_augmentation": False,
|
| 245 |
"words_augmentation_group_sizes": [],
|
| 246 |
"words_augmentation_join_char": "",
|
| 247 |
"cond_check_stopwords": True,
|
| 248 |
+
"stopwords_min_cutoff": 0.25,
|
| 249 |
"cond_check_flagged_words": False,
|
| 250 |
+
"flagged_words_max_cutoff": 0.1,
|
| 251 |
"cond_check_lang_id": True,
|
| 252 |
+
"lang_id_min_cutoff": 0.8,
|
| 253 |
"cond_check_perplexity": True,
|
| 254 |
+
"perplexity_max_cutoff": 2500,
|
| 255 |
}
|
| 256 |
|
| 257 |
parameters_filtering_en = {
|
|
|
|
| 285 |
"cond_check_lang_id": True,
|
| 286 |
"lang_id_min_cutoff": 0.80,
|
| 287 |
"cond_check_perplexity": True,
|
| 288 |
+
"perplexity_max_cutoff": 1500,
|
| 289 |
}
|
| 290 |
|
| 291 |
parameters_filtering_es = {
|
|
|
|
| 359 |
parameters_filtering_fr = {
|
| 360 |
"cond_uniform_whitespace": True,
|
| 361 |
"cond_replace_unicode_punctuation": False,
|
| 362 |
+
"cond_remove_words_with_incorrect_substrings": True,
|
| 363 |
"incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
|
| 364 |
"cond_remove_long_words": True,
|
| 365 |
+
"length_word_max_cutoff": 45,
|
| 366 |
"cond_check_number_words": True,
|
| 367 |
"tokenization": False,
|
| 368 |
"strip_characters": special_characters_default,
|
| 369 |
+
"number_words_min_cutoff": 13,
|
| 370 |
"number_words_max_cutoff": 100000,
|
| 371 |
"cond_check_character_repetition_removal": True,
|
| 372 |
"character_repetition_length": 10,
|
| 373 |
+
"character_repetition_max_cutoff": 0.14,
|
| 374 |
"cond_check_word_repetition_removal": True,
|
| 375 |
"word_repetition_length": 5,
|
| 376 |
+
"word_repetition_max_cutoff": 0.13,
|
| 377 |
"cond_check_special_characters": True,
|
| 378 |
"special_characters": special_characters_default,
|
| 379 |
+
"special_characters_max_cutoff": 0.34,
|
| 380 |
"cond_words_augmentation": False,
|
| 381 |
"words_augmentation_group_sizes": [],
|
| 382 |
"words_augmentation_join_char": "",
|
| 383 |
"cond_check_stopwords": True,
|
| 384 |
+
"stopwords_min_cutoff": 0.27,
|
| 385 |
"cond_check_flagged_words": False,
|
| 386 |
+
"flagged_words_max_cutoff": 0.008,
|
| 387 |
"cond_check_lang_id": True,
|
| 388 |
+
"lang_id_min_cutoff": 0.8,
|
| 389 |
"cond_check_perplexity": True,
|
| 390 |
+
"perplexity_max_cutoff": 1770,
|
| 391 |
}
|
| 392 |
|
| 393 |
parameters_filtering_gu = {
|
|
|
|
| 597 |
parameters_filtering_pt = {
|
| 598 |
"cond_uniform_whitespace": True,
|
| 599 |
"cond_replace_unicode_punctuation": False,
|
| 600 |
+
"cond_remove_words_with_incorrect_substrings": True,
|
| 601 |
"incorrect_word_substrings": ["http", "www", ".com", "href", "//"],
|
| 602 |
"cond_remove_long_words": True,
|
| 603 |
+
"length_word_max_cutoff": 19,
|
| 604 |
"cond_check_number_words": True,
|
| 605 |
"tokenization": False,
|
| 606 |
"strip_characters": special_characters_default,
|
| 607 |
+
"number_words_min_cutoff": 19,
|
| 608 |
"number_words_max_cutoff": 100000,
|
| 609 |
"cond_check_character_repetition_removal": True,
|
| 610 |
"character_repetition_length": 10,
|
| 611 |
+
"character_repetition_max_cutoff": 0.25,
|
| 612 |
"cond_check_word_repetition_removal": True,
|
| 613 |
"word_repetition_length": 5,
|
| 614 |
+
"word_repetition_max_cutoff": 0.98,
|
| 615 |
"cond_check_special_characters": True,
|
| 616 |
"special_characters": special_characters_default,
|
| 617 |
+
"special_characters_max_cutoff": 0.35,
|
| 618 |
"cond_words_augmentation": False,
|
| 619 |
"words_augmentation_group_sizes": [],
|
| 620 |
"words_augmentation_join_char": "",
|
| 621 |
"cond_check_stopwords": True,
|
| 622 |
+
"stopwords_min_cutoff": 0.2,
|
| 623 |
"cond_check_flagged_words": False,
|
| 624 |
+
"flagged_words_max_cutoff": 0.007,
|
| 625 |
"cond_check_lang_id": True,
|
| 626 |
+
"lang_id_min_cutoff": 0.6,
|
| 627 |
"cond_check_perplexity": True,
|
| 628 |
+
"perplexity_max_cutoff": 3038,
|
| 629 |
}
|
| 630 |
|
| 631 |
parameters_filtering_sw = {
|
stopwords.py
CHANGED
|
@@ -57,603 +57,483 @@ stopwords = {
|
|
| 57 |
"ʼn",
|
| 58 |
],
|
| 59 |
"ar": [
|
| 60 |
-
"
|
| 61 |
-
"
|
| 62 |
-
"أ",
|
| 63 |
"أثناء",
|
| 64 |
-
"
|
| 65 |
-
"
|
| 66 |
-
"أصبحت",
|
| 67 |
"أغلب",
|
| 68 |
"أكثر",
|
| 69 |
-
"أكون",
|
| 70 |
"ألا",
|
|
|
|
| 71 |
"أم",
|
| 72 |
-
"أما",
|
| 73 |
"أمام",
|
|
|
|
| 74 |
"أن",
|
| 75 |
"أنا",
|
| 76 |
"أنت",
|
| 77 |
"أنتم",
|
| 78 |
-
"
|
|
|
|
| 79 |
"أو",
|
| 80 |
"أولئك",
|
| 81 |
-
"أولٰئك",
|
| 82 |
"أي",
|
|
|
|
|
|
|
| 83 |
"أية",
|
|
|
|
| 84 |
"أين",
|
| 85 |
"أينما",
|
| 86 |
-
"أَ",
|
| 87 |
-
"أَثنَاءَ",
|
| 88 |
-
"أَلَّا",
|
| 89 |
-
"أَم",
|
| 90 |
-
"أَمَامَ",
|
| 91 |
-
"أَمَّا",
|
| 92 |
-
"أَن",
|
| 93 |
-
"أَنَّ",
|
| 94 |
-
"أَو",
|
| 95 |
-
"أَي",
|
| 96 |
-
"أَينَ",
|
| 97 |
-
"أَينَمَا",
|
| 98 |
-
"أَيّ",
|
| 99 |
"إبان",
|
| 100 |
"إثر",
|
| 101 |
-
"
|
| 102 |
-
"إذ",
|
| 103 |
"إذا",
|
| 104 |
-
"إزا",
|
| 105 |
"إزاء",
|
| 106 |
-
"إل",
|
| 107 |
"إلا",
|
|
|
|
| 108 |
"إلى",
|
| 109 |
-
"إلي",
|
| 110 |
-
"إليها",
|
| 111 |
"إما",
|
| 112 |
"إن",
|
| 113 |
"إنما",
|
| 114 |
-
"
|
| 115 |
-
"
|
| 116 |
-
"
|
| 117 |
-
"
|
| 118 |
-
"
|
| 119 |
-
"
|
| 120 |
-
"
|
| 121 |
-
"
|
| 122 |
-
"
|
| 123 |
-
"
|
| 124 |
-
"
|
| 125 |
-
"
|
| 126 |
-
"
|
| 127 |
-
"إِيَّا",
|
| 128 |
-
"اثر",
|
| 129 |
-
"اثناء",
|
| 130 |
-
"اذ",
|
| 131 |
-
"اذا",
|
| 132 |
-
"ازا",
|
| 133 |
-
"ازاء",
|
| 134 |
-
"ال",
|
| 135 |
-
"الا",
|
| 136 |
-
"التى",
|
| 137 |
"التي",
|
| 138 |
-
"الذى",
|
| 139 |
"الذي",
|
| 140 |
"الذين",
|
| 141 |
-
"
|
| 142 |
-
"
|
| 143 |
-
"الـــ",
|
| 144 |
-
"الفوق",
|
| 145 |
-
"اللاتى",
|
| 146 |
"اللاتي",
|
| 147 |
"اللتان",
|
| 148 |
"اللتين",
|
| 149 |
"اللذان",
|
| 150 |
"اللذين",
|
|
|
|
|
|
|
| 151 |
"اللواتي",
|
| 152 |
-
"
|
| 153 |
-
"
|
| 154 |
-
"الي",
|
| 155 |
-
"ام",
|
| 156 |
-
"اما",
|
| 157 |
-
"امام",
|
| 158 |
-
"ان",
|
| 159 |
-
"انا",
|
| 160 |
-
"انتم",
|
| 161 |
-
"انما",
|
| 162 |
-
"او",
|
| 163 |
-
"اولئك",
|
| 164 |
-
"اى",
|
| 165 |
"اي",
|
| 166 |
-
"
|
| 167 |
-
"
|
| 168 |
-
"
|
| 169 |
-
"
|
| 170 |
-
"
|
| 171 |
-
"
|
| 172 |
-
"
|
| 173 |
-
"
|
| 174 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 175 |
"بعد",
|
| 176 |
"بعدما",
|
| 177 |
"بعض",
|
| 178 |
-
"
|
| 179 |
-
"
|
|
|
|
| 180 |
"بـ",
|
|
|
|
| 181 |
"بل",
|
|
|
|
|
|
|
|
|
|
| 182 |
"بما",
|
| 183 |
-
"
|
| 184 |
-
"
|
|
|
|
|
|
|
|
|
|
| 185 |
"بين",
|
| 186 |
"بينما",
|
| 187 |
-
"
|
| 188 |
-
"
|
| 189 |
-
"
|
| 190 |
-
"
|
| 191 |
-
"بَيدَ",
|
| 192 |
-
"بَينَ",
|
| 193 |
-
"بَينَمَا",
|
| 194 |
-
"بُعَيدَ",
|
| 195 |
-
"بِ",
|
| 196 |
"تحت",
|
| 197 |
-
"
|
| 198 |
-
"
|
| 199 |
-
"
|
| 200 |
-
"تكن",
|
| 201 |
-
"تكون",
|
| 202 |
-
"تكونون",
|
| 203 |
"تلك",
|
| 204 |
-
"
|
| 205 |
-
"
|
|
|
|
| 206 |
"ثم",
|
| 207 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
| 208 |
"جراء",
|
| 209 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 210 |
"حتى",
|
| 211 |
"حسب",
|
| 212 |
"حسبما",
|
| 213 |
-
"حوالى",
|
| 214 |
"حوالي",
|
| 215 |
"حول",
|
| 216 |
-
"حولي",
|
| 217 |
"حيال",
|
| 218 |
"حيث",
|
|
|
|
| 219 |
"حيثما",
|
| 220 |
"حين",
|
|
|
|
|
|
|
|
|
|
| 221 |
"حينما",
|
| 222 |
-
"
|
| 223 |
-
"
|
| 224 |
-
"حَسَبَ",
|
| 225 |
-
"حَسَبَمَا",
|
| 226 |
-
"حَولَ",
|
| 227 |
-
"حَوَالَى",
|
| 228 |
-
"حَيثُ",
|
| 229 |
-
"حِينَ",
|
| 230 |
-
"حِينَمَا",
|
| 231 |
-
"حِيَالَ",
|
| 232 |
"خلال",
|
| 233 |
-
"
|
| 234 |
-
"
|
|
|
|
|
|
|
| 235 |
"دون",
|
| 236 |
-
"
|
| 237 |
-
"ذا",
|
| 238 |
"ذاك",
|
| 239 |
"ذلك",
|
| 240 |
-
"ذو",
|
| 241 |
-
"ذي",
|
| 242 |
-
"ذَا",
|
| 243 |
-
"ذَاكَ",
|
| 244 |
-
"ذُو",
|
| 245 |
-
"ذٰلك",
|
| 246 |
-
"ذٰلِكَ",
|
| 247 |
-
"راح",
|
| 248 |
-
"ربما",
|
| 249 |
-
"ربمــا",
|
| 250 |
"رغم",
|
|
|
|
| 251 |
"ريثما",
|
| 252 |
-
"
|
| 253 |
-
"
|
| 254 |
-
"
|
| 255 |
-
"س",
|
| 256 |
-
"سائر",
|
| 257 |
-
"سواء",
|
| 258 |
"سوف",
|
| 259 |
"سوى",
|
| 260 |
-
"
|
| 261 |
-
"
|
| 262 |
-
"
|
| 263 |
-
"
|
| 264 |
-
"
|
| 265 |
-
"
|
|
|
|
| 266 |
"صوب",
|
| 267 |
"ضد",
|
| 268 |
-
"ضمن",
|
| 269 |
-
"ضِدَّ",
|
| 270 |
-
"ضِمنَ",
|
| 271 |
-
"طال",
|
| 272 |
"طالما",
|
| 273 |
-
"
|
| 274 |
-
"
|
|
|
|
| 275 |
"طيلة",
|
| 276 |
-
"
|
| 277 |
-
"
|
| 278 |
-
"
|
| 279 |
"عبر",
|
| 280 |
"عدا",
|
| 281 |
"عدة",
|
| 282 |
-
"
|
| 283 |
-
"
|
| 284 |
-
"عـــندما",
|
| 285 |
-
"عــلى",
|
| 286 |
"عقب",
|
| 287 |
-
"
|
| 288 |
-
"
|
| 289 |
"على",
|
| 290 |
-
"
|
| 291 |
-
"
|
| 292 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
| 293 |
"عن",
|
| 294 |
-
"عنا",
|
| 295 |
"عند",
|
|
|
|
| 296 |
"عندما",
|
| 297 |
-
"
|
| 298 |
-
"
|
| 299 |
-
"
|
| 300 |
-
"
|
| 301 |
-
"
|
| 302 |
-
"
|
| 303 |
-
"
|
| 304 |
-
"عَلَّ",
|
| 305 |
-
"عَم",
|
| 306 |
-
"عَن",
|
| 307 |
-
"عِندَ",
|
| 308 |
-
"عِندَمَا",
|
| 309 |
-
"عِوَضَ",
|
| 310 |
-
"غالبية",
|
| 311 |
-
"غدت",
|
| 312 |
"غير",
|
| 313 |
-
"
|
| 314 |
-
"
|
| 315 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 316 |
"فـ",
|
| 317 |
-
"فـي",
|
| 318 |
"فور",
|
|
|
|
| 319 |
"فوق",
|
| 320 |
-
"فى",
|
| 321 |
"في",
|
|
|
|
|
|
|
|
|
|
| 322 |
"فيما",
|
| 323 |
-
"
|
| 324 |
-
"فَورَ",
|
| 325 |
-
"فَوقَ",
|
| 326 |
-
"فِي",
|
| 327 |
-
"فِيمَا",
|
| 328 |
-
"ق",
|
| 329 |
"قبالة",
|
| 330 |
"قبل",
|
| 331 |
"قبيل",
|
| 332 |
"قد",
|
|
|
|
| 333 |
"قرابة",
|
| 334 |
"قرب",
|
| 335 |
-
"
|
| 336 |
-
"
|
| 337 |
-
"
|
| 338 |
-
"قَيدَ",
|
| 339 |
-
"قُبَالَةَ",
|
| 340 |
-
"قُبَيلَ",
|
| 341 |
-
"قُربَ",
|
| 342 |
-
"قُرَابَةَ",
|
| 343 |
-
"ك",
|
| 344 |
"كأن",
|
| 345 |
-
"
|
| 346 |
-
"
|
| 347 |
-
"كان",
|
| 348 |
-
"كانت",
|
| 349 |
-
"كانوا",
|
| 350 |
"كذا",
|
|
|
|
| 351 |
"كـ",
|
| 352 |
"كل",
|
| 353 |
"كلا",
|
| 354 |
"كلتا",
|
| 355 |
"كلما",
|
| 356 |
-
"كلي",
|
| 357 |
"كم",
|
| 358 |
"كما",
|
| 359 |
-
"
|
| 360 |
-
"كنا",
|
| 361 |
-
"كنت",
|
| 362 |
-
"كون",
|
| 363 |
-
"كى",
|
| 364 |
"كي",
|
| 365 |
"كيف",
|
| 366 |
-
"كَ",
|
| 367 |
-
"كَأَنَّ",
|
| 368 |
-
"كَأَنَّمَا",
|
| 369 |
-
"كَان",
|
| 370 |
-
"كَذَا",
|
| 371 |
-
"كَلَّا",
|
| 372 |
-
"كَم",
|
| 373 |
-
"كَمَا",
|
| 374 |
-
"كَي",
|
| 375 |
-
"كَيفَ",
|
| 376 |
-
"كُل",
|
| 377 |
-
"كُلَّمَا",
|
| 378 |
-
"كِلَا",
|
| 379 |
-
"ل",
|
| 380 |
"لأن",
|
|
|
|
| 381 |
"لا",
|
| 382 |
-
"
|
| 383 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 384 |
"لدى",
|
| 385 |
-
"لدي",
|
| 386 |
"لذا",
|
| 387 |
"لذلك",
|
| 388 |
-
"
|
| 389 |
-
"لسنا",
|
| 390 |
"لـ",
|
| 391 |
"لقد",
|
| 392 |
"لكن",
|
| 393 |
-
"لكى",
|
| 394 |
"لكي",
|
|
|
|
| 395 |
"لم",
|
| 396 |
"لما",
|
| 397 |
"لماذا",
|
| 398 |
"لن",
|
| 399 |
-
"لهم",
|
| 400 |
"لو",
|
| 401 |
"لولا",
|
| 402 |
-
"
|
| 403 |
-
"
|
| 404 |
-
"
|
| 405 |
-
"
|
| 406 |
-
"لَا",
|
| 407 |
-
"لَازِم",
|
| 408 |
-
"لَدَى",
|
| 409 |
-
"لَم",
|
| 410 |
-
"لَمَّا",
|
| 411 |
-
"لَن",
|
| 412 |
-
"لَو",
|
| 413 |
-
"لَولَا",
|
| 414 |
-
"لَيس",
|
| 415 |
-
"لُو",
|
| 416 |
-
"لِ",
|
| 417 |
-
"لِأَن",
|
| 418 |
-
"لِأَنَّ",
|
| 419 |
-
"لِئَلّا",
|
| 420 |
-
"لِذَا",
|
| 421 |
-
"لِذٰلِكَ",
|
| 422 |
-
"لِكَي",
|
| 423 |
-
"لِمَاذَا",
|
| 424 |
-
"لٰكن",
|
| 425 |
-
"لٰكِن",
|
| 426 |
-
"لٰكِنَّ",
|
| 427 |
-
"م",
|
| 428 |
"ما",
|
| 429 |
"ماذا",
|
| 430 |
-
"
|
| 431 |
-
"ماهو",
|
| 432 |
-
"ماهُوَ",
|
| 433 |
"متى",
|
| 434 |
-
"مثـــل",
|
| 435 |
"مثل",
|
|
|
|
| 436 |
"مثلما",
|
| 437 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 438 |
"مع",
|
|
|
|
|
|
|
|
|
|
| 439 |
"معظم",
|
| 440 |
-
"مــن",
|
| 441 |
-
"مـن",
|
| 442 |
-
"مقابل",
|
| 443 |
"مما",
|
| 444 |
-
"
|
|
|
|
|
|
|
| 445 |
"من",
|
| 446 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 447 |
"منذ",
|
| 448 |
"مهما",
|
| 449 |
-
"
|
| 450 |
-
"
|
| 451 |
-
"مَاذَا",
|
| 452 |
-
"مَالَم",
|
| 453 |
-
"مَتَى",
|
| 454 |
-
"مَعَ",
|
| 455 |
-
"مَن",
|
| 456 |
-
"مَهمَا",
|
| 457 |
-
"مُقَابِلَ",
|
| 458 |
-
"مُمكِن",
|
| 459 |
-
"مُنذُ",
|
| 460 |
-
"مِثلَ",
|
| 461 |
-
"مِثلَمَا",
|
| 462 |
-
"مِمَّا",
|
| 463 |
-
"مِن",
|
| 464 |
-
"نا",
|
| 465 |
-
"ناهيك",
|
| 466 |
-
"نحسب",
|
| 467 |
"نحن",
|
| 468 |
"نحو",
|
| 469 |
-
"
|
| 470 |
"نعم",
|
| 471 |
-
"
|
| 472 |
-
"
|
| 473 |
-
"
|
| 474 |
-
"
|
| 475 |
-
"نَعَم",
|
| 476 |
-
"ه",
|
| 477 |
"هؤلاء",
|
| 478 |
-
"ها",
|
| 479 |
"هاتان",
|
| 480 |
"هاتين",
|
| 481 |
-
"
|
| 482 |
-
"هاي",
|
| 483 |
"هذا",
|
| 484 |
"هذان",
|
| 485 |
-
"هذــه",
|
| 486 |
"هذه",
|
| 487 |
"هذين",
|
| 488 |
-
"هـــذه",
|
| 489 |
-
"هــــذه",
|
| 490 |
"هكذا",
|
|
|
|
| 491 |
"هل",
|
| 492 |
"هم",
|
| 493 |
"هما",
|
| 494 |
"هن",
|
|
|
|
|
|
|
|
|
|
| 495 |
"هو",
|
| 496 |
-
"هى",
|
| 497 |
"هي",
|
| 498 |
-
"هَا",
|
| 499 |
-
"هَل",
|
| 500 |
-
"هُ",
|
| 501 |
-
"هُو",
|
| 502 |
-
"هُوَ",
|
| 503 |
-
"هِ",
|
| 504 |
-
"هٰؤلاء",
|
| 505 |
-
"هٰذا",
|
| 506 |
-
"هٰذان",
|
| 507 |
-
"هٰذه",
|
| 508 |
-
"هٰذَا",
|
| 509 |
-
"هٰكذا",
|
| 510 |
-
"هٰكَذَا",
|
| 511 |
"و",
|
| 512 |
-
"وأسلم",
|
| 513 |
"وراء",
|
| 514 |
-
"وسامراء",
|
| 515 |
"وسط",
|
| 516 |
-
"وســـط",
|
| 517 |
-
"وغربه",
|
| 518 |
"وفق",
|
|
|
|
|
|
|
| 519 |
"وقتما",
|
| 520 |
-
"وقف",
|
| 521 |
-
"ولا",
|
| 522 |
-
"ولَا",
|
| 523 |
-
"وهي",
|
| 524 |
-
"��َ",
|
| 525 |
-
"وَرَاءَ",
|
| 526 |
-
"وَسطَ",
|
| 527 |
-
"وِفقَ",
|
| 528 |
-
"وِلّا",
|
| 529 |
-
"ي",
|
| 530 |
"يا",
|
| 531 |
-
"
|
| 532 |
-
"
|
| 533 |
-
"
|
| 534 |
-
"
|
| 535 |
-
|
| 536 |
-
|
| 537 |
-
"
|
| 538 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 539 |
],
|
| 540 |
"bn": [
|
| 541 |
"অনেক",
|
| 542 |
-
"
|
| 543 |
-
"
|
| 544 |
-
"
|
| 545 |
-
"
|
| 546 |
-
"
|
| 547 |
-
"
|
| 548 |
-
"
|
| 549 |
-
"
|
| 550 |
-
"
|
| 551 |
-
"
|
| 552 |
-
"উত্তর",
|
| 553 |
"উপর",
|
| 554 |
-
"
|
| 555 |
-
"
|
| 556 |
-
"
|
| 557 |
-
"
|
| 558 |
-
"
|
| 559 |
-
"
|
| 560 |
-
"
|
| 561 |
-
"
|
| 562 |
-
"
|
| 563 |
-
"
|
| 564 |
-
"এস",
|
| 565 |
-
"এসে",
|
| 566 |
-
"ও",
|
| 567 |
-
"ওই",
|
| 568 |
-
"কমনে",
|
| 569 |
-
"করা",
|
| 570 |
-
"করে",
|
| 571 |
-
"কাছে",
|
| 572 |
-
"কাজ",
|
| 573 |
-
"কাজে",
|
| 574 |
-
"কারণ",
|
| 575 |
"কি",
|
| 576 |
-
"কিছু",
|
| 577 |
-
"
|
|
|
|
| 578 |
"কেউ",
|
| 579 |
-
"
|
| 580 |
-
"
|
| 581 |
-
"
|
| 582 |
-
"
|
| 583 |
-
"
|
| 584 |
-
"
|
| 585 |
-
"
|
| 586 |
-
"
|
| 587 |
-
"
|
| 588 |
-
"
|
| 589 |
-
"
|
| 590 |
-
"
|
| 591 |
-
"
|
| 592 |
-
"
|
| 593 |
-
"
|
| 594 |
-
"
|
| 595 |
-
"
|
| 596 |
-
"
|
| 597 |
-
"
|
| 598 |
-
"
|
| 599 |
-
"
|
| 600 |
-
"
|
| 601 |
-
"
|
| 602 |
-
"
|
| 603 |
-
"
|
| 604 |
-
"
|
| 605 |
-
"
|
| 606 |
-
"
|
| 607 |
-
"
|
| 608 |
-
"
|
| 609 |
-
"
|
| 610 |
-
"
|
| 611 |
-
"নয়",
|
| 612 |
-
"পর",
|
| 613 |
-
"পরে",
|
| 614 |
-
"পাচ",
|
| 615 |
-
"পি",
|
| 616 |
-
"পেয়্র্",
|
| 617 |
-
"প্রতি",
|
| 618 |
-
"প্রথম",
|
| 619 |
-
"প্রযন্ত",
|
| 620 |
-
"প্রাথমিক",
|
| 621 |
-
"প্রায়",
|
| 622 |
-
"বক্তব্য",
|
| 623 |
-
"বন",
|
| 624 |
-
"বলা",
|
| 625 |
-
"বলে",
|
| 626 |
-
"বলেন",
|
| 627 |
-
"বহু",
|
| 628 |
-
"বা",
|
| 629 |
-
"বি",
|
| 630 |
-
"বিভিন্ন",
|
| 631 |
-
"বেশ",
|
| 632 |
-
"বেশি",
|
| 633 |
-
"মতো",
|
| 634 |
-
"মধ্যে",
|
| 635 |
-
"মনে",
|
| 636 |
-
"যখন",
|
| 637 |
-
"যদি",
|
| 638 |
-
"যা",
|
| 639 |
-
"যাওয়া",
|
| 640 |
-
"যে",
|
| 641 |
-
"র",
|
| 642 |
-
"রকম",
|
| 643 |
-
"লক্ষ",
|
| 644 |
-
"শুধু",
|
| 645 |
-
"শুরু",
|
| 646 |
-
"সঙ্গে",
|
| 647 |
-
"সব",
|
| 648 |
-
"সহ",
|
| 649 |
-
"সাধারণ",
|
| 650 |
-
"সামনে",
|
| 651 |
-
"সি",
|
| 652 |
-
"সে",
|
| 653 |
-
"সেই",
|
| 654 |
-
"হতে",
|
| 655 |
-
"হাজার",
|
| 656 |
-
"হয়",
|
| 657 |
],
|
| 658 |
"ca": [
|
| 659 |
"-ho",
|
|
@@ -3686,232 +3566,257 @@ stopwords = {
|
|
| 3686 |
"êtes",
|
| 3687 |
"être",
|
| 3688 |
],
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 3689 |
"hi": [
|
| 3690 |
"अंदर",
|
| 3691 |
-
"
|
| 3692 |
-
"
|
| 3693 |
-
"
|
| 3694 |
-
"
|
| 3695 |
-
"
|
| 3696 |
-
"
|
| 3697 |
-
"
|
| 3698 |
-
"
|
| 3699 |
-
"
|
| 3700 |
-
"
|
| 3701 |
-
"
|
| 3702 |
-
"
|
| 3703 |
-
"
|
| 3704 |
-
"
|
| 3705 |
-
"
|
| 3706 |
-
"
|
| 3707 |
-
"
|
| 3708 |
-
"
|
| 3709 |
-
"
|
| 3710 |
-
"
|
| 3711 |
-
"
|
| 3712 |
-
"
|
| 3713 |
-
"इसका",
|
| 3714 |
-
"इसकि",
|
| 3715 |
-
"इसकी",
|
| 3716 |
-
"इसके",
|
| 3717 |
-
"इसमें",
|
| 3718 |
-
"इसि",
|
| 3719 |
-
"इसी",
|
| 3720 |
-
"इसे",
|
| 3721 |
-
"उंहिं",
|
| 3722 |
-
"उंहें",
|
| 3723 |
-
"उंहों",
|
| 3724 |
-
"उन",
|
| 3725 |
-
"उनका",
|
| 3726 |
-
"उनकि",
|
| 3727 |
-
"उनकी",
|
| 3728 |
"उनके",
|
| 3729 |
-
"
|
| 3730 |
-
"उन्हीं",
|
| 3731 |
"उन्हें",
|
| 3732 |
-
"
|
| 3733 |
-
"
|
| 3734 |
-
"उसके",
|
| 3735 |
-
"
|
| 3736 |
-
"
|
| 3737 |
-
"
|
| 3738 |
-
"एक",
|
| 3739 |
-
"एवं",
|
| 3740 |
-
"एस",
|
| 3741 |
-
"एसे",
|
| 3742 |
-
"ऐसे",
|
| 3743 |
-
"ओर",
|
| 3744 |
"और",
|
| 3745 |
-
"
|
| 3746 |
-
"
|
| 3747 |
-
"
|
| 3748 |
-
"
|
| 3749 |
-
"
|
| 3750 |
-
"
|
| 3751 |
-
"
|
| 3752 |
-
"
|
| 3753 |
-
"
|
| 3754 |
-
"
|
| 3755 |
-
"
|
| 3756 |
-
"
|
| 3757 |
-
"
|
| 3758 |
-
"
|
| 3759 |
-
"
|
| 3760 |
-
"
|
| 3761 |
-
"
|
| 3762 |
-
"
|
| 3763 |
-
"
|
| 3764 |
-
"
|
| 3765 |
-
"
|
| 3766 |
-
"
|
| 3767 |
-
"किसि",
|
| 3768 |
-
"किसी",
|
| 3769 |
-
"किसे",
|
| 3770 |
-
"की",
|
| 3771 |
-
"कुछ",
|
| 3772 |
-
"कुल",
|
| 3773 |
-
"के",
|
| 3774 |
-
"को",
|
| 3775 |
-
"कोइ",
|
| 3776 |
"कोई",
|
| 3777 |
-
"
|
| 3778 |
-
"
|
|
|
|
| 3779 |
"कौन",
|
| 3780 |
-
"
|
| 3781 |
-
"
|
| 3782 |
-
"
|
| 3783 |
-
"
|
| 3784 |
-
"
|
| 3785 |
-
"
|
| 3786 |
-
"
|
| 3787 |
-
"
|
| 3788 |
-
"
|
| 3789 |
-
"जितना",
|
| 3790 |
-
"जिधर",
|
| 3791 |
-
"जिन",
|
| 3792 |
-
"जिन्हें",
|
| 3793 |
-
"जिन्हों",
|
| 3794 |
-
"जिस",
|
| 3795 |
-
"जिसे",
|
| 3796 |
-
"जीधर",
|
| 3797 |
-
"जेसा",
|
| 3798 |
-
"जेसे",
|
| 3799 |
"जैसा",
|
| 3800 |
"जैसे",
|
| 3801 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
| 3802 |
"तक",
|
| 3803 |
-
"
|
| 3804 |
-
"
|
| 3805 |
-
"
|
| 3806 |
-
"
|
| 3807 |
-
"
|
| 3808 |
-
"
|
| 3809 |
-
"
|
| 3810 |
-
"
|
| 3811 |
-
"
|
| 3812 |
-
"
|
| 3813 |
-
"
|
| 3814 |
-
"
|
| 3815 |
-
"थी",
|
| 3816 |
-
"थे",
|
| 3817 |
-
"दबारा",
|
| 3818 |
-
"दवारा",
|
| 3819 |
-
"दिया",
|
| 3820 |
-
"दुसरा",
|
| 3821 |
-
"दुसरे",
|
| 3822 |
-
"दूसरे",
|
| 3823 |
-
"दो",
|
| 3824 |
"द्वारा",
|
| 3825 |
-
"
|
| 3826 |
-
"नहिं",
|
| 3827 |
-
"नहीं",
|
| 3828 |
-
"ना",
|
| 3829 |
-
"निचे",
|
| 3830 |
-
"निहायत",
|
| 3831 |
"नीचे",
|
| 3832 |
-
"
|
| 3833 |
-
"
|
| 3834 |
-
"
|
| 3835 |
-
"पुरा",
|
| 3836 |
"पूरा",
|
| 3837 |
-
"
|
| 3838 |
-
"
|
| 3839 |
-
"
|
| 3840 |
-
"
|
| 3841 |
-
"
|
| 3842 |
-
"
|
| 3843 |
-
"
|
| 3844 |
-
"
|
| 3845 |
-
"
|
| 3846 |
-
"
|
| 3847 |
-
"
|
| 3848 |
-
"भितर",
|
| 3849 |
"भी",
|
| 3850 |
-
"
|
| 3851 |
-
"
|
| 3852 |
-
"
|
| 3853 |
-
"
|
| 3854 |
-
"
|
|
|
|
| 3855 |
"यदि",
|
| 3856 |
-
"
|
| 3857 |
-
"
|
| 3858 |
-
"
|
| 3859 |
-
"यहि",
|
| 3860 |
-
"यही",
|
| 3861 |
-
"या",
|
| 3862 |
-
"यिह",
|
| 3863 |
-
"ये",
|
| 3864 |
-
"रखें",
|
| 3865 |
-
"रवासा",
|
| 3866 |
-
"रहा",
|
| 3867 |
-
"रहे",
|
| 3868 |
-
"ऱ्वासा",
|
| 3869 |
-
"लिए",
|
| 3870 |
-
"लिये",
|
| 3871 |
"लेकिन",
|
| 3872 |
-
"व",
|
| 3873 |
-
"वगेरह",
|
| 3874 |
-
"वरग",
|
| 3875 |
-
"वर्ग",
|
| 3876 |
"वह",
|
| 3877 |
-
"
|
| 3878 |
"वहां",
|
| 3879 |
-
"
|
| 3880 |
-
"
|
| 3881 |
-
"
|
| 3882 |
-
"
|
| 3883 |
-
"
|
| 3884 |
-
"
|
| 3885 |
-
"
|
| 3886 |
-
"सकता",
|
| 3887 |
-
"सकते",
|
| 3888 |
-
"सबसे",
|
| 3889 |
-
"सभि",
|
| 3890 |
-
"सभी",
|
| 3891 |
"साथ",
|
| 3892 |
-
"साबुत",
|
| 3893 |
-
"साभ",
|
| 3894 |
-
"सारा",
|
| 3895 |
"से",
|
| 3896 |
-
"
|
| 3897 |
-
"
|
| 3898 |
-
"
|
| 3899 |
-
"
|
| 3900 |
-
"हुआ",
|
| 3901 |
-
"हुइ",
|
| 3902 |
-
"हुई",
|
| 3903 |
-
"हुए",
|
| 3904 |
-
"हे",
|
| 3905 |
-
"हें",
|
| 3906 |
-
"है",
|
| 3907 |
-
"हैं",
|
| 3908 |
-
"हो",
|
| 3909 |
-
"होता",
|
| 3910 |
-
"होति",
|
| 3911 |
-
"होती",
|
| 3912 |
-
"होते",
|
| 3913 |
-
"होना",
|
| 3914 |
-
"होने",
|
| 3915 |
],
|
| 3916 |
"id": [
|
| 3917 |
"Anda",
|
|
@@ -5128,546 +5033,180 @@ stopwords = {
|
|
| 5128 |
"zake",
|
| 5129 |
],
|
| 5130 |
"ur": [
|
| 5131 |
-
"
|
| 5132 |
-
"
|
| 5133 |
-
"
|
| 5134 |
-
"
|
| 5135 |
-
"
|
| 5136 |
-
"
|
| 5137 |
-
"
|
| 5138 |
-
"
|
| 5139 |
-
"
|
| 5140 |
-
"
|
| 5141 |
-
"
|
| 5142 |
-
"
|
| 5143 |
-
"
|
| 5144 |
-
"
|
| 5145 |
-
"
|
| 5146 |
-
"
|
| 5147 |
-
"
|
| 5148 |
-
"
|
| 5149 |
-
"
|
| 5150 |
-
"
|
| 5151 |
-
"
|
| 5152 |
-
"
|
| 5153 |
-
"
|
| 5154 |
-
"
|
| 5155 |
-
"
|
| 5156 |
-
"
|
| 5157 |
-
"
|
| 5158 |
-
"
|
| 5159 |
-
"
|
| 5160 |
-
"
|
| 5161 |
-
"
|
| 5162 |
-
"
|
| 5163 |
-
"
|
| 5164 |
-
"
|
| 5165 |
-
"
|
| 5166 |
-
"
|
| 5167 |
-
"
|
| 5168 |
-
"
|
| 5169 |
-
"
|
| 5170 |
-
"
|
| 5171 |
-
"
|
| 5172 |
-
"اچھے",
|
| 5173 |
-
"اکثر",
|
| 5174 |
-
"اکٹھب",
|
| 5175 |
-
"اکٹھی",
|
| 5176 |
-
"اکٹھے",
|
| 5177 |
-
"اکیلا",
|
| 5178 |
-
"اکیلی",
|
| 5179 |
-
"اکیلے",
|
| 5180 |
-
"اگرچہ",
|
| 5181 |
-
"اہن",
|
| 5182 |
-
"ایطے",
|
| 5183 |
-
"ایک",
|
| 5184 |
-
"ب",
|
| 5185 |
-
"ت",
|
| 5186 |
-
"تبزٍ",
|
| 5187 |
-
"تت",
|
| 5188 |
-
"تر",
|
| 5189 |
-
"ترتیت",
|
| 5190 |
-
"تریي",
|
| 5191 |
-
"تعذاد",
|
| 5192 |
-
"تن",
|
| 5193 |
-
"تو",
|
| 5194 |
-
"توبم",
|
| 5195 |
-
"توہی",
|
| 5196 |
-
"توہیں",
|
| 5197 |
-
"تٌہب",
|
| 5198 |
-
"تک",
|
| 5199 |
-
"تھب",
|
| 5200 |
-
"تھوڑا",
|
| 5201 |
-
"تھوڑی",
|
| 5202 |
-
"تھوڑے",
|
| 5203 |
-
"تھی",
|
| 5204 |
-
"تھے",
|
| 5205 |
-
"تیي",
|
| 5206 |
-
"ثب",
|
| 5207 |
-
"ثبئیں",
|
| 5208 |
-
"ثبترتیت",
|
| 5209 |
-
"ثبری",
|
| 5210 |
-
"ثبرے",
|
| 5211 |
-
"ثبعث",
|
| 5212 |
-
"ثبلا",
|
| 5213 |
-
"ثبلترتیت",
|
| 5214 |
-
"ثبہر",
|
| 5215 |
-
"ثدبئے",
|
| 5216 |
-
"ثرآں",
|
| 5217 |
-
"ثراں",
|
| 5218 |
-
"ثرش",
|
| 5219 |
-
"ثعذ",
|
| 5220 |
-
"ثغیر",
|
| 5221 |
-
"ثلٌذ",
|
| 5222 |
-
"ثلٌذوثبلا",
|
| 5223 |
-
"ثلکہ",
|
| 5224 |
-
"ثي",
|
| 5225 |
-
"ثٌب",
|
| 5226 |
-
"ثٌبرہب",
|
| 5227 |
-
"ثٌبرہی",
|
| 5228 |
-
"ثٌبرہے",
|
| 5229 |
-
"ثٌبًب",
|
| 5230 |
-
"ثٌذ",
|
| 5231 |
-
"ثٌذکرو",
|
| 5232 |
-
"ثٌذکرًب",
|
| 5233 |
-
"ثٌذی",
|
| 5234 |
-
"ثڑا",
|
| 5235 |
-
"ثڑوں",
|
| 5236 |
-
"ثڑی",
|
| 5237 |
-
"ثڑے",
|
| 5238 |
-
"ثھر",
|
| 5239 |
-
"ثھرا",
|
| 5240 |
-
"ثھراہوا",
|
| 5241 |
-
"ثھرپور",
|
| 5242 |
-
"ثھی",
|
| 5243 |
-
"ثہت",
|
| 5244 |
-
"ثہتر",
|
| 5245 |
-
"ثہتری",
|
| 5246 |
-
"ثہتریي",
|
| 5247 |
-
"ثیچ",
|
| 5248 |
-
"ج",
|
| 5249 |
-
"خب",
|
| 5250 |
-
"خبرہب",
|
| 5251 |
-
"خبرہی",
|
| 5252 |
-
"خبرہے",
|
| 5253 |
-
"خبهوظ",
|
| 5254 |
-
"خبًب",
|
| 5255 |
-
"خبًتب",
|
| 5256 |
-
"خبًتی",
|
| 5257 |
-
"خبًتے",
|
| 5258 |
-
"خبًٌب",
|
| 5259 |
-
"خت",
|
| 5260 |
-
"ختن",
|
| 5261 |
-
"خجکہ",
|
| 5262 |
-
"خص",
|
| 5263 |
-
"خططرذ",
|
| 5264 |
-
"خلذی",
|
| 5265 |
-
"خو",
|
| 5266 |
-
"خواى",
|
| 5267 |
-
"خوًہی",
|
| 5268 |
-
"خوکہ",
|
| 5269 |
-
"خٌبة",
|
| 5270 |
-
"خگہ",
|
| 5271 |
-
"خگہوں",
|
| 5272 |
-
"خگہیں",
|
| 5273 |
-
"خیطب",
|
| 5274 |
-
"خیطبکہ",
|
| 5275 |
-
"در",
|
| 5276 |
-
"درخبت",
|
| 5277 |
-
"درخہ",
|
| 5278 |
-
"درخے",
|
| 5279 |
-
"درزقیقت",
|
| 5280 |
-
"درضت",
|
| 5281 |
-
"دش",
|
| 5282 |
-
"دفعہ",
|
| 5283 |
-
"دلچطپ",
|
| 5284 |
-
"دلچطپی",
|
| 5285 |
-
"دلچطپیبں",
|
| 5286 |
-
"دو",
|
| 5287 |
-
"دور",
|
| 5288 |
-
"دوراى",
|
| 5289 |
-
"دوضرا",
|
| 5290 |
-
"دوضروں",
|
| 5291 |
-
"دوضری",
|
| 5292 |
-
"دوضرے",
|
| 5293 |
-
"دوًوں",
|
| 5294 |
-
"دکھبئیں",
|
| 5295 |
-
"دکھبتب",
|
| 5296 |
-
"دکھبتی",
|
| 5297 |
-
"دکھبتے",
|
| 5298 |
-
"دکھبو",
|
| 5299 |
-
"دکھبًب",
|
| 5300 |
-
"دکھبیب",
|
| 5301 |
-
"دی",
|
| 5302 |
-
"دیب",
|
| 5303 |
-
"دیتب",
|
| 5304 |
-
"دیتی",
|
| 5305 |
-
"دیتے",
|
| 5306 |
-
"دیر",
|
| 5307 |
-
"دیٌب",
|
| 5308 |
-
"دیکھو",
|
| 5309 |
-
"دیکھٌب",
|
| 5310 |
-
"دیکھی",
|
| 5311 |
-
"دیکھیں",
|
| 5312 |
-
"دے",
|
| 5313 |
-
"ر",
|
| 5314 |
-
"راضتوں",
|
| 5315 |
-
"راضتہ",
|
| 5316 |
-
"راضتے",
|
| 5317 |
-
"رریعہ",
|
| 5318 |
-
"رریعے",
|
| 5319 |
-
"رکي",
|
| 5320 |
-
"رکھ",
|
| 5321 |
-
"رکھب",
|
| 5322 |
-
"رکھتب",
|
| 5323 |
-
"رکھتبہوں",
|
| 5324 |
-
"رکھتی",
|
| 5325 |
-
"رکھتے",
|
| 5326 |
-
"رکھی",
|
| 5327 |
-
"رکھے",
|
| 5328 |
-
"رہب",
|
| 5329 |
-
"رہی",
|
| 5330 |
-
"رہے",
|
| 5331 |
-
"ز",
|
| 5332 |
-
"زبصل",
|
| 5333 |
-
"زبضر",
|
| 5334 |
-
"زبل",
|
| 5335 |
-
"زبلات",
|
| 5336 |
-
"زبلیہ",
|
| 5337 |
-
"زصوں",
|
| 5338 |
-
"زصہ",
|
| 5339 |
-
"زصے",
|
| 5340 |
-
"زقبئق",
|
| 5341 |
-
"زقیتیں",
|
| 5342 |
-
"زقیقت",
|
| 5343 |
-
"زکن",
|
| 5344 |
-
"زکویہ",
|
| 5345 |
-
"زیبدٍ",
|
| 5346 |
-
"صبف",
|
| 5347 |
-
"صسیر",
|
| 5348 |
-
"صفر",
|
| 5349 |
-
"صورت",
|
| 5350 |
-
"صورتسبل",
|
| 5351 |
-
"صورتوں",
|
| 5352 |
-
"صورتیں",
|
| 5353 |
-
"ض",
|
| 5354 |
-
"ضبت",
|
| 5355 |
-
"ضبتھ",
|
| 5356 |
-
"ضبدٍ",
|
| 5357 |
-
"ضبرا",
|
| 5358 |
-
"ضبرے",
|
| 5359 |
-
"ضبل",
|
| 5360 |
-
"ضبلوں",
|
| 5361 |
-
"ضت",
|
| 5362 |
-
"ضرور",
|
| 5363 |
-
"ضرورت",
|
| 5364 |
-
"ضروری",
|
| 5365 |
-
"ضلطلہ",
|
| 5366 |
-
"ضوچ",
|
| 5367 |
-
"ضوچب",
|
| 5368 |
-
"ضوچتب",
|
| 5369 |
-
"ضوچتی",
|
| 5370 |
-
"ضوچتے",
|
| 5371 |
-
"ضوچو",
|
| 5372 |
-
"ضوچٌب",
|
| 5373 |
-
"ضوچی",
|
| 5374 |
-
"ضوچیں",
|
| 5375 |
-
"ضکب",
|
| 5376 |
-
"ضکتب",
|
| 5377 |
-
"ضکتی",
|
| 5378 |
-
"ضکتے",
|
| 5379 |
-
"ضکٌب",
|
| 5380 |
-
"ضکی",
|
| 5381 |
-
"ضکے",
|
| 5382 |
-
"ضیذھب",
|
| 5383 |
-
"ضیذھی",
|
| 5384 |
-
"ضیذھے",
|
| 5385 |
-
"ضیکٌڈ",
|
| 5386 |
-
"ضے",
|
| 5387 |
-
"طرف",
|
| 5388 |
-
"طریق",
|
| 5389 |
-
"طریقوں",
|
| 5390 |
-
"طریقہ",
|
| 5391 |
-
"طریقے",
|
| 5392 |
-
"طور",
|
| 5393 |
-
"طورپر",
|
| 5394 |
-
"ظبہر",
|
| 5395 |
-
"ع",
|
| 5396 |
-
"عذد",
|
| 5397 |
-
"عظین",
|
| 5398 |
-
"علاقوں",
|
| 5399 |
-
"علاقہ",
|
| 5400 |
-
"علاقے",
|
| 5401 |
-
"علاوٍ",
|
| 5402 |
-
"عووهی",
|
| 5403 |
-
"غبیذ",
|
| 5404 |
-
"غخص",
|
| 5405 |
-
"غذ",
|
| 5406 |
-
"غروع",
|
| 5407 |
-
"غروعبت",
|
| 5408 |
-
"غے",
|
| 5409 |
-
"فرد",
|
| 5410 |
-
"فی",
|
| 5411 |
-
"ق",
|
| 5412 |
-
"قجل",
|
| 5413 |
-
"قجیلہ",
|
| 5414 |
-
"قطن",
|
| 5415 |
-
"لئے",
|
| 5416 |
-
"لا",
|
| 5417 |
-
"لازهی",
|
| 5418 |
-
"لو",
|
| 5419 |
-
"لوجب",
|
| 5420 |
-
"لوجی",
|
| 5421 |
-
"لوجے",
|
| 5422 |
-
"لوسبت",
|
| 5423 |
-
"لوسہ",
|
| 5424 |
-
"لوگ",
|
| 5425 |
-
"لوگوں",
|
| 5426 |
-
"لڑکپي",
|
| 5427 |
-
"لگتب",
|
| 5428 |
-
"لگتی",
|
| 5429 |
-
"لگتے",
|
| 5430 |
-
"لگٌب",
|
| 5431 |
-
"لگی",
|
| 5432 |
-
"لگیں",
|
| 5433 |
-
"لگے",
|
| 5434 |
-
"لی",
|
| 5435 |
-
"لیب",
|
| 5436 |
-
"لیٌب",
|
| 5437 |
-
"لیں",
|
| 5438 |
-
"لے",
|
| 5439 |
-
"ه",
|
| 5440 |
-
"هتعلق",
|
| 5441 |
-
"هختلف",
|
| 5442 |
-
"هسترم",
|
| 5443 |
-
"هسترهہ",
|
| 5444 |
-
"هسطوش",
|
| 5445 |
-
"هسیذ",
|
| 5446 |
-
"هطئلہ",
|
| 5447 |
-
"هطئلے",
|
| 5448 |
-
"هطبئل",
|
| 5449 |
-
"هطتعول",
|
| 5450 |
-
"هطلق",
|
| 5451 |
-
"هعلوم",
|
| 5452 |
-
"هػتول",
|
| 5453 |
-
"هلا",
|
| 5454 |
-
"هوکي",
|
| 5455 |
-
"هوکٌبت",
|
| 5456 |
-
"هوکٌہ",
|
| 5457 |
-
"هٌبضت",
|
| 5458 |
-
"هڑا",
|
| 5459 |
-
"هڑًب",
|
| 5460 |
-
"هڑے",
|
| 5461 |
-
"هکول",
|
| 5462 |
-
"هگر",
|
| 5463 |
-
"هہرثبى",
|
| 5464 |
-
"هیرا",
|
| 5465 |
-
"هیری",
|
| 5466 |
-
"هیرے",
|
| 5467 |
-
"هیں",
|
| 5468 |
-
"و",
|
| 5469 |
-
"وار",
|
| 5470 |
-
"والے",
|
| 5471 |
-
"وٍ",
|
| 5472 |
-
"ًئی",
|
| 5473 |
-
"ًئے",
|
| 5474 |
-
"ًب",
|
| 5475 |
-
"ًبپطٌذ",
|
| 5476 |
-
"ًبگسیر",
|
| 5477 |
-
"ًطجت",
|
| 5478 |
-
"ًقطہ",
|
| 5479 |
-
"ًو",
|
| 5480 |
-
"ًوخواى",
|
| 5481 |
-
"ًکبلٌب",
|
| 5482 |
-
"ًکتہ",
|
| 5483 |
-
"ًہ",
|
| 5484 |
-
"ًہیں",
|
| 5485 |
-
"ًیب",
|
| 5486 |
-
"ًے",
|
| 5487 |
-
"ٓ آش",
|
| 5488 |
-
"ٹھیک",
|
| 5489 |
-
"پبئے",
|
| 5490 |
-
"پبش",
|
| 5491 |
-
"پبًب",
|
| 5492 |
-
"پبًچ",
|
| 5493 |
-
"پر",
|
| 5494 |
-
"پراًب",
|
| 5495 |
-
"پطٌذ",
|
| 5496 |
-
"پل",
|
| 5497 |
-
"پورا",
|
| 5498 |
-
"پوچھب",
|
| 5499 |
-
"پوچھتب",
|
| 5500 |
-
"پوچھتی",
|
| 5501 |
-
"پوچھتے",
|
| 5502 |
-
"پوچھو",
|
| 5503 |
-
"پوچھوں",
|
| 5504 |
-
"پوچھٌب",
|
| 5505 |
-
"پوچھیں",
|
| 5506 |
-
"پچھلا",
|
| 5507 |
"پھر",
|
| 5508 |
-
"
|
| 5509 |
-
"
|
| 5510 |
-
"پہلےضی",
|
| 5511 |
-
"پہلےضے",
|
| 5512 |
-
"پہلےضےہی",
|
| 5513 |
-
"پیع",
|
| 5514 |
-
"چبر",
|
| 5515 |
-
"چبہب",
|
| 5516 |
-
"چبہٌب",
|
| 5517 |
-
"چبہے",
|
| 5518 |
-
"چلا",
|
| 5519 |
-
"چلو",
|
| 5520 |
-
"چلیں",
|
| 5521 |
-
"چلے",
|
| 5522 |
-
"چکب",
|
| 5523 |
-
"چکی",
|
| 5524 |
-
"چکیں",
|
| 5525 |
-
"چکے",
|
| 5526 |
-
"چھوٹب",
|
| 5527 |
-
"چھوٹوں",
|
| 5528 |
-
"چھوٹی",
|
| 5529 |
-
"چھوٹے",
|
| 5530 |
-
"چھہ",
|
| 5531 |
-
"چیسیں",
|
| 5532 |
-
"ڈھوًڈا",
|
| 5533 |
-
"ڈھوًڈلیب",
|
| 5534 |
-
"ڈھوًڈو",
|
| 5535 |
-
"ڈھوًڈًب",
|
| 5536 |
-
"ڈھوًڈی",
|
| 5537 |
-
"ڈھوًڈیں",
|
| 5538 |
-
"ک",
|
| 5539 |
-
"کئی",
|
| 5540 |
-
"کئے",
|
| 5541 |
"کب",
|
| 5542 |
-
"
|
| 5543 |
-
"
|
| 5544 |
-
"کت",
|
| 5545 |
-
"کجھی",
|
| 5546 |
-
"کرا",
|
| 5547 |
-
"کرتب",
|
| 5548 |
-
"کرتبہوں",
|
| 5549 |
-
"کرتی",
|
| 5550 |
-
"کرتے",
|
| 5551 |
-
"کرتےہو",
|
| 5552 |
-
"کررہب",
|
| 5553 |
-
"کررہی",
|
| 5554 |
-
"کررہے",
|
| 5555 |
-
"کرو",
|
| 5556 |
-
"کرًب",
|
| 5557 |
-
"کریں",
|
| 5558 |
-
"کرے",
|
| 5559 |
-
"کطی",
|
| 5560 |
-
"کل",
|
| 5561 |
-
"کن",
|
| 5562 |
"کوئی",
|
| 5563 |
-
"
|
| 5564 |
-
"
|
| 5565 |
-
"
|
| 5566 |
-
"
|
| 5567 |
-
"
|
| 5568 |
-
"
|
| 5569 |
-
"
|
| 5570 |
-
"
|
| 5571 |
-
"
|
| 5572 |
-
"
|
| 5573 |
-
"
|
| 5574 |
-
"کھولو",
|
| 5575 |
-
"کھولٌب",
|
| 5576 |
-
"کھولی",
|
| 5577 |
-
"کھولیں",
|
| 5578 |
-
"کھولے",
|
| 5579 |
-
"کہ",
|
| 5580 |
-
"کہب",
|
| 5581 |
-
"کہتب",
|
| 5582 |
-
"کہتی",
|
| 5583 |
-
"کہتے",
|
| 5584 |
-
"کہو",
|
| 5585 |
-
"کہوں",
|
| 5586 |
-
"کہٌب",
|
| 5587 |
-
"کہی",
|
| 5588 |
-
"کہیں",
|
| 5589 |
-
"کہے",
|
| 5590 |
-
"کی",
|
| 5591 |
-
"کیب",
|
| 5592 |
-
"کیطب",
|
| 5593 |
-
"کیطرف",
|
| 5594 |
-
"کیطے",
|
| 5595 |
-
"کیلئے",
|
| 5596 |
-
"کیوًکہ",
|
| 5597 |
-
"کیوں",
|
| 5598 |
-
"کیے",
|
| 5599 |
-
"کے",
|
| 5600 |
-
"کےثعذ",
|
| 5601 |
-
"کےرریعے",
|
| 5602 |
-
"گئی",
|
| 5603 |
-
"گئے",
|
| 5604 |
-
"گب",
|
| 5605 |
-
"گرد",
|
| 5606 |
-
"گروٍ",
|
| 5607 |
-
"گروپ",
|
| 5608 |
-
"گروہوں",
|
| 5609 |
-
"گٌتی",
|
| 5610 |
-
"گی",
|
| 5611 |
-
"گیب",
|
| 5612 |
-
"گے",
|
| 5613 |
-
"ہر",
|
| 5614 |
-
"ہن",
|
| 5615 |
-
"ہو",
|
| 5616 |
-
"ہوئی",
|
| 5617 |
-
"ہوئے",
|
| 5618 |
-
"ہوا",
|
| 5619 |
-
"ہوبرا",
|
| 5620 |
-
"ہوبری",
|
| 5621 |
-
"ہوبرے",
|
| 5622 |
-
"ہوتب",
|
| 5623 |
-
"ہوتی",
|
| 5624 |
-
"ہوتے",
|
| 5625 |
-
"ہورہب",
|
| 5626 |
-
"ہورہی",
|
| 5627 |
-
"ہورہے",
|
| 5628 |
-
"ہوضکتب",
|
| 5629 |
-
"ہوضکتی",
|
| 5630 |
-
"ہوضکتے",
|
| 5631 |
-
"ہوًب",
|
| 5632 |
-
"ہوًی",
|
| 5633 |
-
"ہوًے",
|
| 5634 |
-
"ہوچکب",
|
| 5635 |
-
"ہوچکی",
|
| 5636 |
-
"ہوچکے",
|
| 5637 |
-
"ہوگئی",
|
| 5638 |
-
"ہوگئے",
|
| 5639 |
-
"ہوگیب",
|
| 5640 |
-
"ہوں",
|
| 5641 |
-
"ہی",
|
| 5642 |
-
"ہیں",
|
| 5643 |
-
"ہے",
|
| 5644 |
-
"ی",
|
| 5645 |
-
"یقیٌی",
|
| 5646 |
-
"یہ",
|
| 5647 |
-
"یہبں",
|
| 5648 |
],
|
| 5649 |
"vi": [
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5650 |
"bên",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5651 |
"bấy nhiêu",
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5652 |
"bằng",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5653 |
"bởi",
|
|
|
|
| 5654 |
"cc",
|
|
|
|
| 5655 |
"chao",
|
|
|
|
|
|
|
| 5656 |
"cho",
|
| 5657 |
"cho dù",
|
|
|
|
|
|
|
|
|
|
| 5658 |
"chán",
|
|
|
|
|
|
|
| 5659 |
"chính",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5660 |
"chút",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5661 |
"chứ",
|
|
|
|
|
|
|
|
|
|
| 5662 |
"các",
|
|
|
|
| 5663 |
"cái",
|
|
|
|
|
|
|
|
|
|
| 5664 |
"còn",
|
| 5665 |
"có",
|
| 5666 |
"có vẻ",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5667 |
"cùng",
|
|
|
|
| 5668 |
"cơ mà",
|
|
|
|
|
|
|
| 5669 |
"cả",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5670 |
"của",
|
|
|
|
| 5671 |
"do",
|
| 5672 |
"do vậy",
|
| 5673 |
"do đó",
|
|
@@ -5675,68 +5214,176 @@ stopwords = {
|
|
| 5675 |
"dù",
|
| 5676 |
"dù sao",
|
| 5677 |
"dù vậy",
|
|
|
|
| 5678 |
"dưới",
|
| 5679 |
"dường như",
|
| 5680 |
"dạ",
|
|
|
|
| 5681 |
"dẫu",
|
| 5682 |
"dẫu vậy",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5683 |
"giữa",
|
| 5684 |
"gì",
|
|
|
|
| 5685 |
"hay",
|
| 5686 |
"hay là",
|
|
|
|
|
|
|
| 5687 |
"hoặc",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5688 |
"hơn nữa",
|
| 5689 |
"hả",
|
| 5690 |
"hầu hết",
|
|
|
|
| 5691 |
"hết",
|
|
|
|
| 5692 |
"hề",
|
| 5693 |
"hễ",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5694 |
"không những",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5695 |
"l",
|
| 5696 |
"là",
|
|
|
|
| 5697 |
"lên",
|
| 5698 |
"lại nữa",
|
|
|
|
| 5699 |
"lẫn",
|
| 5700 |
"lắm",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5701 |
"mà",
|
| 5702 |
"mà còn",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5703 |
"mấy",
|
|
|
|
|
|
|
| 5704 |
"mặc dù",
|
|
|
|
| 5705 |
"mặt khác",
|
|
|
|
|
|
|
| 5706 |
"mọi",
|
|
|
|
|
|
|
|
|
|
| 5707 |
"mỗi",
|
| 5708 |
"một chút",
|
| 5709 |
"một nửa",
|
| 5710 |
"một số",
|
| 5711 |
"một vài",
|
| 5712 |
"một ít",
|
|
|
|
| 5713 |
"ngay",
|
|
|
|
|
|
|
|
|
|
| 5714 |
"ngoài",
|
| 5715 |
"ngoài ra",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5716 |
"ngược lại",
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5717 |
"nhá",
|
| 5718 |
"nhân",
|
|
|
|
| 5719 |
"nhé",
|
| 5720 |
"như",
|
| 5721 |
"như vậy",
|
| 5722 |
"nhưng",
|
|
|
|
|
|
|
| 5723 |
"nhất là",
|
| 5724 |
"nhằm",
|
| 5725 |
"nhỉ",
|
|
|
|
| 5726 |
"nhờ",
|
|
|
|
| 5727 |
"những",
|
|
|
|
|
|
|
|
|
|
| 5728 |
"nào",
|
| 5729 |
"này",
|
| 5730 |
"nè",
|
| 5731 |
"nên",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5732 |
"nếu",
|
| 5733 |
"nếu như",
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5734 |
"nửa",
|
| 5735 |
"nữa",
|
|
|
|
| 5736 |
"phía",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5737 |
"phần lớn",
|
|
|
|
|
|
|
| 5738 |
"qua",
|
|
|
|
|
|
|
|
|
|
| 5739 |
"quả",
|
|
|
|
| 5740 |
"ra",
|
| 5741 |
"riêng",
|
| 5742 |
"rùi",
|
|
@@ -5745,37 +5392,81 @@ stopwords = {
|
|
| 5745 |
"sang",
|
| 5746 |
"sao",
|
| 5747 |
"sau",
|
|
|
|
| 5748 |
"song",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5749 |
"thay",
|
|
|
|
| 5750 |
"theo",
|
|
|
|
|
|
|
| 5751 |
"thiệt",
|
|
|
|
|
|
|
|
|
|
| 5752 |
"thì",
|
| 5753 |
"thí dụ",
|
| 5754 |
"thôi",
|
|
|
|
|
|
|
|
|
|
| 5755 |
"thật",
|
|
|
|
| 5756 |
"thế",
|
| 5757 |
"thế là",
|
| 5758 |
"thế mà",
|
| 5759 |
"thế nhưng",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5760 |
"toàn",
|
| 5761 |
"toàn bộ",
|
| 5762 |
"toàn thể",
|
| 5763 |
"trong",
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5764 |
"trên",
|
|
|
|
| 5765 |
"trước",
|
|
|
|
| 5766 |
"trời",
|
|
|
|
| 5767 |
"tuy",
|
| 5768 |
"tuy nhiên",
|
|
|
|
| 5769 |
"tuy vậy",
|
|
|
|
| 5770 |
"tóm lại",
|
|
|
|
|
|
|
| 5771 |
"tại",
|
|
|
|
|
|
|
| 5772 |
"tất cả",
|
|
|
|
| 5773 |
"tận",
|
|
|
|
| 5774 |
"tổ",
|
|
|
|
| 5775 |
"tới",
|
|
|
|
|
|
|
| 5776 |
"tức",
|
| 5777 |
"tức là",
|
| 5778 |
"từ",
|
|
|
|
|
|
|
| 5779 |
"ui",
|
| 5780 |
"và",
|
| 5781 |
"vài",
|
|
@@ -5785,30 +5476,68 @@ stopwords = {
|
|
| 5785 |
"vì thế",
|
| 5786 |
"vì vậy",
|
| 5787 |
"ví dụ",
|
|
|
|
| 5788 |
"vô",
|
| 5789 |
"vô số",
|
| 5790 |
"vô vàn",
|
|
|
|
|
|
|
| 5791 |
"vậy",
|
| 5792 |
"vậy là",
|
| 5793 |
"vậy mà",
|
| 5794 |
"về",
|
|
|
|
|
|
|
|
|
|
| 5795 |
"với",
|
| 5796 |
"xuống",
|
| 5797 |
"à",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5798 |
"đa số",
|
|
|
|
| 5799 |
"đi",
|
| 5800 |
"đâu",
|
| 5801 |
"đây",
|
|
|
|
|
|
|
|
|
|
| 5802 |
"đó",
|
| 5803 |
"đôi",
|
|
|
|
| 5804 |
"được",
|
|
|
|
| 5805 |
"đấy",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5806 |
"đến",
|
| 5807 |
"để",
|
|
|
|
| 5808 |
"đối với",
|
|
|
|
|
|
|
|
|
|
| 5809 |
"ạ",
|
|
|
|
|
|
|
| 5810 |
"ấy",
|
|
|
|
|
|
|
|
|
|
| 5811 |
"ở",
|
|
|
|
|
|
|
|
|
|
| 5812 |
],
|
| 5813 |
"yo": [
|
| 5814 |
"a",
|
|
|
|
| 57 |
"ʼn",
|
| 58 |
],
|
| 59 |
"ar": [
|
| 60 |
+
"آنذاك",
|
| 61 |
+
"أبداً",
|
|
|
|
| 62 |
"أثناء",
|
| 63 |
+
"أسفل",
|
| 64 |
+
"أعلى",
|
|
|
|
| 65 |
"أغلب",
|
| 66 |
"أكثر",
|
|
|
|
| 67 |
"ألا",
|
| 68 |
+
"ألم",
|
| 69 |
"أم",
|
|
|
|
| 70 |
"أمام",
|
| 71 |
+
"أمس",
|
| 72 |
"أن",
|
| 73 |
"أنا",
|
| 74 |
"أنت",
|
| 75 |
"أنتم",
|
| 76 |
+
"أنتما",
|
| 77 |
+
"أنتن",
|
| 78 |
"أو",
|
| 79 |
"أولئك",
|
|
|
|
| 80 |
"أي",
|
| 81 |
+
"أيان",
|
| 82 |
+
"أياً",
|
| 83 |
"أية",
|
| 84 |
+
"أيضاً",
|
| 85 |
"أين",
|
| 86 |
"أينما",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 87 |
"إبان",
|
| 88 |
"إثر",
|
| 89 |
+
"إثر ذلك",
|
|
|
|
| 90 |
"إذا",
|
|
|
|
| 91 |
"إزاء",
|
|
|
|
| 92 |
"إلا",
|
| 93 |
+
"إلا أن",
|
| 94 |
"إلى",
|
|
|
|
|
|
|
| 95 |
"إما",
|
| 96 |
"إن",
|
| 97 |
"إنما",
|
| 98 |
+
"إياك",
|
| 99 |
+
"إياكم",
|
| 100 |
+
"إياكما",
|
| 101 |
+
"إياكن",
|
| 102 |
+
"إيانا",
|
| 103 |
+
"إياه",
|
| 104 |
+
"إياها",
|
| 105 |
+
"إياهم",
|
| 106 |
+
"إياهما",
|
| 107 |
+
"إياهن",
|
| 108 |
+
"إياي",
|
| 109 |
+
"الآن",
|
| 110 |
+
"البتة",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 111 |
"التي",
|
|
|
|
| 112 |
"الذي",
|
| 113 |
"الذين",
|
| 114 |
+
"اللائي",
|
| 115 |
+
"اللات",
|
|
|
|
|
|
|
|
|
|
| 116 |
"اللاتي",
|
| 117 |
"اللتان",
|
| 118 |
"اللتين",
|
| 119 |
"اللذان",
|
| 120 |
"اللذين",
|
| 121 |
+
"اللهم",
|
| 122 |
+
"اللوات",
|
| 123 |
"اللواتي",
|
| 124 |
+
"الليلة",
|
| 125 |
+
"اليوم",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 126 |
"اي",
|
| 127 |
+
"بألا",
|
| 128 |
+
"بأن",
|
| 129 |
+
"بئس",
|
| 130 |
+
"بئست",
|
| 131 |
+
"باتجاه",
|
| 132 |
+
"بالأخص",
|
| 133 |
+
"بالأمس",
|
| 134 |
+
"بالتالي",
|
| 135 |
+
"بالذات",
|
| 136 |
+
"بالرغم من",
|
| 137 |
+
"بالضبط",
|
| 138 |
+
"بالطبع",
|
| 139 |
+
"بالفعل",
|
| 140 |
+
"بالقرب",
|
| 141 |
+
"بالكامل",
|
| 142 |
+
"بالنسبة ل",
|
| 143 |
+
"بتاتاً",
|
| 144 |
+
"بجانب",
|
| 145 |
+
"بحسب",
|
| 146 |
+
"بحوالي",
|
| 147 |
+
"بحيث",
|
| 148 |
+
"بذلك",
|
| 149 |
+
"برغم",
|
| 150 |
+
"برمته",
|
| 151 |
+
"بشتى",
|
| 152 |
+
"بصرف النظر عن",
|
| 153 |
+
"بضع",
|
| 154 |
+
"بضعة",
|
| 155 |
"بعد",
|
| 156 |
"بعدما",
|
| 157 |
"بعض",
|
| 158 |
+
"بغض الطرف عن",
|
| 159 |
+
"بغض النظر عن",
|
| 160 |
+
"بغية",
|
| 161 |
"بـ",
|
| 162 |
+
"بقرب",
|
| 163 |
"بل",
|
| 164 |
+
"بلا",
|
| 165 |
+
"بلى",
|
| 166 |
+
"بم",
|
| 167 |
"بما",
|
| 168 |
+
"بما أن",
|
| 169 |
+
"بمفرده",
|
| 170 |
+
"بمقتضى",
|
| 171 |
+
"بمنأى عن",
|
| 172 |
+
"بموجب",
|
| 173 |
"بين",
|
| 174 |
"بينما",
|
| 175 |
+
"تاماً",
|
| 176 |
+
"تباعاً",
|
| 177 |
+
"تبعاً",
|
| 178 |
+
"تجاه",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 179 |
"تحت",
|
| 180 |
+
"تحديداً",
|
| 181 |
+
"تحسباً",
|
| 182 |
+
"تقريباً",
|
|
|
|
|
|
|
|
|
|
| 183 |
"تلك",
|
| 184 |
+
"تلو",
|
| 185 |
+
"تماماً",
|
| 186 |
+
"تمشياً",
|
| 187 |
"ثم",
|
| 188 |
+
"ثمة",
|
| 189 |
+
"جانب",
|
| 190 |
+
"جاهداً",
|
| 191 |
+
"جداً",
|
| 192 |
+
"جدياً",
|
| 193 |
"جراء",
|
| 194 |
+
"جل",
|
| 195 |
+
"جميع",
|
| 196 |
+
"جميعاً",
|
| 197 |
+
"جنوب",
|
| 198 |
+
"جنوبي",
|
| 199 |
+
"حتماً",
|
| 200 |
+
"حتمياً",
|
| 201 |
"حتى",
|
| 202 |
"حسب",
|
| 203 |
"حسبما",
|
|
|
|
| 204 |
"حوالي",
|
| 205 |
"حول",
|
|
|
|
| 206 |
"حيال",
|
| 207 |
"حيث",
|
| 208 |
+
"حيث أن",
|
| 209 |
"حيثما",
|
| 210 |
"حين",
|
| 211 |
+
"حينئذ",
|
| 212 |
+
"حيناً",
|
| 213 |
+
"حينذاك",
|
| 214 |
"حينما",
|
| 215 |
+
"خارج",
|
| 216 |
+
"ختاماً",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 217 |
"خلال",
|
| 218 |
+
"خلف",
|
| 219 |
+
"دائماً",
|
| 220 |
+
"داخل",
|
| 221 |
+
"دوماً",
|
| 222 |
"دون",
|
| 223 |
+
"دونما",
|
|
|
|
| 224 |
"ذاك",
|
| 225 |
"ذلك",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 226 |
"رغم",
|
| 227 |
+
"رغم أن",
|
| 228 |
"ريثما",
|
| 229 |
+
"زهاء",
|
| 230 |
+
"ساعة",
|
| 231 |
+
"سنة",
|
|
|
|
|
|
|
|
|
|
| 232 |
"سوف",
|
| 233 |
"سوى",
|
| 234 |
+
"سوياً",
|
| 235 |
+
"شتى",
|
| 236 |
+
"شرق",
|
| 237 |
+
"شريطة",
|
| 238 |
+
"شكراً",
|
| 239 |
+
"شمال",
|
| 240 |
+
"صبيحة",
|
| 241 |
"صوب",
|
| 242 |
"ضد",
|
|
|
|
|
|
|
|
|
|
|
|
|
| 243 |
"طالما",
|
| 244 |
+
"طبقاً",
|
| 245 |
+
"طواعية",
|
| 246 |
+
"طوعاً",
|
| 247 |
"طيلة",
|
| 248 |
+
"عادة",
|
| 249 |
+
"عام",
|
| 250 |
+
"عامة",
|
| 251 |
"عبر",
|
| 252 |
"عدا",
|
| 253 |
"عدة",
|
| 254 |
+
"عسى",
|
| 255 |
+
"عشية",
|
|
|
|
|
|
|
| 256 |
"عقب",
|
| 257 |
+
"علاوة على",
|
| 258 |
+
"علاوة على ذلك",
|
| 259 |
"على",
|
| 260 |
+
"على الرغم من",
|
| 261 |
+
"على حد قول",
|
| 262 |
+
"على غرار",
|
| 263 |
+
"على هذا",
|
| 264 |
+
"عما",
|
| 265 |
+
"عمن",
|
| 266 |
+
"عموماً",
|
| 267 |
"عن",
|
|
|
|
| 268 |
"عند",
|
| 269 |
+
"عندئذ",
|
| 270 |
"عندما",
|
| 271 |
+
"عنوة",
|
| 272 |
+
"عوضا عن",
|
| 273 |
+
"غالب",
|
| 274 |
+
"غالباً",
|
| 275 |
+
"غداة",
|
| 276 |
+
"غداً",
|
| 277 |
+
"غرب",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 278 |
"غير",
|
| 279 |
+
"غير أن",
|
| 280 |
+
"ـك",
|
| 281 |
+
"ـكم",
|
| 282 |
+
"ـكما",
|
| 283 |
+
"ـكن",
|
| 284 |
+
"ـنا",
|
| 285 |
+
"ـه",
|
| 286 |
+
"ـها",
|
| 287 |
+
"ـهم",
|
| 288 |
+
"ـهما",
|
| 289 |
+
"ـهن",
|
| 290 |
+
"ـي",
|
| 291 |
+
"فجأة",
|
| 292 |
+
"فجر",
|
| 293 |
+
"فحسب",
|
| 294 |
+
"فصاعداً",
|
| 295 |
+
"فضلاً",
|
| 296 |
"فـ",
|
|
|
|
| 297 |
"فور",
|
| 298 |
+
"فوراً",
|
| 299 |
"فوق",
|
|
|
|
| 300 |
"في",
|
| 301 |
+
"في تلك الأثناء",
|
| 302 |
+
"في غضون ذلك",
|
| 303 |
+
"في هذه الأثناء",
|
| 304 |
"فيما",
|
| 305 |
+
"فيما يلي",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 306 |
"قبالة",
|
| 307 |
"قبل",
|
| 308 |
"قبيل",
|
| 309 |
"قد",
|
| 310 |
+
"قدماً",
|
| 311 |
"قرابة",
|
| 312 |
"قرب",
|
| 313 |
+
"قسراً",
|
| 314 |
+
"قطعياً",
|
| 315 |
+
"قليلاً",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 316 |
"كأن",
|
| 317 |
+
"كالمعتاد",
|
| 318 |
+
"كثيراً",
|
|
|
|
|
|
|
|
|
|
| 319 |
"كذا",
|
| 320 |
+
"كذلك",
|
| 321 |
"كـ",
|
| 322 |
"كل",
|
| 323 |
"كلا",
|
| 324 |
"كلتا",
|
| 325 |
"كلما",
|
|
|
|
| 326 |
"كم",
|
| 327 |
"كما",
|
| 328 |
+
"كما أن",
|
|
|
|
|
|
|
|
|
|
|
|
|
| 329 |
"كي",
|
| 330 |
"كيف",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 331 |
"لأن",
|
| 332 |
+
"لئلا",
|
| 333 |
"لا",
|
| 334 |
+
"لا بأس أن",
|
| 335 |
+
"لا بد",
|
| 336 |
+
"لا سيما",
|
| 337 |
+
"لا لبس أن",
|
| 338 |
+
"لا مانع",
|
| 339 |
+
"لابد",
|
| 340 |
+
"لاحقاً",
|
| 341 |
+
"لاسيما",
|
| 342 |
+
"لحظة",
|
| 343 |
+
"لحوالي",
|
| 344 |
"لدى",
|
|
|
|
| 345 |
"لذا",
|
| 346 |
"لذلك",
|
| 347 |
+
"لعل",
|
|
|
|
| 348 |
"لـ",
|
| 349 |
"لقد",
|
| 350 |
"لكن",
|
|
|
|
| 351 |
"لكي",
|
| 352 |
+
"للتو",
|
| 353 |
"لم",
|
| 354 |
"لما",
|
| 355 |
"لماذا",
|
| 356 |
"لن",
|
|
|
|
| 357 |
"لو",
|
| 358 |
"لولا",
|
| 359 |
+
"ليت",
|
| 360 |
+
"ليلة",
|
| 361 |
+
"مؤخراً",
|
| 362 |
+
"مؤقتاً",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 363 |
"ما",
|
| 364 |
"ماذا",
|
| 365 |
+
"مباشرة",
|
|
|
|
|
|
|
| 366 |
"متى",
|
|
|
|
| 367 |
"مثل",
|
| 368 |
+
"مثلاً",
|
| 369 |
"مثلما",
|
| 370 |
+
"مجاناً",
|
| 371 |
+
"مجدداً",
|
| 372 |
+
"مجرد",
|
| 373 |
+
"محض",
|
| 374 |
+
"مراراً",
|
| 375 |
+
"مساء",
|
| 376 |
+
"مطلقاً",
|
| 377 |
"مع",
|
| 378 |
+
"مع أن",
|
| 379 |
+
"مع ذلك",
|
| 380 |
+
"معاً",
|
| 381 |
"معظم",
|
|
|
|
|
|
|
|
|
|
| 382 |
"مما",
|
| 383 |
+
"مما زاد الطين بلة",
|
| 384 |
+
"مما يزيد الطين بلة",
|
| 385 |
+
"ممن",
|
| 386 |
"من",
|
| 387 |
+
"من الجدير بالذكر أن",
|
| 388 |
+
"من المؤسف",
|
| 389 |
+
"من المؤكد",
|
| 390 |
+
"من المؤمل",
|
| 391 |
+
"من المرجح",
|
| 392 |
+
"من المفترض",
|
| 393 |
+
"من الممكن",
|
| 394 |
+
"من ثم",
|
| 395 |
+
"من جهة أخرى",
|
| 396 |
+
"من غير المرجح",
|
| 397 |
+
"من غير الممكن",
|
| 398 |
+
"من ناحية أخرى",
|
| 399 |
"منذ",
|
| 400 |
"مهما",
|
| 401 |
+
"نادراً",
|
| 402 |
+
"ناهيك عن",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 403 |
"نحن",
|
| 404 |
"نحو",
|
| 405 |
+
"نسبياً",
|
| 406 |
"نعم",
|
| 407 |
+
"نعمت",
|
| 408 |
+
"نفس",
|
| 409 |
+
"نهار",
|
| 410 |
+
"نهاراً",
|
|
|
|
|
|
|
| 411 |
"هؤلاء",
|
|
|
|
| 412 |
"هاتان",
|
| 413 |
"هاتين",
|
| 414 |
+
"هدراً",
|
|
|
|
| 415 |
"هذا",
|
| 416 |
"هذان",
|
|
|
|
| 417 |
"هذه",
|
| 418 |
"هذين",
|
|
|
|
|
|
|
| 419 |
"هكذا",
|
| 420 |
+
"هكذا دواليك",
|
| 421 |
"هل",
|
| 422 |
"هم",
|
| 423 |
"هما",
|
| 424 |
"هن",
|
| 425 |
+
"هنا",
|
| 426 |
+
"هناك",
|
| 427 |
+
"هنالك",
|
| 428 |
"هو",
|
|
|
|
| 429 |
"هي",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 430 |
"و",
|
|
|
|
| 431 |
"وراء",
|
|
|
|
| 432 |
"وسط",
|
|
|
|
|
|
|
| 433 |
"وفق",
|
| 434 |
+
"وفقاً",
|
| 435 |
+
"وقت",
|
| 436 |
"وقتما",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 437 |
"يا",
|
| 438 |
+
"يذكر أن",
|
| 439 |
+
"يوم",
|
| 440 |
+
"يوماً",
|
| 441 |
+
"يومياً",
|
| 442 |
+
],
|
| 443 |
+
"as": [
|
| 444 |
+
"অন্যথা",
|
| 445 |
+
"অৱশ্যে",
|
| 446 |
+
"আপোনাৰ",
|
| 447 |
+
"উদাহৰণস্বৰূপে",
|
| 448 |
+
"ওপৰলৈ",
|
| 449 |
+
"কম",
|
| 450 |
+
"কাৰণ",
|
| 451 |
+
"কিন্তু",
|
| 452 |
+
"কেতিয়াবা",
|
| 453 |
+
"কোনোবা",
|
| 454 |
+
"গতিকে",
|
| 455 |
+
"তললৈ",
|
| 456 |
+
"তাৰ সলনি",
|
| 457 |
+
"তাৰে ভিতৰত",
|
| 458 |
+
"তেওঁলোকৰ",
|
| 459 |
+
"তেতিয়া",
|
| 460 |
+
"তেনেকুৱাই",
|
| 461 |
+
"ফালে",
|
| 462 |
+
"বহুত",
|
| 463 |
+
"বাওঁফালে",
|
| 464 |
+
"বাহিৰত",
|
| 465 |
+
"ভিতৰত",
|
| 466 |
+
"মোৰ",
|
| 467 |
+
"যথেষ্ট",
|
| 468 |
+
"যাৰ",
|
| 469 |
+
"যি",
|
| 470 |
+
"যেতিয়ালৈকে",
|
| 471 |
+
"যেনে",
|
| 472 |
+
"লৈ",
|
| 473 |
+
"সকলোৱে",
|
| 474 |
+
"সোঁফালে",
|
| 475 |
+
"সৰ্বাধিক",
|
| 476 |
],
|
| 477 |
"bn": [
|
| 478 |
"অনেক",
|
| 479 |
+
"অনেক ",
|
| 480 |
+
"অন্য ",
|
| 481 |
+
"অন্যথায়",
|
| 482 |
+
"আমরা ",
|
| 483 |
+
"আমার ",
|
| 484 |
+
"আমি",
|
| 485 |
+
"আর জন্য ",
|
| 486 |
+
"আর, ও, এবং ",
|
| 487 |
+
"আরও সাথে , আরো সঙ্গে ",
|
| 488 |
+
"উদাহরণ স্বরূপ",
|
|
|
|
| 489 |
"উপর",
|
| 490 |
+
"এ ",
|
| 491 |
+
"এ, এটা, এইটা ",
|
| 492 |
+
"এখানে , এইখানে ",
|
| 493 |
+
"ও ,ওটা ,ওইটা",
|
| 494 |
+
"ওখানে, সেখানে ",
|
| 495 |
+
"ওদের মধ্যে ",
|
| 496 |
+
"কখন ",
|
| 497 |
+
"কখনও কখনও",
|
| 498 |
+
"কম, অল্প ",
|
| 499 |
+
"কারণ ",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 500 |
"কি",
|
| 501 |
+
"কিছু ",
|
| 502 |
+
"কিন্তু ",
|
| 503 |
+
"কে ",
|
| 504 |
"কেউ",
|
| 505 |
+
"কেমন ",
|
| 506 |
+
"কোথায়",
|
| 507 |
+
"কোনটা ",
|
| 508 |
+
"ডান",
|
| 509 |
+
"তাই, সুতরাং",
|
| 510 |
+
"তার, তাদের, ওর, ওদের ",
|
| 511 |
+
"তারপর",
|
| 512 |
+
"তারা ",
|
| 513 |
+
"তুমি, আপনি ",
|
| 514 |
+
"তোমরা , আপনারা ",
|
| 515 |
+
"তোমার, তোর ",
|
| 516 |
+
"দিকে",
|
| 517 |
+
"না ",
|
| 518 |
+
"নিচে",
|
| 519 |
+
"পরিবর্তে , বরং ",
|
| 520 |
+
"পর্যন্ত",
|
| 521 |
+
"বাইরে",
|
| 522 |
+
"বাম",
|
| 523 |
+
"ভিতর",
|
| 524 |
+
"ভিতরে",
|
| 525 |
+
"মত",
|
| 526 |
+
"যতক্ষণ না",
|
| 527 |
+
"যথেষ্ট",
|
| 528 |
+
"যদি ",
|
| 529 |
+
"যাহার",
|
| 530 |
+
"যাহোক",
|
| 531 |
+
"সব, সবাই ",
|
| 532 |
+
"সবাই",
|
| 533 |
+
"সর্বাধিক",
|
| 534 |
+
"সামান্য",
|
| 535 |
+
"সে রকমই",
|
| 536 |
+
"সে, ও",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 537 |
],
|
| 538 |
"ca": [
|
| 539 |
"-ho",
|
|
|
|
| 3566 |
"êtes",
|
| 3567 |
"être",
|
| 3568 |
],
|
| 3569 |
+
"gu": [
|
| 3570 |
+
"અંદર",
|
| 3571 |
+
"અડધા, અડધું",
|
| 3572 |
+
"અત્યારે, હમણાં",
|
| 3573 |
+
"અથવા, કે",
|
| 3574 |
+
"અને",
|
| 3575 |
+
"અનેક, ઘણા",
|
| 3576 |
+
"અન્ય, બીજું",
|
| 3577 |
+
"અમને, હમેં",
|
| 3578 |
+
"અમારા",
|
| 3579 |
+
"અમારું, આપણું",
|
| 3580 |
+
"અમે",
|
| 3581 |
+
"અહીં, અહીંયા",
|
| 3582 |
+
"આ",
|
| 3583 |
+
"આ દ્વારા",
|
| 3584 |
+
"આ રીતે, આ તરફ",
|
| 3585 |
+
"આની જેમ",
|
| 3586 |
+
"ઉપર",
|
| 3587 |
+
"એકલા",
|
| 3588 |
+
"એનાથી",
|
| 3589 |
+
"એમાથી",
|
| 3590 |
+
"ઓછું, ઓછા",
|
| 3591 |
+
"કઈ બાજુ",
|
| 3592 |
+
"કદાચ",
|
| 3593 |
+
"કયું, કયો, કઈ, જે",
|
| 3594 |
+
"કાં તો",
|
| 3595 |
+
"કેટલા",
|
| 3596 |
+
"કેટલાક, થોડા",
|
| 3597 |
+
"કેમ, શા માટે",
|
| 3598 |
+
"કેવી રીતે, કઈ રીતે",
|
| 3599 |
+
"કોઈ",
|
| 3600 |
+
"કોઈ નહી",
|
| 3601 |
+
"કોઈને",
|
| 3602 |
+
"કોઈપણ",
|
| 3603 |
+
"કોણ",
|
| 3604 |
+
"કોનું, જેમના, જેમની",
|
| 3605 |
+
"ક્યાંક, કોઈ જગ્યાએ",
|
| 3606 |
+
"ક્યાંથી, જ્યાં, ક્યાં ",
|
| 3607 |
+
"ક્યારે, જ્યારે",
|
| 3608 |
+
"ક્યારેક ક્યારેક",
|
| 3609 |
+
"ઘણું બધું",
|
| 3610 |
+
"ઘણું, પુસ્કળ, અતિશય",
|
| 3611 |
+
"જેથી",
|
| 3612 |
+
"જેને, જેમને",
|
| 3613 |
+
"જેમ",
|
| 3614 |
+
"જેમ કે, જેમ, જે રીતે, જેવા કે",
|
| 3615 |
+
"જો",
|
| 3616 |
+
"તને",
|
| 3617 |
+
"તમારા, તમારું",
|
| 3618 |
+
"તમારું",
|
| 3619 |
+
"તમે, તું",
|
| 3620 |
+
"તારું",
|
| 3621 |
+
"તે જેવી, તેની જેમ",
|
| 3622 |
+
"તે રીતે, તે તરફ",
|
| 3623 |
+
"તેઓ",
|
| 3624 |
+
"તેઓનું",
|
| 3625 |
+
"તેઓને, તેમને",
|
| 3626 |
+
"તેણીના",
|
| 3627 |
+
"તેથી, તો",
|
| 3628 |
+
"તેના",
|
| 3629 |
+
"તેનું, તેના",
|
| 3630 |
+
"તેમના, તેમનું, તેઓની",
|
| 3631 |
+
"તેમને. એમને",
|
| 3632 |
+
"તેવું",
|
| 3633 |
+
"ત્યાં",
|
| 3634 |
+
"ત્યાં સુધી",
|
| 3635 |
+
"થોડા",
|
| 3636 |
+
"થોડું",
|
| 3637 |
+
"દરેક",
|
| 3638 |
+
"દૂર",
|
| 3639 |
+
"દ્વારા",
|
| 3640 |
+
"નજીક, પાસે",
|
| 3641 |
+
"ના, નહિ",
|
| 3642 |
+
"ના, નો",
|
| 3643 |
+
"ની અંદર",
|
| 3644 |
+
"ની સામે",
|
| 3645 |
+
"નીચે",
|
| 3646 |
+
"પછી",
|
| 3647 |
+
"પછી, ત્યારે",
|
| 3648 |
+
"પછીથી",
|
| 3649 |
+
"પણ",
|
| 3650 |
+
"પરંતુ, પણ",
|
| 3651 |
+
"પાછળ",
|
| 3652 |
+
"પેલી",
|
| 3653 |
+
"પેલું",
|
| 3654 |
+
"પેલો, તે",
|
| 3655 |
+
"પ્રતિ",
|
| 3656 |
+
"ફરીથી, ફરી",
|
| 3657 |
+
"બંને, બેઉ",
|
| 3658 |
+
"બધા",
|
| 3659 |
+
"બહાર",
|
| 3660 |
+
"બાજુમાં",
|
| 3661 |
+
"ભરપૂર",
|
| 3662 |
+
"મને",
|
| 3663 |
+
"માં",
|
| 3664 |
+
"માંથી, થી",
|
| 3665 |
+
"માટે",
|
| 3666 |
+
"માથે, ઉપર",
|
| 3667 |
+
"મારા",
|
| 3668 |
+
"મારુ, મારી ",
|
| 3669 |
+
"મારું",
|
| 3670 |
+
"લીધે, કારણ કે,કેમ કે",
|
| 3671 |
+
"વધારાનું",
|
| 3672 |
+
"વધારે",
|
| 3673 |
+
"વધારે, વધુ ",
|
| 3674 |
+
"શું",
|
| 3675 |
+
"સમગ્ર",
|
| 3676 |
+
"સમાન, એક સરખું",
|
| 3677 |
+
"સાથે",
|
| 3678 |
+
"સિવાય",
|
| 3679 |
+
"સુધી",
|
| 3680 |
+
"સૌથી વધુ",
|
| 3681 |
+
"હજુ સુધી",
|
| 3682 |
+
"હું",
|
| 3683 |
+
],
|
| 3684 |
"hi": [
|
| 3685 |
"अंदर",
|
| 3686 |
+
"अकेला",
|
| 3687 |
+
"अतिरिक्त",
|
| 3688 |
+
"अथवा, या",
|
| 3689 |
+
"अधिकांश",
|
| 3690 |
+
"अन्यथा",
|
| 3691 |
+
"अब, अभि, इसी वक्त",
|
| 3692 |
+
"अभी तक",
|
| 3693 |
+
"आधा",
|
| 3694 |
+
"आप, तुम, तुजे",
|
| 3695 |
+
"आपका, तुम्हारा, तेरा",
|
| 3696 |
+
"इधर, यहाँ",
|
| 3697 |
+
"इन्हें, इन",
|
| 3698 |
+
"इस तरफ",
|
| 3699 |
+
"इस से",
|
| 3700 |
+
"इसका, इसकी",
|
| 3701 |
+
"इसके द्वारा",
|
| 3702 |
+
"इसके साथ",
|
| 3703 |
+
"इसलिए",
|
| 3704 |
+
"इसलिए, तो",
|
| 3705 |
+
"उदाहरण के लिए",
|
| 3706 |
+
"उन को, इन को, उन्हें, इन्हें",
|
| 3707 |
+
"उनका, उनके, उनकी, इनका",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 3708 |
"उनके",
|
| 3709 |
+
"उनमें से",
|
|
|
|
| 3710 |
"उन्हें",
|
| 3711 |
+
"उस तरफ, उसी और",
|
| 3712 |
+
"उसकी, उसके",
|
| 3713 |
+
"उसके जैसा",
|
| 3714 |
+
"उसको, उसके, इसको, इसके, इसकी",
|
| 3715 |
+
"ऊपर",
|
| 3716 |
+
"ऐसा",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 3717 |
"और",
|
| 3718 |
+
"कब, जब",
|
| 3719 |
+
"कभी - कभी",
|
| 3720 |
+
"कभी कभी",
|
| 3721 |
+
"कम",
|
| 3722 |
+
"कम, थोड़ा",
|
| 3723 |
+
"कहीं",
|
| 3724 |
+
"का, की, के",
|
| 3725 |
+
"काफ़ी",
|
| 3726 |
+
"किंतु, पर, लेकिन, मगर",
|
| 3727 |
+
"कितने",
|
| 3728 |
+
"किस तरफ",
|
| 3729 |
+
"किसके, जिसके, जिनके, किसका",
|
| 3730 |
+
"किसको, किसे, जिसे, जिन्हे",
|
| 3731 |
+
"किसी को",
|
| 3732 |
+
"की ओर, की तरफ़",
|
| 3733 |
+
"कुछ, थोड़े",
|
| 3734 |
+
"के अंदर",
|
| 3735 |
+
"के अलावा",
|
| 3736 |
+
"के ऊपर",
|
| 3737 |
+
"के लिये",
|
| 3738 |
+
"के सामने",
|
| 3739 |
+
"कैसे, कैसा",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 3740 |
"कोई",
|
| 3741 |
+
"कोई न कोई",
|
| 3742 |
+
"कोई नहीं",
|
| 3743 |
+
"कोई, कोई व्यक्ति",
|
| 3744 |
"कौन",
|
| 3745 |
+
"कौन सा, जो",
|
| 3746 |
+
"कौन, जो",
|
| 3747 |
+
"क्या",
|
| 3748 |
+
"क्यों",
|
| 3749 |
+
"क्योंकि, चूंकि",
|
| 3750 |
+
"जब तक",
|
| 3751 |
+
"जब तक, तक तक",
|
| 3752 |
+
"जहाँ, कहां, किधर",
|
| 3753 |
+
"जिसका",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 3754 |
"जैसा",
|
| 3755 |
"जैसे",
|
| 3756 |
+
"जैसे की, जैसा, वैसा",
|
| 3757 |
+
"जैसे, इस तरह",
|
| 3758 |
+
"ज्यादा, अधिक",
|
| 3759 |
+
"ढेर सारा",
|
| 3760 |
+
"ढेर सारा, बहुत सारा",
|
| 3761 |
"तक",
|
| 3762 |
+
"तक, जब तक",
|
| 3763 |
+
"तब, फिर",
|
| 3764 |
+
"ताकि",
|
| 3765 |
+
"तुम्हारा",
|
| 3766 |
+
"तुम्हारा, तुम्हारे",
|
| 3767 |
+
"तुम्हे, तुझे, तुमको",
|
| 3768 |
+
"तेरा, तेरी",
|
| 3769 |
+
"थोड़ा",
|
| 3770 |
+
"दाहिने, दाहिना",
|
| 3771 |
+
"दुसरा, एक और",
|
| 3772 |
+
"दूर",
|
| 3773 |
+
"दोनों",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 3774 |
"द्वारा",
|
| 3775 |
+
"नहीं, मत ",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 3776 |
"नीचे",
|
| 3777 |
+
"पास में, पास",
|
| 3778 |
+
"पास, नजदीक, करीब",
|
| 3779 |
+
"पीछे",
|
|
|
|
| 3780 |
"पूरा",
|
| 3781 |
+
"प्रति, से, तक",
|
| 3782 |
+
"प्रत्येक",
|
| 3783 |
+
"फिर, तो, तब, उस वक़्त",
|
| 3784 |
+
"फिर, दुबारा",
|
| 3785 |
+
"बजाय",
|
| 3786 |
+
"बहुत, अनेक",
|
| 3787 |
+
"बहुत, ज्यादा, काफी",
|
| 3788 |
+
"बाएं, वाम",
|
| 3789 |
+
"बाद में",
|
| 3790 |
+
"बाद में, पीछे",
|
| 3791 |
+
"बाहर",
|
|
|
|
| 3792 |
"भी",
|
| 3793 |
+
"मुझे",
|
| 3794 |
+
"में, भीतर, अंदर",
|
| 3795 |
+
"में, मैंने",
|
| 3796 |
+
"मेरा, अपना",
|
| 3797 |
+
"मेरा, मेरी",
|
| 3798 |
+
"मेरी, मेरा, मेरे",
|
| 3799 |
"यदि",
|
| 3800 |
+
"यदि, अगर",
|
| 3801 |
+
"यदि, या",
|
| 3802 |
+
"यह, ये, इसे",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 3803 |
"लेकिन",
|
|
|
|
|
|
|
|
|
|
|
|
|
| 3804 |
"वह",
|
| 3805 |
+
"वह, जो",
|
| 3806 |
"वहां",
|
| 3807 |
+
"वही",
|
| 3808 |
+
"वे, वह, वो, उन्होंने",
|
| 3809 |
+
"वैसे, उसके जैसा",
|
| 3810 |
+
"शायद",
|
| 3811 |
+
"सब लोग",
|
| 3812 |
+
"सब, सभी, सारे",
|
| 3813 |
+
"सबसे ज्यादा, अधिकांश",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 3814 |
"साथ",
|
|
|
|
|
|
|
|
|
|
| 3815 |
"से",
|
| 3816 |
+
"हम",
|
| 3817 |
+
"हमारा, हमारे, हमारी",
|
| 3818 |
+
"हर जगह",
|
| 3819 |
+
"हालाँकि",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 3820 |
],
|
| 3821 |
"id": [
|
| 3822 |
"Anda",
|
|
|
|
| 5033 |
"zake",
|
| 5034 |
],
|
| 5035 |
"ur": [
|
| 5036 |
+
"اسلئے",
|
| 5037 |
+
"اسکے جیسا",
|
| 5038 |
+
"ان کے بیچ ,ان لوگوں کے بیچ",
|
| 5039 |
+
"اندر",
|
| 5040 |
+
"انکا",
|
| 5041 |
+
"اور ,و",
|
| 5042 |
+
"اوپر",
|
| 5043 |
+
"اگر ,گرچہ ,اگرچہ",
|
| 5044 |
+
"باہر",
|
| 5045 |
+
"بایاں ,بائیں",
|
| 5046 |
+
"بجائے ,بدلے ,بدلے میں",
|
| 5047 |
+
"بہت ,بہت سارے ,بہت کچھ",
|
| 5048 |
+
"بہت زیادہ",
|
| 5049 |
+
"تب تک",
|
| 5050 |
+
"تم لوگ ,آپ ,آپ لوگ",
|
| 5051 |
+
"تمہارا ,تیرا ,آپکا",
|
| 5052 |
+
"تو, تم ,آپ",
|
| 5053 |
+
"تھوڑا ,تھوڑی",
|
| 5054 |
+
"جب تک",
|
| 5055 |
+
"جسکا",
|
| 5056 |
+
"جیسے",
|
| 5057 |
+
"حالاںکہ",
|
| 5058 |
+
"دایاں ,دائیں ,صحیح",
|
| 5059 |
+
"دوسرا",
|
| 5060 |
+
"زیادہ تر",
|
| 5061 |
+
"ساتھ ,کے ساتھ",
|
| 5062 |
+
"سب ,سبھی ,سب کچھ ,سارے ,سارا",
|
| 5063 |
+
"سب لوگ",
|
| 5064 |
+
"طرف ,اسکی طرف",
|
| 5065 |
+
"لیکن",
|
| 5066 |
+
"مثلأ ,مثال کے طور پے",
|
| 5067 |
+
"میرا",
|
| 5068 |
+
"میں",
|
| 5069 |
+
"میں ,کے اندر ,اندر",
|
| 5070 |
+
"نہی تو",
|
| 5071 |
+
"نہیں ,ناں ,نا",
|
| 5072 |
+
"نیچے",
|
| 5073 |
+
"وہ ,وہ لوگ",
|
| 5074 |
+
"وہ ,وہ والا, کہ",
|
| 5075 |
+
"وہ ,یے",
|
| 5076 |
+
"وہاں",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5077 |
"پھر",
|
| 5078 |
+
"پہ ,پر ,میں",
|
| 5079 |
+
"کافی",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5080 |
"کب",
|
| 5081 |
+
"کبھی کبھی",
|
| 5082 |
+
"کم",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5083 |
"کوئی",
|
| 5084 |
+
"کون",
|
| 5085 |
+
"کونسا",
|
| 5086 |
+
"کچھ",
|
| 5087 |
+
"کہاں",
|
| 5088 |
+
"کیا",
|
| 5089 |
+
"کیسے",
|
| 5090 |
+
"کیوںکہ ,چوںکہ ,کیوںکی",
|
| 5091 |
+
"کےلئے",
|
| 5092 |
+
"ہم ,ھم",
|
| 5093 |
+
"یہ ,یہ والا",
|
| 5094 |
+
"یہاں",
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5095 |
],
|
| 5096 |
"vi": [
|
| 5097 |
+
"ai",
|
| 5098 |
+
"ai ai",
|
| 5099 |
+
"ai nấy",
|
| 5100 |
+
"anh",
|
| 5101 |
+
"anh em",
|
| 5102 |
+
"anh trai",
|
| 5103 |
+
"anh ấy",
|
| 5104 |
+
"ba",
|
| 5105 |
+
"bao",
|
| 5106 |
+
"bao giờ",
|
| 5107 |
+
"bay",
|
| 5108 |
+
"bà",
|
| 5109 |
+
"bà con",
|
| 5110 |
+
"bà ấy",
|
| 5111 |
+
"bác",
|
| 5112 |
+
"bây",
|
| 5113 |
+
"bé",
|
| 5114 |
"bên",
|
| 5115 |
+
"bạn",
|
| 5116 |
+
"bạn gái",
|
| 5117 |
+
"bạn trai",
|
| 5118 |
+
"bả",
|
| 5119 |
+
"bản thân",
|
| 5120 |
+
"bất chấp",
|
| 5121 |
+
"bất cứ",
|
| 5122 |
+
"bất kì",
|
| 5123 |
+
"bất luận",
|
| 5124 |
+
"bất nhược",
|
| 5125 |
+
"bất quá",
|
| 5126 |
+
"bấy",
|
| 5127 |
"bấy nhiêu",
|
| 5128 |
+
"bần tăng",
|
| 5129 |
+
"bầy quân",
|
| 5130 |
+
"bầy tui",
|
| 5131 |
+
"bậu",
|
| 5132 |
"bằng",
|
| 5133 |
+
"bệ hạ",
|
| 5134 |
+
"bị cáo",
|
| 5135 |
+
"bố",
|
| 5136 |
+
"bố nó",
|
| 5137 |
+
"bồ",
|
| 5138 |
+
"bộ",
|
| 5139 |
"bởi",
|
| 5140 |
+
"bởi vì",
|
| 5141 |
"cc",
|
| 5142 |
+
"cha",
|
| 5143 |
"chao",
|
| 5144 |
+
"chi",
|
| 5145 |
+
"chiếu theo",
|
| 5146 |
"cho",
|
| 5147 |
"cho dù",
|
| 5148 |
+
"cho đến",
|
| 5149 |
+
"choa",
|
| 5150 |
+
"chàng",
|
| 5151 |
"chán",
|
| 5152 |
+
"cháu",
|
| 5153 |
+
"chí",
|
| 5154 |
"chính",
|
| 5155 |
+
"chú",
|
| 5156 |
+
"chú mày",
|
| 5157 |
+
"chúng",
|
| 5158 |
+
"chúng mày",
|
| 5159 |
+
"chúng mình",
|
| 5160 |
+
"chúng nó",
|
| 5161 |
+
"chúng ta",
|
| 5162 |
+
"chúng tao",
|
| 5163 |
+
"chúng tôi",
|
| 5164 |
"chút",
|
| 5165 |
+
"chăng",
|
| 5166 |
+
"chưa",
|
| 5167 |
+
"chưng",
|
| 5168 |
+
"chả",
|
| 5169 |
+
"chắc",
|
| 5170 |
+
"chẳng cứ",
|
| 5171 |
+
"chỉ",
|
| 5172 |
+
"chị",
|
| 5173 |
+
"chị gái",
|
| 5174 |
+
"chị ấy",
|
| 5175 |
+
"chớ",
|
| 5176 |
"chứ",
|
| 5177 |
+
"con",
|
| 5178 |
+
"con này",
|
| 5179 |
+
"cuối cùng",
|
| 5180 |
"các",
|
| 5181 |
+
"các hạ",
|
| 5182 |
"cái",
|
| 5183 |
+
"cái gì",
|
| 5184 |
+
"cái này",
|
| 5185 |
+
"cán bộ",
|
| 5186 |
"còn",
|
| 5187 |
"có",
|
| 5188 |
"có vẻ",
|
| 5189 |
+
"cóc",
|
| 5190 |
+
"cô",
|
| 5191 |
+
"cô nương",
|
| 5192 |
+
"cô ta",
|
| 5193 |
+
"cô ấy",
|
| 5194 |
+
"côi",
|
| 5195 |
+
"công tử",
|
| 5196 |
"cùng",
|
| 5197 |
+
"cơ",
|
| 5198 |
"cơ mà",
|
| 5199 |
+
"cưng",
|
| 5200 |
+
"cạnh",
|
| 5201 |
"cả",
|
| 5202 |
+
"cả nhà",
|
| 5203 |
+
"cầm bằng",
|
| 5204 |
+
"cậu",
|
| 5205 |
+
"cổ",
|
| 5206 |
+
"cộng",
|
| 5207 |
+
"cụ",
|
| 5208 |
"của",
|
| 5209 |
+
"cứ",
|
| 5210 |
"do",
|
| 5211 |
"do vậy",
|
| 5212 |
"do đó",
|
|
|
|
| 5214 |
"dù",
|
| 5215 |
"dù sao",
|
| 5216 |
"dù vậy",
|
| 5217 |
+
"dưng",
|
| 5218 |
"dưới",
|
| 5219 |
"dường như",
|
| 5220 |
"dạ",
|
| 5221 |
+
"dầu",
|
| 5222 |
"dẫu",
|
| 5223 |
"dẫu vậy",
|
| 5224 |
+
"dậy",
|
| 5225 |
+
"dọc",
|
| 5226 |
+
"dợ",
|
| 5227 |
+
"em",
|
| 5228 |
+
"ghe",
|
| 5229 |
+
"già",
|
| 5230 |
+
"giá như",
|
| 5231 |
+
"giả dụ",
|
| 5232 |
+
"giả sử",
|
| 5233 |
"giữa",
|
| 5234 |
"gì",
|
| 5235 |
+
"ha",
|
| 5236 |
"hay",
|
| 5237 |
"hay là",
|
| 5238 |
+
"hen",
|
| 5239 |
+
"hoàng thượng",
|
| 5240 |
"hoặc",
|
| 5241 |
+
"huynh",
|
| 5242 |
+
"huống",
|
| 5243 |
+
"huống chi",
|
| 5244 |
+
"huống gì",
|
| 5245 |
+
"huống hồ",
|
| 5246 |
+
"há",
|
| 5247 |
+
"hôn",
|
| 5248 |
+
"hơn",
|
| 5249 |
"hơn nữa",
|
| 5250 |
"hả",
|
| 5251 |
"hầu hết",
|
| 5252 |
+
"hắn",
|
| 5253 |
"hết",
|
| 5254 |
+
"hết cả",
|
| 5255 |
"hề",
|
| 5256 |
"hễ",
|
| 5257 |
+
"họ",
|
| 5258 |
+
"hổi",
|
| 5259 |
+
"hỡi",
|
| 5260 |
+
"hử",
|
| 5261 |
+
"khanh",
|
| 5262 |
+
"khi",
|
| 5263 |
+
"khi nào",
|
| 5264 |
+
"không",
|
| 5265 |
+
"không ai",
|
| 5266 |
"không những",
|
| 5267 |
+
"khứa",
|
| 5268 |
+
"kia",
|
| 5269 |
+
"kém",
|
| 5270 |
+
"kìa",
|
| 5271 |
+
"kẻo",
|
| 5272 |
+
"kể từ",
|
| 5273 |
"l",
|
| 5274 |
"là",
|
| 5275 |
+
"lão",
|
| 5276 |
"lên",
|
| 5277 |
"lại nữa",
|
| 5278 |
+
"lần",
|
| 5279 |
"lẫn",
|
| 5280 |
"lắm",
|
| 5281 |
+
"mi",
|
| 5282 |
+
"min",
|
| 5283 |
+
"miễn",
|
| 5284 |
+
"moa",
|
| 5285 |
+
"muôn",
|
| 5286 |
+
"muội",
|
| 5287 |
"mà",
|
| 5288 |
"mà còn",
|
| 5289 |
+
"mày",
|
| 5290 |
+
"mãi",
|
| 5291 |
+
"mình",
|
| 5292 |
+
"mô",
|
| 5293 |
+
"mũ",
|
| 5294 |
+
"mất",
|
| 5295 |
"mấy",
|
| 5296 |
+
"mầy",
|
| 5297 |
+
"mẫu hậu",
|
| 5298 |
"mặc dù",
|
| 5299 |
+
"mặc dầu",
|
| 5300 |
"mặt khác",
|
| 5301 |
+
"mẹ",
|
| 5302 |
+
"mẹ nó",
|
| 5303 |
"mọi",
|
| 5304 |
+
"mọi người",
|
| 5305 |
+
"mọi vật",
|
| 5306 |
+
"mỏa",
|
| 5307 |
"mỗi",
|
| 5308 |
"một chút",
|
| 5309 |
"một nửa",
|
| 5310 |
"một số",
|
| 5311 |
"một vài",
|
| 5312 |
"một ít",
|
| 5313 |
+
"mụ",
|
| 5314 |
"ngay",
|
| 5315 |
+
"nghe",
|
| 5316 |
+
"nghen",
|
| 5317 |
+
"nghỉ",
|
| 5318 |
"ngoài",
|
| 5319 |
"ngoài ra",
|
| 5320 |
+
"ngoại",
|
| 5321 |
+
"ngoải",
|
| 5322 |
+
"ngài",
|
| 5323 |
+
"ngươi",
|
| 5324 |
+
"người",
|
| 5325 |
+
"người người",
|
| 5326 |
+
"người ta",
|
| 5327 |
"ngược lại",
|
| 5328 |
+
"ngộ",
|
| 5329 |
+
"nha",
|
| 5330 |
+
"nhiều",
|
| 5331 |
+
"nhà quân",
|
| 5332 |
"nhá",
|
| 5333 |
"nhân",
|
| 5334 |
+
"nhân dịp",
|
| 5335 |
"nhé",
|
| 5336 |
"như",
|
| 5337 |
"như vậy",
|
| 5338 |
"nhưng",
|
| 5339 |
+
"nhưng mà",
|
| 5340 |
+
"nhược bằng",
|
| 5341 |
"nhất là",
|
| 5342 |
"nhằm",
|
| 5343 |
"nhỉ",
|
| 5344 |
+
"nhỏ",
|
| 5345 |
"nhờ",
|
| 5346 |
+
"nhỡ",
|
| 5347 |
"những",
|
| 5348 |
+
"ni",
|
| 5349 |
+
"nà",
|
| 5350 |
+
"nàng",
|
| 5351 |
"nào",
|
| 5352 |
"này",
|
| 5353 |
"nè",
|
| 5354 |
"nên",
|
| 5355 |
+
"nó",
|
| 5356 |
+
"nô tài",
|
| 5357 |
+
"nô tì",
|
| 5358 |
+
"nơi",
|
| 5359 |
+
"nơi nơi",
|
| 5360 |
+
"nấy",
|
| 5361 |
+
"nầy",
|
| 5362 |
+
"nẩu",
|
| 5363 |
"nếu",
|
| 5364 |
"nếu như",
|
| 5365 |
+
"nọ",
|
| 5366 |
+
"nội",
|
| 5367 |
+
"nớ",
|
| 5368 |
+
"nừng",
|
| 5369 |
"nửa",
|
| 5370 |
"nữa",
|
| 5371 |
+
"phi",
|
| 5372 |
"phía",
|
| 5373 |
+
"phô bay",
|
| 5374 |
+
"phải",
|
| 5375 |
+
"phải hôn",
|
| 5376 |
+
"phải không",
|
| 5377 |
+
"phần",
|
| 5378 |
"phần lớn",
|
| 5379 |
+
"phỏng",
|
| 5380 |
+
"phứt",
|
| 5381 |
"qua",
|
| 5382 |
+
"quanh",
|
| 5383 |
+
"quý khách",
|
| 5384 |
+
"quý vị",
|
| 5385 |
"quả",
|
| 5386 |
+
"quả nhân",
|
| 5387 |
"ra",
|
| 5388 |
"riêng",
|
| 5389 |
"rùi",
|
|
|
|
| 5392 |
"sang",
|
| 5393 |
"sao",
|
| 5394 |
"sau",
|
| 5395 |
+
"sau cùng",
|
| 5396 |
"song",
|
| 5397 |
+
"song le",
|
| 5398 |
+
"sắp",
|
| 5399 |
+
"sẽ",
|
| 5400 |
+
"sở dĩ",
|
| 5401 |
+
"ta",
|
| 5402 |
+
"tao",
|
| 5403 |
+
"tau",
|
| 5404 |
+
"thanh niên",
|
| 5405 |
"thay",
|
| 5406 |
+
"thay vì",
|
| 5407 |
"theo",
|
| 5408 |
+
"theo đó",
|
| 5409 |
+
"thiếp",
|
| 5410 |
"thiệt",
|
| 5411 |
+
"thành",
|
| 5412 |
+
"thâu",
|
| 5413 |
+
"thêm",
|
| 5414 |
"thì",
|
| 5415 |
"thí dụ",
|
| 5416 |
"thôi",
|
| 5417 |
+
"thần",
|
| 5418 |
+
"thầy",
|
| 5419 |
+
"thẩy",
|
| 5420 |
"thật",
|
| 5421 |
+
"thằng này",
|
| 5422 |
"thế",
|
| 5423 |
"thế là",
|
| 5424 |
"thế mà",
|
| 5425 |
"thế nhưng",
|
| 5426 |
+
"thị",
|
| 5427 |
+
"thời",
|
| 5428 |
+
"tiểu nhân",
|
| 5429 |
+
"toa",
|
| 5430 |
+
"toà",
|
| 5431 |
"toàn",
|
| 5432 |
"toàn bộ",
|
| 5433 |
"toàn thể",
|
| 5434 |
"trong",
|
| 5435 |
+
"trong khi",
|
| 5436 |
+
"trong đó",
|
| 5437 |
+
"trái",
|
| 5438 |
+
"trái lại",
|
| 5439 |
"trên",
|
| 5440 |
+
"trò",
|
| 5441 |
"trước",
|
| 5442 |
+
"trẫm",
|
| 5443 |
"trời",
|
| 5444 |
+
"trừ phi",
|
| 5445 |
"tuy",
|
| 5446 |
"tuy nhiên",
|
| 5447 |
+
"tuy rằng",
|
| 5448 |
"tuy vậy",
|
| 5449 |
+
"tê",
|
| 5450 |
"tóm lại",
|
| 5451 |
+
"tôi",
|
| 5452 |
+
"tương đương",
|
| 5453 |
"tại",
|
| 5454 |
+
"tại hạ",
|
| 5455 |
+
"tại vì",
|
| 5456 |
"tất cả",
|
| 5457 |
+
"tầm",
|
| 5458 |
"tận",
|
| 5459 |
+
"tỉ",
|
| 5460 |
"tổ",
|
| 5461 |
+
"tớ",
|
| 5462 |
"tới",
|
| 5463 |
+
"tụi",
|
| 5464 |
+
"tụi nó",
|
| 5465 |
"tức",
|
| 5466 |
"tức là",
|
| 5467 |
"từ",
|
| 5468 |
+
"tự",
|
| 5469 |
+
"tựa",
|
| 5470 |
"ui",
|
| 5471 |
"và",
|
| 5472 |
"vài",
|
|
|
|
| 5476 |
"vì thế",
|
| 5477 |
"vì vậy",
|
| 5478 |
"ví dụ",
|
| 5479 |
+
"ví như",
|
| 5480 |
"vô",
|
| 5481 |
"vô số",
|
| 5482 |
"vô vàn",
|
| 5483 |
+
"vả chăng",
|
| 5484 |
+
"vả lại",
|
| 5485 |
"vậy",
|
| 5486 |
"vậy là",
|
| 5487 |
"vậy mà",
|
| 5488 |
"về",
|
| 5489 |
+
"về hướng",
|
| 5490 |
+
"về phía",
|
| 5491 |
+
"vị",
|
| 5492 |
"với",
|
| 5493 |
"xuống",
|
| 5494 |
"à",
|
| 5495 |
+
"á",
|
| 5496 |
+
"ái khanh",
|
| 5497 |
+
"âu là",
|
| 5498 |
+
"í",
|
| 5499 |
+
"ít",
|
| 5500 |
+
"ông",
|
| 5501 |
+
"ông ấy",
|
| 5502 |
+
"út",
|
| 5503 |
+
"ý",
|
| 5504 |
"đa số",
|
| 5505 |
+
"đang",
|
| 5506 |
"đi",
|
| 5507 |
"đâu",
|
| 5508 |
"đây",
|
| 5509 |
+
"đã",
|
| 5510 |
+
"đê",
|
| 5511 |
+
"đích thân",
|
| 5512 |
"đó",
|
| 5513 |
"đôi",
|
| 5514 |
+
"đương",
|
| 5515 |
"được",
|
| 5516 |
+
"đại nhân",
|
| 5517 |
"đấy",
|
| 5518 |
+
"đầu tiên",
|
| 5519 |
+
"đằng này",
|
| 5520 |
+
"đằng ấy",
|
| 5521 |
+
"��ẳng",
|
| 5522 |
+
"đặng",
|
| 5523 |
"đến",
|
| 5524 |
"để",
|
| 5525 |
+
"đệ",
|
| 5526 |
"đối với",
|
| 5527 |
+
"đồ",
|
| 5528 |
+
"ơi",
|
| 5529 |
+
"ư",
|
| 5530 |
"ạ",
|
| 5531 |
+
"ả",
|
| 5532 |
+
"ảnh",
|
| 5533 |
"ấy",
|
| 5534 |
+
"ẻm",
|
| 5535 |
+
"ổng",
|
| 5536 |
+
"ờ",
|
| 5537 |
"ở",
|
| 5538 |
+
"ừ",
|
| 5539 |
+
"ừa",
|
| 5540 |
+
"ừm",
|
| 5541 |
],
|
| 5542 |
"yo": [
|
| 5543 |
"a",
|
ur.arpa.bin
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:cda435e6d899daa71aba3cffccd0558ef9eb8a00f2b9ae8ba7b69326dc535511
|
| 3 |
+
size 396138774
|
ur.sp.model
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:97b15e17d55fa19c6254bf3955744bfb3e19084a603ecddf1fb405f72d2f93e1
|
| 3 |
+
size 1001211
|
ur_examples_with_stats.json
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:b1c7c393d25b9d80094f10c74547b493d2f2097ce2e238f13cf11f3dc2643ea8
|
| 3 |
+
size 214081086
|
vi.arpa.bin
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:983460dc00aaaec7325139cd87e89e937fcf5ac0cba4b16f23241fcc52d3c0ca
|
| 3 |
+
size 1414396214
|
vi.sp.model
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:b1393f7ca703337a5b94f86ddb8e17e3171fc1ca388ca035942f594e0f0d958d
|
| 3 |
+
size 906762
|
vi_examples_with_stats.json
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:f583cd636721d6990c3765348ae92f4549e3ea21871d36564dd1a3ab262b0aab
|
| 3 |
+
size 207235185
|