Spaces:
Sleeping
Sleeping
Update app.py
Browse files
app.py
CHANGED
|
@@ -33,11 +33,11 @@ if st.button("トレーニング開始"):
|
|
| 33 |
# データセットの準備(スワヒリ語)
|
| 34 |
st.write("データセットのロード中...")
|
| 35 |
from datasets import load_dataset
|
| 36 |
-
dataset = load_dataset(dataset_name,
|
| 37 |
|
| 38 |
# トレーニング用のデータセットの準備
|
| 39 |
def tokenize_function(examples):
|
| 40 |
-
return tokenizer(examples["text"], padding="max_length", truncation=True, max_length=
|
| 41 |
|
| 42 |
tokenized_dataset = dataset.map(tokenize_function, batched=True)
|
| 43 |
|
|
|
|
| 33 |
# データセットの準備(スワヒリ語)
|
| 34 |
st.write("データセットのロード中...")
|
| 35 |
from datasets import load_dataset
|
| 36 |
+
dataset = load_dataset(dataset_name, split="train") # 言語を指定
|
| 37 |
|
| 38 |
# トレーニング用のデータセットの準備
|
| 39 |
def tokenize_function(examples):
|
| 40 |
+
return tokenizer(examples["text"], padding="max_length", truncation=True, max_length=168)
|
| 41 |
|
| 42 |
tokenized_dataset = dataset.map(tokenize_function, batched=True)
|
| 43 |
|