Spaces:

flytoe
/

Transformer

Runtime error

Transformer / app.py

Update app.py

6ab4778 verified 8 months ago

1.52 kB

	import torch
	from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments, AutoTokenizer
	from datasets import load_dataset

	# 1️⃣ Modell & Tokenizer laden
	model_name = "allenai/scibert_scivocab_uncased"
	tokenizer = AutoTokenizer.from_pretrained(model_name)
	model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=3)

	# 2️⃣ Dataset laden (mit spezifischer Konfiguration: "arxiv" oder "pubmed")
	dataset = load_dataset("armanc/scientific_papers", "arxiv", trust_remote_code=True) # Oder "pubmed"

	# 3️⃣ Tokenisierung der Texte
	def tokenize_function(examples):
	return tokenizer(examples["text"], padding="max_length", truncation=True)

	tokenized_datasets = dataset.map(tokenize_function, batched=True)

	# 4️⃣ Trainingsparameter setzen
	training_args = TrainingArguments(
	output_dir="./results",
	evaluation_strategy="epoch",
	save_strategy="epoch",
	per_device_train_batch_size=8,
	per_device_eval_batch_size=8,
	num_train_epochs=3,
	weight_decay=0.01,
	logging_dir="./logs",
	)

	# 5️⃣ Training starten
	trainer = Trainer(
	model=model,
	args=training_args,
	train_dataset=tokenized_datasets["train"],
	eval_dataset=tokenized_datasets["validation"],
	)

	trainer.train()

	# 6️⃣ Speichern des Modells nach dem Training
	model.save_pretrained("./trained_model")
	tokenizer.save_pretrained("./trained_model")

	print(dataset) # Zeigt die Struktur des Datensatzes
	print("✅ Training abgeschlossen! Modell gespeichert.")