longt5_xl_sfd_memsum_40 / README.md

learn3r

End of training

a2b5bb6 verified over 1 year ago

preview code

raw

history blame

3.4 kB

metadata

license: apache-2.0
base_model: google/long-t5-tglobal-xl
tags:
  - generated_from_trainer
datasets:
  - learn3r/summ_screen_memsum_oracle
model-index:
  - name: longt5_xl_sfd_memsum_40
    results: []

longt5_xl_sfd_memsum_40

This model is a fine-tuned version of google/long-t5-tglobal-xl on the learn3r/summ_screen_memsum_oracle dataset. It achieves the following results on the evaluation set:

Loss: 5.2679

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.001
train_batch_size: 8
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 16
total_train_batch_size: 128
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: constant
num_epochs: 40.0

Training results

Training Loss	Epoch	Step	Validation Loss
2.5238	0.97	28	2.3147
2.1298	1.98	57	2.2837
1.7525	2.99	86	2.3335
1.2954	4.0	115	2.4995
1.0518	4.97	143	2.8326
0.7083	5.98	172	2.9095
0.5124	6.99	201	3.4108
0.4503	8.0	230	3.4459
0.3145	8.97	258	3.5216
0.2573	9.98	287	4.0127
0.213	10.99	316	3.9714
0.1682	12.0	345	3.8427
0.1396	12.97	373	4.2025
0.1363	13.98	402	4.4012
0.1148	14.99	431	4.7174
0.0907	16.0	460	4.4980
0.0942	16.97	488	4.7024
0.0765	17.98	517	4.3482
0.0799	18.99	546	4.5386
0.073	20.0	575	4.5889
0.0825	20.97	603	4.6817
0.0616	21.98	632	5.0263
0.0677	22.99	661	4.5804
0.0571	24.0	690	4.8399
0.0525	24.97	718	4.9350
0.081	25.98	747	4.6903
0.0505	26.99	776	5.0005
0.0576	28.0	805	5.0196
0.0448	28.97	833	5.1100
0.0457	29.98	862	5.0008
0.0442	30.99	891	5.5093
0.0391	32.0	920	5.4296
0.0392	32.97	948	5.2357
0.0376	33.98	977	5.2266
0.0381	34.99	1006	5.2630
0.0339	36.0	1035	5.3532
0.0377	36.97	1063	5.4443
0.0336	37.98	1092	5.0809
0.0316	38.96	1120	5.2679

Framework versions

Transformers 4.38.1
Pytorch 2.2.1+cu121
Datasets 2.17.1
Tokenizers 0.15.2