abinayam
/

gpt-2-tamil

Text Generation

text-generation-inference

Model card Files Files and versions

Metrics Training metrics Community

Abinaya Mahendiran commited on Jul 18, 2021

Commit

0388313

·

1 Parent(s): 80d39c5

Updated README

Files changed (1) hide show

README.md +12 -13

README.md CHANGED Viewed

@@ -1,7 +1,6 @@
 ---
 language: ta
-license: MIT
 datasets:
 - oscar
 - IndicNLP
@@ -19,13 +18,13 @@ To setup the project, run the following command,
 pip install -r requirements.txt
 ```
-## Model
 Pretrained model on Tamil language using a causal language modeling (CLM) objective.
 ## Dataset Used:
 The GTP-2 model is trained on [oscar dataset - ta](https://huggingface.co/datasets/oscar) and [IndicNLP dataset - ta](https://indicnlp.ai4bharat.org/corpora/)
-## Intended uses & limitations
 You can use the raw model for next sentence prediction, but it's mostly intended to be fine-tuned on a downstream task. See the [model hub](https://huggingface.co/models?filter=gpt) to look for fine-tuned versions on a task that interests you.
 ## How to pretrain the model:
@@ -57,14 +56,14 @@ python src/convert_flax_to_pytorch.py
 ```
 - Use the following snippet to perform language generation,
 ```python
- from transformers import AutoTokenizer, AutoModelWithLMHead, pipeline
- model_name = 'abinayam/gpt-2-tamil'
- model = AutoModelWithLMHead.from_pretrained(model_name)
- tokenizer = AutoTokenizer.from_pretrained(model_name)
- set_seed(42)
- input_text = "ஒரு ஊரிலே ஒரு காக்கைக்கு"
- max_len = 300
- no_seq = 5
- generator = pipeline('text-generation', model=model, tokenizer=tokenizer)
- sequence = generator(input_text, max_length=max_len, num_return_sequences=no_seq)
 ```

 ---
 language: ta
 datasets:
 - oscar
 - IndicNLP
 pip install -r requirements.txt
 ```
+## Model:
 Pretrained model on Tamil language using a causal language modeling (CLM) objective.
 ## Dataset Used:
 The GTP-2 model is trained on [oscar dataset - ta](https://huggingface.co/datasets/oscar) and [IndicNLP dataset - ta](https://indicnlp.ai4bharat.org/corpora/)
+## Intended uses & limitations:
 You can use the raw model for next sentence prediction, but it's mostly intended to be fine-tuned on a downstream task. See the [model hub](https://huggingface.co/models?filter=gpt) to look for fine-tuned versions on a task that interests you.
 ## How to pretrain the model:
 ```
 - Use the following snippet to perform language generation,
 ```python
+ >>> from transformers import AutoTokenizer, AutoModelWithLMHead, pipeline
+ >>> model_name = 'abinayam/gpt-2-tamil'
+ >>> model = AutoModelWithLMHead.from_pretrained(model_name)
+ >>> tokenizer = AutoTokenizer.from_pretrained(model_name)
+ >>> set_seed(42)
+ >>> input_text = "ஒரு ஊரிலே ஒரு காக்கைக்கு"
+ >>> max_len = 300
+ >>> no_seq = 5
+ >>> generator = pipeline('text-generation', model=model, tokenizer=tokenizer)
+ >>> sequence = generator(input_text, max_length=max_len, num_return_sequences=no_seq)
 ```