Initial commit

Browse files

Files changed (5) hide show

README.md +36 -1
config.json +21 -0
pytorch_model.bin +3 -0
tokenizer.json +0 -0
vocab.json +0 -0

README.md CHANGED Viewed

@@ -1,3 +1,38 @@
 ---
-license: cc-by-nc-4.0
 ---

 ---
+tags:
+- feature-extraction
+pipeline_tag: feature-extraction
 ---
+DRAGON-RoBERTa is a BERT-base sized dense retriever initialized from [RoBERTa](https://huggingface.co/roberta-base) and further trained on the data augmented from MS MARCO corpus, following the approach described in [How to Train Your DRAGON:
+Diverse Augmentation Towards Generalizable Dense Retrieval](\url). The associated GitHub repository is available here https://github.com/facebookresearch/dpr-scale/tree/dragon. We use asymmetric dual encoder, with two distinctly parameterized encoders.
+The following models are also available:
+Model | Initialization | Query Encoder Path | Context Encoder Path
+|---|---|---
+DRAGON-RoBERTa | roberta-base | facebook/dragon-roberta-query-encoder | facebook/dragon-roberta-context-encoder
+## Usage (HuggingFace Transformers)
+Using the model directly available in HuggingFace transformers .
+```python
+import torch
+from transformers import AutoTokenizer, AutoModel
+tokenizer = AutoTokenizer.from_pretrained('facebook/dragon-roberta-query-encoder')
+query_encoder = AutoModel.from_pretrained('facebook/dragon-roberta-query-encoder')
+context_encoder = AutoModel.from_pretrained('facebook/dragon-roberta-context-encoder')
+# We use msmarco query and passages as an example
+query =  "Where was Marie Curie born?"
+contexts = [
+    "Maria Sklodowska, later known as Marie Curie, was born on November 7, 1867.",
+    "Born in Paris on 15 May 1859, Pierre Curie was the son of Eugène Curie, a doctor of French Catholic origin from Alsace."
+]
+# Apply tokenizer
+query_input = tokenizer(query, return_tensors='pt')
+ctx_input = tokenizer(contexts, padding=True, truncation=True, return_tensors='pt')
+# Compute embeddings: take the last-layer hidden state of the [CLS] token
+query_emb = query_encoder(**query_input).last_hidden_state[:, 0, :]
+ctx_emb = context_encoder(**ctx_input).last_hidden_state[:, 0, :]
+# Compute similarity scores using dot product
+score1 = query_emb @ ctx_emb[0]  # 385.1422
+score2 = query_emb @ ctx_emb[1]  # 383.6051
+```

config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "architectures": [
+    "RobertaForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "type_vocab_size": 1,
+  "vocab_size": 50265
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fae4ee0a7b18501b58522f389d08edb40fccb54f08128e80cd0eb3abbd3b3c77
+size 498649201

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff