microsoft
/

Florence-2-large-ft

Image-Text-to-Text

Model card Files Files and versions

Matt commited on Apr 24

Commit

f18f828

·

1 Parent(s): bb44b80

Update model and modeling file

Files changed (2) hide show

model.safetensors +3 -0
modeling_florence2.py +3 -21

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b4e610c952eef90a836c56cda0f398a672a3a6ca7b4d96b0e09a86dee42e2c3
+size 1540980506

modeling_florence2.py CHANGED Viewed

@@ -26,9 +26,10 @@ import torch.utils.checkpoint as checkpoint
 from torch.nn import CrossEntropyLoss
 from collections import OrderedDict
 from einops import rearrange
-from timm.models.layers import DropPath, trunc_normal_
 from transformers.modeling_utils import PreTrainedModel
 from transformers.utils import (
     ModelOutput,
     add_start_docstrings,
@@ -609,29 +610,10 @@ class DaViT(nn.Module):
         self.avgpool = nn.AdaptiveAvgPool1d(1)
         self.head = nn.Linear(self.embed_dims[-1], num_classes) if num_classes > 0 else nn.Identity()
-        self.apply(self._init_weights)
     @property
     def dim_out(self):
         return self.embed_dims[-1]
-    def _init_weights(self, m):
-        if isinstance(m, nn.Linear):
-            trunc_normal_(m.weight, std=0.02)
-            if m.bias is not None:
-                nn.init.constant_(m.bias, 0)
-        elif isinstance(m, nn.Conv2d):
-            nn.init.normal_(m.weight, std=0.02)
-            for name, _ in m.named_parameters():
-                if name in ['bias']:
-                    nn.init.constant_(m.bias, 0)
-        elif isinstance(m, nn.LayerNorm):
-            nn.init.constant_(m.weight, 1.0)
-            nn.init.constant_(m.bias, 0)
-        elif isinstance(m, nn.BatchNorm2d):
-            nn.init.constant_(m.weight, 1.0)
-            nn.init.constant_(m.bias, 0)
     def forward_features_unpool(self, x):
         """
         forward until avg pooling
@@ -2059,7 +2041,7 @@ class Florence2LanguageModel(Florence2LanguagePreTrainedModel):
         )
-class Florence2LanguageForConditionalGeneration(Florence2LanguagePreTrainedModel):
     base_model_prefix = "model"
     _tied_weights_keys = ["encoder.embed_tokens.weight", "decoder.embed_tokens.weight", "lm_head.weight"]
     _keys_to_ignore_on_load_missing = ["final_logits_bias"]

 from torch.nn import CrossEntropyLoss
 from collections import OrderedDict
 from einops import rearrange
+from timm.layers import DropPath, trunc_normal_
 from transformers.modeling_utils import PreTrainedModel
+from transformers.generation.utils import GenerationMixin
 from transformers.utils import (
     ModelOutput,
     add_start_docstrings,
         self.avgpool = nn.AdaptiveAvgPool1d(1)
         self.head = nn.Linear(self.embed_dims[-1], num_classes) if num_classes > 0 else nn.Identity()
     @property
     def dim_out(self):
         return self.embed_dims[-1]
     def forward_features_unpool(self, x):
         """
         forward until avg pooling
         )
+class Florence2LanguageForConditionalGeneration(Florence2LanguagePreTrainedModel, GenerationMixin):
     base_model_prefix = "model"
     _tied_weights_keys = ["encoder.embed_tokens.weight", "decoder.embed_tokens.weight", "lm_head.weight"]
     _keys_to_ignore_on_load_missing = ["final_logits_bias"]