pytorch
/

Phi-4-mini-instruct-AWQ-INT4

@@ -5,9 +5,9 @@
   "attention_bias": false,
   "attention_dropout": 0.0,
   "auto_map": {
-    "AutoConfig": "microsoft/Phi-4-mini-instruct--configuration_phi3.Phi3Config",
-    "AutoModelForCausalLM": "microsoft/Phi-4-mini-instruct--modeling_phi3.Phi3ForCausalLM",
-    "AutoTokenizer": "microsoft/Phi-4-mini-instruct--Xenova/gpt-4o"
   },
   "bos_token_id": 199999,
   "embd_pdrop": 0.0,
@@ -29,6 +29,7 @@
   "pad_token_id": 199999,
   "partial_rotary_factor": 0.75,
   "quantization_config": {
     "modules_to_not_convert": null,
     "quant_method": "torchao",
     "quant_type": {
@@ -37,6 +38,14 @@
           "base_config": {
             "_data": {
               "group_size": 128,
               "layout": {
                 "_data": {
                   "inner_k_tiles": 8
@@ -44,10 +53,6 @@
                 "_type": "TensorCoreTiledLayout",
                 "_version": 1
               },
-              "packing_format": {
-                "_data": "PLAIN",
-                "_type": "PackingFormat"
-              },
               "preserve_zero": null,
               "set_inductor_config": true,
               "use_hqq": false,
@@ -66,7 +71,8 @@
         "_version": 1
       }
     },
-    "quant_type_kwargs": {}
   },
   "resid_pdrop": 0.0,
   "rms_norm_eps": 1e-05,
@@ -177,7 +183,7 @@
   "sliding_window": 262144,
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.52.0.dev0",
   "use_cache": true,
   "vocab_size": 200064
 }

   "attention_bias": false,
   "attention_dropout": 0.0,
   "auto_map": {
+    "AutoConfig": "configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "modeling_phi3.Phi3ForCausalLM",
+    "AutoTokenizer": "Xenova/gpt-4o"
   },
   "bos_token_id": 199999,
   "embd_pdrop": 0.0,
   "pad_token_id": 199999,
   "partial_rotary_factor": 0.75,
   "quantization_config": {
+    "include_input_output_embeddings": false,
     "modules_to_not_convert": null,
     "quant_method": "torchao",
     "quant_type": {
           "base_config": {
             "_data": {
               "group_size": 128,
+              "int4_choose_qparams_algorithm": {
+                "_data": "TINYGEMM",
+                "_type": "Int4ChooseQParamsAlgorithm"
+              },
+              "int4_packing_format": {
+                "_data": "PLAIN",
+                "_type": "Int4PackingFormat"
+              },
               "layout": {
                 "_data": {
                   "inner_k_tiles": 8
                 "_type": "TensorCoreTiledLayout",
                 "_version": 1
               },
               "preserve_zero": null,
               "set_inductor_config": true,
               "use_hqq": false,
         "_version": 1
       }
     },
+    "quant_type_kwargs": {},
+    "untie_embedding_weights": false
   },
   "resid_pdrop": 0.0,
   "rms_norm_eps": 1e-05,
   "sliding_window": 262144,
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.55.4",
   "use_cache": true,
   "vocab_size": 200064
 }

generation_config.json CHANGED Viewed

@@ -6,5 +6,5 @@
     199999
   ],
   "pad_token_id": 199999,
-  "transformers_version": "4.52.0.dev0"
 }

     199999
   ],
   "pad_token_id": 199999,
+  "transformers_version": "4.55.4"
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2a528453e5a1be0710b2a8b22331566d3e4b9361a04f60dd4be8570eaf04d08
-size 3268699771

 version https://git-lfs.github.com/spec/v1
+oid sha256:007dccc15cb8fe1198f6155f338598b84fa4971e4562f31bfb82632a0fc692d6
+size 3268687035