pytorch
/

Qwen3-4B-INT8-INT4

Text Generation

text-generation-inference

Model card Files Files and versions

jerryzh168 commited on May 29

Commit

e225287

·

verified ·

1 Parent(s): c10a6f4

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -99,7 +99,7 @@ from transformers import (
 from torchao.quantization.quant_api import (
     IntxWeightOnlyConfig,
     Int8DynamicActivationIntxWeightConfig,
-    AOPerModuleConfig,
     quantize_,
 )
 from torchao.quantization.granularity import PerGroup, PerAxis
@@ -121,7 +121,7 @@ linear_config = Int8DynamicActivationIntxWeightConfig(
     weight_granularity=PerGroup(32),
     weight_scale_dtype=torch.bfloat16,
 )
-quant_config = AOPerModuleConfig({"_default": linear_config, "model.embed_tokens": embedding_config})
 quantization_config = TorchAoConfig(quant_type=quant_config, include_embedding=True, untie_embedding_weights=True, modules_to_not_convert=[])
 # either use `untied_model_id` or `untied_model_local_path`
@@ -130,7 +130,7 @@ tokenizer = AutoTokenizer.from_pretrained(model_id)
 # Push to hub
 MODEL_NAME = model_id.split("/")[-1]
-save_to = f"{USER_ID}/{MODEL_NAME}-untied-8da4w"
 quantized_model.push_to_hub(save_to, safe_serialization=False)
 tokenizer.push_to_hub(save_to)

 from torchao.quantization.quant_api import (
     IntxWeightOnlyConfig,
     Int8DynamicActivationIntxWeightConfig,
+    ModuleFqnToConfig,
     quantize_,
 )
 from torchao.quantization.granularity import PerGroup, PerAxis
     weight_granularity=PerGroup(32),
     weight_scale_dtype=torch.bfloat16,
 )
+quant_config = ModuleFqnToConfig({"_default": linear_config, "model.embed_tokens": embedding_config})
 quantization_config = TorchAoConfig(quant_type=quant_config, include_embedding=True, untie_embedding_weights=True, modules_to_not_convert=[])
 # either use `untied_model_id` or `untied_model_local_path`
 # Push to hub
 MODEL_NAME = model_id.split("/")[-1]
+save_to = f"{USER_ID}/{MODEL_NAME}-8da4w"
 quantized_model.push_to_hub(save_to, safe_serialization=False)
 tokenizer.push_to_hub(save_to)