Llama-4-Scout-17B-16E-Instruct-abliterated-v2-nvfp4

🧠 模型简介

Llama-4-Scout-17B-16E-Instruct-abliterated-v2-nvfp4 是基于原模型
jiangchengchengNLP/Llama-4-Scout-17B-16E-Instruct-abliterated-v2
通过 llm-compressor 工具进行压缩与优化后的版本。

该版本采用 NVFP4 (NVIDIA FP4) 精度格式与 Mixture-of-Experts (MoE) 架构, 在保持生成质量的同时显著提升了推理速度与显存利用率。


⚙️ 模型规格

项目 内容
基础架构 Llama 4
参数规模 17B
专家数 16 Experts (MoE)
精度 NVFP4
优化工具 llm-compressor
许可证 Apache 2.0
原始模型 jiangchengchengNLP/Llama-4-Scout-17B-16E-Instruct-abliterated-v2

💻 推理环境支持

显卡型号 架构 是否支持
NVIDIA H100 Hopper ✅ 支持
NVIDIA B200 Blackwell ✅ 支持
NVIDIA RTX 5090 Blackwell (SM120) ❌ 暂不支持

当前版本的 NVFP4-MoE 算子 暂未在 sm120 架构(如 RTX 5090)上适配。


🚀 推理示例

vllm serve  jiangchengchengNLP/Llama-4-Scout-17B-16E-Instruct-abliterated-v2-nvfp4  --port 6006 --host 0.0.0.0 --max-model-len 20000 --served-model-name llama4   --gpu-memory-utilization 0.95  --tensor-parallel-size 4

⚙️ 推理参数

temperature = 0.7
top_p = 0.95

🧩 模型特点

  • ⚡ 使用 NVFP4 量化格式,显著减少显存占用。
  • 🔧 支持 **vLLM 推理框架。
  • 🧰 由 llm-compressor 自动优化算子、融合层、权重量化。

📄 许可证

本模型依据 Apache License 2.0 授权,可用于商业用途。


🙏 致谢

  • 原模型作者:@jiangchengchengNLP
  • 压缩与适配:llm-compressor 项目团队
  • 基础架构:Meta Llama 4
Downloads last month
40
Safetensors
Model size
64B params
Tensor type
F32
·
BF16
·
F8_E4M3
·
U8
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for jiangchengchengNLP/Llama-4-Scout-17B-16E-Instruct-abliterated-v2-nvfp4