Llama-4-Scout-17B-16E-Instruct-abliterated-v2-nvfp4
🧠 模型简介
Llama-4-Scout-17B-16E-Instruct-abliterated-v2-nvfp4 是基于原模型jiangchengchengNLP/Llama-4-Scout-17B-16E-Instruct-abliterated-v2
通过 llm-compressor 工具进行压缩与优化后的版本。
该版本采用 NVFP4 (NVIDIA FP4) 精度格式与 Mixture-of-Experts (MoE) 架构, 在保持生成质量的同时显著提升了推理速度与显存利用率。
⚙️ 模型规格
| 项目 | 内容 |
|---|---|
| 基础架构 | Llama 4 |
| 参数规模 | 17B |
| 专家数 | 16 Experts (MoE) |
| 精度 | NVFP4 |
| 优化工具 | llm-compressor |
| 许可证 | Apache 2.0 |
| 原始模型 | jiangchengchengNLP/Llama-4-Scout-17B-16E-Instruct-abliterated-v2 |
💻 推理环境支持
| 显卡型号 | 架构 | 是否支持 |
|---|---|---|
| NVIDIA H100 | Hopper | ✅ 支持 |
| NVIDIA B200 | Blackwell | ✅ 支持 |
| NVIDIA RTX 5090 | Blackwell (SM120) | ❌ 暂不支持 |
当前版本的 NVFP4-MoE 算子 暂未在
sm120架构(如 RTX 5090)上适配。
🚀 推理示例
vllm serve jiangchengchengNLP/Llama-4-Scout-17B-16E-Instruct-abliterated-v2-nvfp4 --port 6006 --host 0.0.0.0 --max-model-len 20000 --served-model-name llama4 --gpu-memory-utilization 0.95 --tensor-parallel-size 4
⚙️ 推理参数
temperature = 0.7
top_p = 0.95
🧩 模型特点
- ⚡ 使用 NVFP4 量化格式,显著减少显存占用。
- 🔧 支持 **vLLM 推理框架。
- 🧰 由 llm-compressor 自动优化算子、融合层、权重量化。
📄 许可证
本模型依据 Apache License 2.0 授权,可用于商业用途。
🙏 致谢
- 原模型作者:@jiangchengchengNLP
- 压缩与适配:llm-compressor 项目团队
- 基础架构:Meta Llama 4
- Downloads last month
- 40
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for jiangchengchengNLP/Llama-4-Scout-17B-16E-Instruct-abliterated-v2-nvfp4
Base model
meta-llama/Llama-4-Scout-17B-16E