--- license: apache-2.0 base_model: - jiangchengchengNLP/Llama-4-Scout-17B-16E-Instruct-abliterated-v2 --- # Llama-4-Scout-17B-16E-Instruct-abliterated-v2-nvfp4 ## 🧠 模型简介 **Llama-4-Scout-17B-16E-Instruct-abliterated-v2-nvfp4** 是基于原模型 [`jiangchengchengNLP/Llama-4-Scout-17B-16E-Instruct-abliterated-v2`](https://huggingface.co/jiangchengchengNLP/Llama-4-Scout-17B-16E-Instruct-abliterated-v2) 通过 **llm-compressor** 工具进行压缩与优化后的版本。 该版本采用 **NVFP4 (NVIDIA FP4)** 精度格式与 **Mixture-of-Experts (MoE)** 架构, 在保持生成质量的同时显著提升了推理速度与显存利用率。 --- ## ⚙️ 模型规格 | 项目 | 内容 | |------|------| | 基础架构 | Llama 4 | | 参数规模 | 17B | | 专家数 | 16 Experts (MoE) | | 精度 | NVFP4 | | 优化工具 | llm-compressor | | 许可证 | Apache 2.0 | | 原始模型 | [`jiangchengchengNLP/Llama-4-Scout-17B-16E-Instruct-abliterated-v2`](https://huggingface.co/jiangchengchengNLP/Llama-4-Scout-17B-16E-Instruct-abliterated-v2) | --- ## 💻 推理环境支持 | 显卡型号 | 架构 | 是否支持 | |-----------|--------|------------| | NVIDIA H100 | Hopper | ✅ 支持 | | NVIDIA B200 | Blackwell | ✅ 支持 | | NVIDIA RTX 5090 | Blackwell (SM120) | ❌ 暂不支持 | > 当前版本的 **NVFP4-MoE 算子** 暂未在 `sm120` 架构(如 RTX 5090)上适配。 --- ## 🚀 推理示例 ```bash vllm serve jiangchengchengNLP/Llama-4-Scout-17B-16E-Instruct-abliterated-v2-nvfp4 --port 6006 --host 0.0.0.0 --max-model-len 20000 --served-model-name llama4 --gpu-memory-utilization 0.95 --tensor-parallel-size 4 ``` ## ⚙️ 推理参数 ```yaml temperature = 0.7 top_p = 0.95 ``` --- ## 🧩 模型特点 - ⚡ 使用 **NVFP4 量化格式**,显著减少显存占用。 - 🔧 支持 **vLLM 推理框架。 - 🧰 由 **llm-compressor** 自动优化算子、融合层、权重量化。 --- ## 📄 许可证 本模型依据 **[Apache License 2.0](https://www.apache.org/licenses/LICENSE-2.0)** 授权,可用于商业用途。 --- ## 🙏 致谢 - 原模型作者:[@jiangchengchengNLP](https://huggingface.co/jiangchengchengNLP) - 压缩与适配:llm-compressor 项目团队 - 基础架构:Meta Llama 4