循序渐进 Skywork:模型架构与实现要点梳理

张开发
2026/4/9 22:30:18 15 分钟阅读

分享文章

循序渐进 Skywork:模型架构与实现要点梳理
目录 各版本显存需求速查awq量比版本vllm推理运行Skywork-R1V2-38B这个 380 亿参数的大模型具体需要多少显存取决于你使用哪种精度的版本。如果使用 4-bit 量化版本单卡24GB 显存如 RTX 3090/4090就能流畅运行但如果要跑未量化的 16-bit 版本则需要约80GB 显存如 A100。以下是不同版本对显存的具体要求 各版本显存需求速查模型版本显存占用推荐显卡 (单卡)4-bit 量化版 (AWQ/GPTQ)约 24 GBRTX 3090/4090 (24GB), RTX 5090 (32GB)8-bit 量化版约 45 GBA100 (40GB/80GB), A6000 (48GB)16-bit 原版 (BF16/FP16)约 80 GBA100 80GB, 或 2 x RTX 4090awq量比版本Skywork/Skywork-R1V2-38B-AWQ · Hugging Facevllm推理import os from vllm import LLM, SamplingParams from vllm.entrypoints.chat_utils import load_chat_template model_name Skywork/Skywork-R1V2-38B-AWQ # or local path llm LLM(model_name, dtypefloat16, quantizationawq, gpu_memory_utilization0.9, max_model_len4096, trust_remote_codeTrue, )Skywork-R1V3-38B-AWQ 比 Skywork-R1V2-38B-AWQ 好在哪根据最新的技术报告Skywork-R1V3 相比 R1V2 是一次重大的代际升级。它的核心优势并不在于增大模型规模同样保持 38B 参数而是通过全新的后训练方法显著提升了模型的推理能力。

更多文章