用户可在桌面(NVIDIA RTX 3090)或笔记本(NVIDIA RTX 4060 Laptop GPU)上运行强大 AI 模型,甚至手机也能支持小型模型。
为避免量化导致性能下降,谷歌采用量化感知训练(QAT)技术,在训练过程中模拟低精度运算,确保模型在压缩后仍保持高准确性。Gemma 3 QAT 模型在约 5000 步训练中,将困惑度下降减少了 54%。
黑料网-独家爆料
Ollama、LM Studio 和 llama.cpp 等主流平台已集成该模型,用户可通过 Hugging Face 和 Kaggle 获取官方 int4 和 Q4_0 模型,轻松在 Apple Silicon 或 CPU 上运行。此外,Gemmaverse 社区提供了更多量化选项,满足不同需求。黑料不打烊永久进入方法