可能大家感到疑惑,为什么推荐这么大的模型,
qwen3:30b全称 Qwen3-30B-A3B,也就是总共30b大小,但是每次其实只使用了3b的参数.这样的话内存/显存占用与正常模型基本相同,但是推理速度是3b的速度.
而qwen2.5:7b,qwen3:8b都是实打实的大小占用多少,就使用多少
目前大多数人的独显可能也就是8G,好一点的16G,最好的民用也就是32G(5090,又多少人有),那么大多数人能用的模型,可能也就是7b/14这么大,这还不算上下文,因为上下文也需要占用几G的空间,这也就意味着不爆显存的情况下7b/14b确实快,一旦爆显存,变成龟速
而使用qwen3:30b就意味着大多数人(99%)肯定都用内存推理,加载占用20g左右(q4),加上上下文也低于32G内存,而32G内存现在也不到500多,成本低;并且3b的大小推理非常快,我测试8845h+32g 5600速度在20tokens/s,这个速度,之前我用定制版的780m ollama跑7b模型也才15tokens/s,所以尺寸变大,速度反而变快
所以我推荐使用qwen3:30b,增加内存成本低,虽然使用cpu,但是推理速度快,还拥有高精度,可以说是民用目前最适合使用的版本
已知的问题
- 理论上这个模型跑在显卡(不爆内存)下会更快,但是又有多少人有这个条件;我拿了定制的ollama amd版本试了下(780m集显),发现好像内存会双倍占用,不知道为啥(难道是模型先拷贝到内存,然后内存到显存,然后因为显存就是内存分配的,所以有问题?);llama.cpp vulkan版本也是特别慢,只有10tokens,不知道是bug还是集显特有的问题.