四个14B以下对话模型的使用分享

LIYUFENBGYUN · 2024 年11 月 29 日 16:25

1.qwen2.5:7b（Q4版本）：此模型是优先推荐的，生成token在500-750之间，速度快，可以较好理解任务，如果设定规则，可以降低幻觉，提高文本质量，

2.glm4（Q4版本，最高版本）：生成token在500左右，质量不行，部分文本会出现乱答情况，如突然出现角色，不按要求生成，

3.qwen2.5:7b-instruct-fp16（FP16版本）：响应速度要30S之后才会出内容，文本生成内容与qwen2.5:7b质量差不多，应该是侧重其他方面了。

4.qwen2.5:14b-instruct-q8_0（Q8版本）：与qwen2.5:7b质量差不多，不同的是响应速度要30S之后才会出内容，不过会有些小惊喜，环境描写，人物细节描写偶尔不错。
希望软件能够支持更多网站开源模型，如https://hf-mirror.com/

admin · 2024 年11 月 30 日 01:32

感谢分享,不过ollama的模型中,一般情况下默认都是q4,不需要指定,除非您想指定其他量化.
比如qwen2.5:7b其实是q4,qwen2.5:7b-instruct-fp16 这个是fp16