四个14B以下对话模型的使用分享

1.qwen2.5:7b(Q4版本):此模型是优先推荐的,生成token在500-750之间,速度快,可以较好理解任务,如果设定规则,可以降低幻觉,提高文本质量,

2.glm4(Q4版本,最高版本):生成token在500左右,质量不行,部分文本会出现乱答情况,如突然出现角色,不按要求生成,

3.qwen2.5:7b-instruct-fp16(FP16版本):响应速度要30S之后才会出内容,文本生成内容与qwen2.5:7b质量差不多,应该是侧重其他方面了。

4.qwen2.5:14b-instruct-q8_0(Q8版本):与qwen2.5:7b质量差不多,不同的是响应速度要30S之后才会出内容,不过会有些小惊喜,环境描写,人物细节描写偶尔不错。
希望软件能够支持更多网站开源模型,如https://hf-mirror.com/

感谢分享,不过ollama的模型中,一般情况下默认都是q4,不需要指定,除非您想指定其他量化.
比如qwen2.5:7b其实是q4,qwen2.5:7b-instruct-fp16 这个是fp16

1 个赞