常 见 问 题

启动时弹出帮助页面

  • 如果在非首次配置的情况下弹出帮助页面,那么说明工作区环境配置文件夹至少有一个没有配置
  • 比如您使用右键打开某个文件
  • 这时找到之前的工作区重新打开,或者关闭后找到之前的工作区右键打开

配置丢失?

  • 右键打开某个文件夹,那么当前文件夹就是一个新的工作区,而相关可能配置在之前的工作区上
  • 找到之前的工作区,然后右键打开即可

安装是否需要python环境

  • 不需要软件帮你了

安装是否需要特殊的网络环境

  • 不需要软件帮你了

下载失败怎么办?

  • 所有下载地址都做了镜像源下载,包括软件,也就是只要软件能下载,那么基本上都能下载

  • 如果遇到下载慢或者无法下载的情况下,建议不同时间段进行下载测试,因为cf加速有些时候访问确实不好

  • 软件部分下载(不是模型)失败可以尝试使用下面配置,修改后重启生效

   "shenghuabi.download": {
        "softwareMirror": "github-release2.tbontop.top"
    }

gb2312编码乱码?

  • 右下角会有一个选择编码的按钮(上面的字可能是UT8或者其他的),点击后出现弹窗,通过编码重新打开,文本正常后。改成utf8在重新保存
  • 导入知识库中的文本会自动猜测编码

括号颜色

  • 可以左下角设置中修改
  "workbench.colorCustomizations": {
        "editorBracketHighlight.foreground1": "#45aa79",
     
    }
  • 另外我看了后才发现没区分各种括号类型。所以这个样式的修改是所有括号颜色统一改的。未来会改成那种允许不同类型的括号不同颜色的设置

直接下载优先

  • 这个的真实意思就是,直接连接 github. huggingface等网站进行下载,不用镜像源。所以默认是不开启的。如果你非要用,请保证你能访问这些网站

为什么嵌入模型下载到100%后会卡住/ocr识别失败/知识库创建卡住

  • windows下transformers默认使用dml进行文本嵌入和ocr,其对设备要求如下
* AMD GCN 1st Gen (Radeon HD 7000 series) and above
* Intel Haswell (4th-gen core) HD Integrated Graphics and above
* NVIDIA Kepler (GTX 600 series) and above
* Qualcomm Adreno 600 and above
  • 理论上不是太老的设备都支持

解决方案

  • 尝试安装最新驱动
  • 将配置中的dml改为cpu

  • 如果设备实在过老可以使用Ollama的词嵌入模型bge-m3,只不过会慢很多(不知道为什么似乎不支持批量处理,传递的是一个数组,但是实际上会一个一个执行…)
  • 直接调用openai兼容的api

使用ollama对话时为什么比较慢

  • ollama不支持当前gpu设备加速推理
  • 爆显存

排查方案

  • 保证显卡最新驱动已经安装
  • 当模型被加载并且进行输出时,查看任务管理器中GPU内存是否有高占用

8 B q4 大概4G以上, q8 8G以上,基本上就是按照这个模数估算

  • 推理速度可以简单用带宽除以模型大小(moe为每个激活的大小),一般达到这个计算结果的80%左右就可以认为正常,如果低于这个,不是爆显存,就是没有用gpu推理

  • 如果说gpu部分看到显存占用上去了,那么就是支持推理,如果说发现推理时只有cpu部分变高,那么就是不支持gpu加速推理

  • 如果说gpu显存占用升高,并且接近显存上限,那么基本上就说明爆显存了

因为没爆显存和爆显存速度差距是比较明显的再加上到了显存上限,很容易推断

解决方案

爆显存

  • 请先停止ollama,然后调低如下参数,然后再启动
"shenghuabi.ollama.env": {
    "OLLAMA_CONTEXT_LENGTH": 200
},
  • 如果这时速度恢复正常,那么可以适当调高上下文长度重复操作,直到接近极限
  • 如果任务管理器部分仍然出现内存,显存同步升高的情况,那么就说明当前模型过大,强制使用速度就会变慢

非ollama官方支持的显卡

  • 由于目前ollama只支持cuda,rocm的部分显卡加速,所有有很多显卡并不在支持范围内
  • amd的集显和老显卡的定制版ollama

非OLLAMA官方支持的amd设备使用显卡加速

  • intel定制ollama

[INTEL]ollama版本使用

  • 使用llama.cpp 的vulkan加速

llama.cpp配置及使用