关于知识库图谱的有关问题

!!重要问题BUG:
1.知识库图谱节点编辑无法显示超长文本,测试文本:250万字的主角节点可以10-30秒内生成,但有卡顿,350万字所有节点全部无法生成编辑,建议点击节点是,可选择显示一部分内容(翻页)或者可选择某一部分章节内容。
2.知识图谱索引增强测试问题,对50万字的文本内容,对话模型无法准确识别出文本的每一个章节标题(即便是指定某一章,模型答复是XX章事实上是第XX章的情况),用其他AI模型测试,也会有乱答的情况,但是不至于无法提取章节名,这意味整个图谱模型架构会存在问题,无法形成精准搜索。测试使用时350万字的epub文件,250万字的txt文件,情况都一样。

刚开始设计的时候没考虑太多的内容,之后我会改下,加快资源访问
另外就是能提供下导出的知识库吗?我到时候测试下

到我发的百度网盘链接那里下载“遮天”咯!

1 个赞

图谱在设计的时候服务的是关系,所以对于章节这种除非有明确指向否则效果确实不是很好(当然这个也跟文本嵌入模型有关系)
您使用过哪些知识库类的软件效果好些能跟我说下我去看看实现逻辑

其他KRAG、GRAG的知识库软件没有用过,但是我想主流的国产模型都有配置,尤其是阅读功能,测试250万字,及10万字切片,通义、智谱、天工三大模型阅读对话效果如下:
1.所有的文档都不支持50万字以上的长文本阅读,但是可以上传显示,通义宣传可以支持1000万字,但是测试“阅读助手”根本无法上传文件(有藏拙引流的意图)。
2.通义千问:10万字短文本拉跨,无法理解问题任务,无法展示长文本三个章节以上的大纲,
3.智谱:只有约2000字token,回答内容质量最好,基本可以做到理解问题任务,按格式生成约15个章节大纲;但是只有一次对话的上下文记忆,再次继续生成则会乱答,需要再次上传文档;
4.天工:只有约2000字token,回答章节大纲最多,约20个章节,内容一般,存在跳章节归纳总结的BUG。
(PS:智谱是用了图谱技术的,其他没见宣传。)
接下来尝试 AISummarize、 SummarizeBOT等简单软件,看看能不能结合使用

其实生花笔工作流里面的总结、分类全局、卡片构建就有概括总结的味道了,那么既然已经生成图谱了,那么是否可以以主角精准定位到某一块约20章的内容,自动生成大纲,也就可以使用了,这也是准确索引的前提。


显示部分目前改成这样

1 个赞

已经更新,查询逻辑没有修改,因为需要认真考虑一个比较完善的方案,
主要是图谱的显示
如果有其他问题欢迎反馈

知识图谱的问答存在遗忘情况,不知道是否是对话模型的幻觉影响,其他国产模型也有相似情况,这样看,知识图谱还是在可看难用的阶段。
(PS:1.图谱显示方面。或许可以考虑选择显示当前段落节点,换句话说就是屏蔽非目标段落的节点,按某一部分章节显示;
2.图谱自动抽取生成的人物、事件、地点、组织是否可以考虑导出结构化的文本,方便直接使用,与第一点图谱显示相关)

我如果只做ai部分,肯定会各方面都考虑到,但是这是整个软件,所以就有些时候需要权衡,最主要的是时间,就一个人,想做的多,但是时间固定

最近主要是先把工作流重写,以前留下太多债务,随着软件功能越来越多这部分无法支撑,然后就是补全方面,实现更加优雅
最后的话再搞图谱.
首先说的遗忘,因为没有增加整个记忆的机制(上下文还是有的,但是没法记忆之前的问答),要搞整个还需要增加很多上下文才能实现

主要软件并不是专门用于ai对话的,所以很多功能都要往后排,哪个更有利会更优先做哪个

  • 图谱的提示目前在编辑器内可以配置高亮,再导出结构化节点目前不在设计之内,因为已经导出整个数据库了,不过未来可能会添加导出到卡片这种操作
  • 图谱显示未来可以增加按文件过滤之类的(不过打开一瞬间还是读全部,这也没办法,因为目前显示速度并不是太慢,如果加一个选择范围才能显示就有点多余)


新版图谱很漂亮,越居中的越重要么?

基本可以这么理解
越接近红色说明关系越接近