登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
破局AI问答专有名词检索迷局:分词期神器强势登场! ...
破局AI问答专有名词检索迷局:分词期神器强势登场!
[ 复制链接 ]
映各
2025-9-24 17:49:08
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
有客户深度使用全文检索模式检索分段,反馈一些专有名词无法被检索到(例如把“小米手机”分成了“小米”和“手机”两个词,对检索结果造成较大干扰),而 MaxKB 的分词器采用流行的 jieba 库,确认了一个临时解决方案。
1、定义自定义字典
cat /opt/my_dic.txt
小米手机 1000 n
苹果手机 1000 n
复制代码
字典组成:{词语}空格{词频}空格{词性}
示例:
小米手机 1000 n
小米手机:自定义词语
1000 :词频,越大优先级越高
n :词性。名词 (n)、专有名词 (nz)、动词 (v)、形容词 (a)、副词 (d)
复制代码
2、将自定义字典文件拷贝到容器中
docker cp /opt/my_dic.txt maxkb:/opt/maxkb/app/apps/common/util/
复制代码
3、split_model.py 引入自定义字典
jieba.load_userdict('/opt/maxkb/app/apps/common/util/my_dic.txt')
复制代码
4、测试验证
分段情况:
检索结果
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
破局
AI
问答
专有名词
检索
相关帖子
Flask集成MCP的AI Agent
Hadoop大数据在2025-2026年和AI智能问数平台的规划与实践
深入理解MCP:AI 应用与外部世界的桥梁
从海量数据到 AI 决策的落地方法
Solon AI 开发学习19 - 结合 Solon Flow 实现 ReAct 效果
仿everything制作搞笑检索设计(是的,我没有打错字)
用 Laravel 官方 AI 工具提升开发效率
PRD太难写?AI生成的产品需求文档,到底能不能用?
利用Apipost AI自动生成接口测试用例并批量执行
C#AI系列(5): C#离线实现高效OCR
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
Flask集成MCP的AI Agent
0
430
孔季雅
2025-12-09
业界
Hadoop大数据在2025-2026年和AI智能问数平台的规划与实践
0
686
挚魉
2025-12-09
业界
深入理解MCP:AI 应用与外部世界的桥梁
1
105
姘轻拎
2025-12-09
业界
从海量数据到 AI 决策的落地方法
0
766
梁宁
2025-12-09
业界
Solon AI 开发学习19 - 结合 Solon Flow 实现 ReAct 效果
1
810
柴古香
2025-12-09
安全
仿everything制作搞笑检索设计(是的,我没有打错字)
1
181
渭茱瀑
2025-12-10
业界
用 Laravel 官方 AI 工具提升开发效率
0
234
湛恶
2025-12-10
安全
PRD太难写?AI生成的产品需求文档,到底能不能用?
0
687
季卓然
2025-12-11
业界
利用Apipost AI自动生成接口测试用例并批量执行
0
701
椎蕊
2025-12-12
业界
C#AI系列(5): C#离线实现高效OCR
0
662
郏琼芳
2025-12-13
回复
(1)
强怀梅
2025-12-4 16:00:59
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
用心讨论,共获提升!
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
代码
签约作者
程序园优秀签约作者
发帖
映各
2025-12-4 16:00:59
关注
0
粉丝关注
25
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9994893
kk14977
6845356
3934307807
991123
4
xiangqian
638210
5
韶又彤
9999
6
宋子
9983
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
198
北京上门收画服务权威推荐榜单
215
关于renpy游戏小范围QQ群内部测试的一个思
20
Java关键字解析之abstract:抽象的本质、规
445
10GB vs 600MB:我们弃用 GitLab,选择了这
163
Python 潮流周刊#131:从零开始构建智能体
872
flask基础知识深入——会话管理:Flask Ses
106
推荐几款免费免登录无损高质量图片压缩工具
640
玩转 | q群智能聊天机器人 —— MaiBot(麦
992
offline meta-RL | 近期工作速读记录
662
C#AI系列(5): C#离线实现高效OCR
196
这才是vibe coding正确的打开方式 - 手把手
547
huggingface_hub 1.0 正式版现已发布:开源
5
读捍卫隐私05数字照片
832
嵌入式系统内存魔法之分散加载
746
嵌入式系统内存魔法之分散加载
131
【Java】ThreadLocal源码解析
33
观察者模式,发布/订阅模式,与回调函数
700
用 GPT-5.2 Vibe Coding,做了一个可以“玩
938
上海专业防水补漏服务:国家一级资质,免费
359
基于深度学习的无人机视角检测系统演示与介