背景
最近在做搜索架构重构,在调研如何自己实现分词服务的方法。 需求是可以保持ik主要的分词逻辑,同时又能定制一些分词逻辑。
实现思路:
找ik源码改下(java语言),额外独立一个分词服务,在服务内部做代码调整,这样方便改动和部署上线。
ik分词器原理和debug
附录1
ik分词器总结
// 附录1 总的来说
- IK分词是一个基于词典的分词器,只有包含在词典的词才能被正确切分,
- IK解决分词歧义只是根据几条可能是最佳的分词实践规则,并没有用到任何概率模型,
- 也不具有新词发现的功能。
参考
2.IK分词器优化
原创文章转载请注明出处: IK分词器优化