背景

最近在做搜索架构重构,在调研如何自己实现分词服务的方法。 需求是可以保持ik主要的分词逻辑,同时又能定制一些分词逻辑。

实现思路:

找ik源码改下(java语言),额外独立一个分词服务,在服务内部做代码调整,这样方便改动和部署上线。

ik分词器原理和debug

附录1

ik分词器总结

// 附录1 总的来说

  1. IK分词是一个基于词典的分词器,只有包含在词典的词才能被正确切分,
  2. IK解决分词歧义只是根据几条可能是最佳的分词实践规则,并没有用到任何概率模型,
  3. 也不具有新词发现的功能。

参考

1.IK分词器 原理分析 源码解析 debug-ik分词器

2.IK分词器优化

原创文章转载请注明出处: IK分词器优化