NLP-中文分词整理

常见分词方法:
1:词典匹配
匹配方式可以有正向(从左到右)
逆向(从右到左)
最少切分(使每一句中切出的词数最小,单个词的长度最长)

简单易懂,不依赖训练数据,可以做到和下游的应用紧密结合 (机器翻译中的phrase table,TTS中的词典等等),易于纠错等等

2:相邻汉字的特征值
通过语料数据中的一些统计特征(如互信息量)去估计相邻汉字之间的关联性,进而实现词的切分。
不依赖词表,具有很强的灵活性,特别是在对生词的发掘方面,但是也经常会有精度方面的问题

相关算法:

相关模型:
MEMM
CRF

Leave a Reply

Your email address will not be published. Required fields are marked *