Chinese Segment

这次实现的分词框架中共有3个不同的版本,说是三个版本,实际上只有一个最终版本,即基于字词联合标注的分词,该方法参考了师兄kevin的论文,结合了CRF对于未登陆词的优势和Ngram对于OOV识别的优势,最终采用Viterbi进行了最优路径计算。Baseline 分别在CRF和Ngram上设计了相应的系统,通过测试集上进行分词比较,Ngram 的分词速度最快,CRF次之,;二者结合后生成的分词系统的效率比前两者要慢,但分词准确率要高一些。

示例:

crf    : 怀着 满腔 的 热情 和 美好 的 憧憬 加入 工商 银行 这个 大 家庭 。
ngram  : 怀着 满腔 的 热情 和 美好 的 憧憬 加入 工商银行 这个 大家庭 。
combine: 怀着 满腔 的 热情 和 美好 的 憧憬 加入 工商银行 这个 大家庭 。

 

crf    : 时光 飞 逝
17 ngram  : 时光 飞逝
18 combine: 时光 飞逝

 

crf    : 转眼 间 我 已经 与 工商 银行 共同 走过 了 两年 半 的 时光
22 ngram  : 转眼间 我 已经 与 工商 银行 共同 走过 了 两年半 的 时光
23 combine: 转眼间 我 已经 与 工商 银行 共同 走过 了 两年半 的 时光

 

crf    : 只有 严格要求 自己
97 ngram  : 只有 严格 要求 自己
98 combine: 只有 严格 要求 自己

 

crf    : 我 来到 华贸 中心 支行
117 ngram  : 我 来到 华 贸 中心 支行
118 combine: 我 来到 华贸 中心 支行

留下评论