新词发现算法研究

使用MMseg进行分词的时候,需要大量的词库最为支撑,因此一个新词发现算法变得尤为重要。
新词发现算法理论基础

http://www.matrix67.com/blog/archives/5044

在实际运用中你会发现,文本片段的凝固程度和自由程度,两种判断标准缺一不可。只看凝固程度的话,程序会找出“巧克”、“俄罗”、“颜六色”、“柴可夫”等实际上是“半个词”的片段;只看自由程度的话,程序则会把“吃了一顿”、“看了一遍”、“睡了一晚”、“去了一趟”中的“了一”提取出来,因为它的左右邻字都太丰富了。
1.通过自由程度找到词的边界。
2.通过凝固程度判断是不是一个词。
新思想:
1.通过词频来找到词的边界。
2.通过凝固程度,概率路径判断是不是一个词。
开源代码

https://github.com/sing1ee/dict_build

新词发现算法的思考:

1.找到未知的字符串,以多字词和频率高的单字词(频率top100)作为边界。把边界中间的未知字符串作为新词发现的目标。
比如:章子怡|几哩吧啦|发飙
几哩吧啦-----就是未知字符串
2.猜测其中的未登录词(根据这里的新词发现算法)
-------猜测:几哩吧啦   几哩 吧啦
3.各种概率和规则,确定未登录词
-----用语言模型,算概率路径,叽哩吧啦的概率最大,几哩   吧啦 的概率估计很小NGram4.CRF和w2v预测词性和词义
已标记关键词 清除标记
©️2020 CSDN 皮肤主题: Age of Ai 设计师:meimeiellie 返回首页