网络新词/流行词发现

一.PMI(Pointwise Mutual Information)

统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越紧密,关联度越高,就越有可能组成新词。

  • PMI > 0;两个词语是相关的;值越大,相关性越强。
  • PMI = 0;两个词语是统计独立的,不相关也不互斥。
  • PMI < 0;两个词语是不相关的,互斥的。

比如一份语料中,“深度学习”出现了10词,“深度”出现了15次,学习出现了“20”次。由于语料库总词数是个定值,那么深度学习这个词在“深度”,“学习”上的的点间互信息就为。其中N指总词数。

二.Entropy

基于一个词应该可以用在不同的场景,因此看这个词的左右搭配是否丰富,越丰富的搭配越有可能是词。左右熵值越大,说明该词的周边词越丰富,意味着词的自由程度越大,其成为一个独立的词的可能性也就越大。下面的x指的是左词或者右词。

在人人网用户状态中,“被子”一词一共出现了956次,“辈子”一词一共出现了2330次,。“被子”的左邻字用例非常丰富:用得最多的是“晒被子”,它一共出现了162次;其次是“的被子”,出现了85次;接 下来分别是“条被子”、“在被子”、“床被子”,分别出现了69次、64次和52次;当然,还有“叠被子”、“盖被子”、“加被子”、“新被子”、“掀被 子”、“收被子”、“薄被子”、“踢被子”、“抢被子”等100多种不同的用法构成的长尾。所有左邻字的信息熵为3.67453。但“辈子”的左邻字就很 可怜了,2330个“辈子”中有1276个是“一辈子”,有596个“这辈子”,有235个“下辈子”,有149个“上辈子”,有32个“半辈子”,有 10个“八辈子”,有7个“几辈子”,有6个“哪辈子”,以及“n辈子”、“两辈子”等13种更罕见的用法。所有左邻字的信息熵仅为1.25963。因而,“辈子”能否成词,明显就有争议

三.基于n-gram

四.参考

0