一种基于改进信息熵特征的中文未登录词识别系统及方法

文档序号:6617089阅读:291来源:国知局
专利名称:一种基于改进信息熵特征的中文未登录词识别系统及方法
技术领域
本发明属于中文词的识别的技术领域,具体涉及一种基于改进信息熵特征的中文未登录词识别系统及方法,其中涉及一种中文未登录词的识别系统及方法,特别是在这种方法是完全基于统计特征的,而且在统计过程中使用本发明提出的改进的信息熵特征。
背景技术
随着网络时代的发展与web2. O概念的兴起,未登录词的大量出现已经成为不可避免的语言现象。这种现象在SNS的UGC(user generate content)当中尤为明显,社交网络中,用户用词十分随意,极不规范,造词速度很快。未登录词识别在很大程度上影响着相关信息处理的效果,在中文分词领域,未登录词的识别性能已经成为提高分词效果的瓶颈。研究表明,在过去20多年中每年会产生800个以上的新词,而正是这些未收录进词库的新词,导致了中文分词60%以上的错误,可见提高未登录词的识别率对中文分词具有重要意义。传统的未登录词识别系统总是先对文本进行词典分词,提取出词典中不存在的文本片段,然后猜测这些片段就是未登录词。这类方法的明显不足之处在于未登录词的识别结果本身就依赖于词典的质量。

发明内容
本发明要解决的技术问题为克服现有技术方案的不足,提供一种基于改进信息熵特征的中文未登录词识别系统及方法,该系统及方法充分利用中文文本的统计特征,弥补传统未登录词识别方法的不足,降低了对词典质量的依赖,使该系统应用具有实用性强、准确度高、以及实现方便的优点。为了实现上述目的,本发明采用的技术方案为一种基于改进信息熵特征的中文未登录词识别系统,包括字符序列提取模块该模块从中文文本中切分成许多字符序列,字符序列最短两个字符,字符序列中必须有且仅有中文汉字字符,如果包含非汉字的其他字符,则不统计该非汉字的其他字符序列;特征计算模块该模块计算所有字符序列的统计特征,包括字符序列的左邻接字的改进信息熵、字符序列的右邻接字的改进信息熵,字符序列的出现频率,字符序列的互信息,字符序列的序列长度;其中在字符序列的左、右邻接字符信息熵特征计算过程中,并不是直接计算信息熵特征,而是先用一个随机的不重复字符代替标点符号字符,然后再使用一般的信息熵的计算方法,得到改进的信息熵特征。公式为H(x) = - Σ P(Xi) Iog(PUi)),其中H (X)是邻接字符的信息熵,P (Xi)是邻接字符取Xi的概率;字符序列的出现频率是指字符在整个文本中的出现次数;
字符序列的互信息是指假设有汉字串Wlw2,则汉字wl和《2间的互信息定义为
权利要求
1.一种基于改进信息熵特征的中文未登录词识别系统,其特征在于包括 字符序列提取模块该模块从中文文本中切分成许多字符序列,字符序列最短两个字符,字符序列中必须有且仅有中文汉字字符,如果包含非汉字的其他字符,则不统计该非汉字的其他字符序列; 特征计算模块该模块计算所有字符序列的统计特征,包括字符序列的左邻接字的改进信息熵、字符序列的右邻接字的改进信息熵,字符序列的出现频率,字符序列的互信息,字符序列的序列长度;其中 在字符序列的左、右邻接字符信息熵特征计算过程中,并不是直接计算信息熵特征,而是先用一个随机的不重复字符代替标点符号字符,然后再使用一般的信息熵的计算方法,得到改进的信息熵特征; 公式为
2.一种基于改进信息熵特征的中文未登录词识别方法,其特征在于包括 字符序列提取步骤该步骤从中文文本中切分成许多字符序列,字符序列最短两个字符,字符序列中必须有且仅有中文汉字字符,如果包含非汉字的其他字符,则不统计该非汉字的其他字符序列; 特征计算步骤该步骤计算所有字符序列的统计特征,包括字符序列的左邻接字的改进信息熵、字符序列的右邻接字的改进信息熵,字符序列的出现频率,字符序列的互信息,字符序列的序列长度;其中 在字符序列的左、右邻接字符信息熵特征计算过程中,并不是直接计算信息熵特征,而是先用一个随机的不重复字符代替标点符号字符,然后再使用一般的信息熵的计算方法,得到改进的信息熵特征; 公式为
全文摘要
本发明提出了一种基于改进信息熵特征的中文未登录词识别系统及方法,该系统包含字符序列提取模块从中文文本中切分成许多字符序列,字符序列最短两个字符,字符序列中必须有且仅有中文汉字字符;特征计算模块计算所有字符序列的统计特征,包括左邻接字的改进信息熵,右邻接字的改进信息熵等;成词识别模块使用训练好的成词识别的分类器进行分类处理,判断字符序列成词或者不成词;词典比对模块将成词识别模块获得的成词字符序列与词典文件对比,词典文件中不存在字符序列的即是未登录的词汇。本发明充分利用中文文本的统计特征,弥补传统未登录词识别方法的不足,降低对词典质量的依赖,具有实用性强、准确度高、以及实现方便的优点。
文档编号G06F17/27GK103020022SQ201210473340
公开日2013年4月3日 申请日期2012年11月20日 优先权日2012年11月20日
发明者李超, 李想, 吕志强 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1