新词发现方法及装置的制造方法_4

文档序号:9432744阅读:来源:国知局
[0144] 所述新词发现单元65,适于对所述候选数据串进行判断处理,W发现新词;所述 判断处理包括:计算所述候选数据串中各词语与其外侧词语的信息赌,去除各词语与其外 侧词语的信息赌在预设范围外的候选数据串。
[0145] 在具体实施中,所述判断处理还可W包括:计算候选数据串的所述频次相关的概 率特征值,所述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数 据串。
[0146] 在具体实施中,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或 根据所述候选数据串出现的频次和频率计算得到的数值。
[0147] 在具体实施中,所述判断处理还可W包括:计算所述候选数据串边界词语数据与 内侧词语数据的信息赌,去除所述信息赌在预设范围外的候选数据串。
[0148] 在具体实施中,所述判断处理还可W包括:计算所述候选数据串边界词语数据与 内侧词语数据的信息赌,去除所述信息赌在预设范围外的候选数据串。
[0149] 参照图7,在具体实施中,所述新词发现单元65可W包括:频次过滤单元651、互信 息过滤单元652、内部信息赌过滤单元653W及外部信息赌过滤单元654 ;
[0150] 所述频次过滤单元651,适于计算所述候选数据串的频次,去除所述频次在预设范 围外的候选数据串; 阳151] 所述互信息过滤单元652,适于计算经所述频次过滤单元过滤后,剩余的所述候选 数据串的互信息,去除所述互信息在预设范围外的候选数据串; 阳152] 所述内部信息赌过滤单元653,适于计算经所述互信息过滤单元过滤后,剩余的所 述候选数据串边界词语数据与内侧词语数据的信息赌,去除所述信息赌在预设范围外的候 选数据串; 阳153] 所述外部信息赌过滤单元654,适于计算经所述内部信息赌过滤单元过滤后,剩余 的所述候选数据串边界词语数据与外侧词语数据的信息赌,去除所述信息赌在预设范围外 的候选数据串。
[0154] 在具体实施中,所述组合处理单元适于利用Bigram模型将同一行的语句数据中 相邻词语作为候选数据串。
[0K5] 在具体实施中,所述预处理单元适于将语料的格式统一为文本格式;过滤脏词、敏 感词和停用词中的一种或多种。 阳156] 在具体实施中,所述分词处理单元适于采用字典双向最大匹配法、HMM方法和CRF 方法中的一种或多种。
[0157] 在具体实施中,所述新词发现装置还可W包括:长度过滤单元66,适于设定候选 数据串的长度范围,W排除长度在所述长度范围之外的候选数据串。
[0158] 所述新词发现装置的具体工作过程可W参考前述方法,在此不再寶述。
[0159] 本领域普通技术人员可W理解上述实施例的各种方法中的全部或部分步骤是可 W通过程序来指令相关的硬件来完成,该程序可W存储于一计算机可读存储介质中,存储 介质可W包括:ROM、RAM、磁盘或光盘等。
[0160] 虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本 发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当W权利要求所 限定的范围为准。
【主权项】
1. 一种新词发现方法,其特征在于,包括: 对接收到的语料进行预处理,以得到文本数据; 对所述文本数据进行分行处理,得到语句数据; 依照词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据; 对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串; 对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:计算所述候选数 据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设范围外的 候选数据串。2. 根据权利要求1所述的新词发现方法,其特征在于,所述判断处理还包括:计算候选 数据串的所述频次相关的概率特征值,所述候选数据串的所述频次相关的概率特征值在预 设范围外时,去除该候选数据串。3. 根据权利要求2所述的新词发现方法,其特征在于,所述频次相关的概率特征值包 括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数 值。4. 根据权利要求1所述的新词发现方法,其特征在于,所述判断处理还包括:计算候选 数据串中各个词语数据间的互信息;去除所述互信息在预设范围外的候选数据串。5. 根据权利要求1所述的新词发现方法,其特征在于,所述判断处理还包括:计算所述 候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选 数据串。6. 根据权利要求1所述的新词发现方法,其特征在于,对所述候选数据串进行判断处 理,以发现新词依次包括: 计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串; 计算剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串; 计算剩余的所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵 在预设范围外的候选数据串; 计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵 在预设范围外的候选数据串; 剩余的所述候选数据串作为新词。7. 根据权利要求1所述的新词发现方法,其特征在于,所述生成候选数据串,包括:利 用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。8. 根据权利要求1所述的新词发现方法,其特征在于,所述对接收到的语料进行预处 理,以得到文本数据包括:将语料的格式统一为文本格式;过滤脏词、敏感词和停用词中的 一种或多种。9. 根据权利要求1所述的新词发现方法,其特征在于,所述分词处理采用字典双向最 大匹配法、HMM方法和CRF方法中的一种或多种。10. 根据权利要求1所述的新词发现方法,其特征在于,还包括:设定候选数据串的长 度范围,以排除长度在所述长度范围之外的候选数据串。11. 一种新词发现装置,其特征在于,包括:预处理单元、分行处理单元、分词处理单 元、组合处理单元以及新词发现单元; 所述预处理单元,适于对接收到的语料进行预处理,以得到文本数据; 所述分行处理单元,适于对所述文本数据进行分行处理,得到语句数据; 所述分词处理单元,适于依照词典中包含的词语数据对所述语句数据进行分词处理, 以得到分词后的词语数据; 所述组合处理单元,适于对相邻的所述分词后的词语数据进行组合处理,以生成候选 数据串; 所述新词发现单元,适于对所述候选数据串进行判断处理,以发现新词; 所述判断处理包括:计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词 语与其外侧词语的信息熵在预设范围外的候选数据串。12. 根据权利要求11所述的新词发现装置,其特征在于,所述判断处理还包括:计算候 选数据串的所述频次相关的概率特征值,所述候选数据串的所述频次相关的概率特征值在 预设范围外时,去除该候选数据串。13. 根据权利要求12所述的新词发现装置,其特征在于,所述频次相关的概率特征值 包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的 数值。14. 根据权利要求11所述的新词发现装置,其特征在于,所述判断处理还包括:计算所 述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候 选数据串。15. 根据权利要求11所述的新词发现装置,其特征在于,所述判断处理还包括:计算所 述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候 选数据串。16. 根据权利要求11所述的新词发现装置,其特征在于,所述新词发现单元包括:频次 过滤单元、互信息过滤单元、内部信息熵过滤单元以及外部信息熵过滤单元; 所述频次过滤单元,适于计算所述候选数据串的频次,去除所述频次在预设范围外的 候选数据串; 所述互信息过滤单元,适于计算经所述频次过滤单元过滤后,剩余的所述候选数据串 的互信息,去除所述互信息在预设范围外的候选数据串; 所述内部信息熵过滤单元,适于计算经所述互信息过滤单元过滤后,剩余的所述候选 数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据 串; 所述外部信息熵过滤单元,适于计算经所述内部信息熵过滤单元过滤后,剩余的所述 候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选 数据串。17. 根据权利要求11所述的新词发现装置,其特征在于,所述组合处理单元适于利用 Bigram模型将同一行的语句数据中相邻词语作为候选数据串。18. 根据权利要求11所述的新词发现装置,其特征在于,所述预处理单元适于将语料 的格式统一为文本格式;过滤脏词、敏感词和停用词中的一种或多种。19. 根据权利要求11所述的新词发现装置,其特征在于,所述分词处理单元适于采用 字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
【专利摘要】一种新词发现方法及装置,所述方法包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。所述方法及装置可以提升新词发现的准确度。
【IPC分类】G06F17/30
【公开号】CN105183923
【申请号】CN201510706254
【发明人】张昊, 朱频频
【申请人】上海智臻智能网络科技股份有限公司
【公开日】2015年12月23日
【申请日】2015年10月27日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1