新词发现方法及装置的制造方法_4

文档序号：9432744阅读：来源：国知局

[0144] 所述新词发现单元65,适于对所述候选数据串进行判断处理，W发现新词；所述判断处理包括：计算所述候选数据串中各词语与其外侧词语的信息赌，去除各词语与其外侧词语的信息赌在预设范围外的候选数据串。
[0145] 在具体实施中，所述判断处理还可W包括：计算候选数据串的所述频次相关的概率特征值，所述候选数据串的所述频次相关的概率特征值在预设范围外时，去除该候选数据串。
[0146] 在具体实施中，所述频次相关的概率特征值包括：候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
[0147] 在具体实施中，所述判断处理还可W包括：计算所述候选数据串边界词语数据与内侧词语数据的信息赌，去除所述信息赌在预设范围外的候选数据串。
[0148] 在具体实施中，所述判断处理还可W包括：计算所述候选数据串边界词语数据与内侧词语数据的信息赌，去除所述信息赌在预设范围外的候选数据串。
[0149] 参照图7，在具体实施中，所述新词发现单元65可W包括：频次过滤单元651、互信息过滤单元652、内部信息赌过滤单元653W及外部信息赌过滤单元654 ;
[0150] 所述频次过滤单元651，适于计算所述候选数据串的频次，去除所述频次在预设范围外的候选数据串；阳151] 所述互信息过滤单元652,适于计算经所述频次过滤单元过滤后，剩余的所述候选数据串的互信息，去除所述互信息在预设范围外的候选数据串；阳152] 所述内部信息赌过滤单元653,适于计算经所述互信息过滤单元过滤后，剩余的所述候选数据串边界词语数据与内侧词语数据的信息赌，去除所述信息赌在预设范围外的候选数据串；阳153] 所述外部信息赌过滤单元654,适于计算经所述内部信息赌过滤单元过滤后，剩余的所述候选数据串边界词语数据与外侧词语数据的信息赌，去除所述信息赌在预设范围外的候选数据串。
[0154] 在具体实施中，所述组合处理单元适于利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
[0K5] 在具体实施中，所述预处理单元适于将语料的格式统一为文本格式；过滤脏词、敏感词和停用词中的一种或多种。阳156] 在具体实施中，所述分词处理单元适于采用字典双向最大匹配法、HMM方法和CRF 方法中的一种或多种。
[0157] 在具体实施中，所述新词发现装置还可W包括：长度过滤单元66,适于设定候选数据串的长度范围，W排除长度在所述长度范围之外的候选数据串。
[0158] 所述新词发现装置的具体工作过程可W参考前述方法，在此不再寶述。
[0159] 本领域普通技术人员可W理解上述实施例的各种方法中的全部或部分步骤是可 W通过程序来指令相关的硬件来完成，该程序可W存储于一计算机可读存储介质中，存储介质可W包括：ROM、RAM、磁盘或光盘等。
[0160] 虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当W权利要求所限定的范围为准。
【主权项】
1. 一种新词发现方法，其特征在于，包括：对接收到的语料进行预处理，以得到文本数据；对所述文本数据进行分行处理，得到语句数据；依照词典中包含的单独词对所述语句数据进行分词处理，以得到分词后的词语数据；对相邻的所述分词后的词语数据进行组合处理，以生成候选数据串；对所述候选数据串进行判断处理，以发现新词；所述判断处理包括：计算所述候选数据串中各词语与其外侧词语的信息熵，去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。2. 根据权利要求1所述的新词发现方法，其特征在于，所述判断处理还包括：计算候选数据串的所述频次相关的概率特征值，所述候选数据串的所述频次相关的概率特征值在预设范围外时，去除该候选数据串。3. 根据权利要求2所述的新词发现方法，其特征在于，所述频次相关的概率特征值包括：候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。4. 根据权利要求1所述的新词发现方法，其特征在于，所述判断处理还包括：计算候选数据串中各个词语数据间的互信息；去除所述互信息在预设范围外的候选数据串。5. 根据权利要求1所述的新词发现方法，其特征在于，所述判断处理还包括：计算所述候选数据串边界词语数据与内侧词语数据的信息熵，去除所述信息熵在预设范围外的候选数据串。6. 根据权利要求1所述的新词发现方法，其特征在于，对所述候选数据串进行判断处理，以发现新词依次包括：计算所述候选数据串的频次，去除所述频次在预设范围外的候选数据串；计算剩余的所述候选数据串的互信息，去除所述互信息在预设范围外的候选数据串；计算剩余的所述候选数据串边界词语数据与内侧词语数据的信息熵，去除所述信息熵在预设范围外的候选数据串；计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵，去除所述信息熵在预设范围外的候选数据串；剩余的所述候选数据串作为新词。7. 根据权利要求1所述的新词发现方法，其特征在于，所述生成候选数据串，包括：利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。8. 根据权利要求1所述的新词发现方法，其特征在于，所述对接收到的语料进行预处理，以得到文本数据包括：将语料的格式统一为文本格式；过滤脏词、敏感词和停用词中的一种或多种。9. 根据权利要求1所述的新词发现方法，其特征在于，所述分词处理采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。10. 根据权利要求1所述的新词发现方法，其特征在于，还包括：设定候选数据串的长度范围，以排除长度在所述长度范围之外的候选数据串。11. 一种新词发现装置，其特征在于，包括：预处理单元、分行处理单元、分词处理单元、组合处理单元以及新词发现单元；所述预处理单元，适于对接收到的语料进行预处理，以得到文本数据；所述分行处理单元，适于对所述文本数据进行分行处理，得到语句数据；所述分词处理单元，适于依照词典中包含的词语数据对所述语句数据进行分词处理，以得到分词后的词语数据；所述组合处理单元，适于对相邻的所述分词后的词语数据进行组合处理，以生成候选数据串；所述新词发现单元，适于对所述候选数据串进行判断处理，以发现新词；所述判断处理包括：计算所述候选数据串中各词语与其外侧词语的信息熵，去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。12. 根据权利要求11所述的新词发现装置，其特征在于，所述判断处理还包括：计算候选数据串的所述频次相关的概率特征值，所述候选数据串的所述频次相关的概率特征值在预设范围外时，去除该候选数据串。13. 根据权利要求12所述的新词发现装置，其特征在于，所述频次相关的概率特征值包括：候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。14. 根据权利要求11所述的新词发现装置，其特征在于，所述判断处理还包括：计算所述候选数据串边界词语数据与内侧词语数据的信息熵，去除所述信息熵在预设范围外的候选数据串。15. 根据权利要求11所述的新词发现装置，其特征在于，所述判断处理还包括：计算所述候选数据串边界词语数据与内侧词语数据的信息熵，去除所述信息熵在预设范围外的候选数据串。16. 根据权利要求11所述的新词发现装置，其特征在于，所述新词发现单元包括：频次过滤单元、互信息过滤单元、内部信息熵过滤单元以及外部信息熵过滤单元；所述频次过滤单元，适于计算所述候选数据串的频次，去除所述频次在预设范围外的候选数据串；所述互信息过滤单元，适于计算经所述频次过滤单元过滤后，剩余的所述候选数据串的互信息，去除所述互信息在预设范围外的候选数据串；所述内部信息熵过滤单元，适于计算经所述互信息过滤单元过滤后，剩余的所述候选数据串边界词语数据与内侧词语数据的信息熵，去除所述信息熵在预设范围外的候选数据串；所述外部信息熵过滤单元，适于计算经所述内部信息熵过滤单元过滤后，剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵，去除所述信息熵在预设范围外的候选数据串。17. 根据权利要求11所述的新词发现装置，其特征在于，所述组合处理单元适于利用 Bigram模型将同一行的语句数据中相邻词语作为候选数据串。18. 根据权利要求11所述的新词发现装置，其特征在于，所述预处理单元适于将语料的格式统一为文本格式；过滤脏词、敏感词和停用词中的一种或多种。19. 根据权利要求11所述的新词发现装置，其特征在于，所述分词处理单元适于采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
【专利摘要】一种新词发现方法及装置，所述方法包括：对接收到的语料进行预处理，以得到文本数据；对所述文本数据进行分行处理，得到语句数据；依照词典中包含的单独词对所述语句数据进行分词处理，以得到分词后的词语数据；对相邻的所述分词后的词语数据进行组合处理，以生成候选数据串；对所述候选数据串进行判断处理，以发现新词；所述判断处理包括：计算所述候选数据串中各词语与其外侧词语的信息熵，去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。所述方法及装置可以提升新词发现的准确度。
【IPC分类】G06F17/30
【公开号】CN105183923
【申请号】CN201510706254
【发明人】张昊, 朱频频
【申请人】上海智臻智能网络科技股份有限公司
【公开日】2015年12月23日
【申请日】2015年10月27日

完整全部详细技术资料下载

当前第4页1 2 3 4