新词发现方法及装置的制造方法_5

文档序号：9471517阅读：来源：国知局

分行处理，得到语句数据；依照基础词典中包含的单独词对所述语句数据进行分词处理，以得到分词后的词语数据；对相邻的所述分词后的词语数据进行组合处理，以生成候选数据串；判断所述候选数据串是否为特定候选数据串，所述特定候选数据串包括基础名词，且位于所述基础名词的特定相对位置的词语为名词或形容词；对所述候选数据串进行判断处理，以发现新词；所述判断处理包括：当所述候选数据串非特定候选数据串时，计算所述候选数据串中各词语与其内侧词语的信息熵，并去除所述信息熵在预设范围外的候选数据串；当所述候选数据串为特定候选数据串时，仅计算所述基础名词之外的词语与其内侧词语的信息熵，去除所述信息熵在预设范围外的候选数据串。2. 根据权利要求1所述的新词发现方法，其特征在于，所述判断处理还包括：计算候选数据串的所述频次相关的概率特征值，所述候选数据串的所述频次相关的概率特征值在预设范围外时，去除该候选数据串。3. 根据权利要求2所述的新词发现方法，其特征在于，所述频次相关的概率特征值包括：候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。4. 根据权利要求1所述的新词发现方法，其特征在于，所述判断处理还包括：计算候选数据串中各个词语数据间的互信息；去除所述互信息在预设范围外的候选数据串。5. 根据权利要求1所述的新词发现方法，其特征在于，所述判断处理还包括：计算所述候选数据串边界词语数据与外侧词语数据的信息熵，去除所述信息熵在预设范围外的候选数据串。6. 根据权利要求1所述的新词发现方法，其特征在于，对所述候选数据串进行判断处理，以发现新词依次包括：计算所述候选数据串的频次，去除所述频次在预设范围外的候选数据串；计算剩余的所述候选数据串的互信息，去除所述互信息在预设范围外的候选数据串；当剩余的所述候选数据串非特定候选数据串时，计算所述候选数据串中各词语与其内侧词语的信息熵，并去除所述信息熵在预设范围外的候选数据串；当剩余的所述候选数据串为特定候选数据串时，仅计算所述基础名词之外的词语与其内侧词语的信息熵，去除所述信息熵在预设范围外的候选数据串；计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵，去除所述信息熵在预设范围外的候选数据串；剩余的所述候选数据串作为新词。7. 根据权利要求1所述的新词发现方法，其特征在于，所述特定相对位置为左侧和右侧中的一种或两种。8. 根据权利要求1所述的新词发现方法，其特征在于，参照频次确定所述基础名词。9. 根据权利要求1所述的新词发现方法，其特征在于，参照词语数据的位置以及所述词语数据左信息熵和右信息熵的差值确定所述基础名词。10. 根据权利要求1所述的新词发现方法，其特征在于，所述对接收到的语料进行预处理，以得到文本数据包括：将语料的格式统一为文本格式；过滤脏词、敏感词和停用词中的一种或多种。11. 根据权利要求1所述的新词发现方法，其特征在于，所述分词处理采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。12. 根据权利要求1所述的新词发现方法，其特征在于，所述生成候选数据串，包括：利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。13. 根据权利要求1所述的新词发现方法，其特征在于，还包括：设定候选数据串的长度范围，以排除长度在所述长度范围之外的候选数据串。14. 一种新词发现装置，其特征在于，包括：预处理单元、分行处理单元、分词处理单元、组合处理单元、特定候选数据串判断单元；以及新词发现单元；所述预处理单元，适于对接收到的语料进行预处理，以得到文本数据；所述分行处理单元，适于对所述文本数据进行分行处理，得到语句数据；所述分词处理单元，适于依照词典中包含的词语数据对所述语句数据进行分词处理，以得到分词后的词语数据；所述组合处理单元，适于对相邻的所述分词后的词语数据进行组合处理，以生成候选数据串；所述特定候选数据串判断单元，适于判断所述候选数据串是否为特定候选数据串，所述特定候选数据串包括基础名词，且位于所述基础名词的特定相对位置的词语为名词或形容词；所述新词发现单元，适于对所述候选数据串进行判断处理，以发现新词；所述判断处理包括：当所述候选数据串非特定候选数据串时，计算所述候选数据串中各词语与其内侧词语的信息熵，并去除所述信息熵在预设范围外的候选数据串；当所述候选数据串为特定候选数据串时，仅计算所述基础名词之外的词语与其内侧词语的信息熵，去除所述信息熵在预设范围外的候选数据串。15. 根据权利要求14所述的新词发现装置，其特征在于，所述判断处理还包括：计算候选数据串的所述频次相关的概率特征值，所述候选数据串的所述频次相关的概率特征值在预设范围外时，去除该候选数据串。16. 根据权利要求15所述的新词发现装置，其特征在于，所述频次相关的概率特征值包括：候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。17. 根据权利要求14所述的新词发现装置，其特征在于，所述判断处理还包括：计算候选数据串中各个词语数据间的互信息；去除所述互信息在预设范围外的候选数据串。18. 根据权利要求14所述的新词发现装置，其特征在于，所述判断处理还包括：计算所述候选数据串边界词语数据与外侧词语数据的信息熵，去除所述信息熵在预设范围外的候选数据串。19. 根据权利要求14所述的新词发现装置，其特征在于，所述新词发现单元包括：频次过滤单元、互信息过滤单元、内部信息熵过滤单元以及外部信息熵过滤单元；所述频次过滤单元，适于计算所述候选数据串的频次，去除所述频次在预设范围外的候选数据串；所述互信息过滤单元，适于计算经所述频次过滤单元过滤后，剩余的所述候选数据串的互信息，去除所述互信息在预设范围外的候选数据串；所述内部信息熵过滤单元，适于当剩余的所述候选数据串非特定候选数据串时，计算所述候选数据串中各词语与其内侧词语的信息熵，并去除所述信息熵在预设范围外的候选数据串；当剩余的所述候选数据串为特定候选数据串时，仅计算所述基础名词之外的词语与其内侧词语的信息熵，去除所述信息熵在预设范围外的候选数据串；所述外部信息熵过滤单元，适于计算经所述内部信息熵过滤单元过滤后，剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵，去除所述信息熵在预设范围外的候选数据串。20. 根据权利要求14所述的新词发现装置，其特征在于，所述特定相对位置为左侧和右侧中的一种或两种。21. 根据权利要求14所述的新词发现装置，其特征在于，所述特定候选数据串判断单元，适于参照频次确定所述基础名词。22. 根据权利要求14所述的新词发现装置，其特征在于，所述特定候选数据串判断单元，适于参照词语数据的位置以及所述词语数据左信息熵和右信息熵的差值确定所述基础名词。23. 根据权利要求14所述的新词发现装置，其特征在于，所述组合处理单元适于利用 Bigram模型将同一行的语句数据中相邻词语作为候选数据串。24. 根据权利要求14所述的新词发现装置，其特征在于，所述预处理单元适于将语料的格式统一为文本格式；过滤脏词、敏感词和停用词中的一种或多种。25. 根据权利要求14所述的新词发现装置，其特征在于，所述分词处理单元适于采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。26. 根据权利要求14所述的新词发现装置，其特征在于，还包括：长度过滤单元，适于设定候选数据串的长度范围，以排除长度在所述长度范围之外的候选数据串。
【专利摘要】一种新词发现方法及装置，所述方法包括：对接收到的语料进行预处理，以得到文本数据；对所述文本数据进行分行处理，得到语句数据；依照基础词典中包含的单独词对所述语句数据进行分词处理，以得到分词后的词语数据；对相邻的所述分词后的词语数据进行组合处理，以生成候选数据串；判断所述候选数据串是否为特定候选数据串，所述特定候选数据串包括基础名词，且位于所述基础名词的特定相对位置的词语为名词或形容词；对所述候选数据串进行判断处理，以发现新词。所述方法及装置可以提升新词发现的准确率。
【IPC分类】G06F17/30
【公开号】CN105224682
【申请号】CN201510706240
【发明人】张昊, 朱频频
【申请人】上海智臻智能网络科技股份有限公司
【公开日】2016年1月6日
【申请日】2015年10月27日

完整全部详细技术资料下载

当前第5页1 2 3 4 5