新词发现方法及装置的制造方法

文档序号：9471517阅读：341来源：国知局

新词发现方法及装置的制造方法
【技术领域】
[0001] 本发明设及智能交互领域，尤其设及一种新词发现方法及装置。
【背景技术】
[0002] 在中文信息处理的众多领域，均需要基于词典完成对应的功能。例如，在智能检索系统或智能对话系统中，通过分词、问题检索、相似度匹配、确定检索结果或智能对话的答案等，其中每个过程都是通过词语为最小单位进行计算，计算的基础为词语词典，所W词语词典对于整个系统的性能有着很大的影响。
[0003] 社会文化的进步和变迁、经济商业的快速发展，往往带动着语言的变化，而最快速体现语言变化的就是新词的出现。特别是在特定领域内，是否能在新词出现后及时更新词语词典，对词语词典所在的智能对话系统的系统效率有着决定性的影响。
[0004] 新词也就是新发现的单独词，在现有技术中，至少有W下=个来源：客户提供的领域内的新词；通过客户提供的语料发现的新词；运营过程中发现的新词。
[0005] 现有技术中新词发现准确度有待提升。

【发明内容】

[0006] 本发明解决的技术问题是如何提升新词发现的准确度。
[0007] 为解决上述技术问题，本发明实施例提供一种新词发现方法，包括：
[0008] 对接收到的语料进行预处理，W得到文本数据；
[0009] 对所述文本数据进行分行处理，得到语句数据；
[0010] 依照基础词典中包含的单独词对所述语句数据进行分词处理，W得到分词后的词语数据；
[0011] 对相邻的所述分词后的词语数据进行组合处理，W生成候选数据串；
[0012] 判断所述候选数据串是否为特定候选数据串，所述特定候选数据串包括基础名词，且位于所述基础名词的特定相对位置的词语为名词或形容词；
[0013] 对所述候选数据串进行判断处理，W发现新词；所述判断处理包括：
[0014] 当所述候选数据串非特定候选数据串时，计算所述候选数据串中各词语与其内侧词语的信息赌，并去除所述信息赌在预设范围外的候选数据串；
[0015] 当所述候选数据串为特定候选数据串时，仅计算所述基础名词之外的词语与其内侧词语的信息赌，去除所述信息赌在预设范围外的候选数据串。
[0016] 可选的，所述判断处理还包括：计算候选数据串的所述频次相关的概率特征值，所述候选数据串的所述频次相关的概率特征值在预设范围外时，去除该候选数据串。
[0017] 可选的，所述频次相关的概率特征值包括：候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
[0018] 可选的，所述判断处理还包括：计算候选数据串中各个词语数据间的互信息；去除所述互信息在预设范围外的候选数据串。
[0019] 可选的，所述判断处理还包括：计算所述候选数据串边界词语数据与外侧词语数据的信息赌，去除所述信息赌在预设范围外的候选数据串。
[0020] 可选的，对所述候选数据串进行判断处理，W发现新词依次包括：
[0021] 计算所述候选数据串的频次，去除所述频次在预设范围外的候选数据串；
[0022] 计算剩余的所述候选数据串的互信息，去除所述互信息在预设范围外的候选数据串；
[0023]当剩余的所述候选数据串非特定候选数据串时，计算所述候选数据串中各词语与其内侧词语的信息赌，并去除所述信息赌在预设范围外的候选数据串；当剩余的所述候选数据串为特定候选数据串时，仅计算所述基础名词之外的词语与其内侧词语的信息赌，去除所述信息赌在预设范围外的候选数据串；
[0024] 计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息赌，去除所述信息赌在预设范围外的候选数据串；
[0025] 剩余的所述候选数据串作为新词。阳0%] 可选的，所述特定相对位置为左侧和右侧中的一种或两种。
[0027] 可选的，参照频次确定所述基础名词。
[0028] 可选的，参照词语数据的位置W及所述词语数据左信息赌和右信息赌的差值确定所述基础名词。
[0029] 可选的，所述对接收到的语料进行预处理，W得到文本数据包括：将语料的格式统一为文本格式；过滤脏词、敏感词和停用词中的一种或多种。
[0030] 可选的，所述分词处理采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
[0031] 可选的，所述生成候选数据串，包括：利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
[0032] 可选的，所述新词发现方法还包括：设定候选数据串的长度范围，W排除长度在所述长度范围之外的候选数据串。
[0033] 本发明实施例还提供一种新词发现装置，包括：预处理单元、分行处理单元、分词处理单元、组合处理单元、特定候选数据串判断单元；W及新词发现单元；
[0034] 所述预处理单元，适于对接收到的语料进行预处理，W得到文本数据；
[0035] 所述分行处理单元，适于对所述文本数据进行分行处理，得到语句数据；
[0036] 所述分词处理单元，适于依照词典中包含的词语数据对所述语句数据进行分词处理，W得到分词后的词语数据；
[0037] 所述组合处理单元，适于对相邻的所述分词后的词语数据进行组合处理，W生成候选数据串；
[0038] 所述特定候选数据串判断单元，适于判断所述候选数据串是否为特定候选数据串，所述特定候选数据串包括基础名词且位于所述基础名词的特定相对位置的词语为名词或形容词；
[0039] 所述新词发现单元，适于对所述候选数据串进行判断处理，W发现新词；所述判断处理包括：
[0040]当所述候选数据串非特定候选数据串时，计算所述候选数据串中各词语与其内侧词语的信息赌，并去除所述信息赌在预设范围外的候选数据串；
[0041] 当所述候选数据串为特定候选数据串时，仅计算所述基础名词之外的词语与其内侧词语的信息赌，去除所述信息赌在预设范围外的候选数据串。
[0042] 可选的，所述判断处理还包括：计算候选数据串的所述频次相关的概率特征值，所述候选数据串的所述频次相关的概率特征值在预设范围外时，去除该候选数据串。
[0043] 可选的，所述频次相关的概率特征值包括：候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
[0044] 可选的，所述判断处理还包括：计算候选数据串中各个词语数据间的互信息；去除所述互信息在预设范围外的候选数据串。
[0045] 可选的，所述判断处理还包括：计算所述候选数据串边界词语数据与外侧词语数据的信息赌，去除所述信息赌在预设范围外的候选数据串。阳046] 可选的，所述新词发现单元包括：频次过滤单元、互信息过滤单元、内部信息赌过滤单元W及外部信息赌过滤单元；
[0047]所述频次过滤单元，适于计算所述候选数据串的频次，去除所述频次在预设范围外的候选数据串；
[0048]所述互信息过滤单元，适于计算经所述频次过滤单元过滤后，剩余的所述候选数据串的互信息，去除所述互信息在预设范围外的候选数据串；
[0049] 内部信息赌过滤单元，适于当剩余的所述候选数据串非特定候选数据串时，计算所述候选数据串中各词语与其内侧词语的信息赌，并去除所述信息赌在预设范围外的候选数据串；当剩余的所述候选数据串为特定候选数据串时，仅计算所述基础名词之外的词语与其内侧词语的信息赌，去除所述信息赌在预设范围外的候选数据串；阳050]所述外部信息赌过滤单元，适于计算经所述内部信息赌过滤单元过滤后，剩余的所述候选数据串边界词语数据与外侧词语数据的信息赌，去除所述信息赌在预设范围外的候选数据串。
[0051] 可选的，所述特定相对位置为左侧和右侧中的一种或两种。
[0052] 可选的，所述特定候选数据串判断单元，适于参照频次确定所述基础名词。
[0053] 可选的，所述特定候选数据串判断单元，适于参照词语数据的位置W及所述词语数据左信息赌和右信息赌的差值确定所述基础名词。
[0054] 可选的，所述组合处理单元适于利用Bigram模型将同一行的语句数据中相邻

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张昊;朱频频;
技术所有人：上海智臻智能网络科技股份有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。