新词发现方法及装置的制造方法_2

文档序号：9471517阅读：来源：国知局

词语作为候选数据串。阳化5] 可选的，所述预处理单元适于将语料的格式统一为文本格式；过滤脏词、敏感词和停用词中的一种或多种。
[0056] 可选的，所述分词处理单元适于采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
[0057] 可选的，所述新词发现装置还包括：长度过滤单元，适于设定候选数据串的长度范围，W排除长度在所述长度范围之外的候选数据串。
[0058]与现有技术相比，本发明实施例的技术方案具有W下有益效果：
[0059]通过判断候选数据串是否为特定候选数据串，当候选数据串为特定候选数据串时，仅计算所述特定候选数据串中基础名词之外的词语与其内侧词语的信息赌，去除所述信息赌在预设范围外的候选数据串，而对所述基础名词与内侧词语的信息赌不再计算，从而可W减少计算量，并且可W通过基础名词的选择，更加合理的设定去除候选数据串的条件，从而可W更加灵活的进行新词发现，提升新词发现的效率和准确性。
[0060] 进一步，需计算的所述候选数据串成为新词的概率特征值的种类多于一种时，通过依次对候选数据串进行判断，判断计算次序在前的概率特征值是否在预设范围内，仅对概率特征值在预设范围内的候选数据串进行次序在后的概率特征值的计算，可W减少次序在后的计算范围，从而减少计算量，提升更新效率。
[0061] 此外，通过设定候选数据串的长度范围，W排除长度在所述长度范围之外的相邻词语数据，从而只需对长度在所述长度范围内的相邻词语数据进行概率特征值计算，最终可W进一步减小新词发现的计算量，提升更新效率。
【附图说明】
[0062] 图1是本发明实施例中一种新词发现方法的流程图；
[0063] 图2是本发明实施例中另一种新词发现方法的部分流程图；
[0064] 图3是本发明实施例中一种新词发现装置的结构示意图；
[0065] 图4是本发明实施例中另一种新词发现装置的结构示意图。
【具体实施方式】
[0066] 经发明人研究发现，在接收到的语料中，会出现一类特殊的名词，若仅对该类名词所在的候选数据串进行与其他候选数据串方式相同的判断，将排除该类名词所在的候选数据串。但在实际应用中，该类名词所在的候选数据串需要被作为新词。故若对所有的候选数据串W同一种方式进行判断，得到的新词准确率有待提高。
[0067] 本发明实施例通过对候选数据串进行判断，对候选数据串进行判断，将候选数据串分为特定候选数据串和非特定候选特定数据串，其中特定候选数据串包含前述特殊的名词，也就是基础名词，并且基础名词的相对的特定相对位置的词语为名词或形容词。根据上述划分，可W对特定候选数据串和非特候选定数据串采取不同的判断，当所述候选数据串非特定候选数据串时，计算所述候选数据串中各词语与其内侧词语的信息赌，并去除所述信息赌在预设范围外的候选数据串；当所述候选数据串为特定候选数据串时，仅计算所述基础名词之外的词语与其内侧词语的信息赌，去除所述信息赌在预设范围外的候选数据串。从而可W避免应作为新词的特定候选数据串因基础名词与内侧词语的信息赌不符合信息赌判断条件，而被错误的排除的情形，从而可W提升新词发现方法的准确率。
[0068] 为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。
[0069] 图1是本发明实施例中一种新词发现方法的流程图。
[0070] S11，对接收到的语料进行预处理，W得到文本数据。
[0071] 语料可W是在某个具体领域中，当有新词出现时，可能包含新词的文字段落。例如，在词典应用于银行智能问答系统时，语料可W是银行提供的文章、问答系统常见问题或者系统日志等。
[0072] 语料来源的多样性可W使新词的发现更加全面，但同时，语料中格式类型较多，为便于对语料进行后续处理，需对语料进行预处理，得到文本数据。
[0073] 在具体实施中，所述预处理可W将语料的格式统一为文本格式，并过滤脏词、敏感词和停用词中的一种或多种。在将语料的格式统一为文本格式时，可W将当前技术暂不能转换为文本格式的内容过滤掉。
[0074] S12,对所述文本数据进行分行处理，得到语句数据。
[0075] 分行处理可W是对语料按照标点分行，例如在出现句号、逗号、叹号、问号等标点处分行。此处得到语句数据是对语料的初步分割，W便于确定后续分词处理的范围。
[0076] S13,依照词典中包含的单独词对所述语句数据进行分词处理，W得到分词后的词语数据。
[0077] 词典包含多个单独词，不同单独词的长度可W不同。在具体实施中，基于词典进行分词处理的过程可W利用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
[0078] 所述分词处理是对同一行的语句数据进行分词处理，从而分词后的词语数据位于同一行，且所述词语数据都是包括在词典中的单独词。
[0079] 由于在领域内对话系统中，通过分词、问题检索、相似度匹配、确定答案等流程实现问题的智能回复的过程，都是W单独词为最小单位进行计算，此处依照基础词典进行分词处理的过程类似于在对话系统运行中的分词过程，区别在于分词处理基于的词典内容有差别。
[0080] 本发明实施例中的新词发现方法适用于对词典进行更新，也就是可W将发现的新词加入词典，参照更新后的词典再一次对原语料进行新词发现，直至未能再次发现新词为止。
[0081] S14,对相邻的所述分词后的词语数据进行组合处理，W生成候选数据串。
[0082] 分词处理依据词典进行，可能会出现将在某个领域内本应作为一个词的词语数据分成多个词语数据的情况，故需要新词发现。设定条件筛选出应作为新词的候选数据串，将该候选数据串作为新词。生成候选数据串作为上述筛选过程的前提，可W采用多种方式完成。
[0083] 若将语料中所有的相邻词语均作为候选数据串，新词发现系统的计算量过于庞大，效率较低，且位于不同行的相邻词语也毫无计算的意义。故可W对相邻词语进行筛选，生成候选数据串。
[0084] 在具体实施中，可W利用Bigram模型将同一行的语句数据中相邻两个词语作为候选数据串。阳0化]假设一个语句S可W表示为一个序列S= …wn，语言模型就是要求语句S的概率P(巧：
[0086] P(S) =P(wl,w2,w3,w4,w5, ???,wn)
[0087] =p(wl)p(w2Iwl)p(w3 |wl,w2). . .p(wn|wl,w2, . . . ,wn-1) (1)
[00蝴公式（1)中概率统计基于Ngram模型，概率的计算量太大，无法应用于实际应用中。基于马尔科夫假设（MarkovAssumption):下一个词的出现仅依赖于它前面的一个或几个词。假设下一个词的出现依赖它前面的一个词，则有：
[0089] P(S) =P(wl)P(w2Iwl)p(w3 |wl,w2). . .p(wn|wl,w2, . . . ,wn-1)
[0090] =p(wl)p(w2Iwl)p(w3Iw2). . .p(wn|wn-1) 0)
[0091] 假设下一个词的出现依赖它前面的两个词，则有：
[0092] P(S)=P(wl)P(w2Iwl)p(w3 |wl,w2). . .p(wn|wl,w2, . . . ,wn-1)
[0093] =p(wl)p(w2Iwl)p(w3 |wl,w2). . .p(wn|wn-1,wn-2) 0)
[0094] 公式似为Bigram概率的计算公式，公式（3)为trigram概率的计算公式。通过设置更大的n值，可W设置对下一个词出现的更多的约束信息，具有更大的辨别力；通过设置更小的n，在新词发现中候选数据串出现的次数更多，可W提供更可靠的统计信息，具有更高的可靠性。
[00巧]理论上，n值越大，可靠性越高，在现有处理方法中，Trigram用的最多；但Bigram的计算量更小，系统效率更高。
[0096] 在具体实施中，还可W设定候选数据串的长度范围，W排除长度在所述长度范围之外的候选数据串。从而可W依照需求，得到不同长度范围

完整全部详细技术资料下载

当前第2页1 2 3 4 5