新词发现方法及装置的制造方法_3

文档序号：9471517阅读：来源：国知局

的新词，W应用于不同场景。例如，设定长度范围数值较小的范围，W获取语法意义上的词语，应用于智能问答系统；设定长度范围数值较大的范围，W获取短语或短句，W将其作为文献检索目录的关键词等。
[0097] S15,判断所述候选数据串是否为特定候选数据串，所述特定候选数据串包括基础名词，且位于所述基础名词的特定相对位置的词语为名词或形容词。
[0098] 据发明人研究发现，若一个基础名词的特定相对位置上若是名词或形容词，则该基础名词极有可能需要被作为新词。例如基础名词"卡"，"卡"的左侧为名词，可W组成"龙卡"、"名校卡"、"白金卡"、"商务卡"等。故判断候选数据串是否为特定候选数据串，可W判断候选数据串是否满足包含基础名词，并且该基础名词的特定相对位置的词语是否为名词或者形容词。
[0099] 基础名词的特定相对位置可W根据不同的基础名词和语料进行设定，例如，当语料中包含多种"卡"，并且需要将各种卡的名称均作为新词时，可W设定基础名词的左侧为名词或形容词。
[0100] 在具体实施中，特定相对位置可W是左侧和右侧中的任一种或两种，可W根据需要进行设置。阳101] 在具体实施中，可W参照频次确定所述基础名词。由于基础名词在语料中会反复出现，故可W参照频次确定基础名词。可W理解的是，基础名词也可W通过人工阅读进行选择和设定。阳102] 在具体实施中，还可W参照词语数据的位置W及所述词语数据左信息赌和右信息赌的差值确定所述基础名词。由于当基础名词与左侧词语的赌值和右侧词语的赌值差异较大时，往往代表该基础名词需和其中一侧词语结合成新词，例如前述词语"卡"，往往出现在大标点附近，故左右侧的信息赌值差异较大，故结合词语数据的位置W及所述词语数据左信息赌和右信息赌的差值，可W对一个词语是否为基础名词进行判断。阳103] S16,对所述候选数据串进行判断处理，W发现新词；所述判断处理包括：
[0104]当所述候选数据串非特定候选数据串时，计算所述候选数据串中各词语与其内侧词语的信息赌，并去除所述信息赌在预设范围外的候选数据串；
[01化]当所述候选数据串为特定候选数据串时，仅计算所述基础名词之外的词语与其内侧词语的信息赌，去除所述信息赌在预设范围外的候选数据串。
[0106] 由于候选数据串包括两个词语数据，在对候选数据串进行判断处理时，需要分别对两个词语数据的内侧信息赌进行判断，信息赌是对随机变量不确定性的量度，计算公式如下：阳 107] H佩=-Ep(Xi)logp(Xi)
[0108] 信息赌越大，表示变量的不确定性越大，即每个可能的取值发生的概率越平均。如果变量某个取值发生的概率为1，则赌为0。表明变量只有当前一种取值发生，是一个必然事件。
[0109] 计算词语W的左侧信息赌和右侧信息赌的公式如下：
[0110] Hi(W)=ExEx(?>〇)P(x|W)logP(x|W)，其中X为出现在W左边的所有词语数据集合，Hi(W)为词语数据W的左侧信息赌。阳111] &(w)=ExEY;#wY>wP(y|w)i〇gP(y|w)，其中Y为出现在W右边的所有词语数据集合，&(w)为词语数据W的右侧信息赌。
[0112] 内侧信息赌是对候选数据串依次固定每个单独词语数据，计算在该词语数据出现情况下另一个词语出现的信息赌。如果候选数据串为（W1W2)，则计算词语数据W1的右侧信息赌和词语数据W2的左侧信息赌。
[0113] 计算候选数据串中词语数据与其内侧的词语数据的赌值体现该词语数据内侧词语数据的混乱程度。例如，通过计算候选数据串W1W2中左侧词语数据W1的右侧信息赌，右侧词语数据W2的左侧信息赌可W判断词语数据W1和W2内侧的混乱程度，从而可W通过设定预设范围进行筛选，排除各词语与其内侧词语构成新词的概率特征值在预设范围外的候选数据串。
[0114] 特定候选数据串中，基础名词的内侧信息赌也许会因在预设范围外，导致本应作为新词的特定候选数据串被排除，例如，特定候选数据串为"白金卡V'名校卡V'龙卡"等包含基础名词"卡"的候选数据串时，词语"白金"、"名"、"龙"的右侧信息赌在预设范围内，但由于词语"卡"的左侧词语较混乱，其左侧信息赌可能在预设范围外，从而可能导致候选数据串"白金卡"、"名校卡"、"龙卡"等候选数据串被错误的排除。
[0115] 故当所述候选数据串为特定候选数据串时，仅计算所述基础名词之外的词语与其内侧词语的信息赌，去除所述信息赌在预设范围外的候选数据串，不再对基础名词的内侧信息赌进行计算，避免因基础名词的内侧信息赌在预设范围外而导致的错误排除，可W有效解决上述问题，提升新词发现的准确率。此外还可W减少计算量，提高新词发现的效率。
[0116] 参照图2,在本发明一实施例中，对所述候选数据串进行判断处理可W包括：
[0117] S161，计算候选数据串的所述频次相关的概率特征值，所述候选数据串的所述频次相关的概率特征值在预设范围外时，去除该候选数据串。
[0118] 在具体实施中，所述频次相关的概率特征值包括：候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
[0119] 候选数据串出现的频次指候选数据串在语料中出现的次数，频次过滤用于判断候选数据串的结合次数，当频次低于某一阔值时，则过滤掉该候选数据串；候选数据串出现的频率与其出现的次数和语料中总词量均相关。将根据所述候选数据串出现的频次和频率计算得到的数值作为该候选数据串的概率特征值准确性更高。
[0120] 在本发明一实施例中，根据所述候选数据串出现的频次和频率计算得到概率特征值可W义用TF-IDF(Te;rmRrequen巧-InverseDo州mentRrequency)技术。阳12UTF-IDF是一种统计算法，用于资讯检索与资讯探勘的常用加权技术，W评估某个字词对于一个文件集或一个语料库中的其中一份文件的重要程度，也就是在语料中的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。
[0122] TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。 TF-IDF实际上是：TF*IDF，TF词频（TermRrequen巧），IDF反文档频率（InverseDo州ment 化equency)。TF表示词条在文档d中出现的频率（另一说：TF词频（Term化equency)指的是某一个给定的词语在该文件中出现的次数）。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。（另一说：IDF反文档频率（InverseDocument化equency)是指包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。）但是实际上，如果一个词条在一个类的文档中频繁出现，也就是在语料中频繁出现，则说明该词条能够很好代表运个类的文本的特征，运样的词条应该给它们赋予较高的权重，并选来其为该类文本的特征词W区别与其它类文档。也就是可W将运样的词条作为词典应用的领域内的新词。
[0123] S162,计算候选数据串中各个词语数据间的互信息；去除所述互信息在预设范围外的候选数据串。阳124] 互信息（Mu化曰1In化rmation，]\0)的定义见下式：阳1巧]
[0126] 互信息反映了候选数据串与其中词语数据的共现关系，由两个单独词组成的候选数据串的互信息为一个值（即两个单独词间的互信息），当一候选数据串W与其中词语数据共现频度高时，即出现频次相近时，可知候选数据串W的互信息MI接近于1，也就是说此时候选数据串W成为一个词的可能性很大。若互信息MI的值很小，接近于0,则说明W几乎不可能成为一个词，更不可能成为一个新词。互信息反映了一个候选数据串内部的依赖程度，从而可W用来判断候选数据串是否可能成

完整全部详细技术资料下载

当前第3页1 2 3 4 5