新词发现方法及装置的制造方法_3

文档序号:9471517阅读:来源:国知局
的新词,W应用于不同场景。例 如,设定长度范围数值较小的范围,W获取语法意义上的词语,应用于智能问答系统;设定 长度范围数值较大的范围,W获取短语或短句,W将其作为文献检索目录的关键词等。
[0097] S15,判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础 名词,且位于所述基础名词的特定相对位置的词语为名词或形容词。
[0098] 据发明人研究发现,若一个基础名词的特定相对位置上若是名词或形容词,则该 基础名词极有可能需要被作为新词。例如基础名词"卡","卡"的左侧为名词,可W组成"龙 卡"、"名校卡"、"白金卡"、"商务卡"等。故判断候选数据串是否为特定候选数据串,可W判 断候选数据串是否满足包含基础名词,并且该基础名词的特定相对位置的词语是否为名词 或者形容词。
[0099] 基础名词的特定相对位置可W根据不同的基础名词和语料进行设定,例如,当语 料中包含多种"卡",并且需要将各种卡的名称均作为新词时,可W设定基础名词的左侧为 名词或形容词。
[0100] 在具体实施中,特定相对位置可W是左侧和右侧中的任一种或两种,可W根据需 要进行设置。 阳101] 在具体实施中,可W参照频次确定所述基础名词。由于基础名词在语料中会反复 出现,故可W参照频次确定基础名词。可W理解的是,基础名词也可W通过人工阅读进行选 择和设定。 阳102] 在具体实施中,还可W参照词语数据的位置W及所述词语数据左信息赌和右信息 赌的差值确定所述基础名词。由于当基础名词与左侧词语的赌值和右侧词语的赌值差异较 大时,往往代表该基础名词需和其中一侧词语结合成新词,例如前述词语"卡",往往出现在 大标点附近,故左右侧的信息赌值差异较大,故结合词语数据的位置W及所述词语数据左 信息赌和右信息赌的差值,可W对一个词语是否为基础名词进行判断。 阳103] S16,对所述候选数据串进行判断处理,W发现新词;所述判断处理包括:
[0104]当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧 词语的信息赌,并去除所述信息赌在预设范围外的候选数据串;
[01化]当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内 侧词语的信息赌,去除所述信息赌在预设范围外的候选数据串。
[0106] 由于候选数据串包括两个词语数据,在对候选数据串进行判断处理时,需要分别 对两个词语数据的内侧信息赌进行判断,信息赌是对随机变量不确定性的量度,计算公式 如下: 阳 107] H佩=-Ep(Xi)logp(Xi)
[0108] 信息赌越大,表示变量的不确定性越大,即每个可能的取值发生的概率越平均。如 果变量某个取值发生的概率为1,则赌为0。表明变量只有当前一种取值发生,是一个必然 事件。
[0109] 计算词语W的左侧信息赌和右侧信息赌的公式如下:
[0110] Hi(W)=ExEx(?>〇)P(x|W)logP(x|W),其中X为出现在W左边的所有词语数据集 合,Hi(W)为词语数据W的左侧信息赌。 阳111] &(w)=ExEY;#wY>wP(y|w)i〇gP(y|w),其中Y为出现在W右边的所有词语数据集 合,&(w)为词语数据W的右侧信息赌。
[0112] 内侧信息赌是对候选数据串依次固定每个单独词语数据,计算在该词语数据出现 情况下另一个词语出现的信息赌。如果候选数据串为(W1W2),则计算词语数据W1的右侧信 息赌和词语数据W2的左侧信息赌。
[0113] 计算候选数据串中词语数据与其内侧的词语数据的赌值体现该词语数据内侧词 语数据的混乱程度。例如,通过计算候选数据串W1W2中左侧词语数据W1的右侧信息赌,右 侧词语数据W2的左侧信息赌可W判断词语数据W1和W2内侧的混乱程度,从而可W通过设 定预设范围进行筛选,排除各词语与其内侧词语构成新词的概率特征值在预设范围外的候 选数据串。
[0114] 特定候选数据串中,基础名词的内侧信息赌也许会因在预设范围外,导致本应作 为新词的特定候选数据串被排除,例如,特定候选数据串为"白金卡V'名校卡V'龙卡"等 包含基础名词"卡"的候选数据串时,词语"白金"、"名"、"龙"的右侧信息赌在预设范围内, 但由于词语"卡"的左侧词语较混乱,其左侧信息赌可能在预设范围外,从而可能导致候选 数据串"白金卡"、"名校卡"、"龙卡"等候选数据串被错误的排除。
[0115] 故当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其 内侧词语的信息赌,去除所述信息赌在预设范围外的候选数据串,不再对基础名词的内侧 信息赌进行计算,避免因基础名词的内侧信息赌在预设范围外而导致的错误排除,可W有 效解决上述问题,提升新词发现的准确率。此外还可W减少计算量,提高新词发现的效率。
[0116] 参照图2,在本发明一实施例中,对所述候选数据串进行判断处理可W包括:
[0117] S161,计算候选数据串的所述频次相关的概率特征值,所述候选数据串的所述频 次相关的概率特征值在预设范围外时,去除该候选数据串。
[0118] 在具体实施中,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或 根据所述候选数据串出现的频次和频率计算得到的数值。
[0119] 候选数据串出现的频次指候选数据串在语料中出现的次数,频次过滤用于判断候 选数据串的结合次数,当频次低于某一阔值时,则过滤掉该候选数据串;候选数据串出现的 频率与其出现的次数和语料中总词量均相关。将根据所述候选数据串出现的频次和频率计 算得到的数值作为该候选数据串的概率特征值准确性更高。
[0120] 在本发明一实施例中,根据所述候选数据串出现的频次和频率计算得到概率特征 值可W义用TF-IDF(Te;rmRrequen巧-InverseDo州mentRrequency)技术。 阳12UTF-IDF是一种统计算法,用于资讯检索与资讯探勘的常用加权技术,W评估某个 字词对于一个文件集或一个语料库中的其中一份文件的重要程度,也就是在语料中的重要 程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中 出现的频率成反比下降。
[0122] TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且 在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 TF-IDF实际上是:TF*IDF,TF词频(TermRrequen巧),IDF反文档频率(InverseDo州ment 化equency)。TF表示词条在文档d中出现的频率(另一说:TF词频(Term化equency)指 的是某一个给定的词语在该文件中出现的次数)。IDF的主要思想是:如果包含词条t的文 档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文 档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档 数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类 别区分能力不强。(另一说:IDF反文档频率(InverseDocument化equency)是指包含词 条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。)但是实际上,如果一个词 条在一个类的文档中频繁出现,也就是在语料中频繁出现,则说明该词条能够很好代表运 个类的文本的特征,运样的词条应该给它们赋予较高的权重,并选来其为该类文本的特征 词W区别与其它类文档。也就是可W将运样的词条作为词典应用的领域内的新词。
[0123] S162,计算候选数据串中各个词语数据间的互信息;去除所述互信息在预设范围 外的候选数据串。 阳124] 互信息(Mu化曰1In化rmation,]\0)的定义见下式: 阳1巧]
[0126] 互信息反映了候选数据串与其中词语数据的共现关系,由两个单独词组成的候选 数据串的互信息为一个值(即两个单独词间的互信息),当一候选数据串W与其中词语数据 共现频度高时,即出现频次相近时,可知候选数据串W的互信息MI接近于1,也就是说此时 候选数据串W成为一个词的可能性很大。若互信息MI的值很小,接近于0,则说明W几乎不 可能成为一个词,更不可能成为一个新词。互信息反映了一个候选数据串内部的依赖程度, 从而可W用来判断候选数据串是否可能成
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1