新词发现方法及装置的制造方法_4

文档序号:9471517阅读:来源:国知局
为一个新词。
[0127] S163,当剩余的所述候选数据串非特定候选数据串时,计算所述候选数据串中各 词语与其内侧词语的信息赌,并去除所述信息赌在预设范围外的候选数据串;当剩余的所 述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息 赌,去除所述信息赌在预设范围外的候选数据串。步骤S163的【具体实施方式】此不寶述。
[0128] S164,计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息赌,去除 所述信息赌在预设范围外的候选数据串。
[0129] 计算候选数据串中词语数据与其外侧的词语数据的赌值体现该词语数据外侧词 语数据的混乱程度。例如,通过计算候选数据串W1W2中左侧词语数据W1的左侧信息赌,右 侧词语数据W2的右侧信息赌可W判断词语数据W1和W 则的混乱程度,从而可W通过设 定预设范围进行筛选,排除各词语与其外侧词语构成新词的概率特征值在预设范围外的候 选数据串。
[0130] W候选数据串仅包括两个单独词(wlw2)为例说明,单独词wl与相邻的候选数据 串中的单独词具有一个外侧信息赌,单独词wl与同一候选数据串中单独词w2具有一个内 侧信息赌;单独词w2与同一候选数据串中单独词wl具有一个内侧信息赌,单独词w2与相 邻的候选数据串中的单独词具有一个外侧信息赌,即位于中间位置(非端部)的单独词都 具有一个内侧信息赌和外侧信息赌。 阳131] 在进行内侧信息赌或外侧信息赌的判断时,需要对一个候选数据串中两个内侧信 息赌或两个外侧信息赌都进行判断,只有两个内侧信息赌或两个外侧信息赌都位于预设范 围时,才认为该候选数据串的内侧信息赌或外侧信息赌位于预设范围内;否则,只要有一个 内侧信息赌或一个外侧信息赌位于预设范围外,就认为该候选数据串的内侧信息赌或外侧 信息赌位于预设范围外。 阳13引例如,两个相邻的候选数据串分别为:由单独词"我"和单独词"办理"组成的候选 数据串;由单独词"华北"和单独词"商厦"组成的候选数据串。两个候选数据串的内部信 息赌分别为:单独词"我"和单独词"办理"之间的信息赌:单独词"华北"的右侧信息赌和 单独词"商厦"的左侧信息赌。两个候选数据串之间的外部信息赌为:单独词"办理"的右 侧信息赌和单独词"华北"的左侧信息赌。
[0133] 可W理解的是,对候选数据串的判断处理,可W包括步骤S163,和步骤S161、 S162、S164中的任意一种或多种,对四个步骤的先后顺序并不做具体限定。
[0134] 在本发明一实施例中,判断处理依次包括步骤S161至步骤S164,其中步骤S162对 经过步骤S161排除后的剩余数据串进行计算;步骤S163对经过步骤S161和S162排除后 的剩余数据串进行计算;步骤S164对经过步骤S161、S162和S163排除后的剩余数据串进 行计算。 阳135] 在本发明实施例中,由于依次计算频次、互信息、候选数据串的边界词语数据与内 侧词语数据的信息赌,而上述=种概率特征值的计算难度递增,次序在前的计算可W排除 不在预设范围内的候选数据串,被排除的候选数据串不再参与次序在后的计算,从而可W 节省计算时间,提高新词发现方法的效率。
[0136] 本发明实施例中的新词发现方法可用于词典更新,在发现新词时,将该新词加入 词典,W更新后的词典再次进行分词处理、组合处理和发现新词的过程,直至未发现新词为 止。
[0137] 本发明实施例还提供一种新词发现装置,包括:预处理单元31、分行处理单元32、 分词处理单元33、组合处理单元34、特定候选数据串判断单元35W及新词发现单元36 ;
[0138] 所述预处理单元31,适于对接收到的语料进行预处理,W得到文本数据;
[0139] 所述分行处理单元32,适于对所述文本数据进行分行处理,得到语句数据;
[0140] 所述分词处理单元33,适于依照词典中包含的词语数据对所述语句数据进行分词 处理,W得到分词后的词语数据; 阳141] 所述组合处理单元34,适于对相邻的所述分词后的词语数据进行组合处理,W生 成候选数据串; 阳142] 所述特定候选数据串判断单元35,适于判断所述候选数据串是否为特定候选数据 串,所述特定候选数据串包括基础名词且位于所述基础名词的特定相对位置的词语为名词 或形容词;
[0143] 所述新词发现单元36,适于对所述候选数据串进行判断处理,W发现新词;所述 判断处理包括:
[0144] 当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧 词语的信息赌,并去除所述信息赌在预设范围外的候选数据串;
[0145] 当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内 侧词语的信息赌,去除所述信息赌在预设范围外的候选数据串。 阳146] 在具体实施中,所述特定相对位置为左侧和右侧中的一种或两种。 阳147] 在具体实施中,所述特定候选数据串判断单元35,适于参照频次确定所述基础名 词。
[0148] 在具体实施中,所述特定候选数据串判断单元35,适于参照词语数据的位置W及 所述词语数据左信息赌和右信息赌的差值确定所述基础名词。
[0149] 在具体实施中,所述判断处理还包括:计算候选数据串的所述频次相关的概率特 征值,所述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。
[0150] 在具体实施中,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或 根据所述候选数据串出现的频次和频率计算得到的数值。 阳151] 在具体实施中,所述判断处理还包括:计算候选数据串中各个词语数据间的互信 息;去除所述互信息在预设范围外的候选数据串。
[0152] 在具体实施中,所述判断处理还包括:计算所述候选数据串边界词语数据与外侧 词语数据的信息赌,去除所述信息赌在预设范围外的候选数据串。 阳153] 参照图4,在具体实施中,所述新词发现单元36可W包括:频次过滤单元361、互信 息过滤单元362、内部信息赌过滤单元363W及外部信息赌过滤单元364 ;
[0154] 所述频次过滤单元361,适于计算所述候选数据串的频次,去除所述频次在预设范 围外的候选数据串;
[01巧]所述互信息过滤单元362,适于计算经所述频次过滤单元过滤后,剩余的所述候选 数据串的互信息,去除所述互信息在预设范围外的候选数据串;
[0156] 所述内部信息赌过滤单元363,适于当剩余的所述候选数据串非特定候选数据串 时,计算所述候选数据串中各词语与其内侧词语的信息赌,并去除所述信息赌在预设范围 外的候选数据串;当剩余的所述候选数据串为特定候选数据串时,仅计算所述基础名词之 外的词语与其内侧词语的信息赌,去除所述信息赌在预设范围外的候选数据串; 阳157] 所述外部信息赌过滤单元364,适于计算经所述内部信息赌过滤单元过滤后,剩余 的所述候选数据串边界词语数据与外侧词语数据的信息赌,去除所述信息赌在预设范围外 的候选数据串。
[0158] 在具体实施中,所述组合处理单元34适于利用Bigram模型将同一行的语句数据 中相邻词语作为候选数据串。
[0159] 在具体实施中,所述预处理单元31适于将语料的格式统一为文本格式;过滤脏 词、敏感词和停用词中的一种或多种。
[0160] 在具体实施中,所述分词处理单元33适于采用字典双向最大匹配法、HMM方法和 CRF方法中的一种或多种。 阳161] 在具体实施中,新词发现装置还可W包括:长度过滤单元37,适于设定候选数据 串的长度范围,W排除长度在所述长度范围之外的候选数据串。 阳162] 所述新词发现装置的具体工作过程请参考前述方法,在此不再寶述。
[0163] 本领域普通技术人员可W理解上述实施例的各种方法中的全部或部分步骤是可 W通过程序来指令相关的硬件来完成,该程序可W存储于一计算机可读存储介质中,存储 介质可W包括:ROM、RAM、磁盘或光盘等。
[0164] 虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本 发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当W权利要求所 限定的范围为准。
【主权项】
1. 一种新词发现方法,其特征在于,包括: 对接收到的语料进行预处理,以得到文本数据; 对所述文本数据进行
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1