一种中文复合词的提取方法及提取系统的制作方法

文档序号：6615574阅读：169来源：国知局

专利名称：一种中文复合词的提取方法及提取系统的制作方法
技术领域：
本发明涉及中文信息提取技术领域，特别是涉及一种中文复合词的提取方法及提取系统。

背景技术：
中文信息提取技术是把中文文本里包含的信息进行结构化处理，变成表格式的组织形式。在提取过程中，输入原始中文文本，该中文文本中的各信息点按一定的规则被提取出来，以统一的形式集成在一起，再以固定格式输出。中文复合词提取技术是中文信息提取技术的一种，它是提取出常用的两个及两个以上的中文词语构成的语义单元。
在中文信息处理中，复合词有非常广阔的应用前景，复合词能够增大文本分析粒度，在大规模文本检索中，使用复合词索引的系统比使用普通词语作为索引的系统，在索引性能上有显著的提高，并且复合词相对于普通词语的歧义更小，在机器翻译中使用复合词可以使翻译更加准确。正因为复合词具有以上优点，将中文复合词提取技术应用到竞价广告、窄告系统的用户关键词推荐中，可以提高相关系统的分析粒度和翻译的准确性，具有很强的商业应用前景。
目前，现有的中文复合词提取技术是将待处理的文本切段整理，建立索引，判断复合词的稳定性，复合词汇总判别后再提取。具体步骤参阅图1。
步骤S101、将待处理的文本进行切段整理。对待处理的文本按预置的方式切段。预置的方式可为按一定字数切段，或按固定的标点符号切段。将切段后的文本进行过滤整理，过滤掉不可能组成复合词的词语，如虚词、代词等，再将完成切段整理的文本存入相应的数据库。
步骤S102、建立索引。设计索引的数据结构，按该数据结构存放切段整理的文本。
步骤S103、使用文本中上下文熵判断词语组合左右边界的稳定性，使用共现概率判断词语组合的紧密程度。
步骤S104、根据词语组合的出现频率、稳定性、紧密程度，综合判断该组合词语是否是一个复合词，如是，则提取该复合词；如不是，则不提取。
在上述中文复合词提取技术中，对待处理的文本进行切段整理，这可能将一些复合词切断，使后续过程无法识别该复合词，造成复合词的召回率较低。在判断词语组合是否为复合词时，采用出现频率，稳定性、紧密程度三个相关参考量进行判断，但是，待处理的文本不同，复合词在该文本中的上述三个参考量有较大的差距，设置固定的参考值，会使复合词的提取存在较大的偶然性，影响复合词提取的准确率。

发明内容
本发明所要解决的技术问题是提供一种中文复合词的提取方法，该方法能够提高复合词提取的召回率和准确性。
本发明的另一个目的是提供一种中文复合词的提取系统，该系统能够提高复合词提取的召回率和准确性。
本发明公开一种中文复合词的提取方法，该方法包括获取预置的复合词集合与待处理的文本；分别统计所述文本中各词语在所述复合词集合的各复合词构成中不同位置的概率数据；为所述文本语句中的各词语标注其对应的概率数据，依据概率数据确定语句中最佳的词语组合，提取该词语组合作为复合词。
优选的，提取该词语组合作为复合词之前，还包括将包含不具有实质意义词语的复合词过滤掉。
优选的，提取该词语组合作为复合词之前，还包括计算各复合词在文本中的出现频率，提取出现频率高于预置阈值的复合词。
优选的，还包括将提取的复合词添加到所述复合词集合中。
优选的，获取预置的复合词集合与待处理的文本之后，还包括间隔所述复合词集合和所述文本中各词语；将所述文本中的各词语分行断开。
优选的，依据概率数据确定语句中最佳的词语组合具体为根据语句中的各词语对应的概率数据建立隐马尔可夫模型，在隐马尔可夫模型中计算各词语间的最优路径；所述最优路径对应的词语组合为最佳的词语组合。
本发明还公开一种中文复合词的提取系统，包括获取单元、统计单元、标注单元、确定单元、及提取单元所述获取单元，用于获取预置的复合词集合与待处理的文本；所述统计单元，用于分别统计所述文本中各词语在所述复合词集合的各复合词构成中不同位置的概率数据；所述标注单元，用于为所述文本语句中的各词语标注其对应的概率数据；所述确定单元，用于依据概率数据确定语句中最佳的词语组合；所述提取单元，用于提取该词语组合作为复合词。
优选的，还包括过滤单元，用于将包含不具有实质意义词语的复合词过滤掉。选择单元，用于计算各复合词在文本中的出现频率，提取出现频率高于预置阈值的复合词。
优选的，还包括间隔单元，用于间隔所述复合词集合与所述文本中的各词语，并将所述文本中的各词语分行断开。
优选的，还包括添加单元，用于将提取的复合词添加到所述复合词集合中。
与现有技术相比，本发明具有以下优点本发明将借助预置的复合词集合，获取到该复合词集合中的复合词结构信息，再利用该复合词结构信息在文本中提取与其结构相似的复合词。这样根据复合词的组成结构信息提取的复合词，相对于现有技术，不局限于复合词的出现频率、稳定性、和紧密性，不需用户设置相关参考值进行提取，并且不受文本的局限，避免提取过程中偶然性，提取复合词的召回率和准确率相对较高。

图1现有的中文复合词提取方法流程图；图2为本发明中文复合词提取方法流程图；图3为本发明训练语料组成示意图；图4为本发明另一种中文复合词提取方法流程图；图5为本发明中文复合词提取系统示意图；图6为本发明另一种中文复合词提取系统示意图。

具体实施例方式 为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式
对本发明作进一步详细的说明。
本发明根据用户对于不同种类的复合词的需求，预置一个小规模的复合词集合，该复合词集合包含用户所需的复合词。本发明对待处理的文本和复合词集合中词语进行分词、切分等预处理，成为可方便识别各词语的训练文本。统计上述各词语在复合词集合的各复合词构成中不同位置的概率数据，再为待处理文本的语句中各词语标注其对应的概率数据，并建立相应的数据模型，分析该数据模型，得到语句中最佳的词语组合，提取该词语组合作为复合词。具体步骤参阅图2。
步骤S201、获取预置的复合词集合与待处理的文本。复合词集合包含一定数量的用户所需类型的复合词。复合词为两个或两个以上具有实质意义的词语组成的语义单元。例如，“安全生产”，“中文信息处理”，“和谐理念”等。先将待处理文本处理成纯文本，即只包含中文词语的文本。待处理文本不是纯文本时，进行去标签、删除连接、去除非中文词语等动作，获得纯文本。
步骤S202、间隔复合词集合与文本中的各词语，作为训练语料。对复合词集合中复合词的各词语只需间隔开，对文本中的各词语需间隔开后，再分行切断，然后将这些词语合并在一起组成训练语料，具体过程参阅图3。
将复合词集合中复合词的各词语以空格间隔，整个复合词以空格结束，处理后的格式为每行一个复合词。例如，复合词“安全生产”，在分词后的格式为“安全生产”，复合词“中文信息处理”，在分词后的格式为“中文信息处理”。
在文本中的每个词语后面添加一个空格，将各词语间隔开，再将各词语分行。例如，文本中的语句“具有强大功能的滑盖手机”间隔后为“具有强大功能的滑盖手机”，分行后变成具有强大功能的滑盖手机将上述间隔处理后的所有词语合并，作为训练语料。
步骤S203、统计上述各词语在复合词集合的各复合词构成中不同位置的概率数据。一个词语在复合词中的位置可以分为四种情况不组成复合词，即复合词中不包含该词语(位置情况用I表示)；在复合词中处于开头位置，如，词语“中文”在复合词“中文信息处理”中处于开头位置(位置情况用L表示)；在复合词中处于中间位置(对于复合词由三个及三个以上的词语组成的情况)，如，词语“信息”在复合词“中文信息处理”中处于中间位置(位置情况用M表示)；在复合词中处于结束的位置，如，词语“处理”在复合词“中文信息处理”中处于结束位置(位置情况用R表示)。
本发明针对训练语料中的每个词语出现在不同位置的概率数据进行分别统计，统计公式(0)为其中，Wi表示训练语料中任何一个单词，Ti表示该词语在复合词中出现的位置，Ti可以是I，L，M，R，N(WiTi)表示Wi出现在Ti位置上的次数，N(Ti)表示出现在Ti位置上所有词语的总次数。为了避免出现概率为零的情况，可采用加一法进行概率的平滑。
步骤S204、为文本语句中的各词语标注其对应的概率数据。以文本中标点符号为断句，提取文本中的语句。一条语句表示为S1，n＝(W1，W2，…，Wn)，其中，S表示语句，n表示该语句中词语的数量，W1，W2，W3...Wn表示该语句中的各词语。为语句中的各词语标注其对应的概率数据，构建成隐马尔可夫模型(HMM)。
隐马尔可夫模型的状态集为四个标签符号I，L，M，R，隐马尔可夫模型初始状态矩阵和状态转移矩阵不是与全部的标签相对应，只有I，L的标签才可以出现在起始位置。因此，初始状态概率矩阵对应于{I，L}，维数为2，为简化模型计算，这里将可以转移的状态概率平均化，如当前词汇标签为Ti，则下一个字符标签Ti+1，当Ti＝L时，Ti+1只能是M，R两种情况，因此可得出依此类推，状态转移概率矩阵的行、列元素都对应于集合{I，L，M，R}，得到维数为4的状态转移概率矩阵。对一个给定的文本进行隐马尔可夫模型建模时，采用最大似然方法估计模型中的一些主要概率，定义如下初始状态概率状态转移概率其中，Tagrow表示矩阵的行标签，Tagcol表示矩阵列标签，都对应于集合{I，L，M，R}。
词语w在标签Tag下的符号发射概率的公式为
步骤S205、依据概率数据确定语句中最佳的词语组合。在隐马尔可夫模型中计算出各词语间的最优路径，最优路径对应的词语作为最佳词语组合。即求得满足

的最佳标签序列T1，n＝(T1，T2，…Tn)，作如下推导对文本中一个语句S1，n＝(W1，W2，…，Wn)进行标注时，即求得满足

的最佳标签序列T1，n＝(T1，T2，…Tn)，可以作如下推导
以上变换中，使用贝叶斯法则得到(5)式；(6)式中省去的分母项P(W1，n)是由于W1，n是已知可见的，P(W1，n)是一个常数，对于

的最佳求解没有影响；(7)式变换是假设词语之间是彼此独立的；(8)式用到马尔科夫链的有限状态关联假设(这里使用一阶关联)；(9)式变换是基于词语的出现只依赖于本身的标注的假设。
(9)式中的P(Wi|Ti)为训练模块中得到的训练结果，由式(0)可以直接计算得到，因此，使用上述算法找到最大值的标签序列T1，n＝(T1，T2，…Tn)，即隐马尔可夫模型中各词语间的最佳路径，该最佳路径对应的词语组合即为复合词。
步骤S206，提取该词语组合作为复合词。将确定的词语组合作为复合词，从文本中提取出来。
本发明将借助预置的复合词集合，获取到该复合词集合中的复合词结构信息，再利用该复合词结构信息在文本中提取与其结构相似的复合词。这样根据复合词的组成结构信息提取的复合词，不局限于复合词的出现频率、稳定性、和紧密性，不需用户设置相关参考值进行提取，并且不受文本的局限，避免提取过程中偶然性，提取复合词的召回率和准确率相对较高。
为保证提取的复合词更符合要求，本发明再可对提取的复合词进一步过滤，刷选，具体步骤参阅图4。
步骤S401、获取预置的复合词集合与待处理的文本。
步骤S402、间隔复合词集合与文本中的各词语，作为训练语料。
步骤S403、统计上述各词语在复合词集合的各复合词构成中不同位置的概率数据。
步骤S404、为文本的语句中的各词语标注其对应的概率数据。
步骤S405、依据概率数据确定语句中最佳的词语组合。在隐马尔可夫模型中计算出各词语间的最优路径，最优路径对应的词语作为最佳词语组合。
步骤S406、提取该词语组合作为复合词。
步骤S407、将包含不具有实质意义词语的复合词过滤掉。有些词语本身不具有实质意义，如，连词、代词、量词等。包含该词语的复合词所表达的意思与单个词语相当，不具有复合词的优点。本发明将包含上述词性词语的复合词过滤掉。
步骤S408，计算各复合词在文本中的出现频率，提取出现频率高于预置阈值的复合词。复合词出现频率高表示该复合词的准确性相对较高，当需提取的有限数量的复合词时，可将复合词按出现频率列表排序，按所需数量提取所需的复合词，或设置预置，提取出现频率超过阈值的复合词。
本发明将提取的复合词进行筛选，去除不具有特定优点的复合词，再获取出现频率相对较高的复合词，进一步保证复合词提取的准确性。
为保证作为参考的复合词集合中所包含的复合词更多，参考性更强。本发明可将提取的复合词添加到复合词集合中，使该复合词集合在使用过程中不断充实，为在待处理文本提取复合词提供更可靠的参考，这样提取的复合词也更准确，以此形成良性循环，复合词提取的召回率和准确性也越来越高。
基于上述复合词提取方法，本发明还提供一种复合词提取系统。参阅图5，包括获取单元51、间隔单元52、统计单元53、标注单元54、确定单元55、及提取单元56。
获取单元51获取预置的复合词集合与待处理的文本。复合词集合包含一定数量的用户所需类型的复合词。复合词为两个或两个以上具有实质意义的词语组成的语义单元。先将待处理文本处理成纯文本，即只包含中文词语的文本。获取单元51将获取的复合词集合与文本发送到间隔单元52。
间隔单元52间隔复合词集合与文本中的各词语，作为训练语料。间隔单元52对复合词集合中复合词的各词语只需间隔开，对文本中的各词语需间隔开后，再分行切断，然后将这些词语合并在一起组成训练语料，发送到统计单元53。
统计单元53分别统计上述各词语在复合词集合的各复合词构成中不同位置的概率数据。一个词语在复合词中的位置可以分为四种情况不组成复合词、在复合词中处于开头位置、在复合词中处于中间位置、在复合词中处于结束的位置。统计单元53将计算的概率数据发送到标注单元54。
标注单元54为文本语句中的各词语标注其对应的概率数据。标注单元54以文本中标点符号为断句，提取文本中的语句，为语句中的各词语标注其对应的概率数据，构建成隐马尔可夫模型(HMM)。
确定单元55依据概率数据确定语句中最佳的词语组合。确定单元55在隐马尔可夫模型中计算出各词语间的最优路径，最优路径对应的词语作为最佳词语组合。
提取单元56将确定的词语组合作为复合词，从文本中提取出来。
为保证提取的复合词更符合要求，本发明提取系统再可对提取的复合词进一步过滤，刷选。参阅图6，包括获取单元51、间隔单元52、统计单元53、标注单元54、确定单元55、提取单元56、过滤单元57、选择单元58、及添加单元59。
过滤单元57将提取单元56中包含不具有实质意义词语的复合词过滤掉。有些词语本身不具有实质意义，如，连词、代词、量词等。包含该词语的复合词所表达的意思与单个词语相当，不具有复合词的优点。过滤单元5 7将包含上述词性词语的复合词过滤掉。过滤单元57将过滤后的复合词发送到选择单元58。
选择单元58计算各复合词在文本中的出现频率，提取出现频率高于预置阈值的复合词。复合词出现频率高表示该复合词的准确性相对较高，当需提取有限数量的复合词时，选择单元58将复合词按出现频率列表排序，按所需数量提取所需的复合词，或设置预置，提取出现频率超过阈值的复合词。选择单元58将选择的复合词发送到添加单元59。
添加单元59将提取的复合词添加到复合词集合中。
以上对本发明所提供的一种中文复合词的提取方法及提取系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式
及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
权利要求
1.一种中文复合词的提取方法，其特征在于，该方法包括
获取预置的复合词集合与待处理的文本；
分别统计所述文本中各词语在所述复合词集合的各复合词构成中不同位置的概率数据；
为所述文本语句中的各词语标注其对应的概率数据，依据概率数据确定语句中最佳的词语组合，提取该词语组合作为复合词。
2.如权利要求1所述的提取方法，其特征在于，获取预置的复合词集合与待处理的文本之后，还包括
间隔所述复合词集合和所述文本中各词语；
将所述文本中的各词语分行断开。
3.如权利要求1或2所述的提取方法，其特征在于，依据概率数据确定语句中最佳的词语组合具体为
根据语句中的各词语对应的概率数据建立隐马尔可夫模型，在隐马尔可夫模型中计算各词语间的最优路径；
所述最优路径对应的词语组合为最佳的词语组合。
4.如权利要求3所述的提取方法，其特征在于，提取该词语组合作为复合词之前，还包括
将包含不具有实质意义词语的复合词过滤掉。
5.如权利要求4所述的提取方法，其特征在于，提取该词语组合作为复合词之前，还包括
计算各复合词在文本中的出现频率，提取出现频率高于预置阈值的复合词。
6.如权利要求5所述的提取方法，其特征在于，还包括
将提取的复合词添加到所述复合词集合中。
7.一种中文复合词的提取系统，其特征在于，包括获取单元、统计单元、标注单元、确定单元、及提取单元
所述获取单元，用于获取预置的复合词集合与待处理的文本；
所述统计单元，用于分别统计所述文本中各词语在所述复合词集合的各复合词构成中不同位置的概率数据；
所述标注单元，用于为所述文本语句中的各词语标注其对应的概率数据；
所述确定单元，用于依据概率数据确定语句中最佳的词语组合；
所述提取单元，用于提取该词语组合作为复合词。
8.如权利要求7所述的提取系统，其特征在于，还包括
间隔单元，用于间隔所述复合词集合与所述文本中的各词语，并将所述文本中的各词语分行断开。
9.如权利要求7或8所述的提取系统，其特征在于，还包括
过滤单元，用于将包含不具有实质意义词语的复合词过滤掉。
选择单元，用于计算各复合词在文本中的出现频率，提取出现频率高于预置阈值的复合词。
10.如权利要求7或8所述的提取系统，其特征在于，还包括
添加单元，用于将提取的复合词添加到所述复合词集合中。
全文摘要
本发明涉及一种中文复合词的提取方法，该方法包括获取预置的复合词集合与待处理的文本；间隔所述复合词集合与所述文本中的各词语，分别统计上述各词语在所述复合词集合的各复合词构成中不同位置的概率数据；为所述文本语句中的各词语标注其对应的概率数据，依据概率数据确定语句中最佳的词语组合，提取该词语组合作为复合词。还包括将包含不具有实质意义词语的复合词过滤掉，计算各复合词在文本中的出现频率，提取出现频率高于预置阈值的复合词，将提取的复合词添加到所述复合词集合中。同时，本发明还提供一种中文复合词的提取系统。本发明能够提高复合词提取的召回率和准确性。
文档编号G06F17/27GK101187921SQ20071030188
公开日2008年5月28日申请日期2007年12月20日优先权日2007年12月20日
发明者刘怀军, 鉴朱申请人:腾讯科技(深圳)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何慧;刘怀军;朱鉴
技术所有人：腾讯科技(深圳)有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。