一种文本处理方法及系统的制作方法

文档序号:6400662阅读:175来源:国知局
专利名称:一种文本处理方法及系统的制作方法
技术领域
本发明涉及计算机技术领域,特别涉及一种文本处理方法及系统。
背景技术
目前,文本处理已经被广泛的应用于各个领域,一般的,需要对文本进行分词、词性标注和实体识别,再根据分词结果、标注的词性以及识别出的实体词对文本进行处理。其中,实体词是指人名、地名、机构名等词汇,如刘德华、北京、人民大会堂等。除实体词之外的词汇就是非实体词。在现有技术中,一般将上述分词、词性标注和实体识别作为三个独立的过程,或者,将分词和词性标注作为一个过程,将实体识别作为单独的一个过程。例如,对词汇“人民大会堂”,先通过分词模型对该词汇进行分词处理,得到“人民”和“大会堂”两个单元词,再通过词性标注模型对“人民”和“大会堂”这两个单元词进行词性标注(如,将这两个单元词均标注为名词)。而对“人民大会堂”进行实体识别时,则以字为单位进行识别。具体的,先将“人民大会堂”拆分成“人”、“民”、“大”、“会”、“堂”这五个字,然后根据实体识别模型,确定“人”是实体词中的起始字(起始字是实体词中的第一个字),“民”、“大”、“会”是实体词中的中间字(中间字是实体词中除第一个字和最后一个字以外的字),“堂”是实体词中的结束字(结束字是实体词中的最后一个字),因此,将从起始字开始、到结束字为止所包含的所有字识别为一个实体词,即“人民大会堂”。但是,上述实体识别模型是以条件随机场(CRF)算法为基础的,而现有技术中的实体识别方法是以字为单位进行的,这就增加了采用CRF算法解码时的路径长度,导致实体识别的效率和准确性较低,从而也降低了后续基于识别出的实体词进行文本处理的效率和准确性。

发明内容
本发明实施例提供一种文本处理方法及系统,用以解决现有技术中文本处理的效率和准确性较低的问题。本发明实施例提供的一种文本处理方法,包括:对文本进行分词处理,得到所述文本中的各单元词;针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性;根据该单元词的词性以及该单元词确定该单元词的实体词属性;根据每个单元词的实体词属性识别所述文本中的实体词;根据识别出的实体词对所述文本进行处理。本发明实施例提供的一种文本处理系统,包括:分词模块,用于对文本进行分词处理,得到所述文本中的各单元词;词性标注模块,用于针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性;实体词识别模块,用于针对每个单元词,根据该单元词的词性以及该单元词确定该单元词的实体词属性;根据每个单元词的实体词属性识别所述文本中的实体词;文本处理模块,用于根据识别出的实体词对所述文本进行处理。本发明实施例提供一种文本处理方法及系统,该方法对文本进行分词得到单元词,针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性,并据此确定该单元词的实体词属性,根据每个单元词的实体词属性识别文本中的实体词,根据识别出的实体词对文本进行处理。通过上述方法,文本处理系统是以单元词为单位进行实体识别的,因此可以有效缩短采用CRF算法解码时的路径长度,提高实体识别的效率和准确性,从而提高了后续基于识别出的实体词进行文本处理的效率和准确性。


图1为本发明实施例提供的文本处理过程;图2为本发明实施例提供的文本处理系统结构示意图。
具体实施例方式为了缩短采用CRF算法解码时的路径长度,本发明实施例中以单元词为单位对文本进行实体识别,而以单元词为单位进行实体识别,就需要根据各单元词的词性确定各单元词的实体词属性,再根据各单元词的实体词属性进行实体识别,从而需要将分词、词性标注和实体识别结合在一起。下面结合附图对本发明优选的实施方式进行详细说明。图1为本发明实施例提供的文本处理过程,具体包括以下步骤:SlOl:对文本进行分词处理,得到该文本中的各单元词。在本发明实施例中,文本处理系统在对文本进行分词时,可以字为单位对该文本进行拆分,得到该文本中的每个字,再针对得到的每个字,通过预设的分词模型确定该字的字类别以及字位置属性,其中,上述分词模型是预先采用CRF算法对标准语料进行学习得到的,字类别包括汉字、英文、数字、时间、符号、其他,字位置属性包括起始字、中间字、结束字,最后针对字位置属性为起始字的每个字,按照该文本中各个字的先后顺序,查找排在该字之后的第一个字位置属性为结束字的字,将该文本中从该字位置属性为起始字的字开始,到查找到的该字位置属性为结束字的字位置所包含的所有字组合成一个单元词。例如,对于输入的文本“中国国际广播电台”,文字处理系统先以字为单位对该文本进行拆分,拆分得到8个字:“中”、“国”、“国”、“际”、“广”、“播”、“电”、“台”。然后,针对得到的字“中”,通过预设的分词模型确定“中”的字类别为汉字,字位置属性为起始字,因此,可将该字“中”标注为“中HANB”。其中,“HAN”为类别标注,表示该字“中”的字类别为汉字,“B”为字位置属性标注,表示该字“中”的字位置属性为起始字。除上述“HAN”表示字类别为汉字以外,其他字类别与类别标注的对应关系分别是,英文的类别标注为“ALPHA”,数字的类别标注为“NUM”,时间的类别标注为“TIME”,符号的类别标注为“SIG”,其他的类别标注为“OTHER”。除上述“B”表示字位置属性为起始字以外,其他字位置属性与字位置属性标注的对应关系分别是,中间字的字位置属性标注为“M”,结束字的字位置属性标注为“E”。类似于确定“中”的字类别和字位置属性的方法,同样通过分词模型确定其他字的字类别和字位置属性并进行标注,具体为:“国HAN E”、“国HANB”、“际HAN E”、“广HAN B”、“播 HAN E ”、“电 HAN B ”、“ 台 HANE ”。文本处理系统将上述8个字分别标注后,则可查找字位置属性标注为“B”的字,查找到的就是字位置属性为起始字的字。假设查找到“中”,则按照文本中各个字的先后顺序,查找排在“中”之后的第一个字位置属性为结束字的字(可查找排在“中”之后的第一个字位置属性标注为“E”的字),查找到的字就是“国”,因此,文本处理系统可将文本中从“中”开始到“国”为止的所有字按照这些字在文本中的顺序进行组合,得到一个单元词,组合后的单元词即为“中国”。类似的,针对字位置属性同样为起始字的“国”、“广”、“电”,可通过上述方法查找至IJ “国”之后的第一个字位置属性为结束字的“际”,“广”之后的第一个字位置属性为结束字的“播”,“电”之后的第一个字位置属性为结束字的“台”,并分别进行组合,得到单元词“国际”、“广播”、“电台”。另外,由于实际应用中存在单字成词的情况,如“以”、“为”等,因此,为了提高分词的准确性,上述字位置属性除包括起始字、中间字、结束字以外,还可包括独立字,独立字的字位置属性标注可设置为“S”。文本处理系统可通过分词模型,将这些单字成词的字的字位置属性确定为独立字,并在确定单元词时,将字位置属性为独立字的字确定为一个单元词。进一步的,上述字位置属性除包括起始字、中间字、结束字和独立字以外,还可包括中间第一字和中间第二字,可分别以“Ml”和“M2”标注,其中,中间第一字表示一个单元词中除起始字和结束字之外的第一个字,中间第二字表示一个单元词中除起始字和结束字之外的第二个字,而中间字则表示一个单元词中除起始字和结束字之外的最后一个字。如,假设文本为“人民大会堂”,则通过基于CRF算法的分词模型可确定:“人”为起始字,标注为“人HAN B”,“民”为中间第一字,标注为“民HAN M1”,“大”为中间第二字,标注为“大HANM2”,“会”为中间字,标注为“会HAN M”,“堂”为结束字,标注为“堂HAN E”。上述包括起始字、中间第一字、中间第二字、中间字、结束字、独立字的字位置属性可称为6tag。上述步骤SlOl可称为分词过程。S102:针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性。在本发明实施例中,对于通过上述步骤SlOl得到的一个单元词,文本处理系统可根据该单元词中的字确定该单元词的词类别,并根据该单元词的词类别以及该单元词确定该单元词的词性,确定该单元词的词性后,可采用确定的词性对该单元词进行标注。具体的,针对一个单元词,文本处理系统可以该单元词中的最后一个字的字类别作为该单元词的词类别,再根据该单元词的词类别以及该单元词,通过预设的词性标注模型确定该单元词的词性,其中,上述词性标注模型也是采用CRF算法对标准语料进行学习得到的。需要说明的是,由于在确定单元词的词类别时,是以该单元词中的最后一个字的字类别作为该单元词的词类别的,而字类别包括汉字、英文、数字、时间、符号、其他,因此,本发明实施例中的词类别也包括汉字、英文、数字、时间、符号、其他。继续沿用上例,对于得到的单元词“中国”,由于其最后一个字“国”的字类别是汉字,因此文本处理系统可确定该单元词“中国”的词类别也是汉字,将其标注为“中国HAN”。然后,文本处理系统根据该单元词(“中国”)以及该单元词的词类别(汉字),通过词性标注模型确定该单元词的词性为地名,因此,可将该单元词标注为“中国HAN ns”,其中,“HAN”表示该单元词的词类别为汉字,“ ns”表示该单元词的词性为地名。类似的,文本处理系统可采用同样方法,确定单元词“国际”的词类别为汉字,词性为名词,并将其标注为“国际HAN η”;确定单元词“广播”的词类别为汉字,词性为名动词,并将其标注为“广播HAN νη” ;确定单元词“电台”的词类别为汉字,词性为名词,并将其标注为“电台HAN η”。其中,η表示名词,νη表示名动词。上述步骤S102可称为词性标注过程。S103:针对每个单元词,根据该单元词的词性以及该单元词确定该单元词的实体词属性。在本发明实施例中,对于一个单元词,文本处理系统可根据该单元词的词类别、词性以及该单元词本身,确定该单元词的实体词属性。具体的,可根据该单元词的词类别、词性以及该单元词,采用预设的实体识别模型确定该单元词的实体词属性。其中,上述实体识别模型也是预先采用CRF算法对标准语料进行学习得到的。实体词属性包括实体词词性和单元词位置属性。实体词词性包括人名、地名、机构名等。单元词位置属性包括起始词、中间词、结束词。继续沿用上例,对于单元词“中国”,其词类别为汉字,词性为名词,则文本处理系统通过实体识别模型,确定该单元词的实体词词性为机构名,单元词位置属性为起始词,因此,可将“中国”标注为“中国HAN ns B-nt ”,其中,“B_nt ”中的“ B-”表示该单元词“中国”的单元词位置属性是起始词,“nt”表示该单元词“中国”的实体词词性是机构名。类似的,文本处理系统可采用同样方法,确定单元词“国际”的实体词词性为机构名、单元词位置属性为中间词,并将其标注为“国际HAN n M-nt”;确定单元词“广播”的实体词词性为机构名、单元词位置属性为中间词,并将其标注为“广播HAN vn M-nt”确定单元词“电台”的实体词词性为机构名、单元词位置属性为结束词,并将其标注为“电台HAN ηE-nt”。其中,“M-”表示单元词位置属性为中间词,“E-”表示单元词位置属性为结束词。另外,由于实际应用中存在单个单元词成实体词的情况,因此,为了提高实体识别的准确性,上述单元词位置属性除包括起始词、中间词、结束词以外,还可包括独立词,独立词的单元词位置属性标注可设置为“S-”。S104:根据每个单元词的实体词属性识别该文本中的实体词。确定了每个单元词的实体词词性和单元词位置属性后,文本处理系统可根据每个单元词的实体词词性和单元词位置属性进行实体识别。具体的,文本处理系统可针对单元词位置属性为起始词的每个单元词,按照文本中各单元词的先后顺序,查找排在该单元词之后的第一个单元词位置属性为结束词的单元词,并将文本中从该单元词位置属性为起始词的单元词开始,到查找到的该单元词位置属性为结束词的单元词为止所包含的所有单元词组合成一个实体词,然后,针对组合城的实体词,将该实体词中满足指定条件的单元词的实体词词性,确定为该实体词的词性,其中,针对该实体词中的一个待定单元词,如果该实体词中与该待定单元词具有相同实体词词性的单元词的数量最多,则该待定单元词为满足上述指定条件的单元词。
另外,当文本中包括单元词位置属性为独立词的单元词时,文本处理系统还可将单元词位置属性为独立词的单元词确定为一个实体词,并将该实体词的词性确定为该单元词的实体词词性。继续沿用上例,针对文本中单元词位置属性为起始词的单元词“中国”,按文本中各单元词的先后顺序,查找到排在“中国”之后的第一个单元词位置属性为结束词的单元词为“电台”,因此,文本处理系统将文本中从“中国”开始到“电台”为止所包含的所有单元词进行组合,得到实体词“中国国际广播电台”。然后,针对该实体词“中国国际广播电台”,由于其中的单元词“中国”的实体词词性为机构名,而与该单元词“中国”的实体词词性相同的其他单元词的数量最多,因此单元词“中国”是满足上述指定条件的单元词(实际上单元词“国际”、“广播”、“电台”都是满足上述指定条件的单元词),将该单元词“中国”的实体词词性(即,机构名)作为“中国国际广播电台”的词性。可见,在进行实体识别时,文本处理系统是以单元词为单位进行的,而不是以字为单位进行的。上述针对一个实体词,之所以将该实体词中满足指定条件的单元词的实体词词性确定为该实体词的词性的原因在于:由于上述步骤S103中确定各单元词的实体词词性时是通过基于CRF算法的实体识别模型确定的,不可避免会存在对一些单元词的实体词词性确定有误的现象,因此,为了避免识别出的实体词的词性有误,本发明实施例中将识别出的实体词中满足上述指定条件的单元词的实体词词性作为该实体词的词性,相当于对通过步骤S103确定的各单元词的实体词词性进行了滑动处理。例如,如果上例中“国际”、“广播”、“电台”的实体词词性都是机构名,而“中国”的实体词词性为地名,则满足指定条件的单元词为“国际”、“广播”和“电台”,从而确定出的实体词“中国国际广播电台”的词性仍然是机构名。上述步骤S103 S104可称为实体识别过程。S105:根据识别出的实体词对该文本进行处理。文本处理系统通过上述方法识别出文本中的实体词,并确定了识别出的实体词的词性后,则可根据识别出的实体词以及实体词的词性对该文本进行处理。例如,可按照从文本中识别出的实体词设置该文本的标签,再根据各文本的标签对文本进行分类。又如,当文本是具有较强时效性的微博,而且该微博的热度也较高时(说明该微博很有可能是反映热点舆情的微博),则可根据从该微博中识别出的实体词(人名、地名或者机构名),确定相应的微博用户,并将该微博推送给确定出的微博用户,使其获知该微博所反映的热点舆情。再如,按照从文本中识别出的实体词为该文本设置标签后,可在用户搜索文本时,查找与用户输入的搜索词相匹配的标签,并将查找到的标签对应的文本作为搜索结果提供给用户。通过上述方法,文本处理系统可以单元词为单元进行实体识别,相比于现有技术中以字为单位进行实体识别的方法,可以有效缩短采用CRF算法解码时的路径长度,提高了实体识别的效率和准确性,从而可有效提高后续基于识别出的实体词进行文本处理的效率和准确性。另外,由上述过程可以看出,本发明实施例将分词、词性标注和实体识别结合在了一起,在分词时采用小粒度的划分,以字为单位,确定每个字的字类别和字位置属性,据此得到单元词,再以单元词中最后一个字的字类别作为单元词的词类别,根据单元词本身以及单元词的词类别确定单元词的词性并标注,最后根据单元词本身、单元词的词类别、单元词的词性确定单元词的实体词属性,根据实体词属性进行实体识别,也即,步骤SlOl对文本分词的结果可直接用于步骤S102进行词性标注,而步骤S102的词性标注结果又可直接用于步骤S103和S104的实体识别,实现了对非实体词的小粒度分词以及词性标注,对实体词的粗粒度标注,可以满足互联网中数据的一般要求。当然,仅通过如图1所示的步骤SlOl对文本进行分词处理,或者,通过步骤SlOl和S102对文本进行分词和词性标注处理也是可以的。以上是本发明实施例提供的文本处理方法,基于同样的发明思路,本发明实施例还提供一种文本处理系统,如图2所示。图2为本发明实施例提供的文本处理系统结构示意图,具体包括:分词模块201,用于对文本进行分词处理,得到所述文本中的各单元词;词性标注模块202,用于针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性;实体词识别模块203,用于针对每个单元词,根据该单元词的词性以及该单元词确定该单元词的实体词属性;根据每个单元词的实体词属性识别所述文本中的实体词;文本处理模块204,用于根据识别出的实体词对所述文本进行处理。所述分词模块201具体用于,以字为单位对所述文本进行拆分,得到所述文本中的每个字;针对得到的每个字,通过预设的分词模型确定该字的字类别以及字位置属性;其中,所述分词模型是预先采用条件随机场CRF算法对标准语料进行学习得到的,所述字类别包括汉字、英文、数字、时间、符号、其他,所述字位置属性包括起始字、中间字、结束字;针对字位置属性为起始字的每个字,按照所述文本中各个字的先后顺序,查找排在该字之后的第一个字位置属性为结束字的字,将所述文本中从该字位置属性为起始字的字开始,到查找到的该字位置属性为结束字的字为止所包含的所有字组合成一个单元词。所述词性标注模块202具体用于,以该单元词中的最后一个字的字类别作为该单元词的词类别;根据该单元词的词类别以及该单元词,通过预设的词性标注模型确定该单元词的词性,其中,所述词性标注模型是预先采用CRF算法对标准语料进行学习得到的。所述实体词识别模块203具体包括:属性确定单元2031,用于根据该单元词的词类别、词性以及该单元词,采用预设的实体识别模型确定该单元词的实体词属性;其中,所述实体识别模型是预先采用CRF算法对标准语料进行学习得到的,所述实体词属性包括实体词词性和单元词位置属性,所述单元词位置属性包括起始词、中间词、结束词。所述实体词识别模块203具体包括:识别单元2032,用于针对单元词位置属性为起始词的每个单元词,按照所述文本中各单元词的先后顺序,查找排在该单元词之后的第一个单元词位置属性为结束词的单元词,将所述文本中从该单元词位置属性为起始词的单元词开始,到查找到的该单元词位置属性为结束词的单元词为止所包含的所有单元词组合成一个实体词;针对组合成的实体词,将该实体词中满足指定条件的单元词的实体词词性,确定为该实体词的词性;其中,针对该实体词中的一个待定单元词,如果该实体词中与该待定单元词具有相同实体词词性的单元词的数量最多,则该待定单元词为满足所述指定条件的单元词。
本发明实施例提供一种文本处理方法及系统,该方法文本处理系统对文本进行分词得到单元词,针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性,并据此确定该单元词的实体词属性,根据每个单元词的实体词属性识别文本中的实体词,根据识别出的实体词对文本进行处理。通过上述方法,文本处理系统是以单元词为单位进行实体识别的,因此可以有效缩短采用CRF算法解码时的路径长度,提高实体识别的效率和准确性,从而提高了后续基于识别出的实体词进行文本处理的效率和准确性。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
权利要求
1.一种文本处理方法,其特征在于,包括: 对文本进行分词处理,得到所述文本中的各单元词; 针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性; 根据该单元词的词性以及该单元词确定该单元词的实体词属性; 根据每个单元词的实体词属性识别所述文本中的实体词; 根据识别出的实体词对所述文本进行处理。
2.如权利要求1所述的方法,其特征在于,对文本进行分词处理,得到所述文本中的各单元词,具体包括: 以字为单位对所述文本进行拆分,得到所述文本中的每个字; 针对得到的每个字,通过预设的分词模型确定该字的字类别以及字位置属性;其中,所述分词模型是预先采用条件随机场CRF算法对标准语料进行学习得到的,所述字类别包括汉字、英文、数字、时间、符号、其他,所述字位置属性包括起始字、中间字、结束字; 针对字位置属性为起始字的每个字,按照所述文本中各个字的先后顺序,查找排在该字之后的第一个字位置属性为结束字的字,将所述文本中从该字位置属性为起始字的字开始,到查找到的该字位置属性为结束字的字为止所包含的所有字组合成一个单元词。
3.如权利要求2所述的方法,其特征在于,根据该单元词中的字以及该单元词确定该单元词的词性,具体包括: 以该单元词中的最后一个字的字 类别作为该单元词的词类别; 根据该单元词的词类别以及该单元词,通过预设的词性标注模型确定该单元词的词性,其中,所述词性标注模型是预先采用CRF算法对标准语料进行学习得到的。
4.如权利要求3所述的方法,其特征在于,根据该单元词的词性以及该单元词确定该单元词的实体词属性,具体包括: 根据该单元词的词类别、词性以及该单元词,采用预设的实体识别模型确定该单元词的实体词属性; 其中,所述实体识别模型是预先采用CRF算法对标准语料进行学习得到的,所述实体词属性包括实体词词性和单元词位置属性,所述单元词位置属性包括起始词、中间词、结束ο
5.如权利要求4所述的方法,其特征在于,根据每个单元词的实体词属性识别所述文本中的实体词,具体包括: 针对单元词位置属性为起始词的每个单元词,按照所述文本中各单元词的先后顺序,查找排在该单元词之后的第一个单元词位置属性为结束词的单元词,将所述文本中从该单元词位置属性为起始词的单元词开始,到查找到的该单元词位置属性为结束词的单元词为止所包含的所有单元词组合成一个实体词; 针对组合成的实体词,将该实体词中满足指定条件的单元词的实体词词性,确定为该实体词的词性;其中,针对该实体词中的一个待定单元词,如果该实体词中与该待定单元词具有相同实体词词性的单元词的数量最多,则该待定单元词为满足所述指定条件的单元ο
6.一种文本处理系统,其特征在于,包括: 分词模块,用于对文本进行分词处理,得到所述文本中的各单元词;词性标注模块,用于针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性; 实体词识别模块,用于针对每个单元词,根据该单元词的词性以及该单元词确定该单元词的实体词属性;根据每个单元词的实体词属性识别所述文本中的实体词; 文本处理模块,用于根据识别出的实体词对所述文本进行处理。
7.如权利要求6所述的系统,其特征在于,所述分词模块具体用于,以字为单位对所述文本进行拆分,得到所述文本中的每个字;针对得到的每个字,通过预设的分词模型确定该字的字类别以及字位置属性;其中,所述分词模型是预先采用条件随机场CRF算法对标准语料进行学习得到的,所述字类别包括汉字、英文、数字、时间、符号、其他,所述字位置属性包括起始字、中间字、结束字;针对字位置属性为起始字的每个字,按照所述文本中各个字的先后顺序,查找排在该字之后的第一个字位置属性为结束字的字,将所述文本中从该字位置属性为起始字的字开始,到查找到的该字位置属性为结束字的字为止所包含的所有字组合成一个单元词。
8.如权利要求7所述的系统,其特征在于,所述词性标注模块具体用于,以该单元词中的最后一个字的字类别作为该单元词的词类别;根据该单元词的词类别以及该单元词,通过预设的词性标注模型确定该单元词的词性,其中,所述词性标注模型是预先采用CRF算法对标准语料进行学习得到的。
9.如权利要求8所述的系统,其特征在于,所述实体词识别模块具体包括: 属性确定单元,用于根据该单元词的词类别、词性以及该单元词,采用预设的实体识别模型确定该单元词的实体词属性;其中,所述实体识别模型是预先采用CRF算法对标准语料进行学习得到的,所述实体词属性包括实体词词性和单元词位置属性,所述单元词位置属性包括起始词、中间词、结束词。
10.如权利要求9所述的系统,其特征在于,所述实体词识别模块具体包括: 识别单元,用于针对单元词位置属性为起始词的每个单元词,按照所述文本中各单元词的先后顺序,查找排在该单元词之后的第一个单元词位置属性为结束词的单元词,将所述文本中从该单元词位置属性为起始词的单元词开始,到查找到的该单元词位置属性为结束词的单元词为止所包含的所有单元词组合成一个实体词;针对组合成的实体词,将该实体词中满足指定条件的单元词的实体词词性,确定为该实体词的词性;其中,针对该实体词中的一个待定单元词,如果该实体词中与该待定单元词具有相同实体词词性的单元词的数量最多,则该待定单元词为满足所述指定条件的单元词。
全文摘要
本发明公开了一种文本处理方法及系统,用以解决现有技术中文本处理的效率和准确性较低的问题。该方法文本处理系统对文本进行分词得到单元词,针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性,并据此确定该单元词的实体词属性,根据每个单元词的实体词属性识别文本中的实体词,根据识别出的实体词对文本进行处理。通过上述方法,文本处理系统是以单元词为单位进行实体识别的,因此可以有效缩短采用CRF算法解码时的路径长度,提高实体识别的效率和准确性,从而提高了后续基于识别出的实体词进行文本处理的效率和准确性。
文档编号G06F17/21GK103176953SQ201310090249
公开日2013年6月26日 申请日期2013年3月20日 优先权日2013年3月20日
发明者戴明洋 申请人:新浪网技术(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1