一种信息提取方法及装置与流程

文档序号:11386494阅读:205来源:国知局
一种信息提取方法及装置与流程
本申请涉及计算机
技术领域
,尤其涉及一种信息提取方法及装置。
背景技术
:随着网络技术的不断发展,用户所能够获取到的信息也越来越多,但是,用户所获取到的信息中通常只有部分信息是用户真正所需的信息,因此,需要将用户真正所需的信息提取出来,如,在整理法院的判处书时,通常是需要将判决书中所包含的诉讼当事人、诉讼时间、判决结果等信息整理出来,因此,需要将判决书中所包含的诉讼当事人、诉讼时间、判决结果等信息提取出来。目前,每个领域的信息通常都是按照一定的信息格式展示给用户的,因此,在现有技术中,当需要将用户真正所需的信息提取出来时,可预先设置用于信息提取的模板,其中,模板上携带有固定的信息格式,通过该模板可将待提取的信息中用户所需的信息提取出来。但是,模板在设计完成后通常都是固定不变的,如果待提取的信息存在不规范的情况,则会导致信息提取的准确率较低,如,模板中设计的格式为“原告:xxx”,当服务器在待提取的信息中识别出“原告:”后,直接将“原告:”后的信息提取出来,但是,当待提取的信息为“原告是xx”时,则服务器就无法识别出原告的姓名并提取,而且,有些领域的信息不存在特定的信息格式,从而无法通过设定模板来提取信息。技术实现要素:本申请实施例提供一种信息提取方法及装置,用以解决现有技术中信息提取的准确率较低的问题。本申请实施例提供的一种信息提取方法,所述方法包括:获取原始信息;对所述原始信息进行分词处理,得到所述原始信息中的各分词;按各分词在所述原始信息中的排序,确定由各分词构成的分词序列;根据所述分词序列,确定所述每个分词各自对应的观察特征序列;根据所述每个分词各自对应的观察特征序列,通过预先建立的条件随机场模型,确定出使各观察特征序列的联合概率最大的每个分词的分类标签;根据确定的各分词的分类标签,从所述原始信息中提取所需信息。本申请实施例提供的一种信息提取装置,所述装置包括:获取模块,用于获取原始信息;分词模块,用于对所述原始信息进行分词处理,得到所述原始信息中的各分词;分词序列确定模块,用于按各分词在所述原始信息中的排序,确定由各分词构成的分词序列;特征序列确定模块,用于根据所述分词序列,确定所述每个分词各自对应的观察特征序列;分类标签确定模块,用于根据所述每个分词各自对应的观察特征序列,通过预先建立的条件随机场模型,确定出使各观察特征序列的联合概率最大的每个分词的分类标签;提取模块,用于根据确定的各分词的分类标签,从所述原始信息中提取所需信息。本申请实施例提供一种信息提取方法及装置,该方法获取原始信息,对该原始信息进行分词处理,得到该原始信息中的各分词,并按各分词在该原始信息中的排序,确定由各分词构成的分词序列,根据该分词序列,确定每个分词各自对应的观察特征序列,根据每个分词各自对应的各观察特征序列,通过预先建立的条件随机场模型,确定出使各观察特征序列的联合概率最大的每个分词的分类标签,根据确定的各分词的分类标签,从该原始信息中提取所需信息。通过上述方法,无论待提取的信息是否是按照固定的信息格式构成的,都可以有效的将用户所需的信息提取出来,提高了信息提取的准确率。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的信息提取过程示意图;图2为本申请实施例提供的信息提取装置结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。图1为本申请实施例提供的信息提取过程,具体包括以下步骤:s101:获取原始信息。在本申请实施例中,在将信息中用户所需的信息提取出来的过程中,首先需要获取原始信息,而获取该原始信息可以由服务器完成的,也可以由其他具有数据处理功能的设备完成的,其中,所述原始信息中包含了用户所需的信息,服务器需要将原始信息中用户所需的信息提取出来,其中,所述原始信息包括文本信息。例如,法律工作人员需要将大量的电子版的法律文书(法律文书中包含的是文本信息)中的被告姓名、被告性别以及被告出生日期提取出来,因此,服务器获取电子版的法律文书中包含的信息(即,原始信息),为了简单明了的阐述本方案,省去不必要的繁琐步骤,在此以每个法律文书中只包含的信息为:被告:xx,性别:x,xxxx年xx月xx日出生,且只以一个法律文书为例进行说明。s102:对所述原始信息进行分词处理,得到所述原始信息中的各分词。由于在实际应用中,用户所需的信息只是处于一句话中的词语或字,因此,在本申请中,可以对获取到的原始信息进行分词处理,后续对每个分词确定一个分类标签,后续则可将所需的分类标签对应的信息提取出来。在对原始信息进行分词处理的过程中,如果将每个字均作为一个分词,则会导致运算量巨大,如果将过多的字作为一个分词,则会导致信息提取的准确率降低,因此,在本申请中,可以根据语言习惯将完整的词语划分在一起,如,对“我们爱中国”进行分词处理,得到的各分词为:我们、爱、中国,另外,如果原始信息中包含有标点符号,可以将标点符号单独拿出来作为一个分词。s103:按各分词在所述原始信息中的排序,确定由各分词构成的分词序列。在本申请实施例中,服务器在获取到原始信息后,按各分词在该原始信息中的排序,确定由各分词构成的序列。另外,由于在语言环境中,同一个词语在不同的语句中可充当不同的成分,也就是说,同一个词语充当着不同成分时,所代表的意思是不同的,所表示的词性也是不同的,如,“你能跟我说说事情的经过吗?今天我经过你家门口”中,“经过”在后半句是充当动词的,而该“经过”后面挨着的“你家门口”一词语是不可能出现在前半句中充当名词的“经过”后面。为了有效的提高信息提取的准确率,因此,在本申请实施例中,服务器在确定出由各分词构成的分词序列后,可确定分词序列中每个分词的词性,其中,所述词性包括多种不同的词性,而表1只列举了两种不同的词性,也就是第一词性与第二词性,当然,服务器也可在对原始信息进行分词处理,得到原始信息中的各分词后,确定每个分词的词性,对于分词是标点符号的,可以将该分词的词性用w表示。延续上例,假设服务器获取到的法律文书中包含的信息为“被告:张三,性别:男,1985年10月21日出生”,服务器采用上述提到的分词处理方式,对“被告:张三,性别:男,1985年10月21日出生”进行分词处理,并按照各分词在“被告:张三,性别:男,1985年10月21日出生”中的排序,确定出由各分词构成的分词序列,并确定分词序列中每个分词的词性(也就是说,确定分词序列中每个分词的第一词性与第二词性),从而得到如表1所示的数据:分词第一词性第二词性被告n/基本词-中文:wother张三n/人名-中国人名,wother性别n/基本词-中文:wother男n/产品类型修饰词,wother1985年10月21日n/date出生vi/基本词-中文表1s104:根据所述分词序列,确定所述每个分词各自对应的观察特征序列。由于本申请是通过条件随机场模型实现的,因此,服务器在确定出由各分词构成的分词序列后,需要确定出该分词序列中每个分词各自对应的观察特征序列。在确定每个分词各自对应的观察特征序列的整个过程中,服务器每读取分词序列中的一个分词时,通过预先建立的特征模板确定出一个观察特征序列,直到把所有分词各自对应的观察特征序列都确定完为止,其中,对于特征模板,本申请给出了以下示例性的给出五个特征模板:#unigramu00:%x[-2,0]u01:%x[-1,0]u02:%x[0,0]u03:%x[1,0]u04:%x[2,0]。另外,为了提高信息提取的准确率,服务器在确定出由各分词构成的分词序列后,还需要确定分词序列中每个分词的词性,也就是说,每个分词的词性也决定了该分词对应的观察特征序列,从而决定了该分词到底对应哪个标签,因此,在通过条件随机场模型,确定该分词序列中每个分词各自对应的观察特征序列的过程中,还需要结合各分词的词性,具体的,根据该分词序列中的分词内容、分词词序以及分词词性,确定每个分词各自对应的观察特征序列,其中,分词内容指的是分词序列中的每个分词,分词词序指的是分词序列中每个分词的前后顺序。沿用上例,假设采用的上述给出的五个特征模板,服务器在读取分词序列“被告”、“:”、“张三”、“,”、“性别”、“:”、“男”、“,”、“1985年10月21日”、“出生”之后,生成了如表2所示的各观察特征序列:表2s105:根据所述每个分词各自对应的观察特征序列,通过预先建立的条件随机场模型,确定出使各观察特征序列的联合概率最大的每个分词的分类标签。在本申请中,由于后续是通过分类标签的形式将各分词进行分类,并将所需信息对应的分类标签对应的信息抽取出来即可,其中,所述分类标签的种类是预先设置的,因此,在确定出的由各分词构成的分词序列以及各观察特征序列后,需要确定出该分词序列中每个分词的分类标签。而在确定序列中每个分词的分类标签的过程中,本申请是通过条件随机场模型实现的,由于条件随机场模型的核心是在给定输入序列(也就是,分词序列中所有分词对应的各观察特征序列)以及给定输出序列(也就是,各分词对应的分类标签,按照各分词在序列中顺序,依次排序而构成的序列,即,分类标签序列)的情况下,确定出输出序列的联合概率,并且,又由于输出序列的联合概率越大,则说明输出序列是正确的可能性越大,联合概率越小,则说明输出序列是正确的可能性越小,因此,在本申请中,在确定分词序列中每个分词的分类标签的过程中,可直接在给定出输入序列(也就是,分词序列中所有分词对应的各观察特征序列)的情况下,确定出联合概率最大的输出序列(也就是,各分词对应的分类标签,按照各分词在序列中顺序,依次排序而构成的序列,即,分类标签序列),从而确定出每个分词的分类标签。延用上例,假设预先建立的分类标签的种类包含以下几种:0(不需要关注的信息对应的分类标签)、dname(需要关注的姓名信息对应的分类标签)、dsex(需要关注的性别信息对应的分类标签)、dbirthday(需要关注的生日信息对应的分类标签),服务器根据表2中确定出的各观察特征序列,通过预先建立的条件随机场模型,确定出使表2中确定出的各观察特征序列的联合概率最大的分类标签序列,从而确定出每个分词的分类标签,假设确定出的各分词的分类标签如表3所述:分词第一词性第二词性分类标签被告n/基本词-中文0:wother0张三n/人名-中国人名dname,wother0性别n/基本词-中文0:wother0男n/产品类型修饰词dsex,wother01985年10月21日n/datedbirthday出生vi/基本词-中文0表3因此,最后得到的分类标签序列为“0”、“0”、“dname”、“0”、“0”、“0”、“dsex”、“0”、“dbirthday”、“0”。s106:根据确定的各分词的分类标签,从所述原始信息中提取所需信息。在本申请中,服务器在确定出使由各分词构成的分词序列的联合概率最大的分类标签序列后,可确定用户所需信息对应的分类标签,将该分类标签作为指定标签,并从该原始信息中提取出指定标签对应的信息。延用上例,假设用户所需的信息对应的分类标签为“dname、dsex、dbirthday”,服务器将“dname、dsex、dbirthday”作为指定标签,服务器在确定出使表2中确定出的各观察特征序列的联合概率最大的分类标签序列为“0”、“0”、“dname”、“0”、“0”、“0”、“dsex”、“0”、“dbirthday”、“0”后,将“dname”对应的“张三”、“dsex”对应的“男”、“dbirthday”对应的“1985年10月21日”提取出来。通过上述方法,无论待提取的信息是否是按照固定的信息格式构成的,都可以有效的将待提取的信息中,用户所需的信息提取出来,提高了信息提取的准确率。另外,在通过预先建立的条件随机场模型,确定出使各观察特征序列的联合概率最大的每个分词的分类标签时,本申请还提供了条件随机场模型所涉及的核心公式,具体为:服务器根据公式确定出使p(y|x,λ)最大的每个分词的分类标签,其中,z(x)表示为归一化函数,λj表示第j个特征函数对应的权重,fj表示该条件随机场模型中的第j个特征函数,yi-1表示所述分词序列中第i-1个分词对应的分类标签,yi表示所述分词序列中第i个分词对应的分类标签,x表示每个分词各自对应的观察特征序列。进一步的,本申请还提供了一种条件随机场模型的建立方式,后续,服务器可直接使用建立好的模型,在给定分词序列中所有分词对应的各观察特征序列(即,输入序列)的情况下,确定出使各观察特征序列的联合概率最大的每个分词的分类标签。以下是条件随机场模型具体的建立方式:预先获取样本信息,对该样本信息进行分词,得到该样本信息中的各分词,按各分词在该样本信息中的排序,确定由各分词构成的样本序列,确定该样本序列中各分词的词性,根据该样本序列中各分词的排序、各分词的词性以及已知的各分词的分类标签,训练得到条件随机场模型。在此需要说明的是,训练条件随机场模型时,具体是根据样本序列中各分词的排序、各分词的词性以及已知的各分词的分类标签,训练条件随机场模型中的核心公式中的λj以及fj,而所有的特征函数f是根据所述样本序列中各分词的排序、各分词的词性、已知的各分词的分类标签以及预先建立的特征模板确定出来的,其中,对于训练条件随机场模型时所使用的特征模板与步骤s104中所涉及的特征模板是一致的,服务器通过上述五个特征模板以及所述样本序列中各分词的排序、各分词的词性、已知的各分词的分类标签训练出条件随机场模型中的所有特征函数f。以上为本申请实施例提供的信息提取方法,基于同样的思路,本申请实施例还提供一种信息提取装置,如图2所示。图2为本申请实施例提供的信息提取装置结构示意图,所述装置包括:获取模块201,用于获取原始信息;分词模块202,用于对所述原始信息进行分词处理,得到所述原始信息中的各分词;分词序列确定模块203,用于按各分词在所述原始信息中的排序,确定由各分词构成的分词序列;特征序列确定模块204,用于根据所述分词序列,确定所述每个分词各自对应的观察特征序列;分类标签确定模块205,用于根据所述每个分词各自对应的观察特征序列,通过预先建立的条件随机场模型,确定出使各观察特征序列的联合概率最大的每个分词的分类标签;提取模块206,用于根据确定的各分词的分类标签,从所述原始信息中提取所需信息。所述装置还包括:词性确定模块207,用于在所述特征序列确定模块204确定所述每个分词各自对应的观察特征序列之前,确定所述分词序列中每个分词的词性;所述特征序列确定模块204具体用于,根据所述分词序列中的分词内容、分词词序以及分词词性,确定所述每个分词各自对应的观察特征序列。所述分类标签确定模块205具体用于,预先获取样本信息,对所述样本信息进行分词,得到所述样本信息中的各分词,按各分词在所述样本信息中的排序,确定由各分词构成的样本序列,确定所述样本序列中各分词的词性,根据所述样本序列中各分词的排序、各分词的词性以及已知的各分词的分类标签,训练得到条件随机场模型。所述分类标签确定模块205具体用于,根据公式确定出使p(y|x,λ)最大的每个分词的分类标签,其中,z(x)表示为归一化函数,λj表示第j个特征函数对应的权重,fj表示所述条件随机场模型中的第j个特征函数,yi-1表示所述分词序列中第i-1个分词对应的分类标签,yi表示所述分词序列中第i个分词对应的分类标签,x表示每个分词各自对应的观察特征序列。所述提取模块206具体用于,确定所需信息对应的分类标签,作为指定标签,从所述原始信息中提取所述指定标签对应的信息。在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1