本申请涉及计算机领域,具体而言,涉及一种数据处理方法和装置。
背景技术
在人工智能领域,用户在输入一个文本信息后,需要获得文本信息中的实体和实体之间的关系,以便利用该关系进行后续处理,但是目前尚未提成有效的解决方案。
技术实现要素:
本申请的主要目的在于提供一种数据处理方法和装置,以解决现有技术中,无法获得文本信息中实体与实体之间关系的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种数据处理方法,所述方法包括:
获取文本信息中的所有名词,以将所有的所述名词作为实体;
确定各所述名词对应的实体类型;
对所述文本信息进行分析,确定具有语法关系的所述名词对应的实体类型之间的语法关系类型,以将所述语法关系类型作为实体之间的关系。
可选地,所述获取文本信息中的所有名词,包括:
对所述文本信息进行句子拆分,以得到所述文本信息中的各句子;
对各所述句子进行分词处理,以得到该句子中的各词语;
根据指定的词性标注规则,对该句子中的各词语进行词性标注,以得到该句子中的名词。
可选地,在根据指定的词性标注规则,对该句子中的各词语进行词性标注之前,所述方法还包括:
对各所述句子中的指定类型的词语进行过滤;
其中,所述指定类型的词语包括以下至少一种:
预设的停用词、限定词、副词、比较副词和助词。
可选地,所述确定各所述名词对应的实体类型,包括:
使用各所述名词在各预设的不同类型的词典中进行比对;
将具有相同名词的词典确定为该名词的目标词典;
获取为所述目标词典配置的类型标识,以将所述类型标识作为该名词对应的实体类型。
可选地,所述方法还包括:
对所述实体之间的关系按照指定方式进行处理;
其中,所述指定方式包括以下至少一种方式:
输出所述实体之间的关系、显示所述实体之间的关系和存储所述实体之间的关系。
为了实现上述目的,根据本申请的一个方面,提供了一种数据处理装置,所述装置包括:
获取单元,用于获取文本信息中的所有名词,以将所有的所述名词作为实体;
类型确定单元,用于确定各所述名词对应的实体类型;
关系确定单元,用于对所述文本信息进行分析,确定具有语法关系的所述名词对应的实体类型之间的语法关系类型,以将所述语法关系类型作为实体之间的关系。
可选地,在所述获取单元用于获取文本信息中的所有名词时,具体用于:
对所述文本信息进行句子拆分,以得到所述文本信息中的各句子;
对各所述句子进行分词处理,以得到该句子中的各词语;
根据指定的词性标注规则,对该句子中的各词语进行词性标注,以得到该句子中的名词。
可选地,所述装置还包括:
过滤单元,用于在所述获取单元根据指定的词性标注规则,对该句子中的各词语进行词性标注之前,对各所述句子中的指定类型的词语进行过滤;
其中,所述指定类型的词语包括以下至少一种:
预设的停用词、限定词、副词、比较副词和助词。
可选地,在所述类型确定单元用于确定各所述名词对应的实体类型时,具体用于:
使用各所述名词在各预设的不同类型的词典中进行比对;
将具有相同名词的词典确定为该名词的目标词典;
获取为所述目标词典配置的类型标识,以将所述类型标识作为该名词对应的实体类型。
可选地,所述装置还包括:
处理单元,用于对所述实体之间的关系按照指定方式进行处理;
其中,所述指定方式包括以下至少一种方式:
输出所述实体之间的关系、显示所述实体之间的关系和存储所述实体之间的关系。
本申请的实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,先获取文本信息中的所有名词,以将所有的所述名词作为实体;再确定各所述名词对应的实体类型;然后对所述文本信息进行分析,确定具有语法关系的所述名词对应的实体类型之间的语法关系类型,以将所述语法关系类型作为实体之间的关系,在通过上述方法后,可以获取到文本信息中实体与实体之间的关系,从而便于利用得到的实体与实体之间的关系进行后续处理。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请提供的一种数据处理方法的流程示意图;
图2为本申请提供的另一种数据处理方法的流程示意图;
图3为本申请提供的另一种数据处理方法的流程示意图;
图4为本申请提供的一种数据处理装置的结构示意图;
图5为本申请提供的另一种数据处理装置的结构示意图;
图6为本申请提供的另一种数据处理装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1为本申请提供的一种数据处理方法的流程示意图,如图1所示,该方法包括以下步骤:
101、获取文本信息中的所有名词,以将所有的所述名词作为实体。
具体的,为了确定出一个文本信息中实体与实体之间的关系,需要确定出文本信息中包括的所有实体,而文本信息中的实体为文本信息中的名词,因此需要确定出文本信息中所有的名词,以便于根据获得的名词确定实体与实体之间的关系。
需要注意的是,文本信息中的名词的获取方式根据实际需要进行设定,在此不做具体限定。
当文本信息中有名词缩写时,以id(identification,身份标识号)为例,当文本信息中出现id后,确定出文本信息中所有的id的缩写,以及所有的identification,以及所有的身份标识号,并将上述三种不同形式但表述同一名词的词统一为一个名词,以便于提高获取文本信息中所有的名词时的准确性。
102、确定各所述名词对应的实体类型。
具体的,实体类型包括但不限于时间、人名、地名、公司等,即需要确定获得的名词时时间类的名词,还是人名类的名词等,具体的实体类型可以根据实际需要进行设定,在此不做具体限定。
103、对所述文本信息进行分析,确定具有语法关系的所述名词对应的实体类型之间的语法关系类型,以将所述语法关系类型作为实体之间的关系。
具体的,在一个包括多个名词的文本信息中,一个名词可以与其他所有名词都具有关系,该关系可以为主谓关系、动宾关系或间宾关系等,为了确定文本信息中所有实体之间的关系,因此需要确定所有具有语法关系的名词对应的实体类型之间的语法关系的类型,以便于将所述语法关系类型作为实体之间的关系,从而确定出文本信息中所有实体中两两实体之间的关系。
需要注意的是,上述提到的具有语法关系的名词中,具体的语法关系可以根据实际需要进行设置,在此不对具体的语法关系进行限定。
举例说明,在确定语法关系类型时,还可以根据以下规则中的至少一种来进行确定:
1、verbindependencypath规则
在规则抽取的过程中,句法依存树的实体之间的依赖路径上存在带方向的级联关系。依赖路径上的每个动词,分别存在动词的左向、右向以及双向关系。比如:特朗普当选美国总统,依存句法分析得到“当选“为核心谓词,关系推导:{特朗普->当选(pos_vb)}and{当选(pos_vb)<-美国总统}=>{relationverb=当选}。在这个例子中,两个实体特朗普和美国总统所在句子的被依存句法树中的核心谓词“当选”从左右两个不同的方向连接,所以根据当前规则(两个实体间依赖路径存在动词),判定“当选“为这两个实体的关系动词。
2、nominalization规则
使用依存句法树结构来处理涉及名词化的谓词结构,使用模板来识别名化的特征,模板格式如:[<nominalization_term><prep(pos)><entitya><prep(pos)><entityb>]。
3、negation规则
negation作用于每个实体对而非句子。使用依存关系neg来指定negation词和被修饰词之间的关系。比如对于句子“金刚烷胺与帕金森病呈负相关”,关系推导为:
4、voice规则
voice规则适用于英文中的被动语态形式的动词关系。比如,“thedocumentwasmodified”auxpass(modified,was)。
5、determinationofclause规则
此规则用于处理含有从句的句子中的实体关系分析。要检测实体间是否存在关系,在句子识别和依存关系分析时进行从句识别非常重要。句子识别要做的事情是检测是否存在嵌套子句,以及句子的起始点和结束点。从句识别主要看句子中是否含有从属连词。如果一个实体在从属连词的左侧,一个实体在从属连词的右侧,则这两个实体的关系为none。
在本申请实施例中,先获取文本信息中的所有名词,以将所有的所述名词作为实体;再确定各所述名词对应的实体类型;然后对所述文本信息进行分析,确定具有语法关系的所述名词对应的实体类型之间的语法关系类型,以将所述语法关系类型作为实体之间的关系,在通过上述方法后,可以获取到文本信息中实体与实体之间的关系,从而便于利用得到的实体与实体之间的关系进行后续处理。
在一个可行的实施方案中,图2为本申请提供的另一种数据处理方法的流程示意图,在执行步骤101时,如图2所示,可以通过以下步骤实现:
201、对所述文本信息进行句子拆分,以得到所述文本信息中的各句子。
202、对各所述句子进行分词处理,以得到该句子中的各词语。
203、根据指定的词性标注规则,对该句子中的各词语进行词性标注,以得到该句子中的名词。
具体的,由于名词的最小承载单元为句子,因此在获得一个文本信息后,需要获取文本信息中包括的所有句子,然后对每个句子进行处理,以获得每个句子中包括词语,该词语包括但不仅包括名词,在根据指定的词性标注规则,对句子中的各词语进行词性标注,以便确定出每个句子中的名词。
需要注意的是,获得文本信息中的各句子的具体句子拆分方式可以根据实际需要进行设定,在此不做具体限定,以及得到句子中的各词语的具体分词处理方式也可以根据实际需要进行设定,在此也不做具体限定,以及具体的词性标注规则,也可以根据实际需要进行设定,在此也不做具体限定,其中,词性包括但不限于名词、动词、介词和形容词等。
以bio格式的词性标注规则为例,其中b表示实体的开始字符,i表示实体的非开始字符,o表示非实体字符,所有非o的字符可以被识别为实体。为了能够识别不同的实体类型,在标注实体字符b或i后需要加上实体类型标记。实体类型标记预先定义,比如可以定义name表示人名,loc表示地名,time表示时间,company表示公司等。比如“达观数据是一家人工智能公司”被标注为“达b/观i/数i/据i-company/是o/一o/家o/人b/工i/智i/能i/公i/司i”。
在一个可行的实施方案中,在根据指定的词性标注规则,对该句子中的各词语进行词性标注之前,还需要对各所述句子中的指定类型的词语进行过滤,其中,所述指定类型的词语包括以下至少一种:预设的停用词、限定词、副词、比较副词和助词,例如,将句子中预设的停用词、限定词、副词、比较副词和助词去除,以便于减少计算量,以及确保词性标注的准确性。
在一个可行的实施方案中,图3为本申请提供的另一种数据处理方法的流程示意图,在执行步骤102时,如图3所示,可以通过以下步骤实现:
301、使用各所述名词在各预设的不同类型的词典中进行比对。
302、将具有相同名词的词典确定为该名词的目标词典。
303、获取为所述目标词典配置的类型标识,以将所述类型标识作为该名词对应的实体类型。
具体的,预先设定不同类型的词典,例如,预先设定时间对应的词典、人名对应的词典、地名对应的词典等词典,然后使用所有的名词和词典进行对比,确定该名词对应哪个词典,然后将包含该名词的词典确定为该名词的目标词典,并且预先为不同类型的词典配置类型标识,例如,人名对应的词典的标识为name,地名对应的词典的标识为loc,时间对应的词典的标识为time,公司对应的词典的标识为company等,在确定出目标词典后,将为目标词典配置的类型标识确定为该名词对应的实体类型,即实体的类型为公司、人名、时间或地名等。
需要注意的是,预设的词典的类型可以根据实际需要进行设置,在此不做具体限定,以及为不同类型的词典配置的类型标识也可以根据实际需要进行设置,在此也不做具体限定。
在一个可行的实施方案中,在执行完步骤103后,还可以对所述实体之间的关系按照指定方式进行处理;其中,所述指定方式包括以下至少一种方式:输出所述实体之间的关系、显示所述实体之间的关系和存储所述实体之间的关系。
需要注意的是,具体的处理方式可以根据实际需要进行设定,在此不做具体限定,当然在获得实体之间的关系后,还可以按照其他方式对上述关系进行处理,在此不再一一赘述。
图4为本申请提供的一种数据处理装置的结构示意图,如图4所示,该装置包括:
获取单元41,用于获取文本信息中的所有名词,以将所有的所述名词作为实体;
类型确定单元42,用于确定各所述名词对应的实体类型;
关系确定单元43,用于对所述文本信息进行分析,确定具有语法关系的所述名词对应的实体类型之间的语法关系类型,以将所述语法关系类型作为实体之间的关系。
在一个可行的实施方案中,在所述获取单元41用于获取文本信息中的所有名词时,具体用于:
对所述文本信息进行句子拆分,以得到所述文本信息中的各句子;
对各所述句子进行分词处理,以得到该句子中的各词语;
根据指定的词性标注规则,对该句子中的各词语进行词性标注,以得到该句子中的名词。
在一个可行的实施方案中,图5为本申请提供的另一种数据处理装置的结构示意图,如图5所示,所述装置还包括:
过滤单元44,用于在所述获取单元根据指定的词性标注规则,对该句子中的各词语进行词性标注之前,对各所述句子中的指定类型的词语进行过滤;
其中,所述指定类型的词语包括以下至少一种:
预设的停用词、限定词、副词、比较副词和助词。
在一个可行的实施方案中,,在所述类型确定单元42用于确定各所述名词对应的实体类型时,具体用于:
使用各所述名词在各预设的不同类型的词典中进行比对;
将具有相同名词的词典确定为该名词的目标词典;
获取为所述目标词典配置的类型标识,以将所述类型标识作为该名词对应的实体类型。
在一个可行的实施方案中,图6为本申请提供的另一种数据处理装置的结构示意图,如图6所示,所述装置还包括:
处理单元45,用于对所述实体之间的关系按照指定方式进行处理;
其中,所述指定方式包括以下至少一种方式:
输出所述实体之间的关系、显示所述实体之间的关系和存储所述实体之间的关系。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在本申请实施例中,先获取文本信息中的所有名词,以将所有的所述名词作为实体;再确定各所述名词对应的实体类型;然后对所述文本信息进行分析,确定具有语法关系的所述名词对应的实体类型之间的语法关系类型,以将所述语法关系类型作为实体之间的关系,在通过上述方法后,可以获取到文本信息中实体与实体之间的关系,从而便于利用得到的实体与实体之间的关系进行后续处理。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。