命名实体的识别方法及装置的制造方法_2

文档序号:9506169阅读:来源:国知局
1]图1是根据一示例性实施例示出的一种命名实体的识别方法的流程图。
[0072]图2A是根据一示例性实施例示出的另一种命名实体的识别方法的流程图。
[0073]图2B是根据一示例性实施例示出的一种命名实体的识别方法的场景图。
[0074]图3是根据一示例性实施例示出的另一种命名实体的识别方法的流程图。
[0075]图4是根据一示例性实施例示出的一种根据词序列确定候选命名实体的左边界和右边界的方法流程图。
[0076]图5是根据一示例性实施例示出的一种命名实体的识别装置的框图。
[0077]图6是根据一示例性实施例示出的另一种命名实体的识别装置的框图。
[0078]图7是根据一示例性实施例示出的另一种命名实体的识别装置的框图。
[0079]图8是根据一示例性实施例示出的另一种命名实体的识别装置的框图。
[0080]图9是根据一示例性实施例示出的另一种命名实体的识别装置的框图。
[0081]图10是根据一示例性实施例示出的另一种命名实体的识别装置的框图。
[0082]图11是根据一示例性实施例示出的一种适用于命名实体的识别装置的框图。
【具体实施方式】
[0083]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0084]图1是根据一示例性实施例示出的一种命名实体的识别方法的流程图,如图1所示,该命名实体的识别方法可应用于移动终端上,该移动终端可以包括但不局限于手机、平板电脑(PAD)等,该方法包括以下步骤S101-S 103:
[0085]在步骤S101中,记录用户在输入信息时输入的词序列。
[0086]在该实施例中,用户在使用输入法输入信息例如短信时,记录用户输入的词序列。
[0087]例如,用户在输入短信“张梅,晚上在南苑饭店西餐厅碰面。”时,记录的词序列可以为:“张梅”、“,”、“晚上”、“在”、“南苑饭店西餐厅”、“碰面”、“。”;也可以为“张梅”、“,”、“晚上”、“在南苑饭店西餐厅”、“碰面”、“。”
[0088]需要说明的是,记录的词序列与用户使用输入法的习惯有关,即不同用户输入相同信息时,记录的词序列有可能不同。
[0089]在步骤S102中,根据条件随机场识别出信息中的候选命名实体。
[0090]在该实施例中,可以根据条件随机场(CRF)识别出上述信息中的候选命名实体,由于CRF可以采用不同的模型,因此,识别出的候选命名实体可以为“张梅”和“南苑饭店西餐厅”,也可以为“张梅”、“南苑饭店”和“西餐厅”。
[0091]在步骤S103中,根据记录的词序列对候选命名实体进行校正,以识别出信息中的命名实体。
[0092]在该实施例中,由于识别出的候选命名实体可能不准确,因此,需要进行校正,例如,可以根据记录的词序列对候选命名实体进行校正,从而识别出命名实体。
[0093]在该实施例中,对候选命名实体进行校正,以识别出信息中的命名实体的过程可以包括:根据词序列确定每个候选命名实体的左边界和右边界,然后根据每个候选命名实体的左边界和右边界确定信息中的命名实体。
[0094]假设,根据词序列“张梅”确定出候选命名实体“张梅”的左边界为“张”,右边界为“梅”,则可以确定“张梅”为信息中的命名实体。
[0095]上述命名实体的识别方法实施例,根据记录的词序列对候选命名实体进行校正,不仅能够从信息中自动识别出命名实体,而且识别的准确率高、消耗的资源少。
[0096]图2A是根据一示例性实施例示出的另一种命名实体的识别方法的流程图,如图2A所示,在步骤S103之后,该方法还可以包括:
[0097]在步骤S104中,采用预设的实体标签对信息中的命名实体进行标注。
[0098]为了降低对资源的消耗,该实施例中,可以采用预设的实体标签对信息中的命名实体进行标注,其中,预设的实体标签可以包括:
[0099]〈NAME〉...〈/NAME〉,用于对人名进行标注;
[0100]<L0C>...</L0C>,用于对地名进行标注;
[0101]<0RG>...</0RG>,用于对组织机构名进行标注。
[0102]例如,短信A为:“张梅,晚上在南苑饭店西餐厅碰面。”。
[0103]采用预设的实体标签对短信A进行标记后,得到A’:
[0104]“〈NAME〉张梅〈/NAME〉,晚上在<0RG>南苑饭店西餐厅</0RG>碰面。”
[0105]在步骤S105中,发送标注后的信息,以便接收端对标注后的信息进行还原。
[0106]在采用预设的实体标签对信息中的命名实体进行标注之后,可以发送标记后的信息例如标记后的短信A’。
[0107]接收端在接收到短信A’后,可以读出其中的命名实体,并去掉标签,将短信还原成原始短信,即将短信A’还原成短信A。
[0108]在该实施例中,接收端可以为目标用户的移动终端例如手机。
[0109]例如,如图2B所示,用户1的手机21在识别出当前短信A中的命名实体后,对短信A进行标记,假设标记后的短信为短信A’,然后向目标用户例如用户2的手机22发送短信A’,手机22在接收到短信A’后,读出其中的命名实体,去掉标签,然后将短信A’还原成短信A。
[0110]上述命名实体的识别方法实施例,采用一种融合实体标签标注的短信发送格式,大大降低了短信中命名实体识别时的资源消耗。
[0111]图3是根据一示例性实施例示出的另一种命名实体的识别方法的流程图,如图3所示,在步骤S103之后,该方法还可以包括:
[0112]在步骤S106中,根据命名实体生成提醒记录或进行预设的业务操作。
[0113]在该实施例中,在从信息(例如短信)中识别出命名实体后,可以辅助进行事件抽取,然后基于抽取的事件生成提醒记录。也可以用于地图查找地址或是导航等业务操作。
[0114]上述命名实体的识别方法实施例,可以根据命名实体生成提醒记录或进行预设的业务操作,为用户提供了便利。
[0115]图4是根据一示例性实施例示出的一种根据词序列确定候选命名实体的左边界和右边界的方法流程图,如图4所示,该方法可以包括以下步骤:
[0116]在步骤S401中,判断当前候选命名实体的第一个字符是否为对应词序列的第一个字符,若为对应词序列的第一个字符,则执行步骤S402,否则,执行步骤S403-S406。
[0117]在该实施例中,假设短信A = AA..^,其中AAfAj为当前候选命名实体,则使用输入的词序列进行校正的过程包括:根据词序列判定~是否是左边界,判定的方法为:在用户输入的词序列中,判断4是否为对应词序列的第一个字符。
[0118]在步骤S402中,确定当前候选命名实体的第一个字符为左边界,转向执行步骤S407o
[0119]如果&是对应词序列的第一个字符,则A i是当前候选命名实体的左边界。
[0120]假设,当前候选命名实体为“南苑饭店西餐厅”,对应的词序列为“南苑饭店西餐厅”,由于~即“南”是对应词序列的第一个字符,因此,“南”是当前候选命名实体“南苑饭店西餐厅”的左边界。
[0121]在步骤S403中,将对应词序列中当前候选命名实体的第一个字符之前的词确定为第一对象,将第一对象之前的词确定为第二对象。
[0122]如果&不是对应词序列的第一个字符,则从A JP A t中选择一个作为左边界。其中,Α^..Α^..ΑΧ*输入的词序列中独立的词,Α Α+Γ'?;:为在Α ;之前的一个词,A bAb+1--*At j为在At之前的一个词。
[0123]在该实施例中,将A人+1..^痛定为第一对象,将AbAbV"At:确定为第二对象。
[0124]假设,当前候选命名实体为“南苑饭店西餐厅”,对应的词序列为“在南苑饭店西餐厅”,由于~即“南”不是对应词序列的第一个字符,因此,需要从“晚上”和“在”中选择一个作为左边界。
[0125]在步骤S404中,计算第一对象之后出现命名实体的概率,并将计算结果确定为第一概率。
[0126]计算第一概率p(NEq/A人+1..^》,其中,p (NEq/A人+1..^ ^表示A人+1..^ i的后面出现命名实体NEq的概率,其中,NE q的取值可以包括:NAME,ORG,L0C等。
[0127]在步骤S405中,计算第二对象之后出现命名实体的概率,并将计算结果确定为第二概率。
[0128]计算第二概率p(NEq/AbAb+1-At J,其中,AbAb+1-At:为在 At2前的一个词。p (NE q/AbAb+r**At i)表示在AbAb+1-At:的后面出现命名实体NE q的概率。
[0129]在步骤S406中,若第一概率大于第二概率,则确定当前候选命名实体的第一个字符为左边界,若第一概率小于第二概率,则确定第一对象的第一个字符为左边界。
[0130]若ρ (ΝΕ,/ΑΛ.Γ-Α, i) >p (NEq/AbAb+1*"At J,则Ai是当前候选命名实体的左边界,反之,At是当前候选命名实体的左边界。
[0131]继续上例进行描述,假设“在”之后出现命名实体的概率大于“晚上”之后出现命名实体的概率,则确定“南”是当前候选命名实体“南苑饭店西餐厅”的左边界。
[0132]在步骤S407中,判断当前候选命名实体的最后一个字符是否为对应词序列的最后一个字符,若为对应词序列的最后一个字符,则执行步骤S408,否则执行步骤S409-S412。
[0133]在该实施例中,在确定好当前候选命名实体的左边界之后,继续确定当前候选命名实体的右边界
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1