用于识别对话中所提及的人的方法和装置制造方法

文档序号:6486283阅读:186来源:国知局
用于识别对话中所提及的人的方法和装置制造方法
【专利摘要】本发明涉及一种用于识别对话中所提及的人的方法和装置。一种用于识别对话中所提及的人的方法,包括:识别与从所述对话获取的所提及的人名相关的至少一个人名实体;获取与所提及的人名相关的一组候选标识符;从内部资源和外部资源为每个候选标识符获取至少一个关系特征,其中所述关系特征表示所述候选标识符与所述至少一个人名实体之间的关系;以及基于所述至少一个关系特征,从该组候选标识符中选择一个标识符作为所提及的人名的标识符。根据本发明的方法和装置,能够准确地识别所提及的人。
【专利说明】用于识别对话中所提及的人的方法和装置
【技术领域】
[0001]本发明涉及用于识别对话中所提及的人的方法和装置,更具体地说,涉及能够在自然语言处理中准确识别所提及的人的人名实体的方法和装置。
【背景技术】
[0002]随着计算机技术的发展,存在自动识别对话中人的姓名的需要。通常,一个对话中的各个人名可以分成所提及的人名(Mentioned Person Name, MPN)和未提及的人名(Non-Mentioned Person Name,NMPN)。本文中,所提及的人名是指在对话的交谈期间被提及的人的姓名,而未提及的人名是指在对话的上下文中、但是没有在交谈期间提及的人的姓名。为了使这些术语更清楚,图1示出了会议记录的一个示例。该会议记录是对话的一个例子。如图1所示,会议记录中包含两个出席者,一个是IT部门经理David Hill,另一个是本地化部门经理Alex Bell0此外,在Hill发言期间,提到了第三个人的姓名,即Lee。在这个例子中,在对话前面的姓名“Bel I ”和“Hi 11 ”被称作未提及的人名(NMPN),因为他们都没有出现在对话中。姓名“Lee”被称作所提及的人名(MPN),因为Hill在发言中提到了该名字。
[0003]如图1的例子所示,通常很容易识别出NMPN的身份。以“Hill”为例,可以很容易识别出位于对话之前的术语“Hill”。由于“Hill”已经被列为出席者,从而可以搜索出席者的名单以寻找匹配,所以可以很容易识别出“Hill”是IT部门经理“David Hill”。此外,能够从以上信息中确定“David Hill”的唯一的标识符。这里的标识符可以是例如,分配给公司的每个雇员的唯一的ID。另一方面,很难识别“Lee”的身份,因为“Lee”仅仅由Hill提及并且可能并没有被列为出席者,所以可能有许多人的名字都叫“Lee”。
[0004]过去,已经有用于识别人名的技术。例如,在美国专利(US7,685,201B2)中描述了使用基于姓名实体提取的分类的用于人物消歧的技术,该技术使得能够清楚区分具有相同姓名的不同人。姓名实体提取定位搜索结果中的人名的一定距离内的词(条目)。这些条目用于对对应于具有相同姓名的不同人的搜索结果消歧,例如,位置信息、组织信息、职业信息和/或合伙人信息等。在一个不例中,每个人被表不成一个向量,并且基于与一个人的条目的接近程度和/或条目的类型对应的权重来计算各个向量之间的相似度。然后,基于相似度的数据,把表示同一个人的人物向量合并到一个类中,使得各个类(以较高的概率)只表示不同的人。
[0005]此外,美国专利申请公开US2007/0233656A1描述了一种命名实体消歧的方法,其中使用消歧分数模型来在搜索结果和其它上下文中对命名实体消歧。通过使用文献的知识库(包括关于命名实体的文献)来开发该分数模型。知识库的各个方面,例如文献题目、重定向页面、消歧页面、超链接以及类别等,都可以用来开发该分数模型。
[0006]但是,上面介绍的现有技术不能足够准确地识别被提及的人(即所提及的人)。在许多情况下,不能唯一地识别所提及的人。在应用上述各个方法之后仍然有多个识别符(每个识别符对应一个唯一的人)。
【发明内容】

[0007]本发明的目的之一是解决上述问题中的至少一个。
[0008]根据本发明的一个实施例,提供了一种用于识别对话中所提及的人的方法,包括:识别与从所述对话获取的所提及的人名相关的至少一个人名实体;获取与所提及的人名相关的一组候选标识符;从内部资源和外部资源为每个候选标识符获取至少一个关系特征,其中所述关系特征表示所述候选标识符与所述至少一个人名实体之间的关系;以及基于所述至少一个关系特征,从该组候选标识符中选择一个标识符作为所提及的人名的标识符。其中所述关系特征优选包括以下至少一种:等级差距特征,表示两个人的等级之间的差距;熟悉度特征,表示两个人之间的熟悉程度;历史称呼特征,表示在两个人间已经使用过的称呼;以及上下文关系特征,表示对话中两个人的关系。
[0009]其中所述等级差距特征包括以下至少一种:头衔差距特征,表示两个人的头衔之间的差距;以及年龄差距特征,表示两个人的年龄之间的差距。所述熟悉度特征包括以下至少一种:相同工作组特征,表示两个人是否在同一工作组中;相同专业特征,表示两个人是否为同一专业;新雇员特征,表示一个人是否为新雇员;讨论频率特征,表示两个人之间进行讨论的频率;以及工位距离特征,表示两个人的工位之间的距离。所述上下文关系特征包括以下至少一种:相同会议组特征,表示两个人是否属于同一会议组;共同参会特征,表示两个人是否都参加了会议;座位级别差距特征,表示两个人的座位级别的差距,其中各个座位被分成至少两个级别,一个级别是主座,另一个级别是副座;以及座位距离特征,表示两个人的座位之间的距离。
[0010]根据本发明的另一个实施例,提供了一种用于管理会议记录的方法,包括:利用上述用于识别对话中所提及的人的方法来识别所提及的人;以及把与所选择的标识符相关的信息嵌入到输出文本中所提及的人名处。所述关系特征优选包括以下至少一种:头衔差距特征,表示两个人的头衔之间的差距;相同工作组特征,表示两个人是否在同一工作组中;以及历史称呼特征,表示在两个人间已经使用过的称呼。
[0011]根据本发明的又一个实施例,提供了一种用于管理会议的方法,包括:利用上述用于识别对话中所提及的人的方法来识别所提及的人;以及在屏幕上显示与所选择的标识符相关的信息。所述关系特征优选包括以下至少一种:头衔差距特征,表示两个人的头衔之间的差距;相同工作组特征,表示两个人是否在同一工作组中;历史称呼特征,表示在两个人间已经使用过的称呼;座位级别差距特征,表示两个人的座位级别的差距;以及座位距离特征,表示两个人的座位之间的距离。
[0012]根据本发明的又一个实施例,提供了一种用于辅助即时消息的方法,包括:利用上述用于识别对话中所提及的人的方法来识别所提及的人;以及把与所选择的标识符相关的信息嵌入到所述即时消息中所提及的人名处。所述关系特征优选包括以下至少一种:头衔差距特征,表示两个人的头衔之间的差距;年龄差距特征,表示两个人的年龄之间的差距;姓名类别特征,表示两个人是否彼此熟悉;讨论频率特征,表示两个人之间进行讨论的频率;以及历史称呼特征,表示在两个人间已经使用过的称呼。
[0013]根据本发明的又一个实施例,提供了一种用于识别对话中所提及的人的装置,包括:用于识别与从所述对话获取的所提及的人名相关的至少一个人名实体的单元;用于获取与所提及的人名相关的一组候选标识符的单元;用于从内部资源和外部资源为每个候选标识符获取至少一个关系特征的单元,其中所述关系特征表示所述候选标识符与所述至少一个人名实体之间的关系;以及用于基于所述至少一个关系特征,从该组候选标识符中选择一个标识符作为所提及的人名的标识符的单元。
[0014]根据本发明的又一个实施例,提供了一种用于管理会议记录的装置,包括:用于利用上述用于识别对话中所提及的人的装置来识别所提及的人的单元;以及用于把与所选择的标识符相关的信息嵌入到输出文本中所提及的人名处的单元。
[0015]根据本发明的又一个实施例,提供了一种用于管理会议的装置,包括:用于利用上述用于识别对话中所提及的人的装置来识别所提及的人的单元;以及用于在屏幕上显示与所选择的标识符相关的信息的单元。
[0016]根据本发明的又一个实施例,提供了一种用于辅助即时消息的装置,包括:用于利用上述用于识别对话中所提及的人的装置识别所提及的人的单元;以及用于把与所选择的标识符相关的信息嵌入到所述即时消息中所提及的人名处的单元。
[0017]根据本发明的方法和装置,能够准确地识别所提及的人名。在本发明的一些实施例中,所提及的人名的标识符还可以进一步被嵌入到对话或即时消息中。因此,人们能够迅速知道所提及的人名指的是谁。
[0018]参照附图,结合下面的描述,本发明的进一步的特征和优点将变得清晰。
【专利附图】

【附图说明】
[0019]图1示出了会议记录的一个示例。
[0020]图2是用于解释根据本发明的一个实施例的用于识别对话中所提及的人的方法的流程图。
[0021]图3例示了用于解释根据本发明的一个实施例的用于生成数据库的方法的流程图。
[0022]图4是用于例示从一组候选标识符中选择标识符的步骤的流程图。
[0023]图5是输入对话的例子。
[0024]图6是组织图的例子。
[0025]图7例示了根据本发明的第二实施例的用于管理会议记录的装置的结构。
[0026]图8示出了根据本发明的第二实施例的用于管理会议记录的装置的处理过程的流程图。
[0027]图9例示了根据本发明的第二实施例的集成结果。
[0028]图10例示了根据本发明的第三实施例的用于管理会议的装置的结构。
[0029]图11示出了根据本发明的第三实施例的用于管理会议的装置的处理过程的流程图。
[0030]图12例示了根据本发明的第三实施例的集成结果。
[0031]图13例示了根据本发明的第四实施例的用于辅助即时消息的装置的结构。
[0032]图14示出了根据本发明的第四实施例的用于辅助即时消息的装置的处理过程的流程图。
[0033]图15例示了根据本发明的第四实施例的集成结果。[0034]图16例示了根据本发明的一个实施例的用于识别所提及的人的装置的结构。
[0035]图17是示出能够实现本发明的各个实施例的计算机系统的硬件结构的框图。
【具体实施方式】
[0036]下面,将参照附图详细描述本发明的各个优选实施例。请注意,在本说明书和附图中,具有基本相同功能和结构的结构部件用相同的参考标记来标注,省略这些结构部件的
重复解释。
[0037]图2是用于解释根据本发明的一个实施例的用于识别对话中所提及的人的方法的流程图。
[0038]如图2所示,用于识别对话中所提及的人的方法至少包括以下四个步骤:
[0039](a)识别与从对话获取的、所提及的人名相关的至少一个人名实体(步骤S211);
[0040](b)获取与所提及的人名相关的一组候选标识符(步骤S212);
[0041](c)从内部资源和外部资源获取每个候选标识符的至少一个关系特征(步骤S213),其中关系特征是指候选标识符和至少一个人名实体之间的关系;以及
[0042](d)基于至少一个关系特征来从这组候选标识符中选择一个标识符作为所提及的人名的标识符。
[0043]下面,将参照附图详细解释用于识别对话中所提及的人的方法的上述各个步骤。
[0044](a)首先,识别与从对话获取的所提及人名相关的至少一个人名实体。
[0045]人名实体可以是,例如,在对话中提到了该所提及的人名的发言者,和/或是正在聆听该发言者的一个或更多个听众。在一个优选例子中,人名实体可以包括一个发言者和至少一个听众。
[0046]在如图1所示的会议记录中,人名实体可以是“David Hill”或者是“Alex Bell”或者是这二者。在有多名听众的情况下,人名实体优选包括发言者以及已经紧挨着该发言者之前发过言的听众或者将要紧接着该发言者发言的听众。这种配置的原因在于已经紧挨着该发言者之前发过言的听众或者将要紧接着该发言者发言的听众最有可能与所提及的人名有一定关系,并且这种关系有助于最终识别所提及的人名。
[0047]对话可以存储在存储设备中并且可以读出和分析该对话以获取所提及的人名(例如,在对话是会议记录的情况下)。对话也可以被实时地生成和分析(例如,在对话是即时消息或者对话由智能会议系统实时生成的情况下)。从对话中获取所提及的人名的技术对于本领域技术人员是熟知的,因此本说明书为了简洁起见就不再描述。
[0048](b)其次,获取与所提及的人名相关的一组候选标识符。
[0049]例如,可以通过在至少包含识别符和对应的人名的数据库中基于所提及的人名搜索候选标识符,来获取候选标识符。其中数据库中的人名包括全名和各种别名,别名可以包括以下至少一种:昵称(nickname)、姓氏(surname)、赋名(given name)、中名(middlename)、以及头衔(title)与昵称、姓氏、赋名和中名中的至少一个的组合。图3例示了用于解释用于生成这种数据库的方法的流程图(S300 )。
[0050]如图3所示,从原始数据库中获得一个人的标识符(例如ID)(步骤S311)。例如,原始数据库可以是包括职员ID (作为标识符)和对应的全名的职员管理数据库。然后,从原始数据库还获得与该标识符对应的全名(步骤S312)。接下来,基于预定义的规则产生该全名的各个别名(步骤S313)。应当理解,可以基于实际应用的需要来手动定义这些规则。此外,这些规则是与语言相关的,即对于不同的语言可以定义不同的规则。表1示出了对于日语的这种规则的一个例子。如表1所示,在语言是日语的情况下,基于表1中所列的各个规则来生成一个全名的各个别名。在日语中,一个人通常具有姓氏和赋名。可以添加例如“san”、“kun”和“chan”这样的后缀。此外,可以添加表示人们的受教育程度或头衔的前缀。在日语中,可以在没有前缀或后缀的情况下直接提到赋名。因此,赋名也被定义为一种别名。
[0051]表1别名规则的例子
【权利要求】
1.一种用于识别对话中所提及的人的方法,包括: 识别与从所述对话获取的所提及的人名相关的至少一个人名实体; 获取与所提及的人名相关的一组候选标识符; 从内部资源和外部资源为每个候选标识符获取至少一个关系特征,其中所述关系特征表示所述候选标识符与所述至少一个人名实体之间的关系;以及 基于所述至少一个关系特征,从该组候选标识符中选择一个标识符作为所提及的人名的标识符。
2.根据权利要求1所述的方法,其中所述人名实体包括: 在对话中提到所提及的人名的发言者,和/或 聆听所述发言者的至少一个听众。
3.根据权利要求1所述的方法,其中获取一组候选标识符的步骤包括:基于所提及的人名,在至少包含标识符和相应的人名的数据库中搜索候选标识符, 其中所述数据库中的人名包括全名和别名,以及 其中所述别名包括以下至少一种:昵称、姓氏、赋名、中名、以及头衔与昵称、姓氏、赋名和中名中的至少一种的组合。
4.根据权利要求1所述的方法,其中所述关系特征包括以下至少一种: 等级差距特征,表示两个人的等级之间的差距;` 熟悉度特征,表示两个人之间的熟悉程度; 历史称呼特征,表示在两个人间已经使用过的称呼;以及 上下文关系特征,表示对话中两个人的关系。
5.根据权利要求4所述的方法, 其中所述等级差距特征包括以下至少一种: 头衔差距特征,表示两个人的头衔之间的差距,以及 年龄差距特征,表示两个人的年龄之间的差距; 其中所述熟悉度特征包括以下至少一种: 相同工作组特征,表示两个人是否在同一工作组中, 相同专业特征,表示两个人是否为同一专业, 新雇员特征,表示一个人是否为新雇员, 讨论频率特征,表示两个人之间进行讨论的频率,以及 工位距离特征,表示两个人的工位之间的距离; 其中所述上下文关系特征包括以下至少一种: 相同会议组特征,表示两个人是否属于同一会议组, 共同参会特征,表示两个人是否都参加了会议, 座位级别差距特征,表示两个人的座位级别的差距,其中各个座位被分成至少两个级另O,一个级别是主座,另一个级别是副座,以及 座位距离特征,表示两个人的座位之间的距离。
6.根据权利要求4或5所述的方法,其中 从外部资源提取所述熟悉度特征和所述历史称呼特征, 从外部资源和/或内部资源提取所述等级差距特征,从内部资源提取所述上下文关系特征; 其中,所述外部资源包括文本资源和图像资源,所述文本资源包括组织图、电子邮件历史记录、电子邮件联系人、简历和公共文档中的至少一种,所述图像资源至少包括工位图;以及 其中,所述内部资源包括出席者名单、会议视频和会议照片中的至少一种。
7.根据权利要求6所述的方法,其中通过从所述电子邮件历史记录提取所述候选标识符和所述至少一个人名实体之间的历史上的称呼来获得所述历史称呼特征。
8.根据权利要求6所述的方法, 其中通过以下步骤获得所述头衔差距特征: 从所述组织图提取所述候选标识符的头衔信息和所述至少一个人名实体的头衔信息,以及 基于所述头衔信息计算所述候选标识符和所述至少一个人名实体之间的头衔差; 其中通过以下步骤获得所述年龄差距特征: 从所述候选标识符和所述至少一个人名实体的简历的年龄栏提取各自的年龄值,以及 基于所述年龄值来计算所述候选标识符和所述至少一个人名实体之间的年龄差。
9.根据权利要求6所述的方法, 其中通过以下步骤获得所述相同 工作组特征: 从所述组织图提取所述候选标识符的工作组名称和所述至少一个人名实体的工作组名称,以及 基于所述工作组名称的比较结果来计算所述相同工作组特征; 其中通过以下步骤获得所述相同专业特征: 从所述组织图提取所述候选标识符的专业和所述至少一个人名实体的专业,以及 基于所述专业的比较结果来计算所述相同专业特征; 其中通过以下步骤获得所述新雇员特征: 根据所述组织图的变化来计算所述候选标识符的加入时间段,以及 基于所述加入时间段与预定的第一阈值之间的比较结果来计算所述新雇员特征; 其中通过以下步骤获得所述讨论频率特征: 根据所述电子邮件历史记录来计数所述候选标识符和所述至少一个人名实体之间的通信频率,以及 基于所述通信频率与预定的第二阈值之间的比较结果来计算所述讨论频率特征; 其中通过以下步骤获得所述工位距离特征: 从所述工位图获得所述候选标识符的工作位置和所述至少一个人名实体的工作位置,以及 基于所述工作位置来计算所述工位距离特征。
10.根据权利要求6所述的方法, 其中通过以下步骤获得所述相同会议组特征: 从所述出席者名单提取所述候选标识符的会议组名称和所述至少一个人名实体的会议组名称,以及 基于所述会议组名称的比较结果来计算所述相同会议组特征;其中通过以下步骤获得所述共同参会特征: 把所述候选标识符的姓名与所述出席者名单进行比较,以及 基于所述比较的结果计算所述共同参会特征; 其中通过以下步骤获得所述座位级别差距特征: 从所述会议视频或会议照片中提取所述候选标识符的座位级别和所述至少一个人名实体的座位级别,以及 基于所述座位级别来计算所述座位级别差距特征; 其中通过以下步骤获得所述座位距离特征: 从所述会议视频或会议照片中提取所述候选标识符的座位位置和所述至少一个人名实体的座位位置,以及 基于所述座位位置计算所述座位距离特征。
11.根据权利要求1所述的方法,其中从该组候选标识符中选择一个标识符作为所提及的人名的标识符的步骤包括: 计算各个候选标识符的至少一个关系特征的分数, 为所述至少一个关系特征分配权重, 基于所计算的分数和所分配的权重计算各个候选标识符的置信度,以及 基于所述置信度从该组候选标识符中选择一个标识符作为所提及的人名的标识符。`
12.根据权利要求11所述的方法,其中 根据所述对话的场景来分配所述权重, 从所述对话的上下文特征提取所述对话的场景,以及 所述对话的上下文特征包括对话的标题、主题和语言风格、以及出席者的衣着风格中的至少一种。
13.一种用于管理会议记录的方法,包括: 利用权利要求1-12中任一项的方法识别所提及的人;以及 把与所选择的标识符相关的信息嵌入到输出文本中所提及的人名处。
14.一种用于管理会议记录的方法,包括: 利用权利要求1的方法识别所提及的人;以及 把与所选择的标识符相关的信息嵌入到输出文本中所提及的人名处, 其中所述关系特征包括以下至少一种: 头衔差距特征,表示两个人的头衔之间的差距; 相同工作组特征,表示两个人是否在同一工作组中;以及 历史称呼特征,表示在两个人间已经使用过的称呼。
15.根据权利要求14所述的方法,其中 通过以下步骤获得所述头衔差距特征: 从组织图提取所述候选标识符的头衔信息和所述至少一个人名实体的头衔信息,以及 基于所述头衔信息计算所述候选标识符和所述至少一个人名实体之间的头衔差; 通过以下步骤获得所述相同工作组特征: 从组织图提取所述候选标识符的工作组名称和所述至少一个 人名实体的工作组名称,以及基于所述工作组名称的比较结果来计算所述相同工作组特征; 通过以下步骤获得所述历史称呼特征: 从电子邮件历史记录提取所述候选标识符和所述至少一个人 名实体之间的历史上的称呼。
16.一种用于管理会议的方法,包括: 利用权利要求1-12中任一项所述的方法来识别所提及的人;以及 在屏幕上显示与所选择的标识符相关的信息。
17.一种用于管理会议的方法,包括: 利用权利要求1所述的方法来识别所提及的人;以及 在屏幕上显示与所选择的标识符相关的信息, 其中所述关系特征包括以下至少一种: 头衔差距特征,表示两个人的头衔之间的差距; 相同工作组特征,表示两个人是否在同一工作组中; 历史称呼特征,表示在两个人间已经使用过的称呼; 座位级别差距特征,表示两个人的座位级别的差距;以及 座位距离特征,表示两个人的座位之间的距离。
18.根据权利要求17所述的方法,其中 通过以下步骤获得所述头衔差距特征: 从组织图提取所述候选标识符的头衔信息和所述至少一个人名实体的头衔信息,以及 基于所述头衔信息计算所述候选标识符和所述至少一个人名实体之间的头衔差; 通过以下步骤获得所述相同工作组特征: 从组织图提取所述候选标识符的工作组名称和所述至少一个人名实体的工作组名称,以及 基于所述工作组名称的比较结果来计算所述相同工作组特征; 通过以下步骤获得所述历史称呼特征: 从电子邮件历史记录提取所述候选标识符和所述至少一个人名实体之间的历史上的称呼; 通过以下步骤获得所述座位级别差距特征: 从会议视频或会议照片中提取所述候选标识符的座位级别和所述至少一个人名实体的座位级别,以及 基于所述座位级别来计算所述座位级别差距特征; 通过以下步骤获得所述座位距离特征: 从会议视频或会议照片中提取所述候选标识符的座位位置和所述至少一个人名实体的座位位置,以及 基于所述座位位置计算所述座位距离特征。
19.一种用于辅助即时消息的方法,包括: 利用权利要求1-12中任一项的方法识别所提及的人;以及 把与所选择的标识符相关的信息嵌入到所述即时消息中所提及的人名处。
20.一种用于辅助即时消息的方法,包括:利用权利要求1的方法识别所提及的人;以及 把与所选择的标识符相关的信息嵌入到所述即时消息中所提及的人名处, 其中所述关系特征包括以下至少一种: 头衔差距特征,表示两个人的头衔之间的差距; 年龄差距特征,表示两个人的年龄之间的差距; 姓名类别特征,表示两个人是否彼此熟悉; 讨论频率特征,表示两个人之间进行讨论的频率;以及 历史称呼特征,表示在两个人间已经使用过的称呼。
21.根据权利要求20所述的方法,其中 通过以下步骤获得所述头衔差距特征: 从即时消息的备注信息提取所述候选标识符的头衔信息和所述至少一个人名实体的头衔信息,以及 基于所述头衔信息计算所述候选标识符和所述至少一个人名实体之间的头衔差; 通过以下步骤获得所述年龄差距特征: 从即时消息的备注信息提取所述候选标识符的年龄值和所述至少一个人名实体的年龄值,以及 基于所述年龄值来计算所述候选标识符和所述至少一个人名实体之间的年龄差; 通过以下步骤获得所述姓名类别特征: 从即时消息提取所述候选标识符的姓名类别,以及 通过把所提取的姓名类别与预定的熟悉姓名类别进行比较来计算所述姓名类别特征; 通过以下步骤获得所述讨论频率特征: 根据即时消息来计数所述候选标识符和所述至少一个人名实体之间的通信频率,以及 基于所述通信频率与预定的阈值之间的比较结果来计算所述讨论频率特征; 通过以下步骤获得所述历史称呼特征: 从即时消息提取所述候选标识符和所述至少一个人名实体之间的历史上的称呼。
22.一种用于识别对话中所提及的人的装置,包括: 用于识别与从所述对话获取的所提及的人名相关的至少一个人名实体的单元; 用于获取与所提及的人名相关的一组候选标识符的单元; 用于从内部资源和外部资源为每个候选标识符获取至少一个关系特征的单元,其中所述关系特征表示所述候选标识符与所述至少一个人名实体之间的关系;以及 用于基于所述至少一个关系特征,从该组候选标识符中选择一个标识符作为所提及的人名的标识符的单元。
23.根据权利要求22所述的装置,其中所述关系特征包括以下至少一种: 等级差距特征,表示两个人的等级之间的差距; 熟悉度特征,表示两个人之间的熟悉程度; 历史称呼特征,表示在两个人间已经使用过的称呼;以及 上下文关系特征,表示对话中两个人的关系。
24.根据权利要求23所述的装置,其中其中所述等级差距特征包括以下至少一种: 头衔差距特征,表示两个人的头衔之间的差距,以及 年龄差距特征,表示两个人的年龄之间的差距; 其中所述熟悉度特征包括以下至少一种: 相同工作组特征,表示两个人是否在同一工作组中, 相同专业特征,表示两个人是否为同一专业, 新雇员特征,表示一个人是否为新雇员, 讨论频率特征,表示两个人之间进行讨论的频率,以及 工位距离特征,表示两个人的工位之间的距离; 其中所述上下文关系特征包括以下至少一种: 相同会议组特征,表示两个人是否属于同一会议组, 共同参会特征,表示两个人是否都参加了会议, 座位级别差距特征,表示两个人的座位级别的差距,其中各个座位被分成至少两个级另IJ,一个级别是主座,另一个级别是副座,以及 座位距离特征,表示两个人的座位之间的距离。
25.根据权利要求23或24所述的装置,其中 从外部资源提取所述熟悉度特征和所述历史称呼特征,` 从外部资源和/或内部资源提取所述等级差距特征, 从内部资源提取所述上下文关系特征; 其中,所述外部资源包括文本资源和图像资源,所述文本资源包括组织图、电子邮件历史记录、电子邮件联系人、简历和公共文档中的至少一种,所述图像资源至少包括工位图;以及 其中,所述内部资源包括出席者名单、会议视频和会议照片中的至少一种。
26.根据权利要求22所述的装置,其中用于从该组候选标识符中选择一个标识符作为所提及的人名的标识符的单元包括: 用于计算各个候选标识符的至少一个关系特征的分数的单元, 用于为所述至少一个关系特征分配权重的单元, 用于基于所计算的分数和所分配的权重计算各个候选标识符的置信度的单元,以及用于基于所述置信度从该组候选标识符中选择一个标识符作为所提及的人名的标识符的单元。
27.一种用于管理会议记录的装置,包括: 用于利用权利要求22-26中任一项的装置识别所提及的人的单元;以及 用于把与所选择的标识符相关的信息嵌入到输出文本中所提及的人名处的单元。
28.一种用于管理会议记录的装置,包括: 用于利用权利要求22的装置识别所提及的人的单元;以及 用于把与所选择的标识符相关的信息嵌入到输出文本中所提及的人名处的单元, 其中所述关系特征包括以下至少一种: 头衔差距特征,表示两个人的头衔之间的差距; 相同工作组特征,表示两个人是否在同一工作组中;以及历史称呼特征,表示在两个人间已经使用过的称呼。
29.一种用于管理会议的装置,包括:用于利用权利要求22-26中任一项所述的装置来识别所提及的人的单元;以及用于在屏幕上显示与所选择的标识符相关的信息的单元。
30.一种用于管理会议的装置,包括:用于利用权利要求22所述的装置来识别所提及的人的单元;以及用于在屏幕上显示与所选择的标识符相关的信息的单元,其中所述关系特征包括以下至少一种:头衔差距特征,表示两个人的头衔之间的差距;相同工作组特征,表示两个人是否在同一工作组中;历史称呼特征,表示在两个人间已经使用过的称呼;座位级别差距特征,表示两个人的座位级别的差距;以及座位距离特征,表示两个人的座位之间的距离。
31.一种用于辅助即时消息的装置,包括:用于利用权利要求22-26中任一项所述的装置识别所提及的人的单元;以及用于把与所选择的标识符相关的信息嵌入到所述即时消息中所提及的人名处的单元。
32.一种用于辅助即时消息的 装置,包括:用于利用权利要求22所述的装置识别所提及的人的单元;以及用于把与所选择的标识符相关的信息嵌入到所述即时消息中所提及的人名处的单元,其中所述关系特征包括以下至少一种:头衔差距特征,表示两个人的头衔之间的差距;年龄差距特征,表示两个人的年龄之间的差距;姓名类别特征,表示两个人是否彼此熟悉;讨论频率特征,表示两个人之间进行讨论的频率;以及历史称呼特征,表示在两个人间已经使用过的称呼。
【文档编号】G06F17/30GK103514165SQ201210201517
【公开日】2014年1月15日 申请日期:2012年6月15日 优先权日:2012年6月15日
【发明者】黄耀海, 李荣军, 胡钦谙 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1