用于提及检测中的消歧的方法和系统的制作方法

文档序号:9865488阅读:349来源:国知局
用于提及检测中的消歧的方法和系统的制作方法
【技术领域】
[0001]本发明的实施例总体上涉及信息处理领域,并且特别涉及用于提及检测中消歧的方法和系统。
【背景技术】
[0002]提及检测(ment1n detect1n)是一类用于处理文本信息的方法。提及检测被用于自动地检测文本中对人名、地名、组织等各种实体的提及(ment1n),并且将这些提及映射到与实体相关联的资源。作为示例,提及检测工具如果检测到文本中存在了对“MichaelJordan”这一人名的提及,可以将该提及映射到例如网络词典中关于“MichaeI Jordan”的web页面。在使用中,例如当用户将光标置于这些提及之上或者附近时,可以以浮动提示的方式向用户呈现相应资源的统一资源标识符(URI)。
[0003]提及检测中的一个重要步骤是消歧(disambiguat1n)。对相同实体的提及可能具有不同的词形(surface form)。例如,对“Michael Jordan”这一实体的提及可能是“Jordan”、“Michael”、“Air Jordan”、“MJ”,等等。而且,针对不同实体的提及可能具有相同的词形。例如,对“Michael Jackson”的提及的词形同样可以是“MJ”。消歧操作的目的是确定文本的给定提及究竟应当被映射到哪个实体所对应的资源,例如,词形“MJ”应当被链接到 “Michael Jordan” 还是 “Michael Jackson” 的资源。
[0004]在传统的消歧算法中,通常只考虑词形属于候选概率的先验概率和上下文得分。上下文得分是通过计算词形周围出现的词与候选资源的提及周围出现的词之间的相似度得分。然而,在这种传统方法中,文本中的大量有用信息并未被充分地加以利用。由此,消歧的准确性和效果有待提高。

【发明内容】

[0005]总体上,本发明的实施例提出一种用于在程序调试的变量跟踪的技术方案。
[0006]在本发明的一个方面,提供一种用于提及检测中的消歧的方法。所述方法包括:确定文本中的目标词形在所述文本中出现的至少一个位置;基于所述目标词形在每个所述位置处的词袋上下文,获取所述目标词形在所述文本中的总体词袋上下文,每个所述位置处的所述词袋上下文包含所述位置的预定邻域内的词;基于所述目标词形在每个所述位置处的资源上下文,获取所述目标词形在所述文本中的总体资源上下文,每个所述位置处的所述资源上下文包含所述位置的预定邻域内的其他词形所对应的资源;以及基于所述总体词袋上下文和所述总体资源上下文来确定所述目标词形与用于所述目标词形的候选资源之间的相似度。
[0007]在另一方面,提供一种用于提及检测中的消歧的系统。所述系统包括:词形位置确定单元,被配置为确定文本中的目标词形在所述文本中出现的至少一个位置;词袋上下文获取单元,被配置为基于所述目标词形在每个所述位置处的词袋上下文,获取所述目标词形在所述文本中的总体词袋上下文,每个所述位置处的所述词袋上下文包含所述位置的预定邻域内的词;资源上下文获取单元,被配置为基于所述目标词形在每个所述位置处的资源上下文,获取所述目标词形在所述文本中的总体资源上下文,每个所述位置处的所述资源上下文包含所述位置的预定邻域内的其他词形所对应的资源;以及消歧单元,被配置为基于所述总体词袋上下文和所述总体资源上下文来确定所述目标词形与用于所述目标词形的候选资源之间的相似度。
[0008]根据本发明的实施例,在消歧过程中不仅可以利用词语所提供的上下文信息,还可以将所处理词形周围所提及的资源纳入考虑。另外,消歧可以基于一个词形在文本中的跨段落上下文而实现。这样,上下文信息将更加全面、准确。另外,在一个实施例中,通过合理确定消歧顺序,能够进一步提高消歧的准确性。本发明的其他特征和优点将通过下文描述而变得容易理解。
【附图说明】
[0009]通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显其中:
[0010]图1示出了适于用来实现本发明实施例的示例性计算机系统/服务器的示意性框图;
[0011]图2示出了根据本发明实施例的用于提及检测中的消歧的方法的示意性流程图;
[0012]图3示出了根据本发明实施例的文本和待消歧词形的示意图;
[0013]图4示出了根据本发明实施例的词形的索引的示意图;以及
[0014]图5示出了根据本发明实施例的用于提及检测中的消歧的系统的示意性框图。
[0015]在附图中,相同或相似的标号被用来表示相同或相似的元素。
【具体实施方式】
[0016]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0017]图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的方框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0018]如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
[0019]总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
[0020]计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0021]系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM) 30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
[0022]具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括一但不限于一操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
[0023]计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口 22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1