别名查询系统及其方法

文档序号:6502172阅读:778来源:国知局
别名查询系统及其方法【专利摘要】本发明提供了一种别名查询系统及其方法。所述别名查询系统具有储存模块,以储存至少一连接字模板;一查找模块,耦接该储存模块,依据一名称,自一数据库取得多个字符串行;以及一别名抽出模块,耦接该储存模块与该查找模块,依据该名称与该连接字模板,判断该些字符串行中是否有与该名称相关联的该第一别名;其中当该别名抽出模块判断该些字符串行中有该第一别名时,则该别名抽出模块自该些字符串行中抽出该第一别名,并储存该第一别名于该储存模块中。【专利说明】别名查询系统及其方法【
技术领域
】[0001]本发明公开一种关键字查询系统与方法,特别是一种针对名称与其相关联的别名的查询系统与方法。【
背景技术
】[0002]在现今因特网中,使用者在上网查询事件、物品或人员的名称(name)时,常因为事件、物品或人员另有不同的称呼、昵称或别名(alias),而导致查询结果不完整。举例来说,当使用者查询相关于「周星驰」的网络文章或新闻时,其查询结果就可能遗漏了包括以「星爷」、「周星星」、「星仔」等别名为主的内容。换句话说,因为现今各种网络搜寻引擎均缺少对别名的自动搜寻、抽出与建立关连的机制,只要使用者没有完全列举出所有的别名,即有查询结果不完整的可能性。特别是,当查询关于一时热门的公众人物或议题时,别名的产生与变化也非常快速,使用者往往因不知道所有的别名而可能遗漏大量的网络信息。[0003]因此业界需要一种能够依据使用者输入的名称,自动地搜寻其他可能的别名、抽出别名、建立名称与别名的关联性的别名查询系统与方法,以根本解决上述查询结果不完整的问题。【
发明内容】[0004]本发明的目的在于,提出一种别名查询系统与方法,能够搜寻、抽出、记录与关键名词相关联的别名,并且可再以查询到的别名为关键字进行更广泛的查询,以取得相关于所述关键名称的所有网络信息。[0005]本发明提供了一种别名查询系统,以取得与一名称相关联的至少一个第一别名。所述别名查询系统具有储存模块、查找模块以及别名抽出模块。储存模块用以储存至少一个连接字模板。查找模块耦接储存模块,依据该名称,自一数据库取得多个字符串行。别名抽出模块耦接储存模块与查找模块,依据该名称与连接字模板,判断该多个字符串行中是否有与该名称相关联的第一别名。其中当别名抽出模块判断该字符串行中具有第一别名时,则别名抽出模块自该字符串行中抽出第一别名,并予储存。[0006]本发明提供了一种别名查询方法,以取得与一名称相关联的至少一个第一别名。所述方法为依据该名称,自一数据库取得多个字符串行。以及,依据该名称与一连接字模板,判断该字符串行中是否有与该名称相关联的第一别名。其中若判断该字符串行中具有第一别名时,则自第一字符串行中抽出第一别名,并予储存。[0007]本发明还提供一种别名查询方法,所述方法为依据一名称,自一知识网站取得至少一第一别名;依据该名称与该第一别名,自一数据库取多个字符串行;以及依据该名称与一连接字模板,判断该些字符串行中是否有与该名称相关联的至少一第二别名;其中若判断该些字符串行中有该第二别名时,则自该些字符串行中抽出该第二别名。[0008]以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。【专利附图】【附图说明】[0009]图1为本发明一示范实施例的别名查询系统的功能方框图;[0010]图2为本发明另一示范实施例的别名查询系统的功能方框图;[0011]图3为本发明一示范实施例的别名查询方法的流程图;[0012]图4为本发明另一示范实施例的别名查询方法的流程图。[0013]其中,附图标记[0014]1:别名查询系统[0015]10:储存模块[0016]12:查找模块[0017]14:别名抽出模块[0018]2:别名查询系统[0019]20:储存模块[0020]22:查找模块[0021]24:别名抽出模块[0022]26:连接字模板抽出模块[0023]28:输出入模块[0024]30:数据库[0025]S40?S46、S50?S54:步骤【具体实施方式】[0026]下文将详细叙述本发明的内容,根据所记载的实施方式、权利要求范围及附图,其应足以使任何本领域技术人员了解并据以实施,而且具备与产生预期内相当的功能及效果。[0027]请参见图1,图1为本发明一示范实施例的别名查询系统的功能方框图。如图1所示,本示范实施例的别名查询系统1具有储存模块10、查找模块12以及别名抽出模块14,其中查找模块12分别耦接储存模块10与别名抽出模块14,且别名抽出模块14分别耦接储存模块10与查找模块12。在此,别名查询系统1是用以自网络上搜寻、取得与一主题或关键名称相关联的至少一个别名。于实务上,别名查询系统1可以本身就具有网络搜寻引擎的功能,或者别名查询系统1可以做为目前各种网络搜寻引擎的一副系统,本示范实施例在此并不加以限制。[0028]储存模块10是用以储存至少一个连接字模板(lexicalpattern)或称字符。于一个例子中,所述连接字模板可以是单一个符号、符号的集合、单一字符、组合词或者其他适当的关连性描述用语,可以预先定义、扩充并予储存,本示范实施例并不限制连接字模板使用的编码方式或者语言类别。举例来说,连接字模板可以是文字,如「又称」、「昵称」、「简称」、「艺名」、「译名」、「alsoknownas」、「a.k.a.」、等,或者符号,如「(」、「)」、「,」、「"」、「"」等或其组合。另一方面,储存模块10可以是内部或外部各种可用以储存数据的储存媒体(例如硬碟、光碟或者其他适当的储存用设备),本示范实施例在此也不限制。[0029]查找模块12依据一名称,此名称可能是指人物或事件,先自一数据库(内部或外部,未绘示于图1)取得多个字符串行。于一个例子中,名称可由使用者输入,即是使用者所希望查询的关键字。当查找模块12将该名称输入一网络搜寻引擎(例如谷歌、雅虎)之后,此网络搜寻引擎的数据库将会回传大量的网络信息(例如线上可阅读的文章、新闻等可连接的清单)。在此,查找模块12可将网络信息中关联性较高的部分节录下来,例如可节录曾出现该名称的多个文章段落(snippets)。一般来说,所述文章段落可能混有文字与符号,本示范实施例归纳所述文字与符号统称为字符串行。[0030]别名抽出模块14依据一名称与至少一连接字模板,判断所述多个字符串行中是否有与该名称相关联的一别名。当别名抽出模块14判断多个字符串行中有一别名时,则别名抽出模块14自该字符串行中抽出该别名。于一个例子中,别名抽出模块14可以依据第一名称与连接字模板在多个文章段落(即字符串行)中的相对位置关系,判断所述多个字符串行中出现一别名的可能性。举例来说,若「(」紧跟着名称,那么「(」之后、「)」之前的内容,便很有可能是相关联于该名称的一别名。换句话说,连接字模板可以用来标记可能出现别名的位置,再由别名抽出模块14抽出连接字模板所标记出的内容。[0031]以实际的例子来说,查找「周星驰」会出现的一则文章段落的内容是:「…周星驰(星爷)最近执导的电影(西游)在内地大收旺场…」,此时别名抽出模块14会判断星爷是周星驰的别名。另外,「(西游)」虽与「周星驰」名称共同于句中出现,也有「(」字样,但却未直接接续于「周星驰」之后,再参照其他数据(见下文),故可判断并非是一别名。藉此,别名抽出模块14可抽出连接字模板「(」与「)」之间的内容,也就完成抽出了一别名。[0032]此外,于一个例子中,由于字符串行可能为一不完整的摘要,故别名抽出模块14可以先将字符串行分割成若干区段(segment),不过本案不限于此,例如以名称「周星驰」到一个连接字模板「)」间的文字为一区段,以对可能的字串计算出现别名的可能性。于计算出现别名的可能性可以有许多方式,于另一个例子中,若出现别名的可能性高于一特定的门槛值(threshold)时,别名抽出模块14即可进行抽出别名的程序。于实务上,通过训练别名抽出模块14,可以让别名抽出模块14计算出各种情况(例如各种字符串行的形式)下得到别名的可能性。举例来说,出现的次数、与名称共同出现的次数等数据,都可作为判断出现别名的可能性的依据。若有一标准模版记载有若干已确定的连接字符,亦可藉以核对与每一区段相符的正确率,以计算出现别名的可能性。[0033]在此,别名抽出模块14可以将所述可能性给予对应的分数,若所述分数大于或等于一门槛值,则别名抽出模块14判断字符串行中出现别名,并且别名抽出模块14抽出所述别名。反之,所述分数小于门槛值,则别名抽出模块14判断字符串行中没有出现别名。请注意,本实施例并不限定判断第一别名出现可能性的手段,相同【
技术领域
】者可另行设计其他的演算机制。[0034]值得注意的是,当别名抽出模块14抽出了相关联于主题名称的一别名之后,更可以将该名称以及该别名整合成一个关系表(table),或称名称别名配对(name-aliaspair),并储存于储存模块10中。若别名抽出模块14在后续的查找中得到更多的关联于该名称的其它别名时,则可藉由更新所述关系表以建立名称与其相关别名的关联性。藉此,未来使用者再次查找关于相同名称的网络信息时,别名查询系统1便能从最新的关系表中,快速地取得其所有相关别名,并可一并查找其所有相关别名的网络信息,此也表示字符串行也将被随时更新。[0035]此外,由于字符串行可能是由其他语言所写成,因此别名抽出模块14可再配合或单独由其拼音特征(子音与母音,phoneticfeature)以进行标记、套用与别名抽出。[0036]当然,本发明所述的连接字模板除了可以预先定义并储存在储存模块10之外,更可以通过训练一个连接字模板抽出模块,使得连接字模板抽出模块可以自动地自字符串行中抽出更多的连接字模板。请参见图2,图2为本发明另一示范实施例的别名查询系统的功能方框图。本示范实施例的别名查询系统2是具有储存模块20、查找模块22、别名抽出模块24、连接字模板抽出模块26以及输出入模块28,其中连接字模板抽出模块26分别耦接储存模块20与查找模块22,且输出入模块28耦接查找模块22。[0037]储存模块20同样可以储存主题名称与其相关的别名(例如关系表),也可以储存已知的连接字模板。此外,查找模块22可以依据一名称及或已知的一别名,自数据库30取得多个字符串行。另外,别名抽出模块24亦可再依据已知的连接字模板,自多个字符串行中抽出更多相关联于该名称的其它别名。[0038]别名查询系统2的连接字模板抽出模块26可以自动地更新以累积连接字模板。举例来说,查找模块22可以依据一个名称以及与该名称相关联的至少一别名,或甚至是一连接字模板,自数据库30取得多个字符串行,再更新至先前的字符串行中,使更新后的字符串行保持最新及最完整以输出予使用者。在此,上述名称以及别名可以是预设好的种子配对(seedpair),或者之间可以有一个预设的关系表,以避免在累积时发生错误或误差。当然,所述种子配对也可以即时地或批次地从数据库30(例如网络上)取得。但是如同上述的示范实施例,连接字模板抽出模块26亦可依据一名称与已知的至少一别名,直接自字符串行中抽出不同的连接字模板,如此循环累积以更新而扩充连接字模板的数量。[0039]于一个例子中,所述种子配对可藉由查找维基百科(Wikipedia)、百度百科(Baidu)等的知识网站(knowledgewebsite)或其他存有别名的数据库中得知。以维基百科为例,由于维基百科于文章页面中常有昵称的栏位,由此即可轻易地取得至少一种子配对。此外,维基百科也时常在文章页面中针出现对特定名称转向(redirection)到新名称的页面连接,与提及(mention)其他名称等功能,同样有助于取得种子配对。于实务上,所述名称以及别名可以预先被储存在储存模块20内,且连接字模板抽出模块26所累积出来的连接字模板也可以被储存在储存模块20内,但本示范实施例不以此为限。例如,别名查询系统2也可以在使用者查找的过程中,一边进行抽取别名的程序,一边累积出合适的连接字模板。[0040]此外,输出入模块28是用以提供使用者输入关键字(例如主题名称)以及查看网络查询的结果。于实务上,输出入模块28可以是任何适当的设备,例如用以输入数据的键盘、触控板、鼠标,或是用以输出数据的屏幕等,本示范实施例不加以限制。[0041]从实际操作的例子来说,在训练连接字模板抽出模块26时,如果已经知道「周星驰」的一个别名是「星爷」,那么查找模块22会从网络(数据库30)取得多个文章段落(字符串行)。接着,连接字模板抽出模块26可以依据「周星驰」与「星爷」在文章段落中的相对位置、关联性、词性等关系,统计用来连接「周星驰」与「星爷」的连接字模板有多少种类。此外,更将「周星驰」与「星爷」之间的文字或符号(即连接字模板),例如「又称」、「昵称」、「简称」、「艺名」、「(」等,及接续可能别名之后的文字或符号,例如「,」、「)」等,依据出现的频率、与名称共同出现的阵列、与标准模版(template)相符的正确率等特征数据,抽出所有符合门槛条件的文字或符号。接着,储存模块20可以记录或更新所述符合门槛条件的文字或符号。[0042]当然,前述的门槛条件可依情况适度调整,本示范实施例不加以限制。请注意,上述训练连接字模板抽出模块26的情况,可能是为了适应当地语言及习惯用法。一旦建立了充足数量的连接字模板后,即可不需时常训练连接字模板抽出模块26,而所谓训练意指使连接字模板抽出模块26不断地执行,并由执行结果调整执行内容。[0043]从另一个实际操作的例子来说,若使用者使用输出入模块28输入一个关键字(例如「周星驰」,即主题名称),但别名查询系统2中的储存模块20没有储存相关内容时,别名查询系统2可先试着寻找与「周星驰」相关联的别名。例如,输出入模块28可先将「周星驰」一词提供给查找模块22。接着,查找模块22依据关键字「周星驰」,查询数据库30(例如网络)中的文章、新闻或者其他的内容。举例来说,若储存模块20中已经存有至少一连接字模板(如「又称」、「(」与「)」)时,则查找模块22可以「周星驰」加上「又称」,或以「周星驰」加上「(」与「)」再进行查找以取得一新的字符串行,不过此重复查找的程序是可选择的,上述新的字符串行可随后更新至原先字符串行中。[0044]在此,查找数据库30(例如网络)时,应会出现多个文章段落(字符串行),别名抽出模块24会逐一地完成别名判断。若查找周星驰会出现的文章段落中一则的内容是「…周星驰,又称星爷,…」,其中「周星驰、又称」为已知的内容,则别名抽出模块24可以判断「星爷」一词应非常关联于「周星驰」。另一方面,若查找周星驰会出现的文章段落中另一则的内容是「…周星驰(St印henChow)···」,其中「周星驰、(、)」为已知的内容,则别名抽出模块24可以判断「St印henChow」一词应非常关联于「周星驰」。藉此,别名抽出模块24可将「星爷」、「StephenChow」存入储存模块20,并注明「星爷」、「StephenChow」均是「周星驰」的相关词,亦即是别名或译名;查找模块12除主题名称外,可依据其它多数已知的别名,或连接字模板进行再次查询,以取得更多的字符串行,并不断循环以扩大并累积其内容。[0045]当使用者使用输出入模块28输入的关键字(仍以「周星驰」为例),若储存模块20已经储存有合适的连接字模板,且储存模块20中也已经储存有数量足够的相关词,则查找模块22可依据关键字「周星驰」以及已储存的别名「星爷」、「St印henChow」查找数据库30(例如网络)。输出入模块28可将查找模块22所搜寻出的结果提供给使用者。[0046]值得注意的是,别名抽出模块24与连接字模板抽出模块26都可具有后台查询的功能。举例来说,为了加速更新以累积储存模块20中别名与连接字模板的数量,在闲置或未接收使用者输入查询的情况下,别名抽出模块24与连接字模板抽出模块26都可于后台开始查找别名与训练连接字模板,直到储存模块20中别名与连接字模板的数据量达到相当程度为止。[0047]为了让本领域技术人员更能明白本发明所述的别名查询系统,以下搭配本发明的别名查询方法做再一次的说明。[0048]请一并参见图2与图3,图3为本发明一示范实施例的别名查询方法的流程图。如图所示,于步骤S40中,查找模块22至少依据已知的一主题名称,或再配合至少一个连接字模板,自数据库30取得多个字符串行。举例来说,查找模块22可以单用「周星驰」或再加上「又称」为条件查找数据库30(例如网络)。于步骤S42中,别名抽出模块24依据名称与连接字模板,判断所述多个字符串行中是否有与该名称相关联的一别名(例如「星爷」)。若别名抽出模块24判断多个字符串行中至少有一别名时,则进行步骤S44。于步骤S44中,别名抽出模块24即可以依据前述实施例示范的方式,自多个字符串行中抽出别名。于一个例子中,储存模块20更可如步骤S46储存被抽出的别名。[0049]此外,于训练连接字模板抽出模块26的阶段,请一并参见图2与图4,图4为本发明另一示范实施例的别名查询方法的流程图。如图所示,于步骤S50中,连接字模板抽出模块26可以依据预设好的或已知的一名称以及与名称相关联的至少一别名,自数据库30(例如网络)取得多个字符串行。接着于步骤S52中,连接字模板抽出模块26可以依据预设好的名称、别名及一门槛值,训练以累积出至少一个连接字模板。于一个例子中,储存模块20更可如步骤S54而储存或更新该连接字模板。[0050]综上所述,使用者输入了关键字之后,本发明的别名查询系统与方法可自动地查找关键字与其相关别名的网络信息。因此,使用者无须穷尽可能地提供别名信息,即能由单次输入取得完整的查询结果。[0051]当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。【权利要求】1.一种别名查询系统,以取得与一名称相关联的至少一第一别名,其特征在于,包括:一储存模块,以储存至少一第一连接字模板;一查找模块,耦接该储存模块,依据该名称,自一数据库取得多个第一字符串行;以及一别名抽出模块,耦接该储存模块与该查找模块,依据该名称与该第一连接字模板,判断该些第一字符串行中是否有与该名称相关联的该第一别名;其中当该别名抽出模块判断该些第一字符串行中有该第一别名时,则该别名抽出模块自该些第一字符串行中抽出该第一别名,并储存该第一别名于该储存模块中。2.根据权利要求1所述的别名查询系统,其特征在于,更包括:一输出入模块,耦接该查找模块,以提供该名称并显示该些第一字符串行。3.根据权利要求1所述的别名查询系统,其特征在于,更包括:一连接字模板抽出模块,耦接该储存模块与该查找模块,依据该名称与该第一别名,自该数据库取得多个第二字符串行,并自该些第二字符串行中抽出至少一第二连接字模板,及更新至该第一连接字模板中。4.根据权利要求3所述的别名查询系统,其特征在于,该连接字模板抽出模块自该些第二字符串行中抽出至该第二连接字模板是依据一门槛值而定。5.根据权利要求4所述的别名查询系统,其特征在于,该门槛值是指至少一指定文字或至少一指定符号于该些第一字符串行中出现的次数、与一标准模版的相符比率、与该名称共同出现的次数的其中之一。6.根据权利要求1所述的别名查询系统,其特征在于,该查找模块更依据该第一连接字模板,自该数据库取得多个第二字符串行,并更新至该些第一字符串行中。7.根据权利要求1所述的别名查询系统,其特征在于,该查找模块更依据至少一该第一别名,自该数据库取得多个第二字符串行,并更新至该些第一字符串行中。8.根据权利要求1所述的别名查询系统,其特征在于,该别名抽出模块判断该些第一字符串行中是否有与该名称相关联的该第一别名是依据一门槛值而定。9.根据权利要求8所述的别名查询系统,其特征在于,该门槛值是指该第一别名于该些第一字符串行中出现的次数、与该第一名称共同出现的次数的其中之一。10.-种别名查询方法,以取得与一名称相关联的至少一第一别名,其特征在于,包括:依据该名称,自一数据库取得多个第一字符串行;以及依据该名称与一第一连接字模板,判断该些第一字符串行中是否有与该名称相关联的该第一别名;其中,若判断该些第一字符串行中有该第一别名时,则自该些第一字符串行中抽出该第一别名,并储存该第一别名。11.根据权利要求10所述的别名查询方法,其特征在于,更包括:依据该名称及该第一别名,自该数据库取得多个第二字符串行;自该些第二字符串行中抽出至少一第二连接字模板;以及更新该第二连接字模板至该第一连接字模板中。12.根据权利要求11所述的别名查询方法,其特征在于,自该些第二字符串行中抽出该第二连接字模板是依据一门槛值而定。13.根据权利要求12所述的别名查询方法,其特征在于,该门槛值是指至少一指定文字或至少一指定符号于该些第一字符串行中出现的次数、与一标准模版的相符比率、与该名称共同出现的次数的其中之一。14.根据权利要求10所述的别名查询方法,其特征在于,除依据该名称外,更依据该第一连接字模板,自该数据库取得多个第二字符串行,并更新至该些第一字符串行中。15.根据权利要求10所述的别名查询方法,其特征在于,除依据该名称外,更依据该第一别名,自该数据库取得多个第二字符串行,并更新至该些第一字符串行中。16.根据权利要求10所述的别名查询方法,其特征在于,判断该些第一字符串行中有该第一别名是依据一门槛值而定。17.根据权利要求16所述的别名查询方法,其特征在于,该门槛值是指该第一别名于该些第一字符串行中出现的次数、与该名称共同出现的次数的其中之一。18.根据权利要求10所述的别名查询方法,其特征在于,更包括:接收该名称与输出该些第一字符串行。19.一种别名查询方法,其特征在于,包括;依据一名称,自一知识网站取得至少一第一别名;依据该名称与该第一别名,自一数据库取多个第一字符串行;以及依据该名称与一第一连接字模板,判断该些第一字符串行中是否有与该名称相关联的至少一第二别名;其中若判断该些第一字符串行中有该第二别名时,则自该些第一字符串行中抽出该第二别名。20.根据权利要求19所述的别名查询方法,其特征在于,更包括:依据该名称、该第一别名及该第二别名,自该数据库取得多个第二字符串行,并自该些第二字符串行中抽出至少一第二连接字模板;以及更新该第二连接字模板至该第一连接字模板中。【文档编号】G06F17/30GK104123293SQ201310148462【公开日】2014年10月29日申请日期:2013年4月26日优先权日:2013年4月24日【发明者】李青宪,张俊盛,吴鑑城,谢泓廷申请人:财团法人工业技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1