检索装置制造方法

文档序号:6485123阅读:163来源:国知局
检索装置制造方法
【专利摘要】检索部(60)从字符串检索用索引(40)取得与检索查询(70)部分一致的展开源文档数据来计算字符串类似度,从关系数据展开用索引(50)取得定义了与展开源文档数据的关系性的展开目的地文档数据,利用展开目的地文档数据的字符串类似度以及关系权重数据(80)来进行修正而求出关系数据展开类似度,输出按照关系数据展开类似度的顺序进行了排列的检索结果(90)。
【专利说明】检索装置
【技术领域】
[0001]本发明涉及将检索查询的一部分用作检索关键字而对索引进行模糊检索的检索装置。
【背景技术】
[0002]在检索乐曲名或者设施名等时,利用者未必记着正确的名称,而有时将通称、简称或者模糊记忆的错误的名称等作为检索关键字来进行检索。另外,在如车辆导航装置以及智能手机那样作为输入设备不具有键盘的终端以及仪器中,还有时将对来自麦克风的声音信号进行声音识别而得到的结果、以及对来自触摸面板的输入进行字符识别而得到的结果等作为检索关键字进行检索。不论在哪一种情况下都需要如下技术,即,不仅是正式名称而且还对字符串或者发音类似的名称进行模糊检索的技术。
[0003]作为上述那样的能够进行模糊检索的以往的检索技术的一个例子,提出了专利文献I。该专利文献I的发明是使用检索 词的部分字符串来进行模糊检索的检索装置,检索词中的部分字符串包含于检索对象字符串中的比率越高、并且在检索对象字符串中越是位于前方,越给予高的评价,从而能够在设施名检索中得到符合利用者的感觉的合适的检索结果。这一般在日语中对设施等赋予名称的情况下,具有以使应强调的字句位于名称的前方的方式决定的倾向,利用具有如下倾向的特性:利用者通常感觉在检索对象字符串中检索词位于前方的情况相比于位于后方的情况,检索对象字符串与检索词的相关性更强。
[0004]例如,如果将“ΑΒ⑶’ > K”这样的设施名作为检索词来输入,则检索装置检索包括作为其部分字符串的“AB” “BC” “⑶” “D 9 ” “ 9 “ > F'”的检索对象字符串。在作为其检索结果而得到了“ΑΒ⑶9 > K”和“〇X銀行AB⑶9 >卜''出張所”这样的2个检索对象字符串的情况下,对利用者期望的可能性高的“ABCD 7 > F'”给予更高的评价。
[0005]另一方面,在检索乐曲名以及设施名等的情况下,将相互具有关系的多个关键词用作检索关键字来检索的情况较多。通过按照例如“〈艺术家名 >〈曲名 >”、“〈市镇村名>〈设施名〉”这样的形式进行检索,从而相比于只是简单地通过曲名或者设施名来进行检索,缩小检索结果的范围,能够期待得到更合适的检索结果。
[0006]作为这样的考虑了相互具有关系的关键词之间的关系性的以往的检索技术的一个例子,提出了专利文献2。该专利文献2的发明是将设施名和所附随的信息事先关联起来、并针对所附随的每个信息而构成索引的检索装置,根据检索询问中的语句来确定附随信息,根据所确定的附随信息来搜寻索引而得到检索结果。
[0007]例如,如果输入了“猪骨细面条”这样的检索询问,则检索装置确定“猪骨”是属于附随信息“味”的关键词,检索事先制作了的味的索引数据来得到相应的设施名。另外,检索装置确定“细面条”是属于附随信息“面条”的关键词,检索事先制作的面条的索引数据来得到相应的设施名。然后,综合这些检索结果,将相应的设施名的一览作为检索结果而向利用者进行提示。
[0008]专利文献1:日本特开2003-44515号公报[0009]专利文献2:日本特开2009-211683号公报
【发明内容】

[0010]但是,在上述专利文献I中,虽然能够进行考虑了字符串的类似性的模糊检索,但存在如下课题:即使按照“〈艺术家名X曲名 >”以及“〈市镇村名X设施名 >”这样的形式进行检索,也无法进行利用了关键词之间的相互的关系性的检索。
[0011]例如,在乐曲检索中,当输入了如“〈艺术家名X曲名 >”那样组合相互有关系的艺术家名和曲名得到的检索词的情况下,即使艺术家名不同也对同一曲名赋予同一评价,无法将检索词中的艺术家名反映到检索结果中。
[0012]为了将艺术家名反映到检索结果,还能够生成将艺术家名和曲名连结而成的检索对象字符串的索引,但会导致索引的数据容量增大。
[0013]另外,如果不仅制作与“〈艺术家名X曲名>”这样的模式对应的索引,而且还制作了与“〈艺术家名 >〈唱片集名 >”或者“〈唱片集名 >〈曲名 >”这样的多个模式对应的索弓丨,则需要更庞大的数据容量,存在不适用于车辆导航装置等嵌入式仪器这样的课题。
[0014]另一方面,在上述专利文献2中,针对每个附随信息而具有索引数据,所以针对“猪骨”、“面条”等每个关键词,需要进行检索处理,存在检索处理时间变长这样的课题。
[0015]另外,在与模糊检索并用时,无法唯一地确定检索询问中的各单词属于哪个附随信息,所以必须针对检索询问中的全部单词,检索所有的附随信息索引,存在在车辆导航装置等嵌入式仪器中无法以实用性的时间进行处理这样的课题。
[0016]而且,在以往的检索装置中,利用了使用事先定义的词库等而将检索询问中的单词展开为所关联的另一单词来进行检索的方法,但在展开为另一单词之后进行模糊检索的情况下,与上述专利文献I同样地产生数据容量变得庞大这样的课题。
[0017]另外,如果能够对向另一单词的展开自身进行模糊检索,则与上述专利文献2同样地产生组合的数量变得庞大而无法按照实用性的时间进行处理这样的课题。
[0018]本发明是为了解决上述那样的课题而完成的,其目的在于,抑制索引的数据容量,并且进行利用了相互有关联的关键词之间的关系性的灵活的模糊检索。
[0019]本发明的检索装置具备:字符串检索用索引,登记了成为检索对象的文档数据以及将该文档数据以规定单位进行分割得到的部分数据;关系数据展开用索引,定义了文档数据彼此的关系性以及该关系性的类别;字符串检索部,将检索查询分割为规定单位的部分数据,从字符串检索用索引取得与该部分数据部分一致的文档数据,计算类似度;以及关系数据展开检索部,将字符串检索部所取得的文档数据作为展开源,从关系数据展开用索引取得针对该展开源的文档数据定义了关系性的展开目的地的文档数据,使用与关系性的类别对应的权重以及该展开目的地的文档数据的类似度,修正该展开源的文档数据的类似度,按照该修正了的类似度的顺序来排列该展开源的文档数据而输出。
[0020]根据本发明,与用于对检索查询进行模糊检索的字符串检索用索引独立地,准备对文档数据彼此的关系性以及关系性的类别进行了定义的关系数据展开用索引,考虑与检索查询部分一致的文档数据彼此的关系性及其类别来求出类似度,从而能够抑制字符串检索用索引的数据容量,并且进行利用了相互有关联的关键词之间的关系性的灵活的模糊检索。【专利附图】

【附图说明】
[0021]图1是示出本发明的实施方式I的检索装置的结构的框图。
[0022]图2是示出实施方式I的检索装置的索引生成部的详细构造的框图。
[0023]图3是示出实施方式I的检索装置的检索部的详细构造的框图。
[0024]图4是示出实施方式I的登记数据的例子的图。
[0025]图5是示出实施方式I的关系定义列表的例子的图。
[0026]图6是实施方式I的索引生成部的索引生成处理的流程图。
[0027]图7是示出实施方式I的字符串检索用索引的结构例的图,示出将单词字符串作为检索关键字的情况。
[0028]图8是示出实施方式I的字符串检索用索引的结构例的图,示出将音素串(phoneme string)作为检索关键字的情况。
[0029]图9是示出实施方式I的字符串检索用索引的结构例的图,示出将部分字符串作为检索关键字的情况。
[0030]图10是示出实施方式I的关系数据展开用索引的例子的图。
[0031]图11是实施方式I的检索部的检索处理的流程图。
[0032]图12是示出实施方式I的字符串检索结果的例子的图,示出检索查询“ZYXquartet’ s blue sky”(艺术家名、曲名)的情况。
[0033]图13是示出实施方式I的关系权重数据的例子的图。
[0034]图14是说明实施方式I的关系数据展开类似度的计算过程的图,示出检索查询“ZYX quartet’ s blue sky” 的情况。
[0035]图15是示出实施方式I的检索结果的例子的图,示出检索查询“ZYX quartet’ sblue sky”的情况。
[0036]图16是示出实施方式I的字符串检索结果的例子的图,示出检索查询“deep seain country life” (唱片集名、曲名)的情况。
[0037]图17是说明实施方式I的关系数据展开类似度的计算过程的图,示出检索查询“deep sea in country life” 的情况。
[0038]图18是示出实施方式I的检索结果的例子的图,示出检索查询“deep sea incountry life” 的情况。
[0039]图19是示出本发明的实施方式2的检索装置中的字符串检索结果的例子的图。
[0040]图20是说明实施方式2的对关系数据展开类似度进行计算的过程的图,示出进行了 “与艺术家名的关系重视”的情况。
[0041]图21是示出实施方式2的检索结果的例子的图,示出进行了 “与艺术家名的关系重视”的情况。
[0042]图22是示出实施方式2的关系权重数据的例子的图,示出进行了 “与唱片集名的关系重视”的情况。
[0043]图23是说明实施方式2的对关系数据展开类似度进行计算的过程的图,示出进行了 “与唱片集名的关系重视”的情况。
[0044]图24是示出实施方式2的检索结果的例子的图,示出进行了 “与唱片集名的关系重视”的情况。
[0045](符号说明)
[0046]10:索引生成部;11:字符串索引生成部;12:关系数据展开用索引生成部;20:登记数据;30:关系定义列表;40:字符串检索用索引;50:关系数据展开用索引;60:检索部;61:检索查询解析部;62:字符串检索部;63:关系数据展开检索部;70:检索查询;80:关系权重数据;90:检索结果。
【具体实施方式】
[0047]以下,为了更详细地说明本发明,依照附图,说明用于实施本发明的方式。
[0048]实施方式1.[0049]在本实施方式I中,说明将图1所示的检索装置嵌入到车辆导航装置并用于乐曲检索的例子。但是,该检索装置的用途不限于车辆导航装置的乐曲检索,而能够普遍应用于设施名的检索以及住址的检索等相互具有关联的构造数据的检索。
[0050]在图1中,索引生成部10接受登记数据20以及关系定义列表30,生成字符串检索用索引40以及关系数据展开用索引50。
[0051]检索部60参照索引生成部10所生成的字符串检索用索引40以及关系数据展开用索引50,检索与利用者所输入的检索查询70吻合的数据,输出依照关系权重数据80进行了排序的检索结果90。
[0052]图2示出索引生成部10的详细结构。字符串索引生成部11根据在登记数据20中包含的文档数据(标题字符串),生成字符串检索用索引40。关系数据展开用索引生成部12根据对文档数据彼此的关系性、以及关系性的类别进行了定义的关系定义列表30,生成关系数据展开用索引50。
[0053]图3示出检索部60的详细结构。检索查询解析部61解析检索查询70,变换为用于检索字符串检索用索引40的部分数据而输出到字符串检索部62。字符串检索部62参照字符串检索用索引40,将该部分数据用作检索关键字来检索与检索查询70部分一致的文档数据,计算部分数据与文档数据的类似度(字符串类似度)而输出到关系数据展开检索部63。关系数据展开检索部63参照关系数据展开用索引50,考虑文档数据彼此的关系性,并且依照关系权重数据80,考虑该关系性的类别来修正类似度,按照修正后的类似度(关系数据展开类似度)从高到低的顺序,排列文档数据而作为检索结果90。
[0054]图4是登记数据20的一个例子。该登记数据20至少包括“文档ID21”、“标题22”、“数据类别23”的数据。例如“文档ID21” = “1”的记录包括“标题22” = “ABC rockband”、“数据类别23” = “艺术家名”的数据。
[0055]另外,由于有不同的艺术家创作的同名的曲子(例如“文档ID21” =“102”、“103”)、或者曲名和唱片集名相同的情况(例如“文档ID21” =“10”、“108”)等,所以“标题22”存在多个相同的记录。
[0056]图5是关系定义列表30的一个例子。该关系定义列表30至少包括“展开源文档ID31”、“展开目的地文档ID32”、“关系类别33”的关系定义数据。此处,“展开源文档ID31”和“展开目的地文档ID32”是与图4所示的“文档ID21”对应的数据。“关系类别33”是对图4所示的“数据类别23”的数据彼此的关系性进行了定义的信息,在该例子中,进行了艺术家名与唱片集名的对应关联、艺术家名与曲名的对应关联、以及唱片集名与曲名的对应关联。例如,关系定义列表30的第I行的关系定义数据定义了如下:在“文档ID21” = “1”的“ABC rock band”这样的艺术家名与“文档ID21 ” = “ 10”的“wild country life”这样的唱片集名中有关联。
[0057]接下来,说明检索装置的动作。首先,说明索引生成处理,接下来说明检索处理。
[0058]图6是索引生成部10的索引生成处理的流程图。
[0059]步骤STl是登记数据读入处理,字符串索引生成部11依次读入登记数据20。
[0060]步骤ST2是字符串索引生成处理,使用字符串索引生成部11读入的登记数据20的“标题22 ”的字符串来生成字符串检索用索引40。
[0061]关于该字符串检索用索引40,根据模糊检索的鲁棒性以及输入设备(键盘输入、声音识别输入、字符识别输入等)的性质,而考虑各种构成方法。以下,使用图7?图9来说明结构例。
[0062]图7是将单词字符串作为检索关键字的字符串检索用索引40的结构例。该字符串检索用索引40由“单词ID41”、“单词字符串42”、“文档ID集合43”的数据构成。在例如“单词ID41” =“丨”的记录中,针对“单词字符串42” =“ABC”这样的单词,将在图4所示的“标题22”中包括“ABC”的“文档ID21”的集合登记为“文档ID集合43”。因此,是如下结构:将单词字符串作为检索关键字,得到包括相应单词的所有的标题字符串的文档ID。
[0063]在该结构例的情况下,能够针对检索查询70中的单词的省略以及词序的变更进行鲁棒(robust)的检索。
[0064]另外,关于字符串检索用索引40的索引数据构造、内部的字符串检索算法,并非是本发明的主要的要素,所以省略详细说明。例如,为了按照单词字符串的单位高速地进行检索,使用公知的散列法(hash method)、对分检索法(binary search method)等即可。
[0065]在检索查询70的输入是通过声音进行的情况下,音韵上的类似性变得重要,所以优选构成为将音素串作为检索关键字。
[0066]图8是将音素串作为检索关键字的字符串检索用索引40的结构例。该字符串检索用索引40由“单词ID41a”、“音素串42a”、“文档ID集合43a”的数据构成。在例如“单词ID41a” = “l”的记录中,针对“音素串42a” =“ei”这样的音素串,将在图4所示的“标题22”中包括“ei”的“文档ID21”的集合登记为“文档ID集合43a”。
[0067]或者,也可以构成为为了反映单词的字面上的类似性而将部分字符串作为检索关键字。
[0068]图9是将部分字符串作为检索关键字的字符串检索用索引40的结构例。该字符串检索用索引40由“单词ID41b”、“部分字符串42b”、“文档ID集合43b”的数据构成。在例如“单词ID41b” =“1”的记录中,针对“部分字符串42b” = “AB”这样的部分字符串,将在图4所示的“标题22”中包括“AB”的“文档ID21”的集合登记为“文档ID集合43b”。
[0069]在该结构例的情况下,能够进行反映了单词的字面上的类似性的模糊检索。
[0070]在本发明的检索装置中,可以使用任意的字符串检索用索引40,但以下设为使用将图7所示的单词字符串作为检索关键字的字符串检索用索引40来进行说明。
[0071]接下来,在图6的步骤ST3中,字符串索引生成部11判定在登记数据20中是否有未处理的数据,如果有未处理的数据(步骤ST3 “是”),则反复进行步骤ST1、ST2的处理。如果没有未处理的数据(步骤ST3 “否”),则进入到步骤ST4,将字符串索引生成部11所制作的字符串检索用索引40以在后述的检索处理中能够参照的形式进行输出。
[0072]步骤ST5是关系定义列表读入处理,关系数据展开用索引生成部12依次读入关系定义列表30。
[0073]步骤ST6是关系数据展开用索引生成处理,根据关系数据展开用索引生成部12所读入的关系定义列表30,生成关系数据展开用索引50。
[0074]图10是关系数据展开用索引50的一个例子。该关系数据展开用索引50构成为将“展开源文档ID51”作为检索关键字而能够取得对应的“展开目的地文档ID52”以及“关系类别53”。
[0075]另外,关于关系数据展开用索引50的索引数据构造、内部的检索算法,并非是本发明的主要的要素,所以省略详细说明。例如,使用公知的散列法,将“展开源文档ID51”作为散列关键字而能够高速地取得关系定义数据。
[0076]接下来,在图6的步骤ST7中,关系数据展开用索引生成部12判定在关系定义列表30中是否有未处理的数据,如果有未处理的数据(步骤ST7“是”),则反复进行步骤ST5、ST6的处理。如果没有未处理的数据(步骤ST7 “否”),则进入到步骤ST8,将关系数据展开用索引生成部12所制作的关系数据展开用索引50以在后述的检索处理中能够参照的形式进行输出。
[0077]以上是索引生成处理。接下来,以下说明检索处理。
[0078]图11是检索部60的检索处理的流程图。
[0079](I)检索处理例I
[0080]此处,说明对“〈艺术家名X曲名 >”这样的检索查询的模式进行处理的例子,设作为检索查询70而输入了 “ZYX quartet’ s blue sky”,并将“曲名”指定为检索对象。
[0081]步骤STll是检索查询的解析处理,检索查询解析部61解析检索查询70的字符串,以单词为单位进行分割。此处,检索查询字符串“ZYX quartet’ s blue sky”以单词为单位而被分割,成为“ZYX”、“quartet’ s”、“blue”、“sky”这4个单词。将这些单词作为检索查询解析结果而输出到字符串检索部62。
[0082]步骤ST12是字符串索引的检索处理,字符串检索部62参照字符串检索用索引40,取得与检索查询解析结果对应的检索结果。在字符串检索用索引40是图7所示的结构的情况下,得到与“ZYX”、
[0083]“blue”、“sky” 这 3 个单词对应的“单词 ID41” = “25”、“6”、“20” 的各“文档 ID集合43”。另一方面,关于与“quartet’ s”对应的单词字符串,在字符串检索用索引40中未找到,而不存在“文档ID集合43”。
[0084]接下来,字符串检索部62对所取得的“文档ID集合43”中包含的文档ID分别相加字符串类似度,并作为字符串检索结果而输出到关系数据展开检索部63。
[0085]当相加字符串类似度时,还能够利用考虑了单词的重要性的tf.idf权重(TermFrequency-1nverse Document Frequency weight:词频一反文档频率权重)等,但此处为了简化说明,设所有单词的权重都相等且为I而进行说明。
[0086]图12是示出文档ID与字符串类似度的关系的字符串检索结果的一个例子,是针对检索查询字符串“ZYX quartet’s blue sky”的结果。在将单词的权重设为I的情况下,例如“文档ID” = “102”的“clear blue sky”包括2个单词“blue”、“sky”,所以成为“字符串类似度” = “2”。
[0087]另一方面,“文档ID” =“2”的“ZYX quartet”包括单词“ZYX”,所以成为“字符串类似度”=“1”。在本实施方式I中,以使用将图7所示那样的单词字符串作为检索关键字的字符串检索用索引40为例进行了说明,所以判断为检索查询70的“quartet’ s”和“单词字符串42”的“quartet”不一致,这个部分的字符串类似度不被相加。
[0088]另一方面,在使用将图9所示那样的部分字符串作为检索关键字的字符串检索用索引40的情况下,“文档ID” = “2”的标题“ZYX quartet”中包含的单词“quartet”和检索查询70的“quartet’ s”在字符串上的类似性高,所以取得与“quartet’ s”对应的“部分字符串42b”的“文档ID集合43b”,作为结果,“文档ID” = “2”的“字符串类似度”变得比图12的值更高,得到更合适的检索结果。
[0089]另外,在将声音识别结果作为检索查询70的情况下,通过使用将图8所示那样的音素串作为检索关键字的字符串检索用索引40,从而针对识别错误,得到鲁棒的检索结果。例如,即使将“ZYX”这样的单词错误地声音识别为“Z why X”,在“ZYX”和“Z why X”中作为音素串是类似的,所以取得所包含的文档ID也类似的“文档ID集合43a”,得到合适的检
索结果。
[0090]图11的步骤ST13是关系数据展开用索引检索处理,关系数据展开检索部63将字符串检索结果的“文档ID” (图12)作为检索关键字,参照图10所示的关系数据展开用索引50,取得“展开目的地文档ID52”以及“关系类别53”。另外,关系数据展开检索部63将所取得的“关系类别53”作为检索关键字,参照关系权重数据80,取得与该关系类别对应的关系权重,计算关系数据展开类似度。
[0091]图13是关系权重数据80的一个例子。该关系权重数据80针对“关系类别81”定义了“关系权重82”。
[0092]图14是说明根据图12所示的字符串检索结果来计算关系数据展开类似度的过程的图。
[0093]关系数据展开检索部63将图12的“文档ID” = “2”作为检索关键字,从图10所示的关系数据展开用索引50,取得“展开目的地文档ID52”=“30”及“关系类别53”=“艺术家名一唱片集名”、“展开目的地文档ID52” = “103”及“关系类别53” = “艺术家名一曲名”、和“展开源文档ID51” = “110”及“关系类别53” = “艺术家名一曲名”这3件的关系数据。
[0094]其中,“展开目的地文档ID52” = “30”、“110”这2件在图12所示的字符串检索结果的“文档ID”中不存在,所以如图14所示,将“字符串类似度”设为O来计算。另一方面,使用图12的“字符串类似度” = “2”来计算“展开目的地文档ID52” = “103”。
[0095]另外,关系数据展开检索部63从图13所示的关系权重数据80,取得针对各关系数据的“关系类别53”定义了的关系权重。关系类别为艺术家名一唱片集名的“展开目的地文档ID52” = “30”是“关系权重82” = “0.3”。
[0096]而且,关系数据展开检索部63将对“展开源文档ID51”的“字符串类似度”乘以“关系权重82”而得到的值与“展开目的地文档ID52”的“字符串类似度”相加,而设为“关系数据展开类似度”。如果是例如图14的第5行的“文档ID” = “103”的关系数据,则是“展开源文档ID51” = “2”的“字符串类似度” =“I”、艺术家名一曲名的“关系权重82” =“0.2”、“展开目的地文档ID52” = “ 103”的“字符串类似度” =“2”,所以成为“关系数据展开类似度” =2.2。针对“文档ID” =“30”、“110”的关系数据也进行同样的计算,得到“关系数据展开类似度” =0.3、0.2。
[0097]图11的步骤ST14是检索结果输出处理,关系数据展开检索部63将图14所示的关系数据展开类似度的计算结果按照“关系数据展开类似度”的顺序进行排列,仅限于指定为检索对象的“曲名”,作为检索结果90来输出。图15是检索结果90的一个例子。
[0098]另外,作为限定于指定为检索对象的“曲名”等类别的方法,例如事先在检索装置内的存储装置中储存登记数据20(图4所示的内容),关系数据展开检索部63参照该登记数据20而仅选择“数据类别23”为“曲名”的“文档ID21”。
[0099]如上述那样,检索部60根据事先赋予了的关系定义列表30和关系权重数据80,能够实现对检索查询70的字符串进行模糊检索、并且考虑了乐曲检索中的艺术家名和曲名那样的检索对象数据之间的关系的检索以及排序。
[0100]在上述的例子中,针对艺术家“ABC rock band”和“ZYX quartet”的相同的曲名“clear blue sky”,在检索查询70中包括“ZYX”这样的艺术家名的一部分单词,所以如图15所示,能够高排位地输出艺术家“ZYX quartet”的曲子“clear blue sky”。
[0101](2)检索处理例2
[0102]在上述的例子中,说明了针对“〈艺术家名X曲名 >”这样的检索查询的模式实施了检索处理的情况,但本实施方式I的检索装置不用变更索引的结构,而针对其他模式的检索查询也能够实施检索处理。
[0103]以下,说明对“〈唱片集名X曲名 >”这样的检索查询的模式进行处理的例子。此处,设作为检索查询70而输入“de印sea in country life”,并将“曲名”指定为检索对象。
[0104]另外,检索部60在处理该模式的检索查询的情况下,也使用索引生成部10根据之前的登记数据20以及关系定义列表30所生成的字符串检索用索引40以及关系数据展开用索引50。
[0105]在图11的步骤STll中,检索查询解析部61解析检索查询70的字符串“de印seain country I ife”而以单词为单位进行分割,输出 “deep ”、“sea”、“ in'“country ”、“ life”这5个单词。
[0106]在步骤ST12中,字符串检索部62参照字符串检索用索引40,取得与检索查询解析结果的各单词对应的“文档ID集合43”。在使用将图7所示那样的单词字符串作为检索关键字的字符串检索用索引40的情况下,得到与“de印”、“Sea”、“C0Untry”、“life”这4个单词对应的“单词ID41” = “ir’、“19”、“10”、“13”的各“文档ID集合43”。另一方面,关于与“in”对应的单词字符串,在字符串检索用索引40中未找到,而不存在“文档ID集合43”。
[0107]接下来,字符串检索部62针对所取得的“文档ID集合43”、即与“de印”对应的“文档 ID 集合 43” = “ 105、106”、与“sea”对应的“文档 ID 集合 43,,= “ 105、106,,、与“country,,对应的“文档ID集合43” = “10、108”、以及与“life”对应的“文档ID集合43” =“10、108”的各文档ID,相加字符串类似度。[0108]针对该检索查询字符串“deep sea in country life”,得到图16所示的字符串检索结果。此处,当相加字符串类似度时,设所有单词的权重都相等且为I。
[0109]在步骤ST13中,关系数据展开检索部63将字符串检索结果的“文档ID” (图16)作为检索关键字,参照图10所示的关系数据展开用索引50,取得“展开目的地文档ID52”以及“关系类别53”,并且将该“关系类别53”作为检索关键字,参照图13所示的关系权重数据80,取得“关系权重82”,使用它们来计算关系数据展开类似度。
[0110]图17是说明根据图16所示的字符串检索结果而针对检索查询字符串“deep seain country life”来计算关系数据展开类似度的过程的图。
[0111]关系数据展开检索部63将图16的“文档ID” = “10”作为检索关键字,从图10所示的关系数据展开用索引50取得“展开目的地文档ID52” = “106”以及“关系类别53” =“唱片集名一曲名”这I件的关系数据。另外,关系数据展开检索部63从图13所示的关系权重数据80,取得针对该关系数据的“关系类别53”定义了的“关系权重82” = “0.1”。然后,关系数据展开检索部63将对“展开源文档ID51”的“字符串类似度” =“2”乘以“关系权重82” = “0.1”而得到的值与“展开目的地文档ID52”的“字符串类似度” =“2”相加,得到“关系数据展开类似度” =2.2。
[0112]在步骤ST14中,关系数据展开检索部63将图17所示的关系数据展开类似度的计算结果按照“关系数据展开类似度”的顺序进行排列,仅限于指定为检索对象的“曲名”,作为图18所示那样的检索结果90而输出。
[0113]如上述那样,检索部60根据事先赋予了的关系定义列表30和关系权重数据80,能够实现对检索查询70的字符串进行模糊检索、并且考虑了乐曲检索中的唱片集名与曲名那样的检索对象数据之间的关系的检索以及排序。
[0114]在上述的例子中,针对唱片集“wild country life”和“cold mountain”的同一曲名“deep blue sea”,在检索查询70中包括“country life”这样的唱片集名的一部分单词,所以能够高排位地输出唱片集“wild country life”的曲子“deep blue sea”。
[0115]另外,不用变更字符串检索用索引40以及关系数据展开用索引50的结构,而能够对应于“〈艺术家名X曲名 >”这样的检索查询的模式、和“〈唱片集名X曲名 >”这样的检索查询的模式这双方。由此,具有如下优点:针对检索查询的各种模式,无需生成与各模式对应的单独的字符串检索用索引40,而能够削减数据容量。
[0116]以上,根据实施方式1,检索装置构成为具备:字符串检索用索引40,登记了成为检索对象的登记数据20、以及将该登记数据20以单词为单位进行分割而得到的单词字符串;关系数据展开用索引50,定义了登记数据20彼此的关系性、以及该关系性的类别;检索查询解析部61,将检索查询70以单词为单位进行分割;字符串检索部62,从字符串检索用索引40取得包括与所分割的单词部分一致的单词字符串的登记数据20,计算字符串类似度;和关系数据展开检索部63,将字符串检索部62所取得的登记数据20作为展开源文档数据,从关系数据展开用索引50取得针对该展开源文档数据定义了关系性的展开目的地文档数据,使用与在关系权重数据80中设定的关系性的类别对应的关系权重以及展开目的地文档数据的字符串类似度,修正展开源文档数据的字符串类似度来计算关系数据展开类似度,输出按照关系数据展开类似度的顺序对展开源文档数据进行了排列的检索结果90。因此,能够使用关系数据展开用索引50,求出考虑了与检索查询70部分一致的文档数据彼此的关系性及其类别的类似度,能够进行利用了相互有关联的关键词之间的关系性的灵活的模糊检索。另外,与字符串检索用索引40独立地准备了关系数据展开用索引50,所以无需生成与检索查询70的各模式对应的单独的字符串检索用索引40,而能够抑制数据容量。
[0117]而且,通过使用由将成为检索对象的登记数据20以单词为单位进行分割得到的单词字符串42构成的字符串检索用索引40,从而能够针对单词的省略、词序的变更进行鲁棒的检索。
[0118]另外,根据实施方式1,检索装置还能够使用由将成为检索对象的登记数据20以任意数的字符串为单位进行分割得到的部分字符串42b构成的字符串检索用索引40,在该情况下,能够进行反映了单词的字面上的类似性的模糊检索。
[0119]另外,根据实施方式1,检索装置还能够使用由将成为检索对象的登记数据20以任意数的音素串为单位进行分割得到的音素串42a构成的字符串检索用索引40,在该情况下,能够进行反映了音韵上的类似性的模糊检索。因此,能够针对声音识别错误进行鲁棒的检索。
[0120]另外,根据实施方式1,检索装置构成为具备:字符串索引生成部11,将成为检索对象的登记数据20以单词为单位等规定单位进行分割,生成字符串检索用索引40 ;以及关系数据展开用索引生成部12,根据定义了登记数据20彼此的关系性以及该关系性的类别的关系定义列表30,生成关系数据展开用索引50。因此,无需生成与检索查询70的各模式对应的单独的字符串检索用索引40,而能够抑制数据容量。
[0121]实施方式2.[0122]本实施方式2的检索装置与图1~图3所示的检索装置在附图上是同样的结构,原样地利用登记数据20、关系定义列表30、字符串检索用索引40以及关系数据展开用索引50,所以以下援用图1~图11以及图13来说明。
[0123]本实施方式2的检索部60通过变更关系权重数据80的值来进行检索,从而根据检索时的状况来计算关系数据展开类似度。
[0124]以下,设作为检索查询70而输入“bad brothers wild wind”,并将“曲名”指定为检索对象。并且,关于该情况,说明利用“与艺术家名的关联重视”的关系权重数据进行检索的情况、和利用“与唱片集名的关系重视”的关系权重数据进行检索的情况。
[0125](I)检索处理例I
[0126]首先,说明利用“与艺术家名的关联重视”的关系权重数据进行检索的情况的处理。
[0127]在图11的步骤STll中,检索查询解析部61解析检索查询70的字符串“badbrothers wild wind” 而以单词为单位进行分害I],输出“bad”、“brothers”、“wild”、“wind”这4个单词。
[0128]在步骤ST12中,字符串检索部62参照字符串检索用索引40,取得与检索查询解析结果的各单词对应的“文档ID集合43”。在使用将图7所示那样的单词字符串作为检索关键字的字符串检索用索引40的情况下,得到与“bad”、“biOtherS”、“Wild”、“Wind”这4个单词对应的“单词ID41” = “2”、“7”、“23”、“24”的各“文档ID集合43”。
[0129]接下来,字符串检索部62针对与“bad”对应的“文档ID集合43” = “3、30”、与“brothers”对应的“文档ID集合43” = “3、30”、与“wild”对应的“文档ID集合43” =“10、108、110、111”、以及与“wind”对应的“文档ID集合43” = “ 110、111 ”的各文档ID,相
加字符串类似度。
[0130]针对该检索查询字符串“bad brothers wild wind”,得到图19所示的字符串检索结果。当相加字符串类似度时,与上述实施方式I同样地,设所有单词的权重都相等且为
1
[0131]在步骤ST13中,关系数据展开检索部63使用关系权重数据80来计算字符串检索结果的关系数据展开类似度。
[0132]此处,关于图13所示的关系权重数据80,相比于“唱片集名一曲名”的“关系权重82” = “0.1”,“艺术家名一曲名”的“关系权重82” = “0.2”的一方设定有更大的值,成为“与艺术家名的关系重视”的设定。
[0133]因此,在该例子中,关系数据展开检索部63将字符串检索结果的“文档ID”(图19)作为检索关键字,参照图10所示的关系数据展开用索引50,取得“展开目的地文档ID52”以及“关系类别53”,并且将该“关系类别53”作为检索关键字,参照图13所示的关系权重数据80而取得“关系权重82”,使用它们来计算关系数据展开类似度。
[0134]图20是说明根据图19所示的字符串检索结果而针对检索查询字符串“badbrothers wild wind”来计算关系数据展开类似度的过程的图,示出“与艺术家名的关系重视”的情况。
[0135]在该例子中,“文档ID”S卩“展开源文档ID51” = “3”的关系数据得到4件(“文档10”=“20”、“104”、“105”、“111”)、“展开源文档ID51” =“30”的关系数据得到2件(“文档ID”=“108”、“110”)、“展开源文档ID51”=“10”的关系数据得到I件(“文档ID” =“106”)。其中,“文档ID” =“20”、“104”、“ 105”、“106”的各关系数据在字符串检索结果中
不存在,所以将“字符串类似度”设为O来计算。
[0136]关系数据展开检索部63与上述实施方式I同样地,针对这些关系数据,将对“展开源文档ID51”的“字符串类似度”乘以由关系权重数据80定义了的“关系权重82”得到的值,与“展开目的地文档ID52”的“字符串类似度”相加,而设为关系数据展开类似度。
[0137]在步骤ST14中,关系数据展开检索部63将图20所示的关系数据展开类似度的计算结果按照“关系数据展开类似度”的顺序进行排列,仅限定于指定为检索对象的“曲名”,作为图21所示那样的检索结果90而输出。
[0138](2)检索处理例2
[0139]接下来,说明作为与上述相同的检索查询70而输入“bad brothers wild wind”、但利用“与唱片集名的关系重视”的关系权重数据进行检索的情况的处理。在该情况下,步骤STl1、ST12的处理与上述相同。
[0140]图22示出“与唱片集名的关系重视”的关系权重数据80的一个例子。在该关系权重数据80中,相比于“艺术家名一曲名”的“关系权重82a” =“0.1”,“唱片集名一曲名”的“关系权重82a” = “0.2”的一方设定有更大的值,成为“与唱片集名的关系重视”的设定。
[0141]在步骤ST13中,关系数据展开检索部63将字符串检索结果的“文档ID” (图19)作为检索关键字,参照图10所示的关系数据展开用索引50,取得“展开目的地文档ID52”以及“关系类别53”,并且将该“关系类别53”作为检索关键字,参照图22所示的关系权重数据80而取得“关系权重82a”,使用它们来计算关系数据展开类似度。
[0142]图23是说明根据图19所示的字符串检索结果而针对检索查询字符串“badbrothers wild wind”来计算关系数据展开类似度的过程的图,示出“与唱片集名的关系重视”的情况。另外,图24是检索结果90。
[0143]关于例如“文档ID” =“111”的艺术家名一曲名的关系数据,如果是“与艺术家名的关系重视”的情况,则使用“关系权重82” = “0.2”而成为“关系数据展开类似度”=2.4(图20),但另一方面,如果是“与唱片集名的关系重视”的情况,则使用“关系权重82”= “0.1”而成为“关系数据展开类似度”=2.2(图23)。因此,关于“文档ID” = “111”的“wild is the wind”,在重视了与艺术家名的关系的检索结果中成为排序第I位(图21),在重视了与唱片集名的关系的检索结果中成为排序第2位(图24)。
[0144]另一方面,关于“文档ID” = “110”的唱片集名一曲名的关系数据,在重视了与艺术家名的关系的情况下成为排序第2位(图21),在重视了与唱片集名的关系的情况下成为排序第I位(图24)。
[0145]如上述那样,检索部60根据事先赋予了的关系定义列表30和在检索时提供的关系权重数据80,能够实现对检索查询70的字符串进行模糊检索、并且考虑了乐曲检索中的艺术家名与曲名那样的检索对象数据之间的关系的检索以及排序。
[0146]另外,通过变更关系权重数据80的值来进行检索,从而得到与检索时的状况以及目的对应的检索结果。
[0147]例如,在输入检索查询70的应用程序上选择了“使与艺术家名的关系优先”、“使与唱片集名的关系优先”等菜单的情况下,关系数据展开检索部63变更图13、图22等的关系权重数据80来进行检索,从而能够得到依照利用者的目的的检索结果90。
[0148]另外,例如在通过声音输入进行检索的情况下,在声音输入装置通过“请输入艺术家名和曲名”这样的提示而要求了利用者的声音输入的情况、和通过“请输入唱片集名和曲名”这样的提示而要求了利用者的声音输入的情况下,关系数据展开检索部63区分使用图13、图22的关系权重数据80来进行检索,从而得到与检索时的状况以及目的对应的检索结果O
[0149]以上,根据实施方式2,关系数据展开检索部63构成为依照对优先的关系性的类别进行了指定的外部输入来变更关系权重数据80,使与优先的关系性的类别相应的展开源文档数据的关系数据展开类似度变大。因此,除了上述实施方式I的效果以外,还能够得到与检索时的状况以及目的对应的检索结果。
[0150]另外,本申请发明能够在本发明的范围内实现各实施方式的自由的组合、或者各实施方式的任意的构成要素的变形、或者各实施方式中的任意的构成要素的省略。
[0151]产业上的可利用性
[0152]如以上那样,本发明的检索装置能够抑制数据容量、并且针对相互具有关联的构造数据实施灵活的模糊检索,所以适用于实施乐曲检索、设施名检索、住址检索等的车辆导航装置、智能手机等。
【权利要求】
1.一种检索装置,具备: 字符串检索用索引,登记了成为检索对象的文档数据以及将该文档数据以规定单位进行分割得到的部分数据; 关系数据展开用索引,定义了所述文档数据彼此的关系性以及该关系性的类别; 字符串检索部,将检索查询分割为所述规定单位的部分数据,从所述字符串检索用索引取得与该部分数据部分一致的文档数据,计算类似度;以及 关系数据展开检索部,将所述字符串检索部所取得的所述文档数据作为展开源,从所述关系数据展开用索引取得针对该展开源的文档数据定义了所述关系性的展开目的地的文档数据,使用与所述关系性的类别对应的权重以及该展开目的地的文档数据的所述类似度,修正该展开源的文档数据的所述类似度,按照该修正了的类似度的顺序来排列该展开源的文档数据而输出。
2.根据权利要求1所述的检索装置,其特征在于, 字符串检索用索引具有将成为检索对象的文档数据以单词为单位进行分割得到的部分数据, 字符串检索部将检索查询中的一部分单词作为检索关键字,检索所述字符串检索用索引。
3.根据权利要求1所述的检索装置,其特征在于, 字符串检索用索引具有将成为检索对象的文档数据以任意的字符数为单位进行分割得到的部分数据, 字符串检索部将检索查询中的所述任意的字符数的字符串作为检索关键字,检索所述字符串检索用索引。
4.根据权利要求1所述的检索装置,其特征在于, 字符串检索用索引具有将成为检索对象的文档数据以任意的音素数为单位进行分割得到的部分数据, 字符串检索部将检索查询中的所述任意的音素数的音素串作为检索关键字,检索所述字符串检索用索引。
5.根据权利要求1所述的检索装置,其特征在于, 关系数据展开检索部依照对优先的关系性的类别进行了指定的外部输入来增大权重,使定义了该关系性的类别的文档数据的类似度变大。
6.根据权利要求1所述的检索装置,其特征在于,具备: 字符串索引生成部,将成为检索对象的文档数据分割为规定单位的部分数据而生成字符串检索用索引;以及 关系数据展开用索引生成部,根据定义了所述文档数据彼此的关系性以及该关系性的类别的关系定义列表,生成关系数据展开用索引。
【文档编号】G06F17/30GK103890755SQ201180074353
【公开日】2014年6月25日 申请日期:2011年12月27日 优先权日:2011年12月27日
【发明者】相川勇之, 冈登洋平 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1