检索过滤方法及其处理装置的制造方法_3

文档序号:9922031阅读:来源:国知局
果进行过滤。
[0036]举例来说,使用者先输入关键字词「珍珠」。搜寻引擎2根据关键字词「珍珠」进行检索,并得到对应的初步检索结果。可能关联字词产生单元101根据初步检索结果,搜寻出对应关键字词「珍珠」的可能关联字词。关联字词产生单元102与同义字词产生单元103分别根据关键字词「珍珠」与可能关联字词于对应的内容文本中同时出现于同一句子的次数产生相关字词,例如相关字词「玉」、「和阗玉」、「翡翠」、「手环」、「珍珠奶茶」以及「面膜」。
[0037]聚类单元111将关键字词「珍珠」与相关字词「玉」、「和阗玉」、「翡翠」、「手环」、「珍珠奶茶」以及「面膜」向量化,并分别计算关键字词「珍珠」与相关字词「玉」、「和阗玉」、「翡翠」、「手环」、「珍珠奶茶」以及「面膜」彼此间的距离值。依据计算出的距离值,聚类单元111将相关字词「玉」、「和阗玉」、「翡翠」以及「手环」分类到聚类群组「首饰」,将相关字词「珍珠奶茶」分类到聚类群组「食品」,且将相关字词「面膜」分类到聚类群组「化妆品」。
[0038]最后,聚类单元111将聚类群组「首饰」、「食品」以及「化妆品」输出至操作介面3,以供使用者选择其中一个聚类群组。若使用者选择聚类群组「首饰」,则搜寻引擎将过滤聚类群组「食品」以及「化妆品」所对应的网页,仅呈现聚类群组「首饰」所对应的网页给使用者。
[0039]同时,个人化模块记录使用者所选择的聚类群组「首饰」。如此一来,下一次使用者进行检索时,个人化模块将会控制搜寻引擎优先地呈现对应聚类群组「首饰」的网页,或是自动地过滤掉对应聚类群组「首饰」以外的网页,使得初步检索结果更贴近于使用者的喜好。
[0040]请参阅图2,图2是本发明实施例之检索过滤方法的流程图。检索过滤方法适用于前述的处理装置I。于步骤S201,开始检索过滤方法。于步骤S202,接收使用者输入的关键字词。于步骤S203,根据关键字词,经由搜寻引擎于互联网上进行检索以得到初步检索结果。初步检索结果包含有多个网页等数据。接着,依据初步检索结果搜寻与对应关键字词的至少一相关字词。
[0041]于步骤S204,依据初步检索结果,对相关字词进行聚类,并产生聚类结果,聚类结果包括至少一聚类群组。于步骤S205,输出聚类结果以供使用者从其中选择想要的聚类群组。于步骤S206,使用者由聚类结果选择想要的聚类群组。于步骤S207,依据被选择的聚类群组,对初步检索结果进行过滤以产生对应的检索过滤结果。于步骤S208,结束检索过滤方法。
[0042]请参阅图3,图3是本发明实施例之产生相关字词的流程图。于步骤S301,承接自图2的步骤S203,开始搜寻对应关键字词的相关字词。于步骤S302,依据多个网页中的多个内容文本获得内容文本各自对应的至少一可能关联字词。内容文本可以是在网页中的任何文字。于步骤S303,计算关键字与可能关联字词于对应的内容文本中同时出现于同一句子的次数。
[0043]于步骤S304,判断关键字与可能关联字词于对应的内容文本中同时出现于同一句子的次数是否大于第一阈值。若关键字与可能关联字词于对应的内容文本中同时出现于同一句子的次数大于第一阈值,进入步骤S305。反之,则进入步骤S306。如同前面所述,本发明实施例并不限制第一阈值的数值,使用者可自行设计第一阈值以判断可能关联字词与关键字词的关联性,或是依据已知类似技术中的相关数据来产生。于步骤S305,可能关联字词被列为关键字词的相关字词。
[0044]于步骤S306,判断关键字词与可能关联字词于同一内容文本中同时出现于同一句子的次数是否小于第二阈值且大于第三阈值。若关键字词与可能关联字词于同一内容文本中同时出现于同一句子的次数小于第二阈值且大于第三阈值,进入步骤S307。反之,则进入步骤S309。如同前面所述,本发明并不限制第二阈值与第三阈值的数值,使用者可自行设计第二阈值与第三阈值以判断可能关联字词与关键字词的关联性,或是依据已知类似技术中的相关数据来产生。于步骤S307,可能关联字词被列为关键字词的候补字词。于步骤S308,根据候补字词找出关键字词的同义字词。于步骤S309,结束搜寻对应关键字词的相关字词。
[0045]请参阅图4,图4是本发明实施例之产生同义字词的流程图。于步骤S401,承接自图3之步骤S308,开始根据候补字词找出关键字词的同义字词。于步骤S402,根据关键字词与候补字词的词性以及关键字词与候补字词所在的句子的文句结构,来判断候补字词是否为关键字词的同义字词或反义字词。判断候补字词是否为关键字词的同义字词或反义字词的方法类似于前述实施例,于此不再多加冗述。当候补字词被判断为关键字词的同义字词,进入步骤S403。反之,则进入步骤S404。
[0046]于步骤S403,当候补字词被判断为关键字词的同义字词时,将同义字词列为相关字词。于步骤S404,当候补字词被判断为关键字词的反义字词时,不将反义字词列为相关字词。于步骤S405,结束根据候补字词找出关键字词的同义字词。
[0047]请参阅图5,图5是本发明实施例之产生聚类结果的流程图。于步骤S501,承接自图2的步骤S204,开始对关键字词进行聚类。于步骤S502,将关键字词与相关字词向量化。于步骤S503,根据向量化后的关键字词与相关字词分别计算关键字词与相关字词彼此间的距离值。有关将关键字词与相关字词向量化的技术以及计算两数据向量间的距离值的详细计算方式为所属技术领域具通常知识者常用的技术,故在此不再赘述。于步骤S504,根据距离值对关键字词与相关字词进行聚类,以产生聚类结果。于步骤S505,结束对关键字词进行聚类。
[0048]综上所述,本发明实施例所提供的检索过滤方法及使用其的处理装置可依据初步检索结果对相关字词进行聚类,以产生聚类结果。使用者可依需求从聚类结果中选择想要的聚类群组,使得初步检索结果可以进一步地被过滤,并产生使用者想要的检索过滤结果。
[0049]本发明实施例所提供的检索过滤方法还能够根据关键字词与可能关联字词于对应的内容文本中同时出现于同一句子的次数来判断可能关联字词是关键字词的关联字词、同义字词或是反义字词。相较于现有的技术,本发明实施例所提供的检索过滤方法能够更加精准地找出对应关键字词的相关字词。
[0050]另一方面,本发明实施例所提供的处理装置更包括了个人化模块。透过设置个人化模块,使用者进行检索所得到的初步检索结果能够更贴近于使用者的喜好。如此一来,使用者便可不花费太多时间在关连性较低的网页上,并直接获得想要的信息。
[0051]本发明的方法可经由本发明的处理装置来进行实施,处理装置中的部份元件(如相关字词产生模块及聚类单元),可应用具特定逻辑电路的独特硬件装置或具特定功能的设备来实施,如将程序码和处理器/芯片整合成独特硬件或将程序码和市售可得的特定设备整合。更进一步者,本发明的方法亦可经由一般用途处理器/计算器/服务器结合其它硬件来进行实施。当一般用途处理器/计算器/服务器载入特定程序码且执行时,此一般用途处理器/计算器/服务器成为用以参与本发
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1