多语言文档聚类的制作方法

文档序号:8303449阅读:241来源:国知局
多语言文档聚类的制作方法
【专利说明】多语言文档聚类
[0001]相关申请的交叉引用
[0002]本申请要求于2012年7月16日提交的美国实用专利申请第13/549,624号的优先权。以上申请的公开内容通过引用被整体合并到本文中。
【背景技术】
[0003]文档聚类(document clusters)可以用于增强搜索查询。可以基于共同特征来聚类文档集。聚类中的文档可以是一种语言的。例如,因为关键字被用于形成文档聚类,所以文档可能是针对一种语言来聚类。当用户输入搜索查询时,提供的结果将仅与一种语言的一组文档有关。因此,响应于搜索查询,与搜索有关的、但是不同语言的文档将不会被提供给用户。

【发明内容】

[0004]在本公开内容的多个实施方式中,技术能够包括在计算装置中的文档收集模块处确定待聚类的文档集。文档集能够包括外语文档和基础语言文档。在计算装置中的基础语言翻译模块处,外语文档能够被机器翻译成基础语言。在计算装置中的文档索引模块处能够确定基础语言文档中的关键字和经翻译的外语文档中的关键字。在文档索引模块处,与语言无关的关键字索引能够被分配给每个确定的关键字。在计算装置中的聚类模块处,基于与语言无关的关键字索引,能够将基础语言文档与外语文档聚类在文档聚类的公共集合中。文档聚类的集合能够包括基础语言文档和外语文档两者,并且文档聚类的集合能够被存储在数据库中。
[0005]在本公开内容的多个实施方式中,技术能够包括在计算装置中的文档收集模块处识别待聚类的文档集。文档集能够包括外语文档和基础语言文档。在计算装置中的基础语言翻译模块处,外语文档能够被翻译成基础语言。在计算装置中的文档索引模块处能够确定基础语言文档中的关键字和经翻译的外语文档中的关键字。在计算装置中的聚类模块处,基于基础语言文档中的确定的关键字和经翻译的外语文档中的确定的关键字,能够将基础语言文档与外语文档聚类在文档聚类的公共集合中。文档聚类的集合能够包括基础语言文档和外语文档两者,并且文档聚类的集合能够被存储在数据库中。
[0006]技术还能够包括:在计算装置中的重复文档确定模块处确定文档聚类之一中的第一语言的第一文档何时对应于所述文档聚类之一中的不同于第一语言的第二语言的第二文档的翻译,并且当第一文档对应于第二文档的翻译时在计算装置处提供指示。确定第一文档何时对应于第二文档的翻译包括确定所述文档聚类之一中的文档之间的距离,并且当第一文档和第二文档之间的距离在预定阈值以内时提供指示。第一文档和第二文档之间的距离能够对应于第一文档和第二文档之间的相似水平。
[0007]将外语文档翻译成基础语言能够包括将外语文档机器翻译成基础语言。可替选地,将外语文档翻译成基础语言能够包括将外语文档发送至翻译引擎,以及从翻译引擎接收外语文档的基础语言翻译。技术还能够包括将与语言无关的关键字索引应用于关键字。与语言无关的关键字索引能够包括数字关键字索引。在将与语言无关的关键字索引应用于关键字之后能够进行聚类,并且能够基于与语言无关的关键字索引将外语文档和基础语言文档分组到文档聚类的集合中。
[0008]识别待聚类的文档集能够包括访问包括电子商务产品数据库的封闭系统中的产品数据库。每个文档聚类能够包括基础语言和至少一种外语的产品数据库中相关产品的产品信息。技术还能够包括临时存储经翻译的外语文档,以及在确定经翻译的外语文档中的关键字之后删除经翻译的外语文档。
[0009]在本公开内容的多个实施方式中,技术能够包括文档收集模块、基础语言翻译模块、文档索引模块、聚类模块以及数据库。文档收集模块能够识别来自网络的待聚类的文档集,其包括多种语言的文档,并且文档收集模块能够识别基础语言。基础语言翻译模块能够与文档收集模块通信,并且能够识别基础语言,以及能够提供文档集中的外语文档的基础语言翻译。文档索引模块能够与文档收集模块和基础语言翻译模块通信,并且能够从文档集中的基础语言文档以及外语文档的翻译中确定关键字。聚类模块能够与文档索引模块通信,并且能够基于来自文档索引模块的所确定的关键字,产生针对文档集的文档聚类。文档聚类能够包括文档集中的基础语言文档和外语文档。数据库能够与聚类模块通信,并且能够存储文档聚类。
[0010]技术还能够包括与数据库通信的重复文档确定模块,其确定文档聚类之一中的第一语言的第一文档何时对应于不同于第一语言的第二语言的第二文档的翻译,并且当第一文档对应于第二文档的翻译时能够在数据库中提供指示。重复文档确定模块能够确定第一文档和第二文档之间的距离,并且当第一文档和第二文档之间的距离在预定阈值以内时能够提供指示。第一文档和第二文档之间的距离能够对应于第一文档和第二文档之间的相似水平。
[0011]基础语言翻译模块能够提供将外语文档机器翻译成基础语言。文档索引模块能够将与语言无关的关键字索引提供给每个关键字。聚类模块能够基于与语言无关的关键字索引生成针对文档集的文档聚类。网络能够包括形成电子商务产品数据库的封闭系统中的产品数据库。每个文档聚类能够包括基础语言和至少一种外语的产品数据库中相关产品的产品?目息。
[0012]在本公开内容的多个实施方式中,技术能够包括:在计算装置中的通信模块处接收来自与用户装置交互的用户的对翻译网页的请求,其中用户装置与计算装置通信。能够在通信模块处接收来自用户的第一语言的搜索查询。能够在计算装置中的文档识别模块处识别与搜索查询有关的第一语言的至少一个文档,以及来自与计算装置通信的数据库的至少一个文档聚类。至少一个文档能够包括被用户请求从第一语言翻译成不同于第一语言的第二语言的第一文档。文档聚类能够包括第一语言的第一文档和第二语言的另外文档。能够通过以下操作产生文档聚类:(i)在计算装置中的文档收集模块处识别待聚类的文档集,文档集包括外语文档和基础语言文档;(ii )在计算装置中的基础语言翻译模块处将外语文档翻译成基础语言,以得到经翻译的外语文档;(iii)在计算装置中的文档索引模块处确定基础语言文档中的关键字和经翻译的外语文档中的关键字;(iv )在计算装置中的聚类模块处,基于基础语言文档中的所确定的关键字和经翻译的外语文档中的所确定的关键字,将基础语言文档与外语文档聚类在文档聚类的公共集合中,文档聚类的集合包括基础语言文档和外语文档两者;以及(V )将文档聚类的集合存储在数据库中。能够在聚类评估模块处针对与第一文档的距离在预定阈值内的第二语言的第二文档来评估至少一个文档聚类,其中第一文档与第二文档之间的距离对应于第一文档与第二文档之间的相似水平。当第二文档与第一文档的距离在预定阈值内时,能够响应于搜索查询,通过计算装置中的用户接口模块提供第二文档给用户装置。
[0013]在本公开内容的多个实施方式中,技术能够包括在计算装置中的通信模块处接收来自与用户装置交互的用户的第一语言的搜索查询,其中用户装置与计算装置通信。在计算装置的文档识别模块处,能够识别与搜索查询有关的第一语言的至少一个文档以及来自与计算装置通信的数据库的至少一个文档聚类。文档聚类能够包括第一语言的至少一个文档以及不同于第一语言的第二语言的另外文档。响应于搜索查询,能够从计算设备将搜索结果的列表提供给用户装置。搜索结果的列表能够包括至少两种语言的文档,其中至少两种语言包括第一语言和第二语言。
[0014]搜索查询能够包括来自用户的翻译网页的请求,并且至少一个文档能够包括被用户请求从第一语言翻译成第二语言的第一文档。技术还可以包括针对与第一文档的距离在预定阈值内的第二语言的第二文档来评估至少一个文档聚类,以及当第二文档与第一文档的距离在预定阈值内时,响应于搜索查询将第二文档提供给用户。第一文档和第二文档之间的距离能够对应于第一文档和第二文档之间的相似水平。
[0015]能够通过下述步骤产生文档聚类:(i )在计算装置中的文档收集模块处识别待聚类的文档集,文档集包括外语文档和基础语言文档;(ii )在计算装置中的基础语言翻译模块处将外语文档翻译成基础语言,以得到经翻译的外语文档;(iii)在计算装置中的文档索引模块处确定基础语言文档中的关键字和经翻译的外语文档中的关键字;(iv )在计算装置中的聚类模块处,基于基础语言文档中的所确定的关键字和经翻译的外语文档中的所确定的关键字,将基础语言文档与外语文档聚类在文档聚类的公共集合中,文档聚类的集合包括基础语言文档和外语文档两者;以及(V )将文档聚类的集合存储在数据库中。第一语言能够是用于产生文档聚类的基础语言,或者能够是对应于外语文档之一的语言。
[0016]提供搜索结果的列表能够包括:将包括第一语言的文档和至少第二语言的文档的结果的列表提供给用户装置。可替选地,提供搜索结果的列表能够包括:将包括第一语言的文档的结果的列表提供给用户装置,以及为用户提供查看包括至少第二语言的文档的相关外语文档的选项。
[0017]搜索查询能够包括识别电子商务网站上的第一产品。至少一个文档能够对应于第一产品,并且至少一个文档聚类能够包括与第一产品有关的另外产品的信息,所述信息采用不同于第一语言的语言。提供搜索结果的列表能够包括响应于搜索查询将另外产品的列表提供给用户装置。
[0018]在本公开内容的多个实施方式中,技术能够包括通信模块、文档识别模块和用户接口模块。通信模块能够接收来自与用户装置交互的用户的第一语言的搜索查询,其中用户装置与计算装置通信。文档识别
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1