互联网中关联词条组相关度的测量方法、排序方法和装置的制作方法

文档序号:6585277阅读:136来源:国知局
专利名称:互联网中关联词条组相关度的测量方法、排序方法和装置的制作方法
技术领域
本发明涉及信息识别领域,尤其涉及一种互联网中关联词条组相关度的测量方 法、排序方法和装置。
背景技术
在实际生活中,人们常需要在网络中查找一些具有关联性的两个或两个以上的词 条,各词条包括一个或多个字(后文称为关联词条组),比如搜索一种型号的产品及其参 数,搜索一个作家及其作品等。再比如在阅读、翻译及写作中,人们经常会遇到一些通用词典中未收录的词或词 组(如新词、专业词、人名、地名、机构名、名词术语、固定短语、俚语等)。随着互联网的普 及与发展,往往在互联网上已经存在这些词或词组对应的中文(或英文)释义。目前常用的方法是用关联词条组(两个或两个以上具有关联性的词条)在互联 网上出现的次数作为评分,次数越高评分越高。但是,该方法存在以下缺陷(1)不能合理处理关联词条组在单个网页中的词频问题。当某个关联词条组在某 网页中出现N(N>1)次时,现有方法是将其简单记为1次或者N次。若记为N次,会导致 重复次数较多的垃圾关联词条组的评分虚高(如一些作弊网站);若记为1次,则可能导致 一些优秀关联词条组的评分较低(如在同一网页中被多次引用的准确关联词条组)。(2)不能合理处理关联词条组在某个站点(如iciba. com)的词频问题。当某个关 联词条组在某个网站中出现多次时,假设它来源于该网站的多个(M个)网页,现在技术没 有考虑到这M个网页之间的相似性问题和关联词条组在网页中的位置问题,而直接将其记 为M次。这会导致如下结果(a)如果这些网页中部分或全部网页内容基本相似,而关联词 条组恰好来源于这些相似部分(如BBS的主题贴部分),则变相重复计算了词频;(b)如果 关联词条组来源于网页的非正文部分(因为正文抽取不可能100%正确),而该部分在多个 网页中出现,亦会重复计算词频。(3)未考虑站点可靠性对于关联词条组质量的影响。对于那些贡献了更多不重复 的关联词条的站点,它们的可靠性应该更高,而贡献度低(如只贡献了几个不重复的关联 词条)的站点,其可靠性更低。

发明内容
本发明要解决的技术问题是提供一种互联网中关联词条组相关度的测量方法、排 序方法和装置,可以对互联网网页中出现的关联词条进行更合理的测量、排序。为了解决上述问题,本发明提供了一种互联网中关联词条组相关度的测量方法, 包括A、对于各个包含待测量关联词条组的站点,分别测量所述待测量关联词条组在该 站点中的相关度;
B、对于各所述站点,分别将所述待测量关联词条组在该站点中的相关度乘以该站 点的权重,得到所述待测量关联词条组在该站点中的相关度修正值;C、将所述待测量关联词条组在各所述站点中的相关度修正值相加,得到所述待测 量关联词条组的相关度。进一步地,所述的测量方法还包括分别由各站点所包含的不重复的关联词条组的数量freq_i得到该站点的所述权重。进一步地,分别由各站点所包含的不重复的关联词条组的数量freq_i得到该站 点的所述权重具体包括分别确定各站点所包含的不重复的关联词条组的数量freq_i ;对于各站点,采用对数函数处理所述freq_i得到第一函数值,作为该站点的所述权重。进一步地,采用对数函数处理所述freq_i得到的第一函数值具体是指将所述freq_i加上一常数β,求出所得到的和对于10的对数,得到第一函数值 lg(freq_i+^ )。进一步地,所述步骤A具体包括对于各个包含待测量关联词条组的站点,分别进行以下步骤确定该站点中包含所述待测量关联词条组的个数WordCnt_i,以及该站点中包含 任意关联词条组的不重复的url数量urlcnt」;采用对数函数对所述wordcntj处理得到第二函数值,所述对数函数的底数大于 1 ;采用幂函数对urlcnt」除以wordcnt」的商urlcnt_i/wordcnt_i处理得到第三函数 值,所述幂函数的指数大于0小于1 ;由第二函数值和第三函数值的乘积得到所述待测量关联词条组在该站点中的相关度。进一步地,所述对数函数的底数为10,所述幂函数的指数为0. 5。进一步地,采用对数函数对所述wordcnt」处理得到第二函数值是指将所述wordcnt」加上一常数α,求出所得到的和对于10的对数,得到第二函数 值 Ig (wordcnt」+ α )。本发明还提供了一种互联网中关联词条组相关度的排序方法,包括a、按照上所述的测量方法,测量各关联词条组的相关度;b、按照相关度的大小进行排序。本发明还提供了一种互联网中关联词条组相关度的测量装置,包括站点相关度测量模块,用于对于各个包含待测量关联词条组的站点,分别测量所 述待测量关联词条组在该站点中的相关度;加权模块,用于对于各所述站点,分别将所述待测量关联词条组在该站点中的相 关度乘以该站点的权重,得到所述待测量关联词条组在该站点中的相关度修正值;求和模块,用于将所述待测量关联词条组在各所述站点中的相关度修正值相加, 得到所述待测量关联词条组的相关度。进一步地,所述的测量装置还包括
权重模块,用于分别由各站点所包含的不重复的关联词条组的数量freq_i得到 该站点的所述权重。进一步地,所述权重模块具体包括第一统计模块,用于分别确定各站点所包含的不重复的关联词条组的数量freq_ i ;第一处理模块,用于对于各站点,采用对数函数处理所述freq_i得到第一函数 值,作为该站点的所述权重;所述对数函数的底数大于1。进一步地,所述第一处理模块采用对数函数处理所述freq_i得到的第一函数值 具体是指所述第一处理模块将所述freq_i加上一常数β,求出所得到的和对于10的对数, 得到第一函数值lg(freq_i+i3)。进一步地,所述站点相关度测量模块具体包括第二统计模块,用于分别确定各所述站点中包含关联词条组的不重复的url数 量;其中,一站点i中包含关联词条组的不重复的url数量为urlcnt」;第三统计模块,用于分别确定各所述站点中包含所述待测量关联词条组的个数; 其中,一站点i中包含所述待测量关联词条组的个数为wordcntj ;第二处理模块,用于采用对数函数对所述wordcnt」处理得到站点i的第二函数 值,所述对数函数的底数大于1 ;第三处理模块,用于采用幂函数对urlcnt_i除以wordcnt_i的商urlcnt_i/ wordcnt_i处理得到站点i的第三函数值,所述幂函数的指数大于0小于1 ;相关度测量模块,由站点i的第二函数值和第三函数值的乘积得到所述待测量关 联词条组在站点i中的相关度;求和模块,将所述待测量关联词条组在各所述站点中的相关度相加,得到所述待 测量关联词条组的相关度。进一步地,所述第二处理模块采用的所述对数函数的底数为10 ; 所述第三处理模块采用的所述幂函数的指数为0. 5。进一步地,所述第二处理模块采用对数函数对所述wordcnt」处理得到第二函数
值是指所述第二处理模块将所述wordcntj加上一常数α,求出所得到的和对于10的对 数,得到第二函数值lg(wordCnt_i+a )。本发明提供了一种互联网中关联词条组相关度的排序装置,包括上述的测量装置,用于测量各关联词条组的相关度;存储单元,用于保存各关联词条组的相关度;排序单元,用于按照相关度的大小对各关联词条组进行排序。本发明的技术方案更精确合理地对网页中的出现的关联词条组进行测量、排序, 消除从网页中抽取的关键词条组所包含的大量噪声,将准确性较低、相关度较差的关联词 条组排列顺序后置,将准确性较高、相关度较好的关联词条组相关度的排列顺序尽量提前; 当后续检索或翻译时按照本发明的技术方案所排顺序,选用排序靠前的关联词条组,可以 提高检索或翻译的准确性和可靠性。


图1为实施例四的互联网中关联词条组相关度的测量方法的流程示意图;图2为实施例六的互联网中关联词条组相关度的测量装置的示意框图。
具体实施例方式下面将结合附图及实施例对本发明的技术方案进行更详细的说明。需要说明的是,如果不冲突,本发明实施例以及实施例中的各个特征可以相互结 合,均在本发明的保护范围之内。另外,在附图的流程图示出的步骤可以在诸如一组计算机 可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况 下,可以以不同于此处的顺序执行所示出或描述的步骤。实施例一,一种互联网中关联词条组相关度的测量方法,包括A、对于各个包含待测量关联词条组的站点,分别测量所述待测量关联词条组在该 站点中的相关度;B、对于各所述站点,分别将所述待测量关联词条组在该站点中的相关度乘以该站 点的权重,得到所述待测量关联词条组在该站点中的相关度修正值;C、将所述待测量关联词条组在各所述站点中的相关度修正值相加,得到所述待测 量关联词条组的相关度。乘以权重的意义是将站点的可靠性或权威性等考虑进相关度的测量中。求和的意义是所述待测量关联词条组来源站点数越多,说明它得到了更多站点 的认可,其相关度越高。在测量中,不一定是对所有包含待测量关联词条组的站点,都测量待测量关联词 条组在该站点中的相关度;可以将一些站点(比如开办时间短、信用度低的)排除在外;后 面的实施例中也一样。实施例二、一种互联网中关联词条组相关度的测量方法,包括实施例一中的步骤 A、B 禾口 C。本实施例中,所述方法还包括分别由各站点所包含的不重复的关联词条组的数量freq_i得到该站点的所述权 重;本实施例中采用freq_i求权重,表示包含了更多不重复关联词条组的站点可靠度更 高,它们包含的关联词条组的可靠性亦相对较高。实际应用中,也可以由站点的其它有关其可靠性或权威性的因素得到其权重,比 如站点的开办时间,知名度等。本实施例的一种实施方式中,可以但不限于采用对数函数处理所述freq_i得到 第一函数值,作为该站点的所述权重;所述对数函数的底数大于1。其它实施方式中,也可 采用其它函数。该实施方式中,所述底数可以但不限于为10。该实施方式中,采用对数函数处理所述freq_i得到第一函数值具体是指将所述 freq_i加上一常数β,求出所得到的和对于10的对数,得到第一函数值lg(freq_i+i3)。该实施方式中,所述β可以但不限于为1 ;在其它实施方式中,所述底数/β可以有其它取值。其它细节同实施例一。实施例三、一种互联网中关联词条组相关度的测量方法,包括实施例一或二中的 步骤A、B和C。本实施例中,所述步骤A具体包括对于各个包含待测量关联词条组的站点,分别进行以下步骤确定该站点中包含所述待测量关联词条组的个数WordCnt_i,以及该站点中包含 任意关联词条组的不重复的url数量urlcnt」;采用对数函数对所述wordcntj处理得到第二函数值,所述对数函数的底数大于 1 ;采用幂函数对urlcnt」除以wordcnt」的商urlcnt_i/wordcnt_i处理得到第三函数 值,所述幂函数的指数大于0小于1 ;由第二函数值和第三函数值的乘积得到所述待测量关联词条组在该站点中的相关度。实际应用中,也可采用其它方式得到待测量关联词条组在各站点中的相关度;也 可以采用其它函数处理所述wordcnt_i除以wordcnt_i的商,或是其它参数。在本实施例的一种实施方式中,所述对数函数的底数为10,即为Ig函数;所述幂 函数的指数为0. 5,即为sqrt函数。该实施方式中,采用Ig函数表示所述待测量关联词条组在某站点出现的次数越 多,说明其被认可度越高,故相关度越高;采用sqrt函数表示该待测量关联词条组在某站 点大量网页中出现,它很有可能来自非正文区域或者来自作弊网站,应相对降低其相关度。在传统搜索引擎中,一般tf = sqrt(freq_i),idf = log(D/Dw_i),其中 freq_i* 关联词条组的总频次,D代表总的网页数,Dw_i表示出现关联词条组的网页数,而该实施方 式中用log函数计算tf值,用sqrt函数计算idf值,以加重关联词条组在某站点大量网页 中出现的重要性,出现得越频繁,相关度越低,以达到降低可靠性低的关联词条组的排序的 目的。根据实验结果,改进(用log函数计算tf值、用sqrt函数计算idf值)后的效果比 改进前的效果要好。该实施方式中,采用对数函数对所述wordcntj处理得到第二函数值可以但不限 于是指,将所述wordcntj加上一常数α,求出所得到的和对于10的对数,得到第二函数值 Ig (wordcnt」+ α )。该实施方式中,所述α可以但不限于为1。在其它实施方式中,所述底数/指数/α可以有其它取值。其它细节同实施例一或二。实施例四、一种互联网中关联词条组相关度的测量方法;该实施例中,所述关联词 条组为中英互译对;该测量方法如图1所示,包括以下步骤101、系统输入为形如id+en+cn+url的互译对记录,其中erucn分别代表互译对的 英文域及中文域,url代表互译对的来源网址,id是记录的唯一标识,由en+cn+url排重生 成。总的记录条数可达10亿条左右。单条记录示例如下3215</seg>campus</seg> 校园
</seg>http://sl. iciba. com/viewthread-42-611087-1. shtml102、把url作为key值进行哈希表排重,得到每个网页贡献的互译对信息,记录形 式为url+idl id2. . . idn,同时得到包含互译对的url总数,数量可达上亿。103、把en+cn作为key值进行哈希表排重,得到每个互译对来源的url信息,记录 形式为en+cn+urll url2. . . urln,同时得到所有互译对的总数,数量有几千万之多。104、根据步骤102的结果,即形如url+idl id2. . . idn的上亿记录,把主站相同的 url信息合到一起,得到形如domain+idl id2. . . idm的记录,它表示某个站点贡献了哪些 互译对,同时得到站点总数(可达上百万之多)。105、根据步骤104的结果,再结合步骤101中的互译对记录信息,用en+cn信息代 替步骤104结果中的id信息,并对domain下的en+cn信息进行排重,得到站点里贡献的互 译对总数及每个互译对在该站内出现的次数。记录形式如下domain+total_cnt+enl cnl cntl+en2 cn2 cnt2+...如iciba. com</seg>3</seg>hello</mul> 你好 </mul>2</seg>get</mul>得到</mul>l 表示站点iciba. com总共贡献了 3个互译对,其中‘‘hello你好" 出现了 2次,丨'get得到〃出现了 1次。106、对步骤103结果的每条记录,把主站相同的url合并在一起,并用主站名代替 url,得到所有互译对来源的主站总数及来源于各个主站的频次。记录形式如下:en+cn+word_cnt+domainl cntl+domain2 cnt2. +…,如 hello</seg> 你好 </seg>3</seg>iciba. com</mul>2</seg>baidu. com</mul>l 表示互译对〃 hello你好〃在互联网出现了三次,其中在站点iciba. com上出现两次,在站
baidu. com上出现一次。107、根据步骤105的结果,以及公式weight = log(freq)+l,得到所有站点贡献互 译对的权重。注此处的freq即步骤105结果中的total_Cnt。108、根据步骤102的结果,把主站相同的url信息合到一起,得到形如 domain+url_cnt+urll url2...的记录,它表示某个站点有哪些url贡献了互译对。109、根据以上步骤的结果,及评分公式score = sum_i (log (wordcnt_ i+l)*sqrt(urlcnt_i/wordcnt_i)*weight_i),得到所有互译对的评分结果。其中,urlcnt_ i即步骤108的结果中的url_cnt, wordcnt_i即步骤106的结果中的word_cnt, weight」 即步骤107的结果中的weight。实施例五,一种互联网中关联词条组相关度的排序方法,包括a、测量各关联词条组的相关度;对于每个关联词条组,按照实施例一到四中任一 个的方法测量其相关度。b、按照相关度的大小进行排序。在后续的搜索、翻译或其它工作中,当需要选择一关联词条组时,可以按照该排 序,选择相关度最高的一个或多个关联词条组。比如当需要从网页中查找一中文词汇的英文释义时,在各网页中找到包含该中文 词汇的关联词条组(表现形式为中英互译对),并得到所找到的中英互译对的相关度排序, 根据该排序选择相关度最高的中英互译对中的英文释义,作为该中文词汇的解释;或根据该排序选择相关度最高的多个中英互译对中的英文释义,供用户选择。实施例六,一种互联网中关联词条组相关度的测量装置,如图2所示,包括站点相关度测量模块,用于对于各个包含待测量关联词条组的站点,分别测量所 述待测量关联词条组在该站点中的相关度;加权模块,用于对于各所述站点,分别将所述待测量关联词条组在该站点中的相 关度乘以该站点的权重,得到所述待测量关联词条组在该站点中的相关度修正值;求和模块,用于将所述待测量关联词条组在各所述站点中的相关度修正值相加, 得到所述待测量关联词条组的相关度。实施例七,一种互联网中关联词条组相关度的测量装置,包括实施例六中的各模 块。本实施例中,所述测量装置还可以包括权重模块,用于分别由各站点所包含的不重复的关联词条组的数量freq_i得到 该站点的所述权重。本实施例的一种实施方式中,所述权重模块具体可以包括第一统计模块,用于分别确定各站点所包含的不重复的关联词条组的数量freq_ i ;第一处理模块,用于对于各站点,采用对数函数处理所述freq_i得到第一函数 值,作为该站点的所述权重;所述对数函数的底数大于1 ;其它实施方式中,也可采用其它 函数处理所述freq_i,底数也可以有其它取值。该实施方式中,所述第一处理模块采用所述对数函数处理所述freq_i得到第一 函数值具体可以但不限于是指所述第一处理模块将所述freq_i加上一常数β,求出所得 到的和对于10的对数,得到第一函数值lg(freq_i+i3)。该实施方式中,所述β可以但不限于为1 ;在其它实施方式中,所述β可以有其 它取值。实际应用中,也可以由站点的其它有关其可靠性或权威性的因素得到其权重预设 在所述求和模块中。其它细节同实施例六。实施例八,一种互联网中关联词条组相关度的测量装置,包括实施例六中的各模 块。本实施例中,所述站点相关度测量模块具体可以包括第二统计模块,用于分别确定各所述站点中包含关联词条组的不重复的url数 量;其中,一站点i中包含关联词条组的不重复的url数量为urlcnt」;第三统计模块,用于分别确定各所述站点中包含所述待测量关联词条组的个数; 其中,一站点i中包含所述待测量关联词条组的个数为wordcntj ;第二处理模块,用于采用对数函数对所述wordcntj处理得到站点i的第二函数 值,所述对数函数的底数大于1 ;第三处理模块,用于采用幂函数对urlcnt_i除以wordcnt_i的商urlcnt_i/ wordcnt_i处理得到站点i的第三函数值,所述幂函数的指数大于0小于1 ;相关度测量模块,由站点i的第二函数值和第三函数值的乘积得到所述待测量关联词条组在站点i中的相关度;求和模块,将所述待测量关联词条组在各所述站点中的相关度相加,得到所述待 测量关联词条组的相关度。还可以包括一搜索模块,用于在互联网中找到包含待测量关联词条组的站点。实际应用中,第二、第三处理模块也可采用其它函数。在本实施例的一种实施方式中,所述第二处理模块采用的所述对数函数的底数为 10,即为Ig函数;所述第三处理模块采用的所述幂函数的指数为0. 5,即为sqrt函数。该实施方式中,所述第二处理模块采用对数函数对所述wordcntj处理得到第二 函数值可以但不限于是指,所述第二处理模块将所述wordcntj加上一常数α,求出所得 到的和对于10的对数,得到第二函数值lg(wordCnt_i+a )。该实施方式中,所述α可以但不限于为1。在其它实施方式中,所述底数/指数/ α可以有其它取值。其它细节同实施例六或七。实施例九,一种互联网中关联词条组相关度的排序装置,包括如实施例六到八中任一实施例所述的测量装置,用于测量各关联词条组的相关 度;存储单元,用于保存各关联词条组的相关度;排序单元,用于按照相关度的大小对各关联词条组进行排序。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用 的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成 的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储 在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们 中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的 硬件和软件结合。当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟 悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变 形都应属于本发明的权利要求的保护范围。
1权利要求
1.一种互联网中关联词条组相关度的测量方法,包括A、对于各个包含待测量关联词条组的站点,分别测量所述待测量关联词条组在该站点 中的相关度;B、对于各所述站点,分别将所述待测量关联词条组在该站点中的相关度乘以该站点的 权重,得到所述待测量关联词条组在该站点中的相关度修正值;C、将所述待测量关联词条组在各所述站点中的相关度修正值相加,得到所述待测量关 联词条组的相关度。
2.如权利要求1所述的测量方法,其特征在于,还包括分别由各站点所包含的不重复的关联词条组的数量freq_i得到该站点的所述权重。
3.如权利要求2所述的测量方法,其特征在于,分别由各站点所包含的不重复的关联 词条组的数量freq_i得到该站点的所述权重具体包括分别确定各站点所包含的不重复的关联词条组的数量freq_i ; 对于各站点,采用对数函数处理所述freq_i得到第一函数值,作为该站点的所述权重。
4.如权利要求3所述的测量方法,其特征在于,采用对数函数处理所述freq_i得到的 第一函数值具体是指将所述freq_i加上一常数β,求出所得到的和对于10的对数,得到第一函数值 lg(freq_i+^ )。
5.如权利要求1所述的测量方法,其特征在于,所述步骤A具体包括 对于各个包含待测量关联词条组的站点,分别进行以下步骤确定该站点中包含所述待测量关联词条组的个数wordcnt」,以及该站点中包含任意 关联词条组的不重复的url数量urlcnt」;采用对数函数对所述wordcntj处理得到第二函数值,所述对数函数的底数大于1 ;采 用幂函数对urlcnt_i除以wordcnt_i的商urlcnt_i/wordcnt_i处理得到第三函数值,所 述幂函数的指数大于0小于1 ;由第二函数值和第三函数值的乘积得到所述待测量关联词条组在该站点中的相关度。
6.如权利要求5所述的测量方法,其特征在于所述对数函数的底数为10,所述幂函数的指数为0. 5。
7.如权利要求6所述的测量方法,其特征在于,采用对数函数对所述wordcntj处理得 到第二函数值是指将所述wordcntj加上一常数α,求出所得到的和对于10的对数,得到第二函数值Ig (wordcnt_i+α )。
8.—种互联网中关联词条组相关度的排序方法,包括a、按照权利要求1到7中任一项所述的测量方法,测量各关联词条组的相关度;b、按照相关度的大小进行排序。
9.一种互联网中关联词条组相关度的测量装置,其特征在于,包括站点相关度测量模块,用于对于各个包含待测量关联词条组的站点,分别测量所述待 测量关联词条组在该站点中的相关度;加权模块,用于对于各所述站点,分别将所述待测量关联词条组在该站点中的相关度乘以该站点的权重,得到所述待测量关联词条组在该站点中的相关度修正值;求和模块,用于将所述待测量关联词条组在各所述站点中的相关度修正值相加,得到 所述待测量关联词条组的相关度。
10.如权利要求9所述的测量装置,其特征在于,还包括权重模块,用于分别由各站点所包含的不重复的关联词条组的数量freq_i得到该站 点的所述权重。
11.如权利要求10所述的测量装置,其特征在于,所述权重模块具体包括第一统计模块,用于分别确定各站点所包含的不重复的关联词条组的数量freq_i ; 第一处理模块,用于对于各站点,采用对数函数处理所述freq_i得到第一函数值,作 为该站点的所述权重;所述对数函数的底数大于1。
12.如权利要求11所述的测量装置,其特征在于,所述第一处理模块采用对数函数处 理所述freq_i得到的第一函数值具体是指所述第一处理模块将所述freq_i加上一常数β,求出所得到的和对于10的对数,得到 第一函数值 lg(freq_i+i3)。
13.如权利要求9所述的测量装置,其特征在于,所述站点相关度测量模块具体包括 第二统计模块,用于分别确定各所述站点中包含关联词条组的不重复的url数量;其中,一站点i中包含关联词条组的不重复的url数量为urlcnt」;第三统计模块,用于分别确定各所述站点中包含所述待测量关联词条组的个数;其中, 一站点i中包含所述待测量关联词条组的个数为wordcntj ;第二处理模块,用于采用对数函数对所述wordcntj处理得到站点i的第二函数值,所 述对数函数的底数大于1 ;第三处理模块,用于采用幂函数对urlcnt_i除以wordcnt_i的商urlcnt_i/wordcnt_ i处理得到站点i的第三函数值,所述幂函数的指数大于0小于1 ;相关度测量模块,由站点i的第二函数值和第三函数值的乘积得到所述待测量关联词 条组在站点i中的相关度;求和模块,将所述待测量关联词条组在各所述站点中的相关度相加,得到所述待测量 关联词条组的相关度。
14.如权利要求13所述的测量装置,其特征在于 所述第二处理模块采用的所述对数函数的底数为10 ; 所述第三处理模块采用的所述幂函数的指数为0. 5。
15.如权利要求14所述的测量装置,其特征在于,所述第二处理模块采用对数函数对 所述wordcnt」处理得到第二函数值是指所述第二处理模块将所述wordcntj加上一常数α,求出所得到的和对于10的对数, 得到第二函数值lg(wordcnt_i+a )。
16.一种互联网中关联词条组相关度的排序装置,其特征在于,包括如权利要求9到15中任一项所述的测量装置,用于测量各关联词条组的相关度;存储单元,用于保存各关联词条组的相关度;排序单元,用于按照相关度的大小对各关联词条组进行排序。
全文摘要
互联网中关联词条组相关度的测量方法、排序方法和装置;测量方法包括对于各个包含待测量关联词条组的站点,分别测量所述待测量关联词条组在该站点中的相关度;对于各所述站点,分别将所述待测量关联词条组在该站点中的相关度乘以该站点的权重,得到所述待测量关联词条组在该站点中的相关度修正值;将所述待测量关联词条组在各所述站点中的相关度修正值相加,得到所述待测量关联词条组的相关度。本发明可以对互联网网页中出现的关联词条进行更合理的测量、排序。
文档编号G06F17/30GK102117280SQ20091024319
公开日2011年7月6日 申请日期2009年12月31日 优先权日2009年12月31日
发明者于亮, 彭锦臻 申请人:北京金山数字娱乐科技有限公司, 北京金山软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1