一种图书关键字自动生成的方法

文档序号:6430448阅读:318来源:国知局
专利名称:一种图书关键字自动生成的方法
技术领域
本发明涉及计算机数据挖掘以及数字图书馆自动处理领域,尤其涉及一种图书关 键字自动生成的方法。
背景技术
大部分的数字图书馆主要通过专家来挑选关键字以描绘馆藏图书的主题和内容。 为获得准确和丰富的关键词,专家需要首先通过阅读全书等方法获得对图书的全面理解。 这种方式耗费大量的人力和时间,在面对不断增加的数字图书时变得不切实际。受限于精 力,专家提供的关键词也存在着数量有限、内容保守和过于主观等不足。近年来,随着LibraryThing、豆瓣网等Web2. 0社区化网站的流行,工业界提出大 众标签法和专家_社区混合标注法等系统来为图书增加内容、主题相关的和自适应的关键 字。这些系统主要使用基于社区的方法,以用户自发提供的标签为基础提供图书关键字。 但是,2006年全美信息科学与科技年度会议(Annual General Meeting of the American Society for Information Science andTechnology, November 2006)禾口信息禾斗学期干丨J 2006年第二期(Journal of Information Science, 2006)等最近的研究表明,用户提供的标 签和词条等通常是不一致、不准确并且没有意义的。

发明内容
本发明的目的是克服现有技术的不足,提供一种图书关键字自动生成的方法。图书关键字的自动生成方法包括以下步骤(1)确定图书与作者的对应关系,从互联网网站上抓取对应图书的对内容、风格、 价值表达观点和看法的文学评论及其流行度,将图书评论分词,用词性标注器将其中的词 标注词性,留下其中的名词作为候补关键词;(2)使用维基百科衡量器,通过Google检索候补关键词在维基百科中出现的文档 数目和维基百科文档总数,利用公式WIKIIDF(i) = log(N/ff)初步评定候补关键词的全局重 要性,过滤语气词、错别字,其中WIKI_IDF表示通过维基百科衡量器得到的词的重要性,i 为目标候补关键词,M为查询得到的文档数,N为中文维基百科文档总数;(3)将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之 间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本 长度和流行度构建四部图;(4)基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要 性进行排序,挑出排序最高的几个候补关键词作为图书的关键字。所述的将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相 之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文 本长度和流行度构建四部图步骤包括将作者、图书、书评和候补关键词视为图模型中不同 类型的四种节点并用对应的数字代号代表,将四种节点之间的关系视为边,其中只将不同类型节点之间包含的作者与图书的关系、图书与书评的关系以及书评与候补关键词的关系 三种直接关系设为边,设置作者与图书之间的著作关系,将图书和其第一作者之间的关系 权重设为1,和其余作者之间的关系设为O ;设置书评与图书之间的关系,将图书相对于其 书评的关系权重设为1,否则为O ;将书评相对于图书的关系权重使用基于流行度和文本质 量两个方面的公式r= (log(RC+l)+l) ·πι η(Τ /100,1)来衡量,其中r表示书评相对于 图书的关系权重,RC表示该书评被用户推荐的次数,TL表示书评包含的词总数,min表示 取TL/100与1之间的最小值;设置书评与候补关键词之间的关系,将书评与其文本内包含 的候补关键词的关系的权重使用公式W = TF(i,j) ·WIKIidf(i)来衡量,其中w表示关系权 重,i表示某候补关键词,j表示对应的图书评论,WIKI_IDF(i)指的是利用维基百科衡量 器候补关键词i得到的全局权重,TF的计算公式如下:TF(i, j) = freq(i)/length(j),其 中,freq表示一个候补关键词在该图书评论中出现的次数,length表示该图书评论包含的 词语总数。使用以下相邻矩阵M表示四部图 "0 MAB 0 0<formula>formula see original document page 6</formula>
其中,A、B、R和W分别表示作者、图书、图书评论和候补关键词四种节点集合,Mab, Mba, Mbe, Meb, Mkw和Mwk分别表示从节点类型A出发到节点类型B、从节点类型B出发到节点 类型A、从节点类型B出发到节点类型R、从节点类型R出发到节点类型B、从节点类型R出 发到节点类型W和从节点类型W出发到节点类型R的有向边的相邻小矩阵,如果i和j节 点在该四部图不相邻,Mij值为0,否则为对应的边的权重。所述基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要 性进行排序,挑出排序最高的几个候补关键词作为图书的关键字步骤包括将相邻矩阵M 归一化得到转移矩阵W:<formula>formula see original document page 6</formula>
其中W的各个部分的归一化公式如下
<formula>formula see original document page 6</formula><formula>formula see original document page 7</formula>其中,α表示图书类型节点访问作者类型节点的概率,而(l-α )则是图书类型节 点访问书评类型中的节点的概率,β表示书评类型节点访问图书类型节点的概率,ι-β表 示书评类型节点访问候补关键词类型节点的概率;设置代表作者、图书、书评和候补关键词 的节点是否与该图书直接相关的图书偏好矢量d,矢量d的结构如下
<formula>formula see original document page 7</formula>其中dA、dB、dK和dw分别表示A、B、R和W类型节点的矢量,设置< =1,若X类型的 节点i与该图书直接相连,否则< =ο ;使用随机行走模型公式S = (1- λ ) WtS+ λ d迭代计 算全部节点的静态分布概率,其中d表示图书偏好矢量,λ表示随机行走访问d中的节点 的概率,l-λ表示访问其在图上的相邻节点的概率,s表示图上各个点的静态分布,W表示 归一化后的转移矩阵;将候补关键词节点中静态概率最大的节点转变为吸收态,将从该节 点出发的所有边的权重设为0,然后继续进行随机行走;将状态转移矩阵转变为以下范式
<formula>formula see original document page 7</formula>其中Q和R代表转移矩阵W中对应的区域,Ig代表在已经转变成吸收态的节点集 合G上的单位矩阵;使用以下期望步长计算公式迭代计算各个节点的期望步长tA = λ tDA+(l- λ ) tBffBA+AtB = λ tDB+(l- λ ) (t^m+t\B) +βtE = λ tDE+(l- λ ) (tBWBE+tff (Wwe) q) +e
f = XtDw +(\-X)tR(WRW)Q +1其中,W是一个矩阵,其值可由对应矢量(c0T复制IQI行而得,其中IQI表示Q矩 阵大小,(Wm)q和(Wm)t^i应于按照范式重新排列后的WK1^nWWK,ti表示随机行走从节点i 开始到被吸收之前总的期望步数,期望步数在所述四部图上的表示如下
<formula>formula see original document page 7</formula>
其中tx表示类型节点X的期望步长,tQw表示未排序的候补关键词节点的期望步 数,再定义一个值全部为1的常量矢量c
<formula>formula see original document page 8</formula>其中Cx表示类型节点X的常量矢量,C;表示长度和Q —样的常量矢量;将期望步 长最大的候选关键词节点挑选出并设为吸收态,再使用期望步长计算公式迭代计算各个节 点的期望步长;重复以上步骤,一直到转变为吸收态的候补关键词数目足够为止,将这些候 补关键词作为关键词。本发明与现有技术相比具有的有益效果1)该方法综合考虑了同一作者著作的风格和主题一致性、书评与图书内容的相关 性以及读者对书评质量与图书主题的反馈,提取的关键词正确率高;2)该方法充分覆盖不同读者对图书的不同角度的书评,不仅包含了主流的书评意 见也考虑进少数读者的看法,提取的关键词更加多样化;3)该方法的数据来自于互联网,书评数量庞大、涵盖面广,能够给大量图书提供关 键词。
具体实施例方式图书关键字的自动生成方法包括以下步骤(1)确定图书与作者的对应关系,从互联网网站上抓取对应图书的对内容、风格、 价值表达观点和看法的文学评论及其流行度,将图书评论分词,用词性标注器将其中的词 标注词性,留下其中的名词作为候补关键词;(2)使用维基百科衡量器,通过Google检索候补关键词在维基百科中出现的文档 数目和维基百科文档总数,利用公式WIKIIDF(i) = log(N/ff)初步评定候补关键词的全局重 要性,过滤语气词、错别字,其中WIKI_IDF表示通过维基百科衡量器得到的词的重要性,i 为目标候补关键词,M为查询得到的文档数,N为中文维基百科文档总数;(3)将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之 间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本 长度和流行度构建四部图;(4)基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要 性进行排序,挑出排序最高的几个候补关键词作为图书的关键字。所述的将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相 之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文 本长度和流行度构建四部图步骤包括将作者、图书、书评和候补关键词视为图模型中不同 类型的四种节点并用对应的数字代号代表,将四种节点之间的关系视为边,其中只将不同 类型节点之间包含的作者与图书的关系、图书与书评的关系以及书评与候补关键词的关系 三种直接关系设为边,设置作者与图书之间的著作关系,将图书和其第一作者之间的关系权重设为1,和其余作者之间的关系设为O ;设置书评与图书之间的关系,将图书相对于其 书评的关系权重设为1,否则为O ;将书评相对于图书的关系权重使用基于流行度和文本质 量两个方面的公式r= (log(RC+l)+l) ·πι η(Τ /100,1)来衡量,其中r表示书评相对于 图书的关系权重,RC表示该书评被用户推荐的次数,TL表示书评包含的词总数,min表示 取TL/100与1之间的最小值;设置书评与候补关键词之间的关系,将书评与其文本内包含 的候补关键词的关系的权重使用公式W = TF(i,j) · WIKIidf(i)来衡量,其中w表示关系权 重,i表示某候补关键词,j表示对应的图书评论,WIKI_IDF(i)指的是利用维基百科衡量 器候补关键词i得到的全局权重,TF的计算公式如下:TF(i, j) = freq(i)/length(j),其 中,freq表示一个候补关键词在该图书评论中出现的次数,length表示该图书评论包含的 词语总数。使用以下相邻矩阵M表示四部图
<formula>formula see original document page 9</formula>其中,A、B、R和W分别表示作者、图书、图书评论和候补关键词四种节点集合,Mab, Mba, Mbe, Meb, Mkw和Mwk分别表示从节点类型A出发到节点类型B、从节点类型B出发到节点 类型A、从节点类型B出发到节点类型R、从节点类型R出发到节点类型B、从节点类型R出 发到节点类型W和从节点类型W出发到节点类型R的有向边的相邻小矩阵,如果i和j节 点在该四部图不相邻,Mij值为0,否则为对应的边的权重。所述基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要 性进行排序,挑出排序最高的几个候补关键词作为图书的关键字步骤包括将相邻矩阵M 归一化得到转移矩阵W:
<formula>formula see original document page 9</formula>其中W的各个部分的归一化公式如下
0053<formula>formula see original document page 9</formula>
0054<formula>formula see original document page 9</formula>
L0055」 <formula>formula see original document page 9</formula>
<formula>formula see original document page 9</formula><formula>formula see original document page 10</formula>其中,α表示图书类型节点访问作者类型节点的概率,而(l-α )则是图书类型节 点访问书评类型中的节点的概率,β表示书评类型节点访问图书类型节点的概率,ι-β表 示书评类型节点访问候补关键词类型节点的概率;设置代表作者、图书、书评和候补关键词 的节点是否与该图书直接相关的图书偏好矢量d,矢量d的结构如下<formula>formula see original document page 10</formula>其中dA、dB、dK和dw分别表示A、B、R和W类型节点的矢量,设置< =1,若X类型的 节点i与该图书直接相连,否则< =ο ;使用随机行走模型公式S = α- λ ) WtS+ λ d迭代计 算全部节点的静态分布概率,其中d表示图书偏好矢量,λ表示随机行走访问d中的节点 的概率,l-λ表示访问其在图上的相邻节点的概率,s表示图上各个点的静态分布,W表示 归一化后的转移矩阵;将候补关键词节点中静态概率最大的节点转变为吸收态,将从该节 点出发的所有边的权重设为0,然后继续进行随机行走;将状态转移矩阵转变为以下范式
<formula>formula see original document page 10</formula>
其中Q和R代表转移矩阵W中对应的区域,Ig代表在已经转变成吸收态的节点集 合G上的单位矩阵;使用以下期望步长计算公式迭代计算各个节点的期望步长tA = AtDA+(l-A)tBffBA+AtB = λ tDB+(l- λ ) (t^m+t\B) +βtE = λ tDE+(l- λ ) (tBWBE+tff (Wwe) q) +etw = XtDw +(\-X)tR (Wrw )q +1其中,W是一个矩阵,其值可由对应矢量(C0T复制IQI行而得,其中IQl表示Q矩 阵大小,(Wkw)q* (Wm)t^i应于按照范式重新排列后的Wra^nwPti表示随机行走从节点i开 始到被吸收之前总的期望步数,期望步数在所述四部图上的表示如下
<formula>formula see original document page 10</formula>其中tx表示类型节点X的期望步长,tQw表示未排序的候补关键词节点的期望步 数,再定义一个值全部为1的常量矢量C <formula>formula see original document page 11</formula>其中cx表示类型节点X的常量矢量,C;表示长度和Q —样的常量矢量;将期望步 长最大的候选关键词节点挑选出并设为吸收态,再使用期望步长计算公式迭代计算各个节 点的期望步长;重复以上步骤,一直到转变为吸收态的候补关键词数目足够为止,将这些候 补关键词作为关键词。
实施例以图书《基地》为例,图书关键词自动生成方法的具体实施的技术方案及步骤如 下1.确定图书与作者的对应关系,从互联网上抓取对应图书的评论,分词,标注词 性,将其中的名词作为候补关键词1)本发明在确定图书与作者的对应关系时直接利用编目专家为数字图书馆内图 书编著的著作关系。如《基地》的作者为阿西莫夫,该作者同时有《第二基地》等基地系列 和《机器人》系统等著作。2)利用爬虫,从豆瓣网(http://WWW. douban. com)等富含书评的互联网上抓取对 应图书的书评论网页。分析网页,将其包含的书评文本抽取并保存。在此例中,将基地系列 和机器人系统的书评全部抓取并提取文本。3)利用已有中文分词器将书评切分,利用词性标注器对分词结果标注词性,只将 名词(包括人名、地名、物名和专业词汇等名词)保存下来。2.维基百科衡量器,过滤噪音词汇对候补关键词中词汇计算WIKI_IDF,将值过低(< 2)的词和过高(> 13)的词直 接过滤,不加入以后的四部图中。3.将作者、图书、评论和词合并成四部图如所述四部图组成,按照不同的权重设置赋值相邻矩阵4.以图书为中心的吸收态的随机行走,挑选出多样性的关键词1)以图书为中心,赋值属性矢量d。与该图书有直接关系的作者、书评和词汇项的 值为1,其余为0。2)对该四部图进行随机行走,将词汇按照静态分布概率从高到低排列,取第一序 位的词作为候选关键词。在此例中为科幻。3)将第一序位词节点的状态转变为吸收态,接下来计算四部图的各个节点的期望步长。4)将期望步长最大的节点挑选为第二候选关键词,也将其转为吸收态,继续计算 四部图中各个节点的期望步长。在此例子中为谢顿。5)将期望步长最大的节点挑选为第三候选词,此例中为心灵史学。按照以上步骤 重复选择候选词。
权利要求
一种图书关键字的自动生成方法,其特征在于包括以下步骤(1)确定图书与作者的对应关系,从互联网网站上抓取对应图书的对内容、风格、价值表达观点和看法的文学评论及其流行度,将图书评论分词,用词性标注器将其中的词标注词性,留下其中的名词作为候补关键词;(2)使用维基百科衡量器,通过Google检索候补关键词在维基百科中出现的文档数目和维基百科文档总数,利用公式WIKIIDF(i)=log(N/W)初步评定候补关键词的全局重要性,过滤语气词、错别字,其中WIKI_IDF表示通过维基百科衡量器得到的词的重要性,i为目标候补关键词,M为查询得到的文档数,N为中文维基百科文档总数;(3)将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本长度和流行度构建四部图;(4)基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字。
2.根据权利要求1所述的一种图书关键字的自动生成方法,其特征在于所述的将作 者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边, 利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本长度和流行度构建 四部图步骤包括将作者、图书、书评和候补关键词视为图模型中不同类型的四种节点并 用对应的数字代号代表,将四种节点之间的关系视为边,其中只将不同类型节点之间包含 的作者与图书的关系、图书与书评的关系以及书评与候补关键词的关系三种直接关系设为 边,设置作者与图书之间的著作关系,将图书和其第一作者之间的关系权重设为1,和其余 作者之间的关系设为O ;设置书评与图书之间的关系,将图书相对于其书评的关系权重设 为1,否则为O ;将书评相对于图书的关系权重使用基于流行度和文本质量两个方面的公式 r = (log(RC+l)+) ·πι η(Τ /100,1)来衡量,其中r表示书评相对于图书的关系权重,RC表 示该书评被用户推荐的次数,TL表示书评包含的词总数,min表示取TL/100与1之间的最 小值;设置书评与候补关键词之间的关系,将书评与其文本内包含的候补关键词的关系的 权重使用公式w = TF(i,j) -WIKIIDF(i)来衡量,其中w表示关系权重,i表示某候补关键 词,j表示对应的图书评论,WIKI_IDF(i)指的是利用维基百科衡量器候补关键词i得到的 全局权重,TF的计算公式如下:TF(i, j) = freq(i)/length(i),其中,freq表示一个候补 关键词在该图书评论中出现的次数,length表示该图书评论包含的词语总数。使用以下相 邻矩阵M表示四部图<formula>formula see original document page 2</formula>其中,A、B、R和W分别表示作者、图书、图书评论和候补关键词四种节点集合,Mab, Mba, Mbe, Meb, Mkw和M胃分别表示从节点类型A出发到节点类型B、从节点类型B出发到节点类型 A、从节点类型B出发到节点类型R、从节点类型R出发到节点类型B、从节点类型R出发到 节点类型W和从节点类型W出发到节点类型R的有向边的相邻小矩阵,如果i和j节点在该四部图不相邻,Mij值为0,否则为对应的边的权重。
3.根据权利要求1所述的一种图书关键字的自动生成方法,其特征在于所述基于四 部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排 序最高的几个候补关键词作为图书的关键字步骤包括将相邻矩阵M归一化得到转移矩阵 W <formula>formula see original document page 3</formula>其中W的各个部分的归一化公式如下 (W ) = Uj<formula>formula see original document page 3</formula>其中,α表示图书类型节点访问作者类型节点的概率,而(l-α)则是图书类型节点访 问书评类型中的节点的概率,β表示书评类型节点访问图书类型节点的概率,ι-β表示书 评类型节点访问候补关键词类型节点的概率;设置代表作者、图书、书评和候补关键词的节 点是否与该图书直接相关的图书偏好矢量d,矢量d的结构如下 'dA'<formula>formula see original document page 3</formula>其中dA、dB、dE和dw分别表示A、B、R和W类型节点的矢量,设置= 1,若X类型的节 点i与该图书直接相连,否则= 0 ;使用随机行走模型公式s = (1- λ ) WTs+ λ d迭代计算 全部节点的静态分布概率,其中d表示图书偏好矢量,λ表示随机行走访问d中的节点的 概率,l-λ表示访问其在图上的相邻节点的概率,s表示图上各个点的静态分布,W表示归 一化后的转移矩阵;将候补关键词节点中静态概率最大的节点转变为吸收态,将从该节点 出发的所有边的权重设为0,然后继续进行随机行走;将状态转移矩阵转变为以下范式<formula>formula see original document page 4</formula>其中Q和R代表转移矩阵W中对应的区域,Ig代表在已经转变成吸收态的节点集合G 上的单位矩阵;使用以下期望步长计算公式迭代计算各个节点的期望步长<formula>formula see original document page 4</formula>其中,W是一个矩阵,其值可由对应矢量(dy复制IQI行而得,其中IQI表示Q矩阵大 小,(w胃)0对应于按照范式重新排列后的Wkw和w胃,、表示随机行走从节点i开始 到被吸收之前总的期望步数,期望步数在所述四部图上的表示如下<formula>formula see original document page 4</formula>其中tx表示类型节点X的期望步长,tQw表示未排序的候补关键词节点的期望步数,再 定义一个值全部为1的常量矢量C <formula>formula see original document page 4</formula>其中Cx表示类型节点X的常量矢量,C;表示长度和Q —样的常量矢量;将期望步长最 大的候选关键词节点挑选出并设为吸收态,再使用期望步长计算公式迭代计算各个节点的 期望步长;重复以上步骤,一直到转变为吸收态的候补关键词数目足够为止,将这些候补关 键词作为关键词。
全文摘要
本发明公开了一种图书关键字自动生成方法。确定图书与作者的关系,从互联网上抓取书评,将其分词并标注词性,留下名词作候补关键词;通过谷歌检索候补关键词在维基百科中出现的文档数目以初步评定重要性,过滤语气词、错别字;将作者、图书、评论和候补关键词作为四种节点,将其互相间的关系作为边,构建四部图;基于四部图,运用以图书为中心的吸收态随机行走算法挑选出最重要的候补关键词作为图书关键字。本发明考虑了同一作者著作的主题一致性、内容相关性及读者反馈,关键词正确率高;充分覆盖读者不同角度的书评,关键词多样化;数据来自互联网,书评数量庞大、涵盖面广,方法覆盖面广。
文档编号G06F17/30GK101826102SQ20101013315
公开日2010年9月8日 申请日期2010年3月26日 优先权日2010年3月26日
发明者吴江琴, 庄越挺, 张亮, 张寅 , 魏宝刚 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1