一种文本相似度计算方法

文档序号:6491800阅读:210来源:国知局
一种文本相似度计算方法
【专利摘要】本发明公开了一种文本相似度计算方法,包括以下步骤:文本的表示和文本相似度计算。文本的表示的目标是将一个商品描述的文本文档转化为一个向量来进行描述,本发明采用中文分词、去停用词、统计词频等自然语言处理技术将每个对商品的描述文本转化为一个向量;使用基于汉明距离的方法计算文本相似度,汉明距离的另外一个优势在于计算速度特别快。由于使用了统计机器学习的方法,使得本发明比传统基于规则的方法更加稳定、更加有效。
【专利说明】一种文本相似度计算方法
【技术领域】
[0001]本发明涉及一种个性化商品推荐技术,特别是一种文本相似度计算方法。
【背景技术】
[0002]随着电子商务网站的快速发展,人们越来越依赖电子商务网站来购买商品。但是电子商务网站上的商品不论是数量还是种类都在以指数速度增长,要从这个海洋中准确迅速地找到并获得自己所需要的商品却很困难。用户在查询时往往会迷失他们的目标。因此,很多用户在浏览站点时,往往花费大量的时间和精力浏览与自己想买的商品无关的页面,这使得很多用户对在此网站购买商品失去信心,从而使该网站丧失很多用户。为了增加销售、增加用户满意度、增加竞争力和理论研究,电子商务商品推荐系统便应运而生。它的目标是允许电子商务网站向客户提供商品信息和建议,直接与用户交互,模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程。
[0003]传统的电子商务网站依靠用户注册信息、历史浏览信息来判断用户来建立模型从而判断用户可能感兴趣的商品。主要用到的推荐技术包括基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和基于用户统计信息推荐。传统的电子商务网站用到的推荐系统大致可以分为三大类:个性化推荐、个性化信息检索和个性化网站。但是各种推荐技术都有它特定的适用范围。这些方法都存在许多缺点:基于用户统计信息的推荐技术虽在一些以会员制为主要销售模式的网站却很有用处,但并不适用于普通的电子商务模式;其实基于知识和效用的推荐同基于内容的推荐有一个共同的特点就是需要对项目即推荐产品的特征进行描述,然后才能推荐。

【发明内容】

[0004]为解决现有技术存在的上述问题,本发明要设计一种既可以利用用户个人资料、又可以使用用户历史购买资料并可以适应用户偏好转移的个性化推荐方法。
[0005]为了实现上述目的,本发明的技术方案如下:一种文本相似度计算方法,包括以下步骤:
[0006]A、文本的表示
[0007]商品介绍都是文本格式,但是文本是非结构化数据,未经过处理的文本型数据是无法直接进行相似度计算的,必须将所有的文本表示成能为计算机能够处理的形式。在文本相似度计算领域,文本的表示主要采用向量空间模型(Vector space model, VSM)。其基本思想是把文章d看作向量空间中的一个n维向量(WpW2,...,wn),其Wi为第i个特征的权重。Wi可以是布尔值,用来表示特征t是否出现在文章d中;也可以是TF(Term frequency),来表示t在文章d中的重要程度;现在使用最普遍的还是TF_IDF(Term frequency inversedocument frequency),是因为它考虑了特征在文章中的分布和文章的长度。本发明使用汉明距离理论来计算文本相似度,所以要使用布尔值作为特征的权重。
[0008]要将文章表示为向量空间中的一个向量,就首先要将文章分词。因为词是最小的能够独立活动的有意义的语言成分。但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键。因此,自动识别词的边界,将汉字串切分为正确的词串的汉语分词问题无疑是进行中文文本分类的首要问题。汉语自动分词是对汉语文本进行自动分析的第一个步骤。可以这样设想汉语自动分词过程的困难:如果把某个英语文本中的所有空格符去掉,然后让计算机自动恢复文本中原有的空格符,这就是词的识别过程,此过程的主要问题是对大量歧异现象的处理。分词体现了汉语与英语的显著的不同。英语文本是小字符集上的已充分分隔的词串,而汉语文本是自动分词系统需要做的工作。分词系统的输入是连续的字符串,输出是汉语的词串这里,Wi可以是单词也可以是多词。现有的分词算法可分为三大类:基于字符串匹配的分词,又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,表示识别出一个词;基于理解的分词,即通过让计算机模拟人对句子的理解,在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象;基于统计的分词:在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词,字与字相邻共现的频率或概率能够较好的反映成词的可信度。到底哪种分词算法的准确度更高,目前并无定论。
[0009]对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。本论文中的分词采用中科院的分词系统ICTCLAS。ICTCLAS系统首先,进行粗分词采用N2最短路径方法将最短路径方法和全切分的有机结合。然后对粗分词的结果按照标准字典进行词性的标注。在进行了 NE识别以后,重新分词找出联合概率最大的分词结果,最后对分词结果重新标注词性。中文文本中,能标识文本特性的往往是文本中的实词,而文本中的一些虚词对于标识文本的特性并没有贡献。如果把虚词也作为文本特征,将会带来很大噪音,从而直接降低文本相似度计算的效率和准确率。在提取文本特征时,应首先剔除虚词,只提取文本中的实词作为文本的一级特征。
[0010]B、文本相似度计算
[0011]确定了特征向量,所有的文本在分词以后,都要使用最终特征集标准化,所有的文本可以用一个向量来描述。传统文本相似度计算方法是利用向量空间模型,根据词频TF以及逆文本频率IDF,赋予该向量各个分量的权值,与欧氏空间的向量一一对应,借用欧氏空间中求向量夹角余弦的方法得到文本q和d之间的相似度的定量表示,用如下三个公式所示:
[0012]Q=IwtlllWtl2,…,WqJ
[0013]d={wdl, Wd2,…,WdJ



η
[0014]sim(q,d) = cos(q, d) = , ^?=1 [t=
[0015]另外还有广义向量空间模型,隐性语义索引模型和以属性理论为基础的属性重心剖分模型等方法。属性重心剖分模型用属性坐标系描述文本向量与查询式向量,并确定向量之间的匹配基准,计算匹配距离。以上这些方法,它们都不外乎利用欧氏空间,微分几何中单纯形等概念,把文本与查询式描述成空间中的向量,再在向量空间中定义诸如内积等运算,由此来定量地描述文本与查询式之间的相似度。本文使用另一种求文本相似度的方法,它借助编码理论中汉明距离的概念,通过求文本之间的汉明距离,来计算文本的相似度。
[0016]在信息论中,汉明距离是一个基本的概念,描述两个η长码字X= (χι, χ2,...xk,...xn), y= (y1; y2,...yk,...yn)之间的距离如下公式所示:
【权利要求】
1.一种文本相似度计算方法,其特征在于:包括以下步骤: A、文本的表示 商品介绍都是文本格式,但是文本是非结构化数据,未经过处理的文本型数据是无法直接进行相似度计算的,必须将所有的文本表示成能为计算机能够处理的形式;在文本相似度计算领域,文本的表示主要采用向量空间模型;其基本思想是把文章d看作向量空间中的一个η维向量(W1, W2, , wn),其Wi为第i个特征的权重%可以是布尔值,用来表示特征t是否出现在文章d中;也可以是TF,来表示t在文章d中的重要程度;现在使用最普遍的还是TF-1DF,是因为它考虑了特征在文章中的分布和文章的长度;本发明使用汉明距离理论来计算文本相似度,所以要使用布尔值作为特征的权重; 要将文章表示为向量空间中的一个向量,就首先要将文章分词;因为词是最小的能够独立活动的有意义的语言成分;但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键;因此,自动识别词的边界,将汉字串切分为正确的词串的汉语分词问题无疑是进行中文文本分类的首要问题;汉语自动分词是对汉语文本进行自动分析的第一个步骤;可以这样设想汉语自动分词过程的困难:如果把某个英语文本中的所有空格符去掉,然后让计算机自动恢复文本中原有的空格符,这就是词的识别过程,此过程的主要问题是对大量歧异现象的处理;分词体现了汉语与英语的显著的不同;英语文本是小字符集上的已充分分隔的词串,而汉语文本是自动分词系统需要做的工作;分词系统的输入是连续的字符串,输出是汉语的词串(WpW2,..., Wn);这里,Wi可以是单词也可以是多词;现有的分词算法可分为三大类:基于字符串匹配的分词,又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,表示识别出一个词;基于理解的分词,即通过让计算机模拟人对句子的理解,在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象;基于统计的分词:在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词,字与字相邻共现的频率或概率能够较好的反映成词的可信度;到底哪种分词算法的准确度更高,目前并无定论; 对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法;本论文中的分词采用中科院的分词系统ICTCLAS ;ICTCLAS系统首先,进行粗分词采用N2最短路径方法将最短路径方法和全切分的有机结合;然后对粗分词的结果按照标准字典进行词性的标注;在进行了 NE识别以后,重新分词找出联合概率最大的分词结果,最后对分词结果重新标注词性;中文文本中,能标识文本特性的往往是文本中的实词,而文本中的一些虚词对于标识文本的特性并没有贡献;如果把虚词也作为文本特征,将会带来很大噪音,从而直接降低文本相似度计算的效率和准确率;在提取文本特征时,应首先剔除虚词,只提取文本中的实词作为文本的一级特征; B、文本相似度计算 确定了特征向量,所有的文本在分词以后,都要使用最终特征集标准化,所有的文本可以用一个向量来描述;传统文本相似度计算方法是利用向量空间模型,根据词频TF以及逆文本频率IDF,赋予该向量各个分量的权值,与欧氏空间的向量一一对应,借用欧氏空间中求向量夹角余弦的方法得到文本q和d之间的相似度的定量表示,用如下三个公式所示:
Q= iwqi, wq2,…,WqJ
【文档编号】G06F17/30GK103838789SQ201210491145
【公开日】2014年6月4日 申请日期:2012年11月27日 优先权日:2012年11月27日
【发明者】汲业, 徐青 申请人:大连灵动科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1