基于语言实义单元数估计的短文本间文本距离的计算方法

文档序号:6357329阅读:206来源:国知局
专利名称:基于语言实义单元数估计的短文本间文本距离的计算方法
技术领域
本发明涉及一种基于语言实义单元估计的短文本文本距离计算方法与系统,属于文字信息处理领域。
背景技术
近年来,随着网络的普及以及信息技术的飞速发展,网络成为公众接触的最主要的媒介形式。Web2. O技术使互联网信息变得更加易于获取,使每个用户都可以成为信息的发布源,互联网上信息量也越来越多。通过对网络上的信息尤其是用户发布的内容进行分析,可以了解当前社会的热点话题以及人们对各种社会现象的观点和立场。在线评论通常开始于某个公共事件或热点话题,尽管表达内容有很强的主观性, 却反映出公众对事件的态度。其主要来源有微博、论坛评论、新闻评论。随着微博以及论坛的兴起,在线评论成为公众表达观点最主要的方式。在线评论具有快速传播及影响广泛的特点,其不仅代表了评论者自身的观点,也会影响其他参与者的观点,所以对其进行分析研究是网络舆情分析的重要方面。政府通过对舆论进行监控,合理引导舆论,维护社会稳定;企业通过对产品评论进行分析,掌握产品的最新反馈。因此在线评论的分析研究,对于国家、社会以及企业都具有重要意义,引起了政府、学术界和产业界的高度重视。短信、微博、论坛评论和新闻评论等应用所产生的文本,这些文本长度一般在100个汉字以内,我们称之为短文本(Short Text)。针对用户不断增长的需求,出现了很多针对短文本的信息过滤系统,包括舆情监测系统、个性化信息推荐系统、产品质量调查系统等。不论是何种系统,都必须解决一个基本的问题,即文本聚类。其基本过程是计算短文本之间的相似度,将相似度高(文本距离小)的文本聚集到一个主题中。其中文本相似度计算是文本聚类中一个最关键的技术问题。由于文本距离与文本相似度在文本计算中属于同一个概念,数值上二者是相反的关系,本发明在以后论述中不作区别,统称为文本距离。传统的短文本文本距离计算方法多从句法结构的角度去衡量句子间的差别,如基于语义依存、基于编辑距离的计算方法。由于传统的文本距离计算方法受文本长度影响较大,因此对于不同文本长度的文本的计算结果存在较大误差。为了缓解短文本长度差异对计算结果造成的误差,本发明引入了一种对文本长度进行惩罚的方式,克服了传统方法在短文本文本距离计算上存在的误差。

发明内容
本发明的目的在于针对网络上的短文本,提出一种短文本间文本距离的计算方法与系统。本发明在传统文本距离计算的基础上,引入一种有效地文本实义单元数(Distinctffords Length)估算方式,利用实义单元数对文本距离进行惩罚,克服了传统短文本距离计算方法中不对句长处理或利用原始句长进行惩罚所产生的误差。基于语言实义单元数估计的短文本间文本距离的计算方法,其特征在于,是在计算机中依次按以下步骤实现的
步骤(I)计算机初始化输入从网络获得的两类在线评论短文本,所述两类在线评论短文本各由若干数目的句子组成; 汉语词法分析系统ICTCLAS分词算法软件模块;Matlab工具箱中的函数拟合工具Curve Fitting Tool ;步骤(2)文本预处理步骤(2. I)去除所述两类在线评论短文本中包含的<html>、〈body>、〈div>等html网页标记;步骤(2. 2)把步骤(2. I)中去除了 html网页标记的所述两类在线评论短文本做变异短文本处理不规范的拼音文字、繁体字规范化,去除用于表示一个表情的不规范符号,对数字和标点符号的使用进行规范化;步骤(3)按以下步骤计算由步骤(2)预处理过的所述两类在线评论短文本间的文本距离;步骤(3. I)用ICTCLAS分词算法对步骤(3)中所述的经过预处理的所述两类在线评论短文本进行分词处理,将短文本句子转化为词语串;步骤(3. 2)以步骤(3. I)中两类在线评论短文本中的词语为单位,用编辑距离算法计算所述两类在线评论短文本间的编辑距离,并以此作为文本距离把一个句子转换为另一个句子所需要的最少的词语编辑操作次数;计算两个句子的编辑距离计算矩阵,该矩阵的最右下角单元的值即为两个句子间的文本距离=Clis(SnS2) = 3,“dis”表示文本距离,Si、S2表示所述两个句子;步骤(4)依次按一下的步骤,用步骤(I)中所述的在线评论短文本中的实义单元数对步骤(3. 2)得到的所述两个句子间的文本距离disGp S2)进行惩罚,得到经过实义单元数惩罚的文本距离dis’ (S1, S2);步骤(4. I)对步骤(I)中所述的两类在线评论短文本中的词语进行词频统计,按照词语出现频率的降序进行排序,得到各自的词频降序表;步骤(4. 2)把所述两类在线评论短文本中各自的词频降序表导入所述的matlab工具箱中作为数据集,对照Zipf’ s法则中的词频f与对应名次r的公式f (r) = fmax r_a(I)其中,f_为系数,大于0; a为Zipf指数,大于0;选择Matlab工具箱中Power选项中的a *xb,以此作为数据拟合的目标函数,进行数据拟合,得到b,b<0,得到所述两类在线评论短文本各自的Zipf 指数a = |b| ;步骤(4. 3)按下式得到所述两类在线评论短文本中每条句子各自的实义单元数N(t)
权利要求
1.基于语言实义单元数估计的短文本间文本距离的计算方法,其特征在于,是在计算机中依次按以下步骤实现的 步骤(I)计算机初始化 输入从网络获得的两类在线评论短文本,所述两类在线评论短文本各由若干数目的句子组成; 汉语词法分析系统ICTCLAS分词算法软件模块; Matlab工具箱中的函数拟合工具Curve Fitting Tool ; 步骤(2)文本预处理 步骤(2. I)去除所述两类在线评论短文本中包含的<html>、〈body〉、<div>等html网页标记; 步骤(2. 2)把步骤(2. I)中去除了 html网页标记的所述两类在线评论短文本做变异短文本处理不规范的拼音文字、繁体字规范化,去除用于表示ー个表情的不规范符号,对数字和标点符号的使用进行规范化; 步骤(3)按以下步骤计算由步骤(2)预处理过的所述两类在线评论短文本间的文本距离; 步骤(3. I)用ICTCLAS分词算法对步骤(3)中所述的经过预处理的所述两类在线评论短文本进行分词处理,将短文本句子转化为词语串; 步骤(3.2)以步骤(3. I)中两类在线评论短文本中的词语为単位,用编辑距离算法计算所述两类在线评论短文本间的编辑距离,并以此作为文本距离把ー个句子转换为另ー个句子所需要的最少的词语编辑操作次数;计算两个句子的编辑距离计算矩阵,该矩阵的最右下角単元的值即为两个句子间的文本距离diWSp S2) = 3,“dis”表示文本距离,S1,S2表示所述两个句子; 步骤(4)依次按ー下的步骤,用步骤(I)中所述的在线评论短文本中的实义单元数对步骤(3. 2)得到的所述两个句子间的文本距离disGp S2)进行惩罚,得到经过实义单元数惩罚的文本距离dis’ (S1, S2); 步骤(4. I)对步骤(I)中所述的两类在线评论短文本中的词语进行词频统计,按照词语出现频率的降序进行排序,得到各自的词频降序表; 步骤(4. 2)把所述两类在线评论短文本中各自的词频降序表导入所述的matlab工具箱中作为数据集,对照Zipf ’ s法则中的词频f与对应名次r的公式f (r) = fmax · r_a 其中,为系数,大于O 为Zipf指数,大于O; 选择Matlab工具箱中Power选项中的a *xb,以此作为数据拟合的目标函数,进行数据拟合,得到b,b<0,得到所述两类在线评论短文本各自的Zipf指数a = |b| ; 步骤(4.3)按下式得到所述两类在线评论短文本中每条句子各自的实义单元数N(t)
全文摘要
基于语言实义单元数估计的短文本间文本距离的计算方法属于中文短文本信心处理领域,其特征在于,这是用于处理在线评论短文本文本聚类的方法,先去除网页标记,并进行短文本规范化处理,再进行分词处理,将文本转化为词语串,在此基础上以词语为单位,计算两个句子的编辑距离,然后将句子中具有实质意义的词语数定义为实义单元,利用Heap’s法则对句子中的实义单元进行估计,再选择两个句子的实义单元数中较大的实义单元数,用较大的实义单元数对用编辑距离表示的文本距离进行文本长度惩罚,得到一个经过实义单元数惩罚的文本距离,本发明克服了传统方法中利用原始句长处理而带来的误差。
文档编号G06F17/27GK102622405SQ20121001247
公开日2012年8月1日 申请日期2012年1月16日 优先权日2012年1月16日
发明者张龙伯, 杨震, 段立娟, 王来涛, 范科峰, 赖英旭, 高凯明 申请人:北京工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1