一种文本相似度的确定方法及设备与流程

文档序号:14554734阅读:124来源:国知局
一种文本相似度的确定方法及设备与流程
本发明涉及计算机
技术领域
,尤其涉及一种文本相似度的确定方法及设备。
背景技术
:现有技术中判断两个文本的相似度,一般是通过将两个文本进行分词,然后判断两个文本中重复的字词。但是若忽略了文本中的综合信息,例如,文本一“我今天追赶了一只狗”和文本二“一条狗今天追赶了我”,这两个文本语句的意思是相反的,但是按照目前绝大多数相似度算法,这两个文本中的划分的分词几乎一样,所以确定这两个文本的相似度较高,甚至是一样的,显然是不准确的。可见,目前文本的相似度的计算方法得到的相似度的准确性较低,无法反映文本本身的相似程度。技术实现要素:针对上述问题,本发明提供一种新的文本相似度的确定方法及设备,能够准确地反映文本本身的相似程度。为解决上述技术问题,第一方面,提供一种文本相似度的确定方法,该确定方法包括:获取待确定相似度的第一文本和第二文本;确定所述第一文本的语法相似度、主题相似度,及确定所述第二文本的语法相似度、主题相似度;根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度。可选的,确定所述第一文本和所述第二文本的主题相似度,包括:分别将所述第一文本和所述第二文本映射至主题空间;其中,所述第一文本及所述第二文本分别对应至少一个主题;获取映射至所述主题空间的所述第一文本对应的至少一个第一主题向量及所述第二文本对应的至少一个第二主题向量;根据所述至少一个第一主题向量、所述至少一个第二主题向量及第一预设规则,确定所述第一文本和所述第二文本的主题相似度;其中,所述第一预设规则为:其中,stopic指示两个文本的主题相似度,a指示第一主题向量,b指示第二主题向量,ai指示第i个第一主题向量,bi指示第i个第二主题向量,n指示第一主题向量或第二主题向量的个数,i大于等于1且小于等于n。可选的,确定所述第一文本和所述第二文本的语法相似度,包括:将所述第一文本中的语句进行分割获得第一分词集,并将所述第二文本中的语句进行分割获得第二分词集;通过斯坦福stanford工具分别确定所述第一分词集及所述第二分词集中的语句的语法结构组成;根据确定的所述第一分词集及所述第二分词集中的语句的语法结构组成,确定所述第一文本和所述第二文本的语法相似度。可选的,所述语法结构包括至少一种语法结构类型,根据确定的所述第一分词集及所述第二分词集中的语句的语法结构组成,确定所述第一文本和所述第二文本的语法相似度,包括:分别确定所述第一分词集包括语法结构类型及语法结构类型的数量,及所述第二分词集包括语法结构类型及语法结构类型的数量;根据获取的所述第一分词集及所述第二分词集的语法结构类型及语法结构类型的数量,及第二规则确定所述第一文本和所述第二文本的语法相似度;其中,所述第二规则为:其中,sgrammer指示两个文本之间的语法相似度,samecount指示所述第一分词集及所述第二分词集中相同语法结构类型的数量,m为所述第一分词集包括的语法结构类型的数量,n为所述第二分词集包括的语法结构类型的数量。可选的,在根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度之前,还包括:确定所述第一分词集及所述第二分词集中的分词的位置相似度;其中,所述位置相似度用于指示文本中的一个分词在一个语句中所在位置的相似程度;根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度,包括:根据确定的语法相似度和主题相似度及确定的位置相似度确定所述第一文本和所述第二文本之间的相似度。可选的,根据确定的语法相似度和主题相似度及确定的位置相似度,确定所述第一文本和所述第二文本之间的相似度,包括:通过第三规则确定所述第一文本和所述第二文本之间的相似度,其中,所述第三规则为:s1(sen1,sen2)=a*stopic+(1-a)(b*sgrammer+(1-b)*(sposition)),其中s1(sen1,sen2指示两个文本之间的相似度,sposition指示两个文本包括的分词分别在各自的位置相似度,a指示主题权值,b指示语法类型权值。可选的,在获取待确定相似度的第一文本和第二文本之后,所述方法还包括:确定所述第一文本和所述第二文本的情感相似度;根据确定的语法相似度和主题相似度及确定的位置相似度确定所述第一文本和所述第二文本之间的相似度,包括:根据确定的语法相似度和主题相似度、位置相似度及所述情感相似度确定所述第一文本和所述第二文本之间的相似度。可选的,确定所述第一文本和所述第二文本的情感相似度,包括:提取所述第一文本及所述第二文本中的至少一个程度副词,其中所述程度副词用于指示对内容在程度上限定的副词;根据获取的至少一个程度副词及程度副词与权值的映射关系,确定所述获取的至少一个程度副词对应的至少一个权值,其中,一个程度副词对应一个权值;根据确定的至少一个权值及第四预设规则,确定所述第一文本和所述第二文本的情感相似度;其中,所述第四预设规则为:cdegsim(sen1,sen2)=c*[abs(deg(sent1)-deg(sent2))]+(1-c)*s1(sen1,sen2),其中,cdegsim(sen1,sen2)指示两个文本之间的情感相似度,deg(sent1)指示第一文本中程度副词的权值,deg(sent2)指示第二文本中程度副词的权值,c是句子间程度副词权重差值对句子相似度的影响权值。可选的,根据确定的语法相似度和主题相似度、位置相似度及所述情感相似度确定所述第一文本和所述第二文本之间的相似度,包括:通过相似度模型对确定的语法相似度和主题相似度、位置相似度及所述情感相似度进行分析,确定所述第一文本和所述第二文本之间的相似度;其中,所述相似度模型为通过深度学习网络对文本中的分词的语法、主题、位置及情感词进行学习的逐层训练获得的文本的分词集与情感类别的关系模型,情感类别包括积极情感类别和消极情感类别。第二方面,提供一种文本相似度的确定设备,该确定设备包括:获取单元,用于获取待确定相似度的第一文本和第二文本;第一确定单元,用于确定所述第一文本的语法相似度、主题相似度,及确定所述第二文本的语法相似度、主题相似度;第二确定单元,用于根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度。可选的,所述第一确定单元具体用于:分别将所述第一文本和所述第二文本映射至主题空间;其中,所述第一文本及所述第二文本分别对应至少一个主题;获取映射至所述主题空间的所述第一文本对应的至少一个第一主题向量及所述第二文本对应的至少一个第二主题向量;根据所述至少一个第一主题向量、所述至少一个第二主题向量及第一预设规则,确定所述第一文本和所述第二文本的主题相似度;其中,所述第一预设规则为:其中,stopic指示两个文本的主题相似度,a指示第一主题向量,b指示第二主题向量,ai指示第i个第一主题向量,bi指示第i个第二主题向量,n指示第一主题向量或第二主题向量的个数,i大于等于1且小于等于n。可选的,所述第一确定单元具体用于:将所述第一文本中的语句进行分割获得第一分词集,并将所述第二文本中的语句进行分割获得第二分词集;通过斯坦福stanford工具分别确定所述第一分词集及所述第二分词集中的语句的语法结构组成;根据确定的所述第一分词集及所述第二分词集中的语句的语法结构组成,确定所述第一文本和所述第二文本的语法相似度。可选的,所述语法结构包括至少一种语法结构类型,所述第一确定单元具体用于:分别确定所述第一分词集包括语法结构类型及语法结构类型的数量,及所述第二分词集包括语法结构类型及语法结构类型的数量;根据获取的所述第一分词集及所述第二分词集的语法结构类型及语法结构类型的数量,及第二规则确定所述第一文本和所述第二文本的语法相似度;其中,所述第二规则为:其中,sgrammer指示两个文本之间的语法相似度,samecount指示所述第一分词集及所述第二分词集中相同语法结构类型的数量,m为所述第一分词集包括的语法结构类型的数量,n为所述第二分词集包括的语法结构类型的数量。可选的,所述第一确定单元还用于:在根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度之前确定所述第一分词集及所述第二分词集中的分词的位置相似度;其中,所述位置相似度用于指示文本中的一个分词在一个语句中所在位置的相似程度;根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度,包括:根据确定的语法相似度和主题相似度及确定的位置相似度确定所述第一文本和所述第二文本之间的相似度。可选的,所述第二确定单元具体用于:通过第三规则确定所述第一文本和所述第二文本之间的相似度,其中,所述第三规则为:s1(sen1,sen2)=a*stopic+(1-a)(b*sgrammer+(1-b)*(sposition)),其中s1(sen1,sen2指示两个文本之间的相似度,sposition指示两个文本包括的分词分别在各自的位置相似度,a指示主题权值,b指示语法类型权值。可选的,所述确定设备还包括第三确定单元,用于:确定所述第一文本和所述第二文本的情感相似度;所述第二确定单元具体用于:根据确定的语法相似度和主题相似度、位置相似度及所述情感相似度确定所述第一文本和所述第二文本之间的相似度。可选的,所述第三确定单元具体用于:提取所述第一文本及所述第二文本中的至少一个程度副词,其中所述程度副词用于指示对内容在程度上限定的副词;根据获取的至少一个程度副词及程度副词与权值的映射关系,确定所述获取的至少一个程度副词对应的至少一个权值,其中,一个程度副词对应一个权值;根据确定的至少一个权值及第四预设规则,确定所述第一文本和所述第二文本的情感相似度;其中,所述第四预设规则为:cdegsim(sen1,sen2)=c*[abs(deg(sent1)-deg(sent2))]+(1-c)*s1(sen1,sen2),其中,cdegsim(sen1,sen2)指示两个文本之间的情感相似度,deg(sent1)指示第一文本中程度副词的权值,deg(sent2)指示第二文本中程度副词的权值,c是句子间程度副词权重差值对句子相似度的影响权值。可选的,所述第二确定单元具体用于:通过相似度模型对确定的语法相似度和主题相似度、位置相似度及所述情感相似度进行分析,确定所述第一文本和所述第二文本之间的相似度;其中,所述相似度模型为通过深度学习网络对文本中的分词的语法、主题、位置及情感词进行学习的逐层训练获得的文本的分词集与情感类别的关系模型,情感类别包括积极情感类别和消极情感类别。本发明实施例提供了一种新的文本相似度的确定方法,该确定方法综合考虑两个文本之间的语法相似度及主题相似度来确定来年各个文本之间的相似度。相较于现有技术中仅通过两个文本中的划分的分词相似度确定两个文本之间的相似度,由于考虑了文本的综合信息,得到的相似度更为准确,更能反映文本本身的相似程度。附图说明图1是本发明实施例提供的文本相似度的确定方法的流程图;图2是本发明实施例提供的文本相似度的确定设备的一种结构示意图;图3是本发明实施例提供的文本相似度的确定方法的一种结构示意图。具体实施方式在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。目前的文本的相似度的计算方法得到的相似度的准确性较低,无法反映文本本身的相似程度。鉴于此,本发明实施例提供了一种新的文本相似度的确定方法,该确定方法综合考虑两个文本之间的语法相似度及主题相似度来确定来年各个文本之间的相似度。相较于现有技术中仅通过两个文本中的划分的分词相似度确定两个文本之间的相似度,由于考虑了文本的综合信息,得到的相似度更为准确,更能反映文本本身的相似程度。本发明实施例提供的文本相似度的确定方法可以应用于具有计算能力的电子设备,例如个人电脑,服务器等,对于电子设备的类型,本发明实施例不作限制。下文中,本发明实施例提供的文本相似度的确定方法统一应用于电子设备。本发明实施例中文本可以包括文档,例如论文、网页等类型的文本,当然可以是长文本,也可以是短文本,在此不对文本的类型及长短作限制。下面结合说明书各个附图介绍本发明实施例提供的技术方案。请参见图1,本发明实施例提供了一种文本相似度的确定方法,该方法可以由任何具有计算能力的电子设备执行,该确定方法的具体流程描述如下:s101:获取待确定相似度的第一文本和第二文本;s102:确定第一文本的语法相似度、主题相似度,及确定第二文本的语法相似度、主题相似度;s103:根据确定的语法相似度和主题相似度确定第一文本和第二文本之间的相似度。相似度计算,是表示两个或多个文本之间匹配程度的度量参数,相似度越大,说明对比的内容相似程度越高,反之越低。本发明实施例中的电子设备在确定两个文本之间的相似度之前,可以获取这两个待确定相似度的文本,即第一文本和第二文本。第一文本和第二文本可以是电子设备本地存储的文本,也可以是网络侧所存储的文本,对于网络侧而言,可以是采集的各用户侧设备上传至网络的文本。本发明实施例获取了第一文本和第二文本,首先可以确定第一文本和第二文本之间的语法相似度和主题相似度,然后再根据确定的语法相似度和主题相似度确定第一文本和第二文本之间的相似度。语法相似度可以理解为涉及语句的语法结构、语句包括的词语的词性等的相似度。主题相似度可以理解为文本主题语义的相似度。本发明实施例提供的文本相似度的确定方法,综合考虑两个文本之间的语法相似度及主题相似度,由于考虑了文本的综合信息,得到的相似度更为准确,更能反映文本本身的相似程度。下面分别介绍本发明实施例中的电子设备如何确定第一文本和第二文本的语法相似度和主题相似度。首先介绍如何确定第一文本和第二文本的主题相似度:本发明实施例中的电子设备可以通过分层狄利克雷分配(hierarchicaldirichletprocess,hdp)等主题建模技术分别将第一文本和第二文本映射至主题空间,主题空间的个数可以依据需要进行设备,第一文本及第二文本可以分别对应至少一个主题。由于主题空间的主题是基于文本特征之间的关联信息和语义信息建立,因此将文本映射至主题空间后再进行后续的文本相似度确定,可以使得文本相似度的确定过程中涉及到文本特征之间的关联信息和语义信息,相比与现有技术仅将文本映射至单词空间进行文本相似度确定的方式具有更高的准确性。本发明实施例中通过hdp主题建模技术将第一文本和第二文本映射至主题空间,其中,hdp模型可以看作潜在狄利克雷((latentdirichletallocation,lda)模型的非参数模型。本发明实施例中,可以首先通过hdp技术建模,通过该hdp模型得到文本的主题信息,再根据文本的主题信息求主题相似度。其中,hdp的输入文件时是经过对第一文本进行分词后,并删除停用词、进行词形还原后的得到的第一分词集。同样地,第二分词集是对第二文本进行分词后,并删除停用词、进行词形还原后的得到的分词集。经过hdp模型处理后的文件是k个主题的主题向量值。通过对文件提取的主题向量通过式(1)计算主题相似度。本发明实施例通过hdp技术建模,所建立的hdp模型中主题的个数是可以扩展的,因为可以根据需要选定。在使用吉比斯抽样方法(gibbssampling)分别将第一文本和第二文本建模映射至主题空间。这样第一文本和第二文本映射至主题空间后,就可以得到第一文本和第二文本各自的主题信息组成的向量文件,根据该向量文件来计算第一文本和第二文本的主题相似度。具体地,本发明实施例可以获取映射至主题空间的第一文本对应的至少一个第一主题向量及第二文本对应的至少一个第二主题向量。根据至少一个第一主题向量、至少一个第二主题向量及第一预设规则,确定第一文本和第二文本的主题相似度。本发明实施例中,第一预设规则可以为公式(1)。在公式(1)中,stopic指示主题相似度,a指示第一主题向量,b指示第二主题向量,ai指示第i个第一主题向量,bi指示第i个第二主题向量,n指示第一主题向量或第二主题向量的个数,i大于等于1,小于等于n。本发明实施例可以通过公式(1)计算第一文本和第二文本的主题相似度。下面介绍如何确定第一文本和第二文本的语法相似度。本发明实施例可以采用现有技术中的分词工具,例如ictclas4j工具将第一文本中的语句进行分割获得第一分词集,并将第二文本中的语句进行分割获得第二分词集。再通过斯坦福stanford工具进行语法解析,计算具有相同语法结构的文本相似度以及考虑语句中词组顺序对相似度的贡献。本发明实施例可以通过斯坦福stanford工具分别确定第一分词集及第二分词集中的语句的语法结构组成,语法结构包括至少一种语法结构类型、词语的词性等,从而根据确定的第一分词集及第二分词集中的语句的语法结构组成,确定第一文本和第二文本的语法相似度。具体地,例如,针对第一分词集,通过斯坦福stanford工具能够得到第一分词集中某个词语的具体词性,分析结果里出现斜杠后面表示的就是该词语的词性。例如,【对于/p,今天/nt,下午/nt,的/deg,考试/nn,,/pu,我/pn,非常/ad,有/ve,信心/nn,。/pu】。通过使用上述方法进行语句语法处理,提取出语句的语法结构以及相应所包含的词组,如表1所示。表1vp:非常有信心pp:对于今天下午的考试pu:,。np:我但是仅仅知道词语的词性是不够的,具体的词性代表的是词语的特性,并不表示一个语句的结构组成。因此,本发明实施例进一步提取出语句的语法结构,例如,简单从句、名词性从句和动词短语等,然后把对应的词语或短语归类到语法结构集合中。具体地,本发明实施例可以通过ictclas4j工具与stanford工具对第一文本或第二文本中的语句进行分词处理以及语法解析,得到最基本的词语或短语的词性标注。再通过逐层解析以及句法树分析的方式把已经标注好语法词性的词语或短语进行抽取与归纳,抽取出语句的组成结构类型,例如,简单从句类型和动词短语类型等。最后把具有相同语法结构类型的词语或短句存放在相应结构类型的集合中,形成不同的语法结构集合,例如,简单从句类型集合、名词性从句类型集合和动词短语类型集合等,实现对语句的语法组成结构的分析。本发明实施例通过上述方法对语法结构进行提取,可以得到该语句的结构组成,如表2所示。相比于表1中单个词语的词性标注,能够得到语句的语法结构组成,更加有利于对中文语句语法语义相似度的研究.这是由于研究其整体的结构类型组成,而不是单单某个词语.语句句法结构类型。表2语法结构含义root要处理的文本语句ip简单从句np名词性短语vp动词性短语pp介词性短语lcp方位词短语cp由‘的’构成的表示修饰关系的短语经过语句语法结构提取方法分析后,每个语句都被切分成若干个结构类型,例如有的包含名词性短语和动词性短语等,有的却包括简单从句、名词性短语和副词短语等。语句语法结构类型相似度计算就是计算两个语句中含有相同结构类型的个数与所有结构类型的个数的比值。该比值可以反映两个语句在句法结构上的相似性,从而本发明实施例可以根据语法解析后的第一分词集及第二分词集中的语句的语法结构组成,确定第一文本和第二文本的语法相似度时,首先可以分别确定语法解析后的第一分词集包括语法结构类型及语法结构类型的数量,及语法解析后的第二分词集包括语法结构类型及语法结构类型的数量。再根据获取的第一分词集及第二分词集的语法结构类型及语法结构类型的数量,及第二规则确定第一文本和第二文本的语法相似度。其中,第二规则可以是公式(2)。在公式(2)中,sgrammer指示两个文本之间的语法相似度,samecount指示第一分词集及第二分词集中相同语法结构类型的数量,m为第一分词集包括的语法结构类型的数量,n为第二分词集包括的语法结构类型的数量。由于语句中词组的位置对短文本间的相似性有着重要影响,现有技术中的相似度计算方法没有考虑到位置相似度,因此计算得到的两个文本之间的相似度的准确性较低。本发明实施例可以确定语法解析后的第一分词集及第二分词集中的分词的位置相似度。位置相似度可以用于指示文本中的一个分词在一个语句中所在位置的相似程度。本发明实施例中不以单个汉字为基本单位,而是以经过分词后的词组为单位,因为单个汉字包含的信息太少,词组能够反映更多的信息,所以以词组为单位计算词组的位置相似度更加合理。具体地,本发明实施例可以将语法解析后的第一分词集和语法解析后的第二分词集分别记为向量t1和t2,其中t1含有s个词组,t2含有t个词组,每个位置上的词组分别为t11,t12,…,t1s和t21,t22,…,t2t。获取t1和t2的并集t,t中包含k个词组。对于t中的每个词组ti,查找在t1中与之相同或含义最相近的词组。可能的实施方式中,可以预先设定的相似度阈值,记下该词组在t1中的下标j,然后构建词组位置向量r1,令r1i=j。同理构建向量r2。即可以获得t1和t2对应于t的词组位置向量r1和r2。本发明实施例可以通过公式(3)计算第一文本和第二文本中语句词组的位置相似度。公式(3)中,sposition表示位置相似度,r1i表示第一文本中的某个词的词组向量,r2i表示第二文本中与第一文本中某个词含义相近的词的词组向量。进一步地,本发明实施例可以根据确定的语法相似度和主题相似度及确定的位置相似度,确定第一文本和第二文本之间的相似度。可能的实施方式中,本发明实施例可以通过公式(4)计算第一文本和第二文本之间的相似度。s1(sen1,sen2)=a*stopic+(1-a)(b*sgrammer+(1-b)*(sposition))(4);公式(4)中,s1(sen1,sen2)指示两个文本之间的相似度,(sposition)指示两个文本包括的分词分别在各自的位置相似度,stopic指示两个文本的主题相似度,sgrammer指示两个文本的语法相似度,a指示主题权值,b指示语法类型权值。本发明实施例考虑到了文本的综合信息,例如语法相似度、主题相似度及位置相似度进一步确定第一文本和第二文本的相似度的准确率较高。进一步地,本发明实施例考虑到即使两个句子的语法结构、语义、主题等一样,若它们的情感相似度不同,相似度也会差别较大。因此,本发明实施例进一步考虑程度副词和情感对句子相似度的影响,从而根据语法相似度、主题相似度及位置相似度、情感相似度进一步确定第一文本和第二文本的相似度,这样确定的相似度的准确率更高。本发明实施例首先可以确定第一文本和第二文本的情感相似度。具体地,本发明实施例可以提取第一文本及第二文本中的至少一个程度副词,其中,程度副词用于指示对内容在程度上限定的副词。现有技术根据修饰方向和程度大小的不同,在《知网》中将程度副词分为6类,其中“极其”类词有69个,“很”类词有42个,“较”类词有37个,“稍”类词有29个,“欠”类词有12个,“超”类词有30个,共计219个类别程度副词。本发明实施例在现有技术的基础上根据语义程度将这6类程度副词分成语气加强型程度副词和语气减弱型程度副词这2类。其中,语气加强型程度副词为极其、超、很、较,且加强程度依次为极其>超>很>较。语气减弱型程度副词为稍、欠,且减弱程度为稍<欠。具体地,可以给语气加强型程度副词赋值,赋值区间可以为1~2,分别将它们从1开始以0.1为单位逐渐递增。本发明实施例对程度副词赋值后,可以将所赋的值对语料库中的句子进行相似度计算,最终确定“极其”类词赋值1.4,“超”类词赋值1.3,“很”类词赋值1.2,“较”类词赋值1.1。同理,语气减弱型程度副词的赋值区间可以为0~1,分别将它们从1开始以0.1为单位逐渐递减,最终确定“稍”类词赋值0.8,“欠”类词赋值0.4。进一步地,本发明实施例可以通过公式(5)计算程度副词对句子相似度的影响。在公式(5)中,w1和w2为一个句子中任意两个程度副词,deg(w1,w2)指示程度副词w1和w2对句子相似度的影响程度,ad(c1)和ad(c2)分别为程度副词w1和w2对应的权值,abs(ad(w1)-ad(w2))为w1和w2权值差值得绝对值。那么一个句子中所有程度副词对句子影响的权重可以通过公式(6)计算所得。在公式(6)中,deg(w1,w2)指示任意两个程度副词wi和wj对句子相似度的影响程度,deg(sent)表示一个句子中所有程度副词对句子影响的权重,n为句子中含有程度副词的个数。本发明实施例可以根据获取的至少一个程度副词及程度副词与权值的映射关系,确定获取的至少一个程度副词对应的至少一个权值,其中,一个程度副词对应一个权值,再根据确定的至少一个权值及第四预设规则,确定第一文本和第二文本的情感相似度:其中,第四预设规则可以是公式(7):cdegsim(sen1,sen2)=c*[abs(deg(sent1)-deg(sent2))]+(1-c)*s1(sen1,sen2)(7)在公式(7)中,cdegsim(sen1,sen2)指示两个文本之间的在前述通过语法、位置、主题确定的相似度的基础上,考虑程度副词对相似度影响后的相似度,deg(sent1)指示第一文本中程度副词的权值,deg(sent2)指示第二文本中程度副词的权值,c是句子间程度副词权重差值对句子相似度的影响权值。本发明实施例确定了第一文本和第二文本的情感相似度之后,可以进一步通过相似度模型对确定的语法相似度和主题相似度、位置相似度及情感相似度进行分析,确定第一文本和第二文本之间的相似度,其中,相似度模型为通过深度学习网络对文本中的分词的语法、主题、位置及情感词进行学习的逐层训练获得的文本的分词集与情感类别的关系模型,情感类别包括积极情感类别和消极情感类别。具体地,本发明实施例可以考虑正面、负面情感词语。以双向长期记忆网络(longshort-termmemory,lstm)神经网络为基础搭建的模型。整个网络分为五层。在输入层,对句子中的分词进行词向量表示。在lstm层,使用向前和向后两个方向lstm进行文本的表示学习。主题层,利用lda主题分布,自动提取的文档特征。池化层,结合池化函数和主题层的文档特征,进一步抽取文本语义特征。在输出层,使用softmax函数预测情感类别。得出最后的情感倾向判断结果1表示积极情感,0表示消极情感,可以通过公式(8)进行示意。sdegsim(sent1,sent2)表示综合考虑上情感的文本相似度,neg(sent1,sent2)=1表示带上情感相似度的文本相似度确定方法时指示积极情感,neg(sent1,sent2)=0表示带上情感相似度的文本相似度确定方法时指示消极情感。由于句子可能包含不同的主题,因而主题相差较大的句子间相似度会较低。故对相似度本就不大的2个句子就没有必要再融入修饰词去计算句子的相似度,所以需要强调的是可以给cdegsim(xi,yj)设定一个阈值thresholdvalue,当大于这个阈值时才考虑融合正面情感词语与负面情感词语,当小于或等于这个阈值时将不考虑正面或负面情感类词语对句子相似度的影响。例如,可以将这一阈值设为0.8。在句法结构上融入修饰词,不仅考察了句子结构中主要成分之间的相似度,还将词语间的同义、近义、反义等关系进行了考虑,特别是正面、负面情感词语以及程度副词,这样使相似度计算结果与人工判定值更接近,可以通过公式(9)进行示意。。公式(9)中,sim(sent1,sent2)表示两个文本的相似度,公式(9)说明了:对于2个文本而言,计算相似度时是否考虑情感相似度,取决于之前通过语法、主题、程度副词算出的相似度的值,只有当这个值超过阈值thresholdvalue时,才考虑加入情感相似度;否则,不加入情感相似度。因为当2个文本的语法、主题等相差较远时,这两个文本通常不相似,故没有必要考虑情感相似度。综上所述,本发明实施例提供的本发明实施例提供了一种新的文本相似度的确定方法,该确定方法综合考虑两个文本之间的语法相似度及主题相似度来确定来年各个文本之间的相似度。相较于现有技术中仅通过两个文本中的划分的分词相似度确定两个文本之间的相似度,由于考虑了文本的综合信息,得到的相似度更为准确,更能反映文本本身的相似程度。本发明实施例在计算两个文本的相似度时,考虑到句长、词形、词序及句子的语法结构等信息,主要从以下三个方面考虑:(1)两个语句中所包含的语法结构的相似度,(2)具有相同语法结构的词语集合间的相似度,(3)经过分词后的词组在语句中出现的位置的相似度,可以有效消除因语法信息造成的语句相似度的误判。例如:“我今天追赶了一只狗”和“一条狗今天追赶了我”这2个语句根据人的主观判断,是两种相反的意思,可是目前绝大多数相似度算法中这两个语句的相似度值是很高的,这显然是不准确的。而本发明实施例提供的文本的相似度的确定方法可以有效消除因语法信息造成的语句相似度的误判。本发明实施例通过使用主题模型对文本建模,利用文本的统计特性,能有效降低文本表示维度,同时又能解决同义词和多义词问题,并且无需引用外部词典的相似度计算方法,这种方法绕开了外部词典的引入,因而避免了词典中未登录词无法得到语义的问题。本发明实施例还引入了句子情感倾向的判断,从人类思维和认识的角度,使对于两个主题表达一致,态度相反的句子相似度衡量更符合人类的语言使用和语义理解习惯,因此加入否定词的判断。例如:“我喜欢运动”和“我不喜欢运动”这两个语句依据人的主观判断,意思是相反的,但是通过现有的大多数算法判断出的结果是具有很高的相似度,这也是不合理的。2)同时考虑程度副词对句子情感的影响,例如“我开心”和“我特开心”后面一句因为加入了程度词而使正面情感更为强烈。3)考虑否定词和程度副词的位置对句子情感相似度的影响。例如:“我很不开心”和“我不很开心”,构成这两个句子的词完全相同,只是否定副词和程度副词的位置不同,通过主观判断,第一句话表达的是一种很强烈的负面情感,第二句话表达的是一种较弱的正面情感,所以这两个句子的相似度是有较大差别的。而本发明实施例提供的文本相似度的确定方法考虑到这一点,从而确定的相似度的准确性更高。下面结合附图介绍本发明实施例提供的设备。请参见图2,基于同一发明构思,本发明一实施例提供了一种文本相似度的确定设备,该确定设备包括:获取单元201、第一确定单元202和第二确定单元203。其中,获取单元201用于获取待确定相似度的第一文本和第二文本。第一确定单元202用于确定第一文本的语法相似度、主题相似度,及确定第二文本的语法相似度、主题相似度。第二确定单元203用于根据确定的语法相似度和主题相似度确定第一文本和第二文本之间的相似度。可选的,第一确定单元202具体用于:分别将第一文本和第二文本映射至主题空间;其中,第一文本及第二文本分别对应至少一个主题;获取映射至主题空间的第一文本对应的至少一个第一主题向量及第二文本对应的至少一个第二主题向量;根据至少一个第一主题向量、至少一个第二主题向量及第一预设规则,确定第一文本和第二文本的主题相似度;其中,第一预设规则为:其中,stopic指示两个文本的主题相似度,a指示第一主题向量,b指示第二主题向量,ai指示第i个第一主题向量,bi指示第i个第二主题向量,n指示第一主题向量或第二主题向量的个数,i大于等于1且小于等于n。可选的,第一确定单元202具体用于:将第一文本中的语句进行分割获得第一分词集,并将第二文本中的语句进行分割获得第二分词集;通过斯坦福stanford工具分别确定第一分词集及第二分词集中的语句的语法结构组成;根据确定的第一分词集及第二分词集中的语句的语法结构组成,确定第一文本和第二文本的语法相似度。可选的,语法结构包括至少一种语法结构类型,第二确定单元203具体用于:分别确定第一分词集包括语法结构类型及语法结构类型的数量,及第二分词集包括语法结构类型及语法结构类型的数量;根据获取的第一分词集及第二分词集的语法结构类型及语法结构类型的数量,及第二规则确定第一文本和第二文本的语法相似度;其中,第二规则为:其中,sgrammer指示两个文本之间的语法相似度,samecount指示第一分词集及第二分词集中相同语法结构类型的数量,m为第一分词集包括的语法结构类型的数量,n为第二分词集包括的语法结构类型的数量。可选的,第一确定单元202具体用于:根据确定的语法相似度和主题相似度确定第一文本和第二文本之间的相似度之前,确定第一分词集及第二分词集中的分词的位置相似度;其中,位置相似度用于指示文本中的一个分词在一个语句中所在位置的相似程度;第二确定单元203具体用于:根据确定的语法相似度和主题相似度及确定的位置相似度确定第一文本和第二文本之间的相似度。可选的,根据确定的语法相似度和主题相似度及确定的位置相似度,确定第一文本和第二文本之间的相似度,包括:通过第三规则确定第一文本和第二文本之间的相似度,其中,第三规则为:s1(sen1,sen2)=a*stopic+(1-a)(b*sgrammer+(1-b)*(sposition)),其中s1(sen1,sen2)指示两个文本之间的相似度,sposition指示两个文本包括的分词分别在各自的位置相似度,a指示主题权值,b指示语法类型权值。可选的,所述确定设备还包括第三确定单元,具体用于在获取待确定相似度的第一文本和第二文本之后,确定第一文本和第二文本的情感相似度;第二确定单元203具体还用于:根据确定的语法相似度和主题相似度、位置相似度及情感相似度确定第一文本和第二文本之间的相似度。可选的,第三确定单元具体用于:提取第一文本及第二文本中的至少一个程度副词,其中程度副词用于指示对内容在程度上限定的副词;根据获取的至少一个程度副词及程度副词与权值的映射关系,确定获取的至少一个程度副词对应的至少一个权值,其中,一个程度副词对应一个权值;根据确定的至少一个权值及第四预设规则,确定第一文本和第二文本的情感相似度;其中,第四预设规则为:cdegsim(sen1,sen2)=c*[abs(deg(sent1)-deg(sent2))]+(1-c)*s1(sen1,sen2),其中,cdegsim(sen1,sen2)指示两个文本之间的情感相似度,deg(sent1)指示第一文本中程度副词的权值,deg(sent2)指示第二文本中程度副词的权值,c是句子间程度副词权重差值对句子相似度的影响权值。可选的,第二确定单元203具体用于:通过相似度模型对确定的语法相似度和主题相似度、位置相似度及情感相似度进行分析,确定第一文本和第二文本之间的相似度;其中,相似度模型为通过深度学习网络对文本中的分词的语法、主题、位置及情感词进行学习的逐层训练获得的文本的分词集与情感类别的关系模型,情感类别包括积极情感类别和消极情感类别。该设备可以用于执行图1所示的实施例所提供的方法,因此,对于该设备的各功能模块所能够实现的功能等可参考图1所示的实施例的描述,不多赘述。请参见图3,本发明一实施例还提供了一种文本相似度的确定设备,该确定设备包括:至少一个处理器301,以及与至少一个处理器301连接的存储器302。其中,存储器302存储有可被所述至少一个处理器301执行的指令,至少一个处理器301通过执行存储器302存储的指令,执行如图1所示的方法。在具体的实施过程中,每个处理器301具体可以是中央处理器、特定应用集成电路(applicationspecificintegratedcircuit,asic),可以是一个或多个用于控制程序执行的集成电路,可以是使用现场可编程门阵列(fieldprogrammablegatearray,fpga)开发的硬件电路,可以是基带处理器。存储器302可以包括只读存储器(readonlymemory,rom)、随机存取存储器(randomaccessmemory,ram)和磁盘存储器,用于存储处理器301运行时所需的数据。存储器302的数量为一个或多个。其中,存储器302在图3中一并示出,但需要知道的是存储器302不是必选的功能模块,因此在图3中以虚线示出。基于同一发明构思,本发明实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,当计算机指令在计算机上运行时,使得计算机执行如图1所示的方法。在具体的实施过程中,计算机可读存储介质包括:通用串行总线闪存盘(universalserialbusflashdrive,usb)、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的存储介质。以上所述,仅是本发明的较佳实施例而已,并非对本发明做任何形式上的限制,故凡未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1