短语相似度计算方法、存储介质、电子设备及系统与流程

文档序号:21037493发布日期:2020-06-09 20:30阅读:212来源:国知局
短语相似度计算方法、存储介质、电子设备及系统与流程

本发明涉及数据分析技术领域,具体涉及一种短语相似度计算方法、存储介质、电子设备及系统。



背景技术:

随着直播的发展,直播涉及的内容越来越广泛,观看直播的人越来越多,在直播过程中,用户会将实时的评论以弹幕的形式发布在直播间,并在直播画面上进行显示;

而工作人员为了分析不同用户的使用习惯,对大量用户进行分析,则需要对各弹幕数据进行统计和分析,此时则需要对较为相似的弹幕进行统计;

现阶段的直播站平台中,每日产生的弹幕量非常巨大,且其中80%以上都是短语弹幕,

因此,急需一种新的短语相似度计算方法,以提高工作人员数据分析的工作效率。



技术实现要素:

针对现有技术中存在的缺陷,本发明的目的在于提供一种短语相似度计算方法,基于目标短语以及参照短语的相似分词以及相似区域进行计算,获得短语之间的相似度,为短语数据的相似度计算提供便利,从而提高工作人员数据分析的工作效率。

为达到以上目的,本发明采取的技术方案是:

第一方面,本发明提供一种短语相似度计算方法,其包括以下步骤:

选定目标短语以及参照短语,并根据预设的语法规则,将所述目标短语分割并组成目标分词集合,将所述参照短语分割并组成参照分词集合;

判断所述目标分词集合与所述参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各所述相似分词分别在所述目标分词集合与所述参照分词集合中的位置;

根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置,获得位置差异值;

根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值;

根据所述绝对位置差异值以及所述目标分词集合的目标分词个数,获得所述目标短语与所述参照短语的短语相似度。

需要说明的是,根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值,由于位置差异值是根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置获得的,故而具体绝对位置差异值是指获得目标分词集合与参照分词之间相关联的绝对位置差异值。

上述技术方案的基础上,通过相似分词集合计算公式获得所述获得相似分词集合,所述相似分词集合计算公式为:

其中:

a表示所述目标分词集合,b表示所述参照分词集合;

s(a,b)为所述相似分词集合,表示所述目标分词集合和所述参照分词集合存在相似分词,表示所述目标分词集合和所述参照分词集合没有相似分词;

bj=ai,表示所述参照分词集合中的第j个参照分词和所述目标分词集合中的第i个目标分词相同;

m表示所述目标分词集合的目标分词个数,n表示所述参照分词集合的参照分词个数;

[0,m)表示0,1,2….m-1;

[0,n)表示0,1,2….n-1。

上述技术方案的基础上,通过位置差异值计算公式获得所述获得位置差异值,所述位置差异值计算公式为:

其中:

avg表示求平均数运算;

j∈s(a,b)表示从所述目标分词集合以及所述参照分词集合中遍历所述相似分词集合;

|j-i|表示所述参照分词集合中的第j个位置的参照分词和所述目标分词集合中的第i个目标分词在位置差距的绝对值。

上述技术方案的基础上,通过绝对位置差异值计算公式获得所述获得绝对位置差异值,所述绝对位置差异值计算公式:

上述技术方案的基础上,根据短语相似度计算公式获得所述获得短语相似度,所述短语相似度计算公式:

其中,λ表示调整系数,λ∈(1,3)。

上述技术方案的基础上,所述语法规则的预设过程包括:

获取所述目标短语,并识别所述目标短语的语种,记作目标语种;

根据所述目标语种选定与所述目标语种对应的语种语法,作为所述语法规则。

第二方面,本发明还提供一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的短语相似度计算方法。

第三方面,本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面的短语相似度计算方法。

第六方面,本发明还提供一种短语相似度计算系统,其包括:

短语预处理单元,用于选定目标短语以及参照短语,并根据预设的语法规则,将所述目标短语分割并组成目标分词集合,将所述参照短语分割并组成参照分词集合;

相似分词集合获取单元,其用于判断所述目标分词集合与所述参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各所述相似分词分别在所述目标分词集合与所述参照分词集合中的位置;

位置差异值计算单元,其用于根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置,获得位置差异值;

绝对位置差异值计算单元,其用于根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值;

短语相似度计算单元,其用于根据所述绝对位置差异值以及所述目标分词集合的目标分词个数,获得所述目标短语与所述参照短语的短语相似度。

在上述技术方案的基础上,所述相似分词集合获取单元配置有相似分词集合计算公式:

所述位置差异值计算单元配置有差异值计算公式:

所述绝对位置差异值计算单元配置有绝对位置差异值计算公式:

所述短语相似度计算单元配置有短语相似度计算公式:

其中:

a表示所述目标分词集合,b表示所述参照分词集合;

s(a,b)为所述相似分词集合,表示所述目标分词集合和所述参照分词集合存在相似分词,表示所述目标分词集合和所述参照分词集合没有相似分词;

bj=ai,表示所述参照分词集合中的第j个参照分词和所述目标分词集合中的第i个目标分词相同;

m表示所述目标分词集合的目标分词个数,n表示所述参照分词集合的参照分词个数;

[0,m)表示0,1,2….m-1;

[0,n)表示0,1,2….n-1;

avg表示求平均数运算;

j∈s(a,b)表示从所述目标分词集合以及所述参照分词集合中遍历所述相似分词集合;

|j-i|表示所述参照分词集合中的第j个位置的参照分词和所述目标分词集合中的第i个目标分词在位置差距的绝对值;

λ表示调整系数,λ∈(1,3)。

与现有技术相比,本发明的优点在于:

本发明基于目标短语以及参照短语的相似分词以及相似区域进行计算,获得短语之间的相似度,为短语数据的相似度计算提供便利,从而提高工作人员数据分析的工作效率。

附图说明

图1为本发明实施例一提供的一种短语相似度计算方法的步骤流程图;

图2为本发明实施例二提供的一种短语相似度计算系统的结构框图;

图中:1、短语预处理单元;2、相似分词集合获取单元;3、位置差异值计算单元;4、绝对位置差异值计算单元;5、短语相似度计算单元。

具体实施方式

以下结合附图对本发明的实施例作进一步详细说明。

本发明实施例提供一种短语相似度计算方法、存储介质、电子设备及系统,基于目标短语以及参照短语的相似分词以及相似区域进行计算,获得短语之间的相似度,为短语数据的相似度计算提供便利。

为达到上述技术效果,本申请的总体思路如下:

一种短语相似度计算方法,其包括以下步骤:

s1、选定目标短语以及参照短语,并根据预设的语法规则,将所述目标短语分割并组成目标分词集合,将所述参照短语分割并组成所述参照分词集合;

s2、判断所述目标分词集合与所述参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各所述相似分词分别在所述目标分词集合与所述参照分词集合中的位置;

s3、根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置,获得位置差异值;

s4、根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值;

s5、根据所述绝对位置差异值以及所述目标分词集合的目标分词个数,获得所述目标短语与所述参照短语的短语相似度。

本发明实施例中,基于目标短语以及参照短语的相似分词以及相似区域进行计算,获得短语之间的相似度,为短语数据的相似度计算提供便利。

实施例一

参见图1所示,本发明实施例提供一种短语相似度计算方法,包括以下步骤:

s1、选定目标短语以及参照短语,并根据预设的语法规则,将目标短语分割并组成目标分词集合,将参照短语分割并组成参照分词集合;

s2、判断目标分词集合与参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各相似分词分别在目标分词集合与参照分词集合中的位置;

s3、根据相似分词在目标分词集合与参照分词集合中的位置,获得位置差异值;

s4、根据位置差异值以及参照分词集合的参照分词个数,获得绝对位置差异值;

s5、根据绝对位置差异值以及目标分词集合的目标分词个数,获得目标短语与参照短语的短语相似度。

需要说明的是,根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值,由于位置差异值是根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置获得的,故而具体绝对位置差异值是指获得目标分词集合与参照分词之间相关联的绝对位置差异值。

本发明实施例,在步骤s1中,选定两个需要判断两者之间短语相似度的短语,进而选定其中一个为目标短语,另一个为参照短语,由于需要判断两个短语的相似度,那么两个短语首先应该是属于同一语种或同一语言规则的,那么他们应当符合同一语法规则,那么预设一个与目标短语以及参照短语对应的语法规则,将目标短语分割并组成目标分词集合,将参照短语分割并组成参照分词集合;

进而在步骤s2,判断目标分词集合与参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各相似分词分别在目标分词集合与参照分词集合中的位置;

其中,本发明实施例中,通过相似分词集合计算公式获得所述获得相似分词集合,所述相似分词集合计算公式为:

其中:

a表示目标分词集合,b表示参照分词集合;

s(a,b)为相似分词集合,表示目标分词集合和参照分词集合存在相似分词,表示目标分词集合和参照分词集合没有相似分词;

bj=ai,表示参照分词集合中的第j个参照分词和目标分词集合中的第i个目标分词相同;

m表示目标分词集合的目标分词个数,n表示参照分词集合的参照分词个数;

[0,m)表示0,1,2….m-1;

[0,n)表示0,1,2….n-1。

而后,在步骤s3中,根据相似分词在目标分词集合与参照分词集合中的位置,获得位置差异值;

具体的,本发明实施例中,通过位置差异值计算公式获得所述获得位置差异值,所述位置差异值计算公式为:

其中:

avg表示求平均数运算;

j∈s(a,b)表示从目标分词集合以及参照分词集合中遍历相似分词集合;

|j-i|表示参照分词集合中的第j个位置的参照分词和目标分词集合中的第i个目标分词在位置差距的绝对值。

进而,步骤s4中,通过绝对位置差异值计算公式获得所述获得绝对位置差异值,所述绝对位置差异值计算公式;

此时,获得绝对位置差异值运用到绝对位置差异值计算公式:

最后,在步骤s5中,根据绝对位置差异值以及目标分词集合的目标分词个数,获得目标短语与参照短语的短语相似度;

此步骤中,根据短语相似度计算公式获得所述获得短语相似度,所述短语相似度计算公式:

其中,λ表示调整系数,λ∈(1,3)。

本发明实施例,基于目标短语以及参照短语的相似分词以及相似区域进行计算,获得短语之间的相似度,为短语数据的相似度计算提供便利。

另外,本发明还可适用于直播平台,直播平台每日产生的弹幕量非常巨大,其中80%以上都是短语弹幕,利用本发明的短语相似度计算方法进行计算,能够给弹幕数据统计工作提供便利。

基于实施例一的一种的短语相似度计算方法,给出一个具体的计算例子:

假设选定了三个短语,分别拆分后,得到了3个短语集合:x={野区,霸主},y={歌声,优美},z={大师,野区};

根据相似分词集合计算公式,可以得到:

s(x,z)={(0,1)},即x、y之间没有相似分词,而x、z之间有相似分词,而x和z的相似分词集合为{(0,1)},即x的第一个分词与z的第二个分词相同;

而后,利用位置差异值计算公式,计算x和y,x和z之间的位置差异值,结果如下:

因为短语x、y中的文本无交叉,因此po(x,y)=2;

po(x,z)=avg((1-0)/1)=1;

接着,利用绝对位置差异值计算公式,计算x和y,x和z之间的绝对位置差异值,结果如下:

d(x,y)=(2-2)/(2+1)=0;

d(x,z)=2-1/(2+1)=0.33;

最后根据短语相似度计算公式,计算x和y,x和z之间的相似度,此时令λ为1,结果如下:

sim(x,y)=(1/2)*0=0

sim(x,z=(1/2)*0.33=0.166

故而,发现x和y不存在相似度,x和z有16.7%的相似度。

基于同一发明构思,本申请提供了实施例一对应的短语相似度计算系统的实施例,详见实施例二

实施例二

如图2所示,本发明第二实施例提供了一种短语相似度计算系统,其包括:

短语预处理单元1,用于选定目标短语以及参照短语,并根据预设的语法规则,将目标短语分割并组成目标分词集合,将参照短语分割并组成参照分词集合;

相似分词集合获取单元2,其用于判断目标分词集合与参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各相似分词分别在目标分词集合与参照分词集合中的位置;

位置差异值计算单元3,其用于根据相似分词在目标分词集合与参照分词集合中的位置,获得位置差异值;

绝对位置差异值计算单元4,其用于根据位置差异值以及参照分词集合的参照分词个数,获得绝对位置差异值;

短语相似度计算单元5,其用于根据绝对位置差异值以及目标分词集合的目标分词个数,获得目标短语与参照短语的短语相似度。

本发明实施例,首先,选定两个需要判断两者之间短语相似度的短语,进而选定其中一个为目标短语,另一个为参照短语,由于需要判断两个短语的相似度,那么两个短语首先应该是属于同一语种或同一语言规则的,那么他们应当符合同一语法规则,那么预设一个与目标短语以及参照短语对应的语法规则,将目标短语分割并组成目标分词集合,将参照短语分割并组成参照分词集合;

进而,判断目标分词集合与参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各相似分词分别在目标分词集合与参照分词集合中的位置;

其中,本发明实施例中,获得相似分词集合具体运用到相似分词集合计算公式:

其中:

a表示目标分词集合,b表示参照分词集合;

s(a,b)为相似分词集合,表示目标分词集合和参照分词集合存在相似分词,表示目标分词集合和参照分词集合没有相似分词;

bj=ai,表示参照分词集合中的第j个参照分词和目标分词集合中的第i个目标分词相同;

m表示目标分词集合的目标分词个数,n表示参照分词集合的参照分词个数;

[0,m)表示0,1,2….m-1;

[0,n)表示0,1,2….n-1。

而后,根据相似分词在目标分词集合与参照分词集合中的位置,获得位置差异值;

具体的,本发明实施例中,获得位置差异值具体运用到位置差异值计算公式:

其中:

avg表示求平均数运算;

j∈s(a,b)表示从目标分词集合以及参照分词集合中遍历相似分词集合;

|j-i|表示参照分词集合中的第j个位置的参照分词和目标分词集合中的第i个目标分词在位置差距的绝对值。

进而,根据位置差异值以及参照分词集合的参照分词个数,获得绝对位置差异值;

此时,获得绝对位置差异值运用到绝对位置差异值计算公式:

最后,根据绝对位置差异值以及目标分词集合的目标分词个数,获得目标短语与参照短语的短语相似度;

此步骤中,获得短语相似度运用到短语相似度计算公式:

其中,λ表示调整系数,λ∈(1,3)。

本发明实施例,基于目标短语以及参照短语的相似分词以及相似区域进行计算,获得短语之间的相似度,为短语数据的相似度计算提供便利。

另外,本发明还可适用于直播平台,直播平台每日产生的弹幕量非常巨大,其中80%以上都是短语弹幕,利用本发明的短语相似度计算方法进行计算,能够给弹幕数据统计工作提供便利。

基于同一发明构思,本申请提供了实施例一对应的存储介质的实施例,详见实施例三

实施例三

本发明第三实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一实施例中的所有方法步骤或部分方法步骤。

本发明实现上述第一实施例中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

基于同一发明构思,本申请提供了实施例一对应的电子设备的实施例,详见实施例四

实施例四

本发明第四实施例还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现第一实施例中的所有方法步骤或部分方法步骤。

所称处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、服务器或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、服务器和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1