一种面向序列采样的样本代表性计算方法与流程

文档序号:20619749发布日期:2020-05-06 20:40阅读:725来源:国知局
一种面向序列采样的样本代表性计算方法与流程

本发明涉及序列采样技术领域,具体地说,涉及一种面向序列采样的样本代表性计算方法。



背景技术:

所谓面向序列采样的样本代表性是指,从全序列中抽取一个子序列后,该子序列代表全序列程度的指标。该代表性可被用于自然语言处理(nlp)中的一些基础任务及其效果评估。现有方案一般只考虑采样数与总数的比例,没有考虑采样子序列的跨度及在全序列中的分布情况。即现有方案的代表性=采样比例=采样样本数/总数。即使在相同采样比例前提下,采样样本在原序列中的跨度大小及分布均匀程度不同,也会导致样本的代表性不同。



技术实现要素:

本发明的目的在于提供一种面向序列采样的样本代表性计算方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供一种面向序列采样的样本代表性计算方法,其方法包括如下步骤:

步骤一:计算跨度占比:计算采样子序列中的最大下标与最小下标之差加一后与全序列大小之比;

步骤二:计算采样比例:计算采样子序列元素个数除以全序列元素个数;

步骤三:计算序列熵:在一定的跨度及采样比例下,对序列的均匀程度进行数值上的度量;

步骤四:计算代表性:将步骤一至步骤三的三个量相乘即获得面向序列采样的样本代表性数值。

作为优选,所述子序列的代表性的计算方法如下:

(1)、将文本看做一个以段落为单位的全序列,用[0,1,2,…,n-1]表示,大小为n;

(2)、对文本的采样结果,看做是子序列,用[a0,a1,a2,...,am-1]表示,大小为m;

(3)、设定关于子序列代表性的技术性假设;

(4)、定义指标:跨度占比(spanratio)、采样比例(proportion)、序列熵(entropy);

(5)、定义子序列的代表性为上述三个指标的乘积,即representative=spanratio*proportion*entropy。

作为优选,所述设定关于子序列代表性的技术性假设包括:

(3.1)、子序列跨度越大,代表性越强,跨度定义为span=am-1-a0+1;

(3.2)、子序列元素越多,代表性越强;

(3.3)、同等跨度及元素个数下,子序列内部的元素越均匀,代表性越强。

作为优选,所述定义指标包括:

(4.1)、跨度占比:span/n=(am-1-a0+1)/n,规定当采样数小于等于1时,跨度占比=m/n;

(4.2)、子序列采样比例:m/n;

(4.3)、序列熵:给定跨度占比及采样比例条件下,子序列相邻元素之差的平方和的可能最小值除以当前子序列相邻元素之差的平方和,即entropy=minintervalquadraticsum/intervalquadraticsum。

作为优选,所述定义子序列的代表性为上述三个指标的乘积包括:

(5.1)、代表性是0~1之间的实数;

(5.2)、当子序列与全序列相同时,代表性取到最大值1;

(5.3)、子序列为空时,代表性取最小值0。

与现有技术相比,本发明的有益效果:该面向序列采样的样本代表性计算方法中,综合考虑了多种要素,从采样子序列的跨度、采样比例、及分布的均匀程度体现采样序列的代表性。输出的结果是在0~1之间的实数,方便后续作业的处理及便于人对结果产生直观的感受。

附图说明

图1为本发明的总流程图;

图2为本发明的计算跨度占比流程图;

图3为本发明的计算序列熵流程图;

图4为本发明的采样跨度影响采样代表性图;

图5为本发明的采样分布情况影响代表性图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-图5所示,本发明提供一种技术方案:

本发明提供一种面向序列采样的样本代表性计算方法,包括其方法包括如下步骤:

步骤一:计算跨度占比:计算采样子序列中的最大下标与最小下标之差(即跨度)与全序列大小之比;

步骤二:计算采样比例:计算采样子序列元素个数除以全序列元素个数;

步骤三:计算序列熵:在一定的跨度及采样比例下,对序列的均匀程度进行数值上的度量;

步骤四:计算代表性:将步骤一至步骤三的三个量相乘即获得面向序列采样的样本代表性数值。

子序列的代表性的计算方法:

1.将文本看做一个以段落为单位元素的序列,下称全序列,用[0,1,2,…,n-1]表示,大小为n。(本专利直接使用段落的标号/序号表示段落,便于说明和计算)

2.将文本的采样(随机,或基于语义相关性)结果,看做是子序列,用[a0,a1,a2,...,am-1]表示,大小为m。

3.出于常理,做如下技术性观察及假设:

(3.1)子序列跨度越大,代表性越强,跨度定义为span=am-1-a0+1。

(3.2)子序列元素越多,代表性越强。

(3.3)同等跨度及元素个数下,子序列内部的元素越均匀,代表性越强(参考最大熵原理/themaximumentropyprinciple)。

4.基于上述技术性观察及假设,定义如下指标:

(4.1)跨度占比(spanratio):span/n=(am-1-a0+1)/n,特别地,规定当采样数小于等于1时,跨度占比=m/n;

(4.2)采样比例(proportion):m/n;

(4.3)序列熵(entropy):

a)未规范化(至0~1之间)的序列熵定义为子序列内每对相邻元素之差的平方和的倒数。平方和越小、平方和的倒数越大,元素分布越均匀,序列熵越大(比照热力学熵的定义)。为了便于叙述说明,下文不时会将序列熵简称为熵。

b)为了把熵归一化至0~1区间,最终将序列熵定义为:给定跨度占比及采样比例条件下,子序列相邻元素之差的平方和的可能最小值除以当前子序列相邻元素之差的平方和,即

entropy=(1/intervalquadraticsum)/(1/minintervalquadraticsum)=minintervalquadraticsum/intervalquadraticsum;

c)给定跨度占比及采样比例,当元素分布完全均匀(等距)时,子序列内相邻元素之差的平方和最小(说明见备注)。显然,平均间距avginterval=(span-1)/(m-1),因而有最小平方和minintervalquadraticsum=(m-1)*avginterval2,即(span-1)2/(m-1);

d)为了避免除零问题,规定当m=1时,熵为1;当m=0时,熵无意义,指定值为0。

5.由此可定义子序列的代表性为上述三个指标的乘积,即representative=spanratio*proportion*entropy;

(5.1)代表性是个0~1之间的实数,

(5.2)当子序列与全序列相同时,代表性取到最大值1。

(5.3)子序列为空时,代表性取最小值0。

关于“给定跨度占比及采样比例,当元素分布完全均匀(等距)时,子序列内相邻元素之差的平方和最小”结论正确性的说明如下:

1、给定跨度占比及采样比例,显然任何形态的分布都可通过对完全均匀(等距)的分布进行不超过m-2次元素移动获得,反之亦然。

2.当m=2时,显然只有一种分布,命题成立。

3.当m>=3时,使用递归法,先证明m=3时命题成立;然后证明当m=m成立时,m=m+1也成立(其中m>=3),由此命题得证。

4.当m=3时,当跨度确定时,首尾元素固定,只有中间一个元素可移动。设首尾元素之间距离为c,中间元素与首尾的距离分别为x和c-x。

5.此时,子序列的相邻元素之差的平方和=x2+(c-x)2=x2+c2-2cx+x2=2x(x-c)+c2

6.y=2x(x-c)+c2是一个一元二次方程,在x=c/2取得最小值,即中间元素为首尾元素中点时,取得最小值,即m=3时,命题成立。

7.当m=m成立时(m>=3),考察m=m+1的情形,即增加一个元素后的情况。

8.不失一般性地,将新加入的元素置于首个元素之前与将该元素置于尾部元素之后,在跨度一致情况下,是对称等价的,对原m=m的子序列进行缩放,其内部元素需要保持等距,才能获得内部平方和最小值。对于m=m+1的两种插入新元素的情况,本质是等价的,必然要求互为镜像。从加入原首个元素之前的元素视角看,要保证总平方和最小,其与原首元素之间的距离必须与另一视角的原尾元素与新加尾元素之间的距离一致。由此命题得证。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1