一种置信度的计算方法及装置与流程

文档序号:14474207阅读:667来源:国知局
一种置信度的计算方法及装置与流程

本发明涉及多媒体技术领域,更具体的说,涉及一种置信度的计算方法及装置。



背景技术:

命名实体识别是指识别文本中具有特定意义的命名实体,如人名、地名、机构名等,命名实体识别是自然语言处理中非常重要的基础性任务,而且,命名实体识别对于信息检索、问答系统、语义化搜索和知识库构建等领域有着至关重要的作用。

可以采用机器学习模型来识别命名实体,其中,在识别过程中,需要使用实体词典,实体词典为存有若干个词语的词典。

当待分析文本为剧名实体如“母亲”时,可以通过在实体词典中增加每个待分析文本作为剧名实体的置信度,进而当置信度大于预设数值时,可以认为待分析文本为剧名实体,这样可以提高剧名实体的识别准确度,如,提高“母亲”作为剧名实体的识别度。其中,剧名实体为表征影视名称的文本。

因此,亟需一种能够计算待分析文本作为剧名实体的置信度的方法。



技术实现要素:

有鉴于此,本发明提供一种置信度的计算方法及装置,以解决需要一种计算待分析文本作为剧名实体的置信度的方法的问题。

为解决上述技术问题,本发明采用了如下技术方案:

一种置信度的计算方法,包括:

获取待分析文本;

确定至少一个统计维度;

计算所述待分析文本的每个所述统计维度对应的统计维度值;

根据每个所述统计维度对应的统计维度值以及置信度计算公式,计算所述待分析文本作为剧名实体的置信度。

优选地,所述统计维度包括:

所述待分析文本在非视频文本集合中出现的次数、所述待分析文本在视频文本集合中出现的次数、所述待分析文本预设时间内被作为搜索内容的点击熵、所述待分析文本的布尔值以及字符长度值。

优选地,当所述统计维度为所述待分析文本的布尔值时,计算所述待分析文本的每个统计维度对应的统计维度值,包括:

将所述待分析文本作为搜索词进行搜索;

根据搜索结果中是否存在预设词语的结果,确定所述待分析文本的实体名称布尔值;

根据所述待分析文本是否可进行分词的结果,得到所述待分析文本的第一分词布尔值;

根据所述待分析文本的分词结果中的每个分词结果是否为单词的结果,得到所述待分析文本的第二分词布尔值;

其中,所述待分析文本的布尔值对应的统计维度值包括所述实体名称布尔值、所述第一分词布尔值和所述第二分词布尔值。

优选地,得到所述置信度计算公式的过程包括:

获取多个待训练文本;其中,每个所述待训练文本中包括待训练文本作为剧名实体的置信度;

根据所述多个待训练文本,对初始置信度计算公式进行训练,得到所述置信度计算公式;

其中,所述初始置信度计算公式基于逻辑回归算法生成。

优选地,根据所述多个待训练文本,对初始置信度计算公式进行训练,得到所述置信度计算公式,包括:

根据所述多个待训练文本以及初始置信度计算公式,确定所述初始置信度计算公式中每个所述统计维度的权重值;

根据确定的所述初始置信度计算公式中每个所述统计维度的权重值,生成所述置信度计算公式。

一种置信度的计算装置,包括:

第一获取模块,用于获取待分析文本;

维度确定模块,用于确定至少一个统计维度;

第一计算模块,用于计算所述待分析文本的每个所述统计维度对应的统计维度值;

第二计算模块,用于根据每个所述统计维度对应的统计维度值以及置信度计算公式,计算所述待分析文本作为剧名实体的置信度。

优选地,所述统计维度包括:

所述待分析文本在非视频文本集合中出现的次数、所述待分析文本在视频文本集合中出现的次数、所述待分析文本预设时间内被作为搜索内容的点击熵、所述待分析文本的布尔值以及字符长度值。

优选地,当所述统计维度为所述待分析文本的布尔值时,所述第一计算模块包括:

搜索子模块,用于将所述待分析文本作为搜索词进行搜索;

第一确定子模块,用于根据搜索结果中是否存在预设词语的结果,确定所述待分析文本的实体名称布尔值;

第二确定子模块,用于根据所述待分析文本是否可进行分词的结果,得到所述待分析文本的第一分词布尔值;

第三确定子模块,用于根据所述待分析文本的分词结果中的每个分词结果是否为单词的结果,得到所述待分析文本的第二分词布尔值;

其中,所述待分析文本的布尔值对应的统计维度值包括所述实体名称布尔值、所述第一分词布尔值和所述第二分词布尔值。

优选地,还包括:

第二获取模块,用于获取多个待训练文本;其中,每个所述待训练文本中包括待训练文本作为剧名实体的置信度;

训练模块,用于根据所述多个待训练文本,对初始置信度计算公式进行训练,得到所述置信度计算公式;

其中,所述初始置信度计算公式基于逻辑回归算法生成。

优选地,所述训练模块包括:

权重确定子模块,用于根据所述多个待训练文本以及初始置信度计算公式,确定所述初始置信度计算公式中每个所述统计维度的权重值;

生成子模块,用于根据确定的所述初始置信度计算公式中每个所述统计维度的权重值,生成所述置信度计算公式。

相较于现有技术,本发明具有以下有益效果:

本发明提供了一种置信度的计算方法及装置,本发明中,获取待分析文本,确定至少一个统计维度,计算所述待分析文本的每个所述统计维度对应的统计维度值,根据每个所述统计维度对应的统计维度值以及置信度计算公式,计算所述待分析文本作为剧名实体的置信度。通过上述方法可以计算得到置信度,解决了现有技术中需要一种计算待分析文本作为剧名实体的置信度的方法的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种置信度的计算方法的方法流程图;

图2为本发明提供的另一种置信度的计算方法的方法流程图;

图3为本发明提供的再一种置信度的计算方法的方法流程图;

图4为本发明提供的一种置信度的计算装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的技术人员经过经验总结发现以下几点特点:

a)在非视频行业文本语料中出现越频繁的字符串,作为剧名实体的置信度越低,因为歧义越大,例如:“胭脂”、“解密”等;

b)视频行业文本中用影视剧名模板匹配成功频度越高,作为剧名实体的置信度越高,例如:匹配上“《*》”、“*第*集”、“*高清版”、“*演员表”、“*电影版”等;

c)搜索引擎结果的点击熵(衡量点击行为分布是集中还是分散)越大,作为剧名实体的置信度越低,因为没有歧义的剧名字符串的搜索结果中,用户点击专辑结果的可能性更大(例如“琅琊榜”),而有歧义的剧名字符串的搜索结果中,用户点击可能比较分散(例如“黑客”);

d)字符串长度越长,作为剧名实体的置信度越高,例如:“致我们终将逝去的青春”的置信度较高,“青春”置信度较低。

因此,在上述特点的基础上,提出了本发明的技术方案。

具体的,本发明实施例提供了一种置信度的计算方法,参照图1,包括:

s11、获取待分析文本;

其中,待分析文本为需要进行识别的文本,如文本可以是“母亲”、“少帅”等文本。

s12、确定至少一个统计维度;

具体的,在本实施例的基础上,统计维度可以包括:

所述待分析文本在非视频文本集合中出现的次数、所述待分析文本在视频文本集合中出现的次数、所述待分析文本预设时间内被作为搜索内容的点击熵、所述待分析文本的布尔值以及字符长度值。

下面依次介绍这几个统计维度。

1、所述待分析文本在非视频文本集合中出现的次数;

其中,使用大量文学作品、新闻文本等构造非视频文本集合,记为c1,尽量避开视频行业的文本,因为在非娱乐行业的文本中能统计出剧名实体作为非剧名出现的频繁程度。例如“胭脂”是一个有歧义的电视剧名,我们收集了一批非视频行业的非视频文本集合(比如小说、人民日报等),在这些语料中出现的“胭脂”表示电视剧名的可能性非常小,也就是在这些非视频文本集合中“胭脂”很大可能是作为“非剧名”出现的。

构造得到非视频文本集合后,统计待分析文本在非视频文本集合中出现的次数,设为第一次数,记为freq1(e)。

2、所述待分析文本在视频文本集合中出现的次数;

视频公司拥有海量的视频行业文本,包括视频标题、简介、视频评论、搜索日志等,本实施例使用所有视频标题和搜索日志的文本集合作为视频文本集合,记为c2。待分析文本在c2中出现,一般会有很多共有的上下文特征,人工整理出一些常见的剧名实体上下文特征模板,例如:“《*》”、“*第x集”、“*第x季”、“*高清版”、“*演员表”、“*电影版”、“新版*”等。

具体的,根据预设词语组合逻辑和预设词语组合顺序,统计待分析文本在第二预设文本集中出现的次数,设为第二次数。

预设词语组合逻辑是指同时出现待分析文本以及一个剧名实体上下文特征模板。预设词语组合顺序是指在视频文本集合中,待分析文本和剧名实体上下文特征模板出现的顺序符合预先规定的顺序。

需要说明的是,待分析文本和不同的剧名实体上下文特征模板出现的前后顺序可能不同,可能相同。

如用*来指代待分析文本,《*》,这种情况,待分析文本出现在中间,“1986版*”这种情况,待分析文本出现在文字后边。

进而统计满足同时出现待分析文本和剧名实体上下文特征模板、且待分析文本的排列顺序早于剧名实体上下文特征模板的排列顺序两个条件的待分析文本出现的次数,设为第二次数,记为freq2(e)。

3、所述待分析文本预设时间内被作为搜索内容的点击熵;

其中,熵是信息论中的概念,本发明用熵来衡量搜索点击行为的分布情况,称为点击熵。对于不同的搜索词,用户在搜索结果中的点击行为是有差别的,例如在视频搜索引擎中搜索“琅琊榜”,绝大部分用户会点击排在首位或者前几位的电视剧《琅琊榜》的结果,而少量用户也会点击排在后面的关于“琅琊榜片段”、“琅琊榜花絮”等结果,也就是用户的点击趋向于“集中”;如果搜索词为“黑客”,用户点击的结果不会过于集中在某个结果上,而是分散在若干个或者更多的结果上,如有的用户会点击电视剧“黑客”,也有的用户会点击与“黑客”相关的短视频,例如:“中国最小黑客年仅12岁为不做作业入侵学校系统”。也就是用户的点击趋向于“分散”。本发明用点击熵来量化这种“集中”或者“分散”的程度,定义为如下公式:

d(e)表示待分析文本e的所有搜索结果文档,d表示其中某一个结果文档,p(d)表示用户点击结果文档d的概率。

可以基于视频搜索引擎的日志很容易得到待分析文本以及用户点击行为,基于以上定义可以计算出e的点击熵h(e)。

需要说明的是,本实施例中的点击熵为预设时间内的点击熵,其中,预设时间可以是7天、15天或30天。

4、所述待分析文本的布尔值以及字符长度值。

其中,计算得到的字符长度值可以记为len(e)。

本例子中给出了几种统计维度的举例,进而就能够根据本例子中列举的统计维度进行统计,并计算得到置信度。

s13、根据每个所述统计维度对应的统计维度值以及置信度计算公式,计算所述待分析文本作为剧名实体的置信度。

其中,置信度表征待分析文本为剧名实体的概率。概率越大,说明该待分析文本为剧名实体的可能性越大,也说明该待分析文本为剧名实体的歧义越小。

本实施例中,获取待分析文本,确定至少一个统计维度,计算所述待分析文本的每个所述统计维度对应的统计维度值,根据每个所述统计维度对应的统计维度值以及置信度计算公式,计算所述待分析文本作为剧名实体的置信度。通过上述方法可以计算得到置信度,解决了现有技术中需要一种计算待分析文本作为剧名实体的置信度的方法的问题。

此外,本实施例中根据置信度的计算方法来辅助词典识别方法,能够提高命名实体识别的结果。

可选的,在上述任一实施例的基础上,参照图2,当所述统计维度为所述待分析文本的布尔值时,计算所述待分析文本的每个统计维度对应的统计维度值,包括:

s21、将所述待分析文本作为搜索词进行搜索;

其中,可以在网页、手机软件app等软件中进行搜索。

s22、根据搜索结果中是否存在预设词语的结果,确定所述待分析文本的实体名称布尔值;

具体的,在搜索页面搜索待分析文本,可以得到待分析文本对应的搜索结果,可能会包括多个搜索结果,本实施例中,获取排名前第二预设数值的搜索结果。如,第二数据数值为5,则在搜索结果中选取出前五个的搜索结果。

根据每个搜索结果中是否出现预设词语的判定结果,计算待分析文本的实体名称布尔值。其中,预设词语可以为预设影视文本集中的至少一个预设影视文本。

具体的,预设影视文本集为视频官方发布的完整的电影、电视剧、综艺节目等视频,但是不包括用户上传的短视频。实体名称布尔值记为album(e)。

其中,实体名称布尔值包括两种数值,一个为1,一个为0。

具体的,当搜索结果中出现预设影视文本集中的至少一个预设影视文本时,实体名称布尔值为1,当搜索结果中没有出现预设影视文本集中的任何一个预设影视文本时,实体名称布尔值为0。

s23、根据所述待分析文本是否可进行分词的结果,得到所述待分析文本的第一分词布尔值;

其中,第一分词布尔值记为single(e),可以使用分词软件对待分析文本进行分词,得到分词结果。

具体的,步骤s23包括以下几步:

1)根据待分析文本的分词结果,判断待分析文本是否为不可再进行分词的文本;

2)若判断出待分析文本为不可再进行分词的文本,将第一分词布尔值设置为第一预设数值;

具体的,第一预设数值可以是1或者正确true。如当待分析文本为“黎明”时,因为黎明不能够再进行分词,黎明的分词结果为黎明,则认为黎明为一个不可再进行分词的文本,此时,将第一分词布尔值设置为1或者true。

3)若判断出待分析文本为可再进行分词的文本,将第一分词布尔值设置为第二预设数值;

具体的,第二预设数值可以是0或者错误flase。如当待分析文本为“黑客帝国”时,因为黑客帝国能够再进行分词,则认为黑客帝国不为一个不可再进行分词的文本,进而将第一分词布尔值设置为0或者flase。

s24、根据所述待分析文本的分词结果中的每个分词结果是否为单词的结果,得到所述待分析文本的第二分词布尔值;

其中,第二分词布尔值记为allchar(e)。

具体的,步骤s24可以包括:

1)根据待分析文本的分词结果,判断每个分词结果中的每个词语是否为单字;

其中,单字为单独的一个文字。

2)若判断出分词结果中的每个词语均为单字,将第二分词布尔值设置为第三预设数值;

具体的,第三预设数值可以是1或者true。如当待分析文本为“花千骨”时,因为花千骨的分词结果为花/千/骨,则认为待分析文本“花千骨”的分词结果中的每个词语均为单字,此时将第二分词布尔值设置为1或者true。

3)若判断出分词结果中的至少一个词语不为单字,将第二分词布尔值设置为第四预设数值。

具体的,第四预设数值可以是0或者flase。如当待分析文本为“黑客帝国”时,因为黑客帝国的分词结果为黑客/帝国,则认为待分析文本“黑客帝国”的分词结果中的每个词语均不为单字,此时将第二分词布尔值设置为0或者flase。

需要说明的是,所述待分析文本的布尔值对应的统计维度值包括所述实体名称布尔值、所述第一分词布尔值和所述第二分词布尔值。

当计算得到实体名称布尔值、所述第一分词布尔值和所述第二分词布尔值后,就能够确定待分析文本的布尔值对应的统计维度值。

本实施例中,通过分析待分析文本的搜索结果、分词结果得到实体名称布尔值、第一分词布尔值和第二分词布尔值,提供了一种实体名称布尔值、第一分词布尔值和第二分词布尔值的计算方法。

可选的,在上述任一实施例的基础上,参照图3,得到所述置信度计算公式的过程包括:

s31、获取多个待训练文本;

其中,每个所述待训练文本中包括待训练文本作为剧名实体的置信度。

具体的,上述步骤中抽取得到了待分析文本的多个统计维度的统计维度值,多个统计维度值构成特征集:

f(e)=[freq1(e),freq2(e),h(e),album(e),len(e),single(e),allchar(e)]。

因而,计算置信度的值可以转化为机器学习中的回归问题,可以使用机器学习中的线性回归、逻辑回归、神经网络等方法,其中逻辑回归方法输出值是一个概率值(取值在0到1之间),可以直接取之作为置信度(衡量待分析文本e作为剧名实体的概率)。本发明实验系统使用逻辑回归方法计算置信度。

逻辑回归是一种有监督的机器学习方法,需要标注数据,本发明人工标注了一批待训练文本(记为t),每条待训练文本为<e,c>,e为剧名实体,c为剧名实体e的置信度(0到1之间的实数值)。标注时需要观察待训练文本的歧义情况,人工根据经验给予一个0到1之间的实数值,例如:对于完全没有歧义的待训练文本(如“湄公河行动”)标注1.0,有较小歧义的待训练文本(如“花千骨”、“琅琊榜”某些情况下可能指游戏名)标注0.9,歧义较大的待训练文本(如“卧虎藏龙”)标注0.5,歧义更大的待训练文本(如“县委书记”)标注0.3,歧义非常大的待训练文本(如“母亲”)标注0.1。标注时,对于每个待训练文本没有完全准确的置信度取值,只能根据经验判断给出相对准确的取值,当待训练文本达到一定数量时,训练得到的模型就能具有一定的统计意义(或趋向于准确),这也是统计机器学习方法的思想。

s32、根据所述多个待训练文本,对初始置信度计算公式进行训练,得到所述置信度计算公式;

其中,所述初始置信度计算公式基于逻辑回归算法生成。

可选的,在本实施例的基础上,步骤s32具体可以包括:

1)根据所述多个待训练文本以及初始置信度计算公式,确定所述初始置信度计算公式中每个所述统计维度的权重值;

2)根据确定的所述初始置信度计算公式中每个所述统计维度的权重值,生成所述置信度计算公式。

具体的,基于逻辑回归算法,将初始置信度计算公式可定义为:

c(e)表示剧名实体词e的置信度,f(e)为剧名实体词的特征集,g为sigmoid函数,θ为模型需要学习的参数,实际上是特征集f中每一维统计维度的权重,初始时可以随机赋值,使用标注的待训练文本t训练后得到θ的取值。即根据待训练文本能够计算得到每个统计维度的权重。

训练得到模型的参数θ后,就可以得到置信度计算公式,进而就能够该模型就可以用于置信度的预测(计算)了,对于任意新来的待分析文本,先通过上述步骤抽取得到特征集f(e),然后使用置信度计算公式便可计算出置信度的值。具体的,得到每个所述统计维度对应的统计维度值后,就可以带入置信度计算公式中计算得到待分析文本作为剧名实体的置信度,进而能够根据置信度判断待分析文本是否为剧名实体。

本实施例中,给出了一种生成置信度计算公式的方法,进而能够根据生成的置信度计算公式,来计算待分析文本的置信度。

可选的,在上述置信度的计算方法的实施例的基础上,本发明的另一实施例提供了一种置信度的计算装置,参照图4,可以包括:

第一获取模块101,用于获取待分析文本;

维度确定模块102,用于确定至少一个统计维度;

第一计算模块103,用于计算所述待分析文本的每个所述统计维度对应的统计维度值;

第二计算模块104,用于根据每个所述统计维度对应的统计维度值以及置信度计算公式,计算所述待分析文本作为剧名实体的置信度。

进一步,所述统计维度包括:

所述待分析文本在非视频文本集合中出现的次数、所述待分析文本在视频文本集合中出现的次数、所述待分析文本预设时间内被作为搜索内容的点击熵、所述待分析文本的布尔值以及字符长度值。

本实施例中,获取待分析文本,确定至少一个统计维度,计算所述待分析文本的每个所述统计维度对应的统计维度值,根据每个所述统计维度对应的统计维度值以及置信度计算公式,计算所述待分析文本作为剧名实体的置信度。通过上述方法可以计算得到置信度,解决了现有技术中需要一种计算待分析文本作为剧名实体的置信度的方法的问题。

此外,本实施例中根据置信度的计算方法来辅助词典识别方法,能够提高命名实体识别的结果。

需要说明的是,本实施例中的各个模块的工作过程,请参照上述实施例中的相应说明,在此不再赘述。

可选的,在上述任一置信度的计算装置的实施例的基础上,当所述统计维度为所述待分析文本的布尔值时,所述第一计算模块包括:

搜索子模块,用于将所述待分析文本作为搜索词进行搜索;

第一确定子模块,用于根据搜索结果中是否存在预设词语的结果,确定所述待分析文本的实体名称布尔值;

第二确定子模块,用于根据所述待分析文本是否可进行分词的结果,得到所述待分析文本的第一分词布尔值;

第三确定子模块,用于根据所述待分析文本的分词结果中的每个分词结果是否为单词的结果,得到所述待分析文本的第二分词布尔值;

其中,所述待分析文本的布尔值对应的统计维度值包括所述实体名称布尔值、所述第一分词布尔值和所述第二分词布尔值。

本实施例中,通过分析待分析文本的搜索结果、分词结果得到实体名称布尔值、第一分词布尔值和第二分词布尔值,提供了一种实体名称布尔值、第一分词布尔值和第二分词布尔值的计算方法。

需要说明的是,本实施例中的各个子模块的工作过程,请参照上述实施例中的相应说明,在此不再赘述。

可选的,在上述任一置信度的计算装置的实施例的基础上,还包括:

第二获取模块,用于获取多个待训练文本;其中,每个所述待训练文本中包括待训练文本作为剧名实体的置信度;

训练模块,用于根据所述多个待训练文本,对初始置信度计算公式进行训练,得到所述置信度计算公式;

其中,所述初始置信度计算公式基于逻辑回归算法生成。

进一步,所述训练模块包括:

权重确定子模块,用于根据所述多个待训练文本以及初始置信度计算公式,确定所述初始置信度计算公式中每个所述统计维度的权重值;

生成子模块,用于根据确定的所述初始置信度计算公式中每个所述统计维度的权重值,生成所述置信度计算公式。

本实施例中,给出了一种生成置信度计算公式的方法,进而能够根据生成的置信度计算公式,来计算待分析文本的置信度。

需要说明的是,本实施例中的各个模块和子模块的工作过程,请参照上述实施例中的相应说明,在此不再赘述。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1