一种基于暗语的事理图谱构建方法及系统与流程

文档序号:24786293发布日期:2021-04-23 10:35阅读:67来源:国知局
一种基于暗语的事理图谱构建方法及系统与流程

1.本发明涉及计算机应用技术领域,尤其涉及一种基于暗语的事理图谱构建方法及系统。


背景技术:

2.随着近些年来人们生活水平的提高,人们更有意愿了解一些金融领域相关知识,从而进行一些投资活动,而观看直播就是人们获取金融领域相关知识的一个很重要的方式。在金融领域的直播中,除了主播的讲解和呈现以外,网友们发送的弹幕也是人们获取相关知识的重要来源。但为了更好的表达和交流,网友们发送的弹幕中往往包括许多暗语。这些暗语是在人们不经意中,被不断创造出来的,在行业内约定俗成的,并且能够表达相关联的语句。因此这些暗语弹幕难以被普通人理解,降低了他们的用户体验,也增大了直播平台对于弹幕的检测审核难度。
3.发明专利cn201711293661.8一种事理知识图谱构建方法及系统,从结构化数据中抽取具有预设置类型的事件实体构成宏观事件层,通过聚合演化使所述宏观事件层内的事件实体之间形成事件演化链,并基于事件演化链抽取事件实体之间的因果关系;从所述结构化数据中抽取微观实体组成微观知识层,根据事件实体与微观实体之间的映射关系,将所述因果关系映射到所述微观知识层;对所述微观知识层的微观实体和微观实体间的因果关系进行抽象和归纳,形成事理知识本体层,由所述宏观事件层、微观知识层和事理知识本体层构成事理知识图谱。但它并没有考虑到在专业领域中存在的暗语问题,并从这个角度提出解决方案。
4.当前直播中应用的事理图谱系统,无法对暗语弹幕进行识别并翻译成通常的意思,无法正确判断暗语弹幕的情感倾向,只能按照普通的词语对暗语弹幕进行分析,这样的结果就很可能对这条暗语弹幕的情感色彩做出错误判断,从而对这条暗语弹幕进行不正确操作。而不正确操作又会大大降低了用户体验感甚至会引起用户的反感,造成用户流失。因此需要重新构建一套基于暗语的事理图谱系统,对金融领域的直播中出现的暗语弹幕进行智能分析和处理,提高用户体验。


技术实现要素:

5.本发明提供了一种基于暗语的事理图谱构建方法,主要包括以下步骤:构建金融领域事理图谱,并将所述金融领域事理图谱与金融领域知识图谱融合;构建暗语词库及与所述暗语词库匹配的转换词典;获取直播内容语义并判断是否包括第一暗语,若是,则将所述直播内容语义输入所述金融领域事理图谱中,并推断后续是否发生视频观众在弹幕中输入的现象;识别弹幕中包含的第二暗语,并根据所述第二暗语的情感倾向,执行对所述弹幕的操作。
6.进一步可选地,如上所述的方法中, 所述构建金融领域事理图谱,并与金融领域
知识图谱融合,包括:获取网络上金融领域海量文本,并挖掘所述金融领域海量文本的事理逻辑;通过显式模式对所述事理逻辑进行结构化,对不同来源的所述事理逻辑进行融合并逐层抽象,获得不同层级的事理逻辑;采用知识图谱首尾相接的方式,链接构建好的所述事理逻辑,获得以事件为单位的所述金融领域事理图谱;采用实体识别和实体链接技术将所述金融领域事理图谱中的事件的实体链接到相应的所述金融领域知识图谱,实现所述金融领域事理图谱与金融领域知识图谱融合。
7.进一步可选地,如上所述的方法中,所述事理逻辑包括:因果事理、条件事理、反转事理、顺承事理、上下位事理、组成事理、并发事理;还包括泛化事件动作本身的情感极性,构成抽象的因果模式链。
8.进一步可选地,如上所述的方法中, 所述构建暗语词库及与所述暗语词库匹配的转换词典,包括:人工输入包括暗语含义的词语,构建暗语词库;将所述暗语词库的暗语与普通词典的词语的进行首字母匹配,若所述暗语词库的暗语与所述普通词典的词语匹配成功,则确定所述暗语词库中暗语的通俗语义,若匹配不成功,将所述暗语与候选词典的词语的进行语义匹配;构建由所述暗语词库的暗语匹配的通俗语义的转换词典。
9.进一步可选地,如上所述的方法中, 所述获取直播内容语义并判断是否包括暗语,若是,则将所述直播内容语义输入所述金融领域事理图谱中,并推断后续是否发生视频观众在弹幕中输入的现象 ,包括:通过基于模式匹配法的语音识别,将直播过程中主播所说的内容语义转化为短语或句子语义;将所述短语或句子语义与所述暗语词库匹配,判断所述短语或者句子语义是否包含第一相似暗语,若包含,则将所述第一相似暗语输入所述金融领域事理图谱中,获得与所述第一相似暗语相关的事件;计算所述第一相似暗语的上下文的第一语义相似度,当所述第一语义相似度高于第一预设阈值时,确定所述第一相似暗语为第一暗语;将直播内容语义输入事理图谱中,推断后续是否发生视频观众在弹幕中输入的现象。
10.进一步可选地,如上所述的方法中, 所述第一语义相似度的预设阈值为50%。
11.进一步可选地,如上所述的方法中, 所述识别弹幕中包含的第二暗语,并根据所述第二暗语的情感倾向,执行对所述弹幕的操作,包括:将所述弹幕与所述转换词典匹配,判断所述弹幕是否包含第二相似暗语,若包含,则将所述第二相似暗语输入所述金融领域事理图谱中,获得与所述第二相似暗语相关的事件;计算所述第二相似暗语的上下文的第二语义相似度,当所述第二语义相似度高于第二预设阈值时,确定所述第二相似暗语为第二暗语;根据所述第二暗语在所述转换词典中的通俗语义,进行基于词典的词语级的文本
情感分析,获得所述第二暗语的情感倾向;判断所述第二暗语的情感倾向,若是负面敏感,执行暗语遮蔽,若否,在所述弹幕播放过程中,在所述弹幕中显示下划线,当视频用户点击所述弹幕时,自动解释为所述第二暗语在所述转换词典中的通俗语义。
12.进一步可选地,如上所述的方法中, 所述词典的词语级的文本情感分析方法包括,利用词典中的近义、反义关系以及词典的结构层次,计算词语与正、负极性种子词汇之间的第三语义相似度,根据所述第三语义相似度的大小对词语的情感倾向进行分类。
13.本发明还提供了一种基于暗语的事理图谱构建系统,所述系统包括:金融领域事理图谱构建模块,用于构建金融领域事理图谱,并将所述金融领域事理图谱与金融领域知识图谱融合;暗语词库及转换词典构建模块,用于构建暗语词库及与所述暗语词库匹配的转换词典;直播内容语义识别模块,用于获取直播内容语义并判断是否包括第一暗语,若是,则将所述直播内容语义输入所述金融领域事理图谱中,并推断后续是否发生视频观众在弹幕中输入的现象;弹幕识别及执行模块,用于识别弹幕中包含的第二暗语,并根据所述第二暗语的情感倾向,执行对所述弹幕的操作。
14.本发明还提供了一种计算机,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法的指令。
15.本发明提供的技术方案可带来以下有益效果:本发明对金融领域直播中的包含暗语的弹幕进行智能识别和分析,能够实时为观众显示暗语弹幕的通俗语义,并自动屏蔽掉包含负面敏感内容的暗语弹幕,提高了用户的观看体验。
附图说明
16.图1为本发明的基于暗语的事理图谱构建方法实施例的流程图。
17.图2为本发明的基于暗语的事理图谱构建系统实施例的结构图。图3为本发明的基于暗语的事理图谱构建系统实施例的又一结构图。
具体实施方式
18.为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
19.图1为本发明的方法的流程图。如图1所示,本实施例的基于暗语的事理图谱构建方法,具体可以包括如下步骤:s11,构建金融领域事理图谱,并将所述金融领域事理图谱与金融领域知识图谱融合。
20.首先,获取网络上金融领域海量文本,并挖掘金融领域海量文本的事理逻辑。
21.其次,通过显式模式对述事理逻辑进行结构化,对不同来源的所述事理 逻辑进行
融合并逐层抽象,获得不同层级的事理逻辑。对于显式因果逻辑的挖掘, 通过人工设定因果模式获取大量的因果事件对,例如对于句子“受范某阴阳合同 事件牵连,某某影视、某某兄弟开盘大跌”,可以结构化出<范某阴阳合同事件, 导致,某某影视、某某兄弟开盘大跌>这样的因果事件对。通过对原因事件和结 果事件进行进一步解析,可以得到原因事件的关联主体是人物,即影视明星“范 某”,事件的动作是“阴阳合同”,结果事件中关联的主体是两家传媒上市公司, 华德影视和某某兄弟,事件的动作是股价大跌。结合上下文,可进一步明确事件 发生的时间信息,为2018年6月4日。对这样的事件对,可进一步抽象泛化成 一种逻辑规则,即影视明星“阴阳合同

>传媒公司股价下跌”这样一条因果模式链。
22.进一步地,事理逻辑包括因果事理、条件事理、反转事理、顺承事理、 上下位事理、组成事理、并发事理;还包括泛化事件动作本身的情感极性,构成 抽象的因果模式链。通过这样的大量的显式模式对事理逻辑进行结构化,对不同 来源的事理知识进行融合并层层抽象,可以得到大规模不同层级的七种事理逻辑, 即因果事理、条件事理、反转事理、顺承事理、上下位事理、组成事理、并发事 理,借助知识图谱首尾相接的方式,对构建好的一条条事理逻辑进行链接,就形 成了一个金融领域的事理图谱。此外,通过对动作本身的情感极性进行泛化,可 以发现,“阴阳合同”属于负面消息,股价下跌这一事件属于负面影响,因此,可 以进一步泛化成“明星负面消息

>公司利空”这条更为抽象的因果模式链。
23.再次,采用知识图谱首尾相接的方式,链接构建好的事理逻辑,获得以 事件为单位的金融领域事理图谱。
24.最后,采用实体识别和实体链接技术将金融领域事理图谱中的事件的实 体链接到相应的金融领域知识图谱,实现金融领域事理图谱与金融领域知识图谱 融合。例如“范某阴阳合同违法”这一事件当中,人物“范某”可以链接到包含“范 某”这个人物的人物关系图谱,如搜狗人物关系图谱,导致光线传媒、某某嘉信、 某某兄弟等传媒公司的股价下跌这一事件,构建出融合后的事理图谱。
25.s12,构建暗语词库及与所述暗语词库匹配的转换词典。
26.首先,通过人工输入包括暗语含义的词语,构建暗语词库。
27.然后,将暗语词库的暗语与普通词典的词语的进行首字母匹配,若暗语词库的暗语与普通词典的词语匹配成功,则确定暗语词库中暗语的通俗语义,例如柜员与桂圆、bt(变态)、lg(垃圾)、火鸡(货基、货币基金)。若匹配不成功,将暗语与候选词典的词语的进行语义匹配。当首字母音不相近,进一步匹配候选词典。这样,最终获得由暗语匹配的通俗语义的转换词典。例如铁公鸡(有盈利但不分红和增股的上市公司)、税收筹划(避税)、砖头(一万块钱)。优选地,候选词典由负面情感词典,或者网络用语词典构成。
28.最后,构建由暗语词库的暗语匹配的通俗语义的转换词典。
29.s13,获取直播内容语义并判断是否包括第一暗语,若是,则将直播内容语义输入所述金融领域事理图谱中,并推断后续是否发生视频观众在弹幕中输入的现象。
30.首先,通过基于模式匹配法的语音识别,将直播过程中主播所说的内容语义转化为短语或句子语义。基于模式匹配法的语音识别步骤包括:训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库。
31.识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,
将相似度最高者作为识别结果输出。
32.其次,将短语或句子语义与所述暗语词库匹配,判断短语或者句子语义是否包含第一相似暗语,若包含,则将第一相似暗语输入金融领域事理图谱中,获得与第一相似暗语相关的事件。
33.再次,计算第一相似暗语的上下文的第一语义相似度,当第一语义相似度高于第一预设阈值时,确定第一相似暗语为第一暗语。优选地,第一预设阈值为50%。
34.最后,将直播内容语义输入事理图谱中,推断后续是否发生视频观众在弹幕中输入的现象。例如在某次金融领域直播中,通过语音识别得到主播说了:“我拿了10块砖头。
”ꢀ
的直播内容语义,通过转换词典的词语匹配,得到相似暗语:“砖头”,然后输入到构建的金融领域事理图谱中,得到与“砖头”相关的事件为“李四取了5块砖头”,“张三存了10块砖头”等,将这些事件与识别到的“我拿了10块砖头。”进行第一语义相似度计算,得到第一语义相似度为75%,高于阈值50%,由此判断“我拿了10块砖头。”中的相似暗语是暗语,然后将“我拿了10块砖头。”输入事理图谱中,并推断后续观众可能会输入“666”、“羡慕”、“厉害”等弹幕。
35.s14,识别弹幕中包含的第二暗语,并根据第二暗语的情感倾向,执行对弹幕的操作。
36.首先,将弹幕与转换词典匹配,判断弹幕是否包含第二相似暗语,若包含,则将第二相似暗语输入金融领域事理图谱中,获得与第二相似暗语相关的事件。
37.其次,计算第二相似暗语的上下文的第二语义相似度,当第二语义相似度高于第二预设阈值时,确定第二相似暗语为第二暗语。优选地,第二预设阈值为50%。
38.再次,根据第二暗语在转换词典中的通俗语义,进行基于词典的词语级的文本情感分析,获得第二暗语的情感倾向。其中,基于词典的词语级文本情感分析方法利用词典中的近义、反义关系以及词典的结构层次,计算词语与正、负极性种子词汇之间的语义相似度,根据语义的远近对词语的情感进行分类。
39.最后,判断第二暗语的情感倾向,若是负面敏感(例如政治、色情等),执行暗语遮蔽,若否,在弹幕播放过程中,在弹幕中显示下划线,当视频用户点击弹幕时,自动解释为第二暗语在所述转换词典中的通俗语义。例如,首先对于“我要割肉跑路了”该条弹幕,通过与转换词典的对比,得到“割肉”为第二相似暗语;其次,输入金融领域事理图谱中获得相关的事件,计算第二语义相似度高于第二预设阈值,确定第二相似暗语就是第二暗语“割肉”,再次,根据转换词典得到“割肉”的意思为“当某一投资出现的亏损达到预定数额时,及时斩仓出局,以避免形成更大的亏损”,进行基于词典的词语级文本情感分析发现这个暗语并不是负面敏感的情感倾向时,则在弹幕播放过程中,这个暗语中显示下划线,当用户点击时,进行自动解释:“当某一投资出现的亏损达到预定数额时,及时斩仓出局,以避免形成更大的亏损。”本发明提供的基于暗语的事理图谱构建方法,对金融领域直播中包含暗语的弹幕进行智能识别和分析,能够实时为观众显示暗语弹幕的通俗语义,并自动屏蔽掉包含负面敏感内容的暗语弹幕,提高了用户的观看体验。
40.基于同一发明构思,发明的另一个实施例提供一种基于暗语的事理图谱构建系统。如图2所示,为基于暗语的事理图谱构建系统的结构图,本实施例的基于暗语的事理图谱构建系统法,具体包括如下模块:
金融领域事理图谱构建模块21,用于构建金融领域事理图谱,并将所述金融领域事理图谱与金融领域知识图谱融合;暗语词库及转换词典构建模块22,用于构建暗语词库及与所述暗语词库匹配的转换词典;直播内容语义识别模块23,用于获取直播内容语义并判断是否包括第一暗语,若是,则将所述直播内容语义输入所述金融领域事理图谱中,并推断后续是否发生视频观众在弹幕中输入的现象;弹幕识别及执行模块24,用于识别弹幕中包含的第二暗语,并根据所述第二暗语的情感倾向,执行对所述弹幕的操作。
41.基于同一发明构思, 本发明的另一个实施例提供一种计算机/服务器,其包括存储器31和处理器32,存储器31存储计算机程序,计算机程序被配置为由所述处理器32执行,计算机程序包括用于执行本发明方法中各步骤的指令。
42.本发明未详细阐述的部分属于本领域技术人员的公知技术。
43.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1