获取社交舆情声量的方法和装置及计算机可读存储介质与流程

文档序号:20776266发布日期:2020-05-19 20:48阅读:286来源:国知局
获取社交舆情声量的方法和装置及计算机可读存储介质与流程

本发明实施例涉及但不限于数据处理技术,尤指一种获取社交舆情声量的方法和装置及计算机可读存储介质。



背景技术:

社交舆情文本是指如微博、微信、小红书公众号文章等,社交舆情声量包括以下一个或多个的任意组合:社交舆情文本中某一个实体被提及的次数,社交舆情文本中某两个实体被共同提及的次数。

目前,获取社交舆情声量的方法大致包括:为实体定义一系列包含词和排除词,根据包含词和排除词在社交舆情文本中出现的次数以及位置定义一系列规则,来判断实体是否被提及,计算提及实体的社交舆情文本的数量即为该实体被提及的次数;计算共同提及某两个实体的社交舆情文本的数量即为该两个实体被共同提及的次数。

上述获取社交舆情声量的方法中,最终获得的社交舆情声量的精度取决于为实体定义的包含词和排除词,由于以下原因导致最终获得的社交舆情声量的精度较低:

(1)对于不包含在包含词和排除词中或规则外的新主体词则无法识别;

(2)定义的包含词和排除词存在同义词,如果同义词不包含在包含词和排除词中,则无法将同义词加入计算;

(3)定义的包含词和排除词在实际的社交舆情文本中可能存在歧义,包括:词汇歧义,例如“苹果”可以指一种水果或一个公司;语法歧义,例如“安排好工作”可以断句为“安排|好工作”或“安排好|工作”;语义歧义,例如“鸡不吃了”,其中,“鸡”可以视作主语也可以视作前置宾语;语用歧义,例如“今年游行,女同志一律不许穿裤子”缺少上下文的内容时,很容易给人造成尴尬的误会;如果不能很好的判断在情景中一个词的真正含义,则无法准确计算某一实体被提及的次数;

(4)某些情况下,两个实体之间需要存在某种关系才有可能被共同提及,而获知两个实体之间的关系需要基于上下文的关系推理,从而准确计算某两个实体被共同提及的次数,例如,小白瓶和小黑瓶都是好产品,只不过后者没有前者好用。



技术实现要素:

本发明实施例提供了一种获取社交舆情声量的方法和装置及计算机可读存储介质,能够提高精度。

本发明实施例提供了一种获取社交舆情声量的方法,包括:

对于每一篇社交舆情文本,确定所述社交舆情文本中的所有第一实体词;

获取专家知识库中与某一个所述第一实体词表示同一实体的第二实体词,将提及所述第二实体词对应的实体的次数加1;其中,专家知识库中包括表示已知实体的实体词。

在本发明实施例中,所述确定社交舆情文本中的所有第一实体词包括:

对所述社交舆情文本进行序列标注得到所述社交舆情文本中的所有第一实体词。

在本发明实施例中,所述获取专家知识库中与某一个第一实体词表示同一实体的第二实体词包括:

获取所述专家知识库中与某一个第一实体词之间的相似度大于或等于预设阈值的所有第三实体词;

将与所述第一实体词相关度最高的第三实体词作为所述第二实体词。

在本发明实施例中,根据以下信息计算所述第一实体词和所述第三实体词之间的相似度:

所述第一实体词、所述第一实体词在所述社交舆情文本中的上下文、所述第二实体词、所述第二实体词的属性。

在本发明实施例中,所述表示已知实体的实体词为表示已知实体的标准实体词。

本发明实施例提出了一种获取社交舆情声量的方法,包括:

对于每一篇社交舆情文本,当所述社交舆情文本提及专家知识库中的第二实体词对应的实体和第四实体词对应的实体时,获取所述第二实体词和所述第四实体词之间的关系;其中,专家知识库包括表示已知实体的实体词;

从所述社交舆情文本中获取一个或一个以上包含第五实体词和第六实体词的句子;其中,所述第五实体词和所述第二实体词表示同一实体,所述第四实体词和所述第六实体词表示同一实体;

当至少一个获得的句子中的所述第五实体词和所述第六实体词之间存在获得的关系时,将共同提及所述第二实体词对应的实体和所述第四实体词对应的实体的次数加1。

在本发明实施例中,所述从社交舆情文本中获取一个或一个以上包含第五实体词和第六实体词的句子之前,该方法还包括:对所社交舆情文本进行指代消解处理;

所述从社交舆情文本中获取一个或一个以上包含第五实体词和第六实体词的句子包括:

从指代消解处理后的社交舆情文本中获取一个或一个以上包含第五实体词和第六实体词的句子。

在本发明实施例中,所述对社交舆情文本进行指代消解处理包括:

采用指代消解模型确定所述社交舆情文本中的每一个代词对应的第七实体词;

对于每一个代词,当所述专家知识库中存在与所述第七实体词表示同一实体的实体词时,将所述代词替换为所述第七实体词。

在本发明实施例中,所述专家知识库还包括实体词所属的类型和不同类型之间的关系;

所述获取第二实体词和第四实体词之间的关系包括:

从所述专家知识库中获取所述第二实体词所属的类型和所述第四实体词所属的类型;

从所述专家知识库中获取所述第二实体词所属的类型和所述第四实体词所属的类型之间的关系作为所述第五实体词和所述第六实体词之间的关系。

在本发明实施例中,根据以下信息确定获得的句子中的第五实体词和第六实体词之间是否存在获得的关系:

所述第五实体词、所述第五实体词的上下文、所述第六实体词、所述第六实体词的上下文、获得的关系。

本发明实施例提出了一种获取社交舆情声量的装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现如权利要求1~10任一项所述的获取社交舆情声量的方法。

本发明实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种获取社交舆情声量的方法的步骤。

本发明一个实施例包括:对于每一篇社交舆情文本,确定所述社交舆情文本中的所有第一实体词;获取专家知识库中与某一个所述第一实体词表示同一实体的第二实体词,将提及所述第二实体词对应的实体的次数加1;其中,专家知识库中包括表示已知实体的实体词。本发明实施例通过在专家知识库中收集表示已知实体的实体词,然后对于与专家知识库中的任何一个实体词表示的是同一个实体的实体词都认为是提及了该实体,也就是可以将提及该实体的次数加1,而不需要依赖于包含词和排除词以及对应的规则,从而提高了该实体被提及的次数的计算精度。

本发明另一个实施例包括:对于每一篇社交舆情文本,当所述社交舆情文本提及专家知识库中的第二实体词对应的实体和第四实体词对应的实体时,获取所述第二实体词和所述第四实体词之间的关系;其中,专家知识库包括表示已知实体的实体词;从所述社交舆情文本中获取一个或一个以上包含第五实体词和第六实体词的句子;其中,所述第五实体词和所述第二实体词表示同一实体,所述第四实体词和所述第六实体词表示同一实体;当至少一个获得的句子中的所述第五实体词和所述第六实体词之间存在获得的关系时,将共同提及所述第二实体词对应的实体和所述第四实体词对应的实体的次数加1。本发明实施例通过判断社交舆情文本中的句子中的两个实体词之间是否存在对应的关系,如果存在,则确定该社交舆情文本共同提及这两个实体词对应的实体,也就是可以将通过提及这两个实体词对应的实体的次数加1,从而提高了这两个实体词对应的实体被共同提及的次数的计算精度。

本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明实施例技术方案的进一步理解,并且构成说明书的一部分,与本发明实施例的实施例一起用于解释本发明实施例的技术方案,并不构成对本发明实施例技术方案的限制。

图1为本发明一个实施例提出的获取社交舆情声量的方法的流程图;

图2为本发明另一个实施例提出的获取社交舆情声量的方法的流程图;

图3为本发明另一个实施例提出的获取社交舆情声量的装置的结构组成示意图;

图4为本发明另一个实施例提出的获取社交舆情声量的装置的结构组成示意图。

具体实施方式

下文中将结合附图对本发明实施例进行详细说明。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

参见图1,本发明一个实施例提出了一种获取社交舆情声量的方法,包括:

步骤100、对于每一篇社交舆情文本,确定所述社交舆情文本中的所有第一实体词。

在一个示例性实例中,实体词也就是实体名称,或者实体的产品名称。

在一个示例性实例中,可以采用对社交舆情文本进行序列标注的方式来获得社交舆情文本中的所有第一实体词。

在一个示例性实例中,可以采用本领域技术人员熟知的序列标注方式对社交舆情文件进行序列标注,具体的标注方式不用于限定本发明实施例的保护范围,例如,可以采用bio序列标注方法进行序列标注,也就是采用b-x,i-x,o中的任意一个来标注社交舆情文本中的每一个字符,b-x表示该字符所在的片段属于x类型(例如实体词)且该字符在此片段的开头,i-x表示该字符所在的片段属于x类型(例如实体词)且该字符在此片段的中间位置,o表示该字符不属于任何类型。举例来说,对于某一社交舆情文本“……成功接下47.24%股权入主具有30年历史的联讯证券后,广州开发区金融控股集团有限公司为其想了一个颇具广州特色的名字:知识城证券。”中的“联讯证券”可标注为:b-subji-subji-subji-subj,“广州开发区金融控股集团有限公司”可标注为:b_subji_subji_subji_subji_subji_subji_subji_subji_subji_subji_subji_subji_subji_subji_subj,而其他的字符则被标记为o。标注完成以后,被标注为以b-subj开头,加上连续的一个或多个i-subj的连续字符串即为社交舆情文本中的第三实体词。

步骤101、获取专家知识库中与某一个所述第一实体词表示同一实体的第二实体词,将提及所述第二实体词对应的实体的次数加1;其中,专家知识库中包括表示已知实体的实体词。

在一个示例性实例中,表示已知实体的实体词为表示已知实体的标准实体词。

在一个示例性实例中,获取专家知识库中与某一个第一实体词表示同一实体的第二实体词包括:

获取所述专家知识库中与某一个第一实体词之间的相似度大于或等于预设阈值的所有第三实体词;将与所述第一实体词相关度最高的第三实体词作为所述第二实体词。

在另一个示例性实例中,当某一个第一实体词与专家知识库中的所有实体词之间的相似度均小于预设阈值时,确定该第一实体词表示的是一个新的实体。

在一个示例性实例中,根据以下信息计算所述第一实体词和所述第三实体词之间的相似度:所述第一实体词、所述第一实体词在所述社交舆情文本中的上下文、所述第二实体词、所述第二实体词的属性。

在一个示例性实例中,第二实体词的属性可以是第二实体词对应的实体的品牌、品类、成分、功效、场景、需求、消费者等。

在一个示例性实例中,某一个实体词在社交舆情文本中的上下文可以是社交舆情文本中与该实体词所在的位置之间的距离小于或等于预设阈值的字符串。

在一个示例性实例中,可以使用搜索服务器es(elasticsearch)从专家知识库中获取与某一个第一实体词之间的相似度大于或等于预设阈值的所有第三实体词,这里获取所有第三实体词的目的是为了减少后续进行相关度计算的计算量,同时也是筛选出专家知识库中有可能与第一实体词表示同一实体的实体词。

在一个示例性实例中,可以采用本领域技术人员熟知的实体排序模型(如bm25等搜索排序算法或排序学习方法等)对所有第三实体词进行与第一实体词的相关度排序,排名最高的第三实体词即是与第一实体词相关度最高的第三实体词。

本发明实施例通过在专家知识库中收集表示已知实体的实体词,然后对于与专家知识库中的任何一个实体词表示的是同一个实体的实体词都认为是提及了该实体,也就是可以将提及该实体的次数加1,而不需要依赖于包含词和排除词以及对应的规则,从而提高了该实体被提及的次数的计算精度。

参见图2,本发明另一个实施例提出了一种获取社交舆情声量的方法,包括:

步骤200、对于每一篇社交舆情文本,当所述社交舆情文本提及专家知识库中的第二实体词对应的实体和第四实体词对应的实体时,获取所述第二实体词和所述第四实体词之间的关系;其中,专家知识库包括表示已知实体的实体词。

在一个示例性实例中,表示已知实体的实体词为表示已知实体的标准实体词。

在一个示例性实例中,确定社交舆情文本是否提及第二实体词对应的实体包括:

确定社交舆情文本中的所有第一实体词,当至少一个第一实体词与所述第二实体词表示同一个实体时,确定社交舆情文本中提及第二实体词对应的实体;当所有第一实体词与第二实体词表示的均不是同一个实体时,确定社交舆情文本中未提及第二实体词对应的实体。

在一个示例性实例中,确定社交舆情文本是否提及第四实体词对应的实体包括:

确定社交舆情文本中的所有第一实体词,当至少一个第一实体词与所述第四实体词表示同一个实体时,确定社交舆情文本中提及第四实体词对应的实体;当所有第一实体词与第二实体词表示的均不是同一个实体时,确定社交舆情文本中未提及第二实体词对应的实体。

上述确定社交舆情文本中的所有第一实体词的具体实现过程与前述实施例步骤100的具体实现过程相同,这里不再赘述。

上述判断第一实体词和第二实体词或第四实体词是否表示同一个实体的具体实现过程与前述实施例步骤101的具体实现过程相同,这里不再赘述。

在一个示例性实例中,专家知识库还包括实体词所属的类型和不同类型之间的关系;所述获取第二实体词和第四实体词之间的关系包括:

从所述专家知识库中获取所述第二实体词所属的类型和所述第四实体词所属的类型;从所述专家知识库中获取所述第二实体词所属的类型和所述第四实体词所属的类型之间的关系作为所述第五实体词和所述第六实体词之间的关系。

在一个示例性实例中,专家知识库中包括的实体词所属的类型和不同类型之间的关系可以采用本体模型来表示。

在一个示例性实例中,本体模型包括实体模型和关系模型。

在一个示例性实例中,实体模型采用知识图谱来表示专家知识库中包含了多少类实体词,每一类实体词的名称是什么,实体模型中的实体词包括但不限于包括以下类型的实体词:品牌、品类、产品、成分、功效、场景、需求、消费者等。

在一个示例性实例中,关系模型采用知识图谱来表示各种类型的实体词之间可能存在的关系的名称是什么,关系模型包括但不限于包括以下类型的关系:包含、具有、开展、用于、解决、提供等。

步骤201、从所述社交舆情文本中获取一个或一个以上包含第五实体词和第六实体词的句子;其中,所述第五实体词和所述第二实体词表示同一实体,所述第四实体词和所述第六实体词表示同一实体。

步骤202、当至少一个获得的句子中的所述第五实体词和所述第六实体词之间存在获得的关系时,将共同提及所述第二实体词对应的实体和所述第四实体词对应的实体的次数加1。

在一个示例性实例中,根据以下信息确定获得的句子中的第五实体词和第六实体词之间是否存在获得的关系:

所述第五实体词、所述第五实体词的上下文、所述第六实体词、所述第六实体词的上下文、获得的关系。

在一个示例性实例中,具体可以采用但不限于采用深度神经网络模型来确定获得的句子中的第五实体词和第六实体词之间是否存在获得的关系。

例如,一种可能实现的方法包括:

将获得的句子中的每一个字符转换为固定长度的实值向量,该实值向量由三个向量拼接得到,第一个向量为该字符对应的词向量,该字符对应的词向量可以通过查询词向量表得到;第二个向量为将字符在获得的句子中与第五实体词之间的距离映射得到的固定长度的随机向量;第三个向量为将字符在获得的句子中与第六实体词之间的距离映射得到的固定长度的随机向量;

将所有字符对应的实值向量输入到单向或双向长短期记忆网络(lstm,longshorttermmemory)中得到获得的句子对应的编码矩阵;

使用前馈神经网络将获得的句子对应的编码矩阵映射为获得的句子中的第五实体词和第六实体词之间存在获得的关系的概率值,当该概率值大于或等于预设阈值时,确定获得的句子中的第五实体词和第六实体词之间存在获得的关系;当该概率值小于预设阈值时,确定获得的句子中的第五实体词和第六实体词之间不存在获得的关系。

在本发明另一个实施例中,从社交舆情文本中获取一个或一个以上包含第五实体词和第六实体词的句子之前,该方法还包括:对所社交舆情文本进行指代消解处理;

所述从社交舆情文本中获取一个或一个以上包含第五实体词和第六实体词的句子包括:从指代消解处理后的社交舆情文本中获取一个或一个以上包含第五实体词和第六实体词的句子。

在一个示例性实例中,所述对社交舆情文本进行指代消解处理包括:

采用指代消解模型确定所述社交舆情文本中的每一个代词对应的第七实体词;对于每一个代词,当所述专家知识库中存在与所述第七实体词表示同一实体的实体词时,将所述代词替换为所述第七实体词;当专家知识库中不存在于第七实体词表示同一实体的实体词时,不对代词进行替换。

例如,“玛丽吃了早饭,她很开心。”中的“她”通过指代消解处理后被替换为“玛丽”。

在一个示例性实例中,具体的指代消解模型不用于限定本发明实施例的保护范围,这里不再赘述。

本发明实施例通过判断社交舆情文本中的句子中的两个实体词之间是否存在对应的关系,如果存在,则确定该社交舆情文本共同提及这两个实体词对应的实体,也就是可以将通过提及这两个实体词对应的实体的次数加1,从而提高了这两个实体词对应的实体被共同提及的次数的计算精度。

本发明另一个实施例提出了一种获取社交舆情声量的装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种获取社交舆情声量的方法。

本发明另一个实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种获取社交舆情声量的方法的步骤。

参见图3,本发明另一实施例提出了一种获取社交舆情声量的装置,包括:

实体词识别模块301,用于对于每一篇社交舆情文本,确定所述社交舆情文本中的所有第一实体词;

第一社交舆情声量计算模块302,用于获取专家知识库中与某一个所述第一实体词表示同一实体的第二实体词,将提及所述第二实体词对应的实体的次数加1;其中,专家知识库中包括表示已知实体的实体词。

在一个示例性实例中,表示已知实体的实体词为表示已知实体的标准实体词。

在一个示例性实例中,实体词也就是实体名称,或者实体的产品名称。

在一个示例性实例中,实体词识别模块301可以采用对社交舆情文本进行序列标注的方式来获得社交舆情文本中的所有第一实体词。

在一个示例性实例中,实体词识别模块301可以采用本领域技术人员熟知的序列标注方式对社交舆情文件进行序列标注,具体的标注方式不用于限定本发明实施例的保护范围,例如,可以采用bio序列标注方法进行序列标注,也就是采用b-x,i-x,o中的任意一个来标注社交舆情文本中的每一个字符,b-x表示该字符所在的片段属于x类型(例如实体词)且该字符在此片段的开头,i-x表示该字符所在的片段属于x类型(例如实体词)且该字符在此片段的中间位置,o表示该字符不属于任何类型。举例来说,对于某一社交舆情文本“……成功接下47.24%股权入主具有30年历史的联讯证券后,广州开发区金融控股集团有限公司为其想了一个颇具广州特色的名字:知识城证券。”中的“联讯证券”可标注为:b-subji-subji-subji-subj,“广州开发区金融控股集团有限公司”可标注为:b_subji_subji_subji_subji_subji_subji_subji_subji_subji_subji_subji_subji_subji_subji_subj,而其他的字符则被标记为o。标注完成以后,被标注为以b-subj开头,加上连续的一个或多个i-subj的连续字符串即为社交舆情文本中的第三实体词。

在一个示例性实例中,第一社交舆情声量计算模块302具体用于采用以下方式实现获取专家知识库中与某一个第一实体词表示同一实体的第二实体词:

获取所述专家知识库中与某一个第一实体词之间的相似度大于或等于预设阈值的所有第三实体词;将与所述第一实体词相关度最高的第三实体词作为所述第二实体词。

在另一个示例性实例中,当某一个第一实体词与专家知识库中的所有实体词之间的相似度均小于预设阈值时,确定该第一实体词表示的是一个新的实体。

在一个示例性实例中,第一社交舆情声量计算模块302还用于:根据以下信息计算所述第一实体词和所述第三实体词之间的相似度:所述第一实体词、所述第一实体词在所述社交舆情文本中的上下文、所述第二实体词、所述第二实体词的属性。

在一个示例性实例中,第二实体词的属性可以是第二实体词对应的实体的品牌、品类、成分、功效、场景、需求、消费者等。

在一个示例性实例中,某一个实体词在社交舆情文本中的上下文可以是社交舆情文本中与该实体词所在的位置之间的距离小于或等于预设阈值的字符串。

在一个示例性实例中,第一社交舆情声量计算模块302可以使用搜索服务器es(elasticsearch)从专家知识库中获取与某一个第一实体词之间的相似度大于或等于预设阈值的所有第三实体词,这里获取所有第三实体词的目的是为了减少后续进行相关度计算的计算量,同时也是筛选出专家知识库中有可能与第一实体词表示同一实体的实体词。

在一个示例性实例中,第一社交舆情声量计算模块302可以采用本领域技术人员熟知的实体排序模型(如bm25等搜索排序算法或排序学习方法等)对所有第三实体词进行与第一实体词的相关度排序,排名最高的第三实体词即是与第一实体词相关度最高的第三实体词。

本发明实施例通过在专家知识库中收集表示已知实体的实体词,然后对于与专家知识库中的任何一个实体词表示的是同一个实体的实体词都认为是提及了该实体,也就是可以将提及该实体的次数加1,而不需要依赖于包含词和排除词以及对应的规则,从而提高了该实体被提及的次数的计算精度。

参见图4,本发明另一个实施例提出了一种获取社交舆情声量的装置,包括:

关系获取模块401,用于对于每一篇社交舆情文本,当所述社交舆情文本提及专家知识库中的第二实体词对应的实体和第四实体词对应的实体时,获取所述第二实体词和所述第四实体词之间的关系;其中,专家知识库包括表示已知实体的实体词;

句子获取模块402,用于从所述社交舆情文本中获取一个或一个以上包含第五实体词和第六实体词的句子;其中,所述第五实体词和所述第二实体词表示同一实体,所述第四实体词和所述第六实体词表示同一实体;

第二社交舆情声量计算模块403,用于当至少一个获得的句子中的所述第五实体词和所述第六实体词之间存在获得的关系时,将共同提及所述第二实体词对应的实体和所述第四实体词对应的实体的次数加1。

在一个示例性实例中,关系获取模块401具体用于采用以下方式实现确定社交舆情文本是否提及第二实体词对应的实体:

确定社交舆情文本中的所有第一实体词,当至少一个第一实体词与所述第二实体词表示同一个实体时,确定社交舆情文本中提及第二实体词对应的实体;当所有第一实体词与第二实体词表示的均不是同一个实体时,确定社交舆情文本中未提及第二实体词对应的实体。

在一个示例性实例中,关系获取模块401具体用于采用以下方式实现确定社交舆情文本是否提及第四实体词对应的实体:

确定社交舆情文本中的所有第一实体词,当至少一个第一实体词与所述第四实体词表示同一个实体时,确定社交舆情文本中提及第四实体词对应的实体;当所有第一实体词与第二实体词表示的均不是同一个实体时,确定社交舆情文本中未提及第二实体词对应的实体。

上述确定社交舆情文本中的所有第一实体词的具体实现过程与前述实施例步骤100的具体实现过程相同,这里不再赘述。

上述判断第一实体词和第二实体词或第四实体词是否表示同一个实体的具体实现过程与前述实施例步骤101的具体实现过程相同,这里不再赘述。

在一个示例性实例中,专家知识库还包括实体词所属的类型和不同类型之间的关系;关系获取模块401具体用于采用以下方式实现所述获取第二实体词和第四实体词之间的关系:

从所述专家知识库中获取所述第二实体词所属的类型和所述第四实体词所属的类型;从所述专家知识库中获取所述第二实体词所属的类型和所述第四实体词所属的类型之间的关系作为所述第五实体词和所述第六实体词之间的关系。

在一个示例性实例中,专家知识库中包括的实体词所属的类型和不同类型之间的关系可以采用本体模型来表示。

在一个示例性实例中,本体模型包括实体模型和关系模型。

在一个示例性实例中,实体模型采用知识图谱来表示专家知识库中包含了多少类实体词,每一类实体词的名称是什么,实体模型中的实体词包括但不限于包括以下类型的实体词:品牌、品类、产品、成分、功效、场景、需求、消费者等。

在一个示例性实例中,关系模型采用知识图谱来表示各种类型的实体词之间可能存在的关系的名称是什么,关系模型包括但不限于包括以下类型的关系:包含、具有、开展、用于、解决、提供等。

在一个示例性实例中,第二社交舆情声量计算模块403还用于:根据以下信息确定获得的句子中的第五实体词和第六实体词之间是否存在获得的关系:

所述第五实体词、所述第五实体词的上下文、所述第六实体词、所述第六实体词的上下文、获得的关系。

在一个示例性实例中,第二社交舆情声量计算模块403具体可以采用但不限于采用深度神经网络模型来确定获得的句子中的第五实体词和第六实体词之间是否存在获得的关系。

例如,一种可能实现的方法包括:

将获得的句子中的每一个字符转换为固定长度的实值向量,该实值向量由三个向量拼接得到,第一个向量为该字符对应的词向量,该字符对应的词向量可以通过查询词向量表得到;第二个向量为将字符在获得的句子中与第五实体词之间的距离映射得到的固定长度的随机向量;第三个向量为将字符在获得的句子中与第六实体词之间的距离映射得到的固定长度的随机向量;

将所有字符对应的实值向量输入到单向或双向长短期记忆网络(lstm,longshorttermmemory)中得到获得的句子对应的编码矩阵;

使用前馈神经网络将获得的句子对应的编码矩阵映射为获得的句子中的第五实体词和第六实体词之间存在获得的关系的概率值,当该概率值大于或等于预设阈值时,确定获得的句子中的第五实体词和第六实体词之间存在获得的关系;当该概率值小于预设阈值时,确定获得的句子中的第五实体词和第六实体词之间不存在获得的关系。

本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

虽然本发明实施例所揭露的实施方式如上,但所述的内容仅为便于理解本发明实施例而采用的实施方式,并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员,在不脱离本发明实施例所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明实施例的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1