舆情事件实体的分析方法及装置与流程

文档序号:11654265阅读:254来源:国知局
舆情事件实体的分析方法及装置与流程
本发明涉及互联网
技术领域
,特别是涉及一种舆情事件实体的分析方法及装置。
背景技术
:舆情是舆论情况的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。在实际应用中,常通过舆情监控系统对舆情进行监控。舆情监控系统对舆情进行监控的具体过程如下:获取互联网海量信息,对该海量信息进行分类聚类、按词通计、专题聚焦等操作,形成简报、报告、图表等分析结果;实现用户的互联网舆情监测和新闻专题追踪等信息需求,为用户全面掌握网民的思想动态,做出正确舆论引导,提供分析依据。目前,舆情监控系统在对舆情进行分析时,能够分析出该舆情属于什么事件、该舆情事件的发展趋势、该舆情事件涉及的地域等信息,少数舆情监控系统还能分析出网民对该舆情事件所持有的态度;而人物和机构绝大多数情况下是舆情事件产生的主体,但是,舆情监控系统不能准确分析出该舆情事件所涉及的人物和机构,导致用户不能通过舆情监控系统准确定位舆情事件产生的源头,从而导致不能及时确定解决该舆情事件的最佳引导方式。技术实现要素:有鉴于此,本发明提供的一种舆情事件实体的分析方法及装置,主要目的在于解决舆情监控系统不能准确分析出该舆情事件所涉及的人物和机构,导致用户不能通过舆情监控系统准确定位舆情事件产生的源头,从而导致不能及时确定解决该舆情事件的最佳引导方式的问题。为了解决上述问题,本发明主要提供如下技术方案:一方面,本发明提供了一种舆情事件实体的分析方法,该方法包括:获取信息集合,并对所述信息集合进行分词;所述信息集合由n个句子组成,其中,n为大于0的整数;提取分词后的所述信息集合中的人物实体及机构实体;分别统计共同提及次数、人物实体提及次数以及机构实体提及次数,其中,所述共同提及次数为在同一个句子中共同提及人物实体与机构实体的次数;根据所述共同提及次数确定所述人物实体与机构实体之间的关联关系;根据所述人物实体提及次数和/或所述机构实体提及次数、所述人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系。另一方面,本发明还提供一种舆情事件实体的分析装置,该装置包括:第一获取单元,用于获取信息集合;所述信息集合由n个句子组成,其中,n为大于0的整数;分词单元,用于对所述第一获取单元获取的所述信息集合进行分词;提取单元,用于提取所述分词单元分词后的所述信息集合中的人物实体及机构实体;统计单元,用于分别统计所述提取单元提取的共同提及次数、人物实体提及次数以及机构实体提及次数,其中,所述共同提及次数为在同一个句子中共同提及所述人物实体与机构实体的次数;第一确定单元,用于根据所述统计单元统计的所述共同提及次数确定所述人物实体与机构实体之间的关联关系;第二确定单元,用于根据所述统计单元统计的所述人物实体提及次数和/或所述机构实体提及次数、所述第一确定单元确定的所述人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系。借由上述技术方案,本发明提供的技术方案至少具有下列优点:本发明提供的舆情事件实体的分析方法及装置,获取信息集合,并对该信息集合进行分词,该信息集合由n个句子组成,其中,n为大于0的整数;提取分词后的信息集合中的人物实体及机构实体,分别统计共同提及次数、人物实体提及次数及机构实体提及次数,该共同提及次数为在同一句子中共同提及人物实体及机构实体的次数;根据该共同提及次数确定人物实体与机构实体之间的关联关系,根据该人物实体提及次数和/或机构实体提及次数、人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系;本发明能够通过对信息集合的分析,准确定位舆情事件相关的实体及实体关系,不仅能够追溯舆情事件产生的原因,而且还能够准确的确定舆情事件的实体关系,能够及时确定解决该舆情事件的最佳引导方式。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本发明实施例提供的一种舆情事件实体的分析方法的流程图;图2示出了本发明实施例提供的一种舆情事件实体的分析装置的组成框图;图3示出了本发明实施例提供的另一种舆情事件实体的分析装置的组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本发明实施例提供一种舆情事件实体的分析方法,如图1所示,该方法包括:101、获取信息集合,并对所述信息集合进行分词。在对舆情事件实体进行分析之前,首先,需要从互联网上获取信息集合,该些信息集合由n个句子组成,其中,n为大于0的整数;所述信息集合可能来源与同一网站的信息;也可能是来自不同网站的信息。需要说明的是,在获取信息集合时,需要根据对舆情事件的实际需求去获取信息集合,例如,若用户是某旅游公司,其在获取信息集合时,需要获取与旅游相关的信息集合;若用户是某政府,其在获取信息集合时,需要获取与时事政治有关的信息集合,而不会获取娱乐、财经等方面的信息集合。本发明实施例对信息集合的具体内容不进行限定。在获取信息集合之后,对获取的信息集合进行分词,其目的在于,将组成句子的各种词语进行分割,分词确定的各种词语被步骤103所使用。本发明实施例中,对信息集合中的每个句子进行拆分解析,确定句子的句子结构。在对获取的信息集合进行分词时,首先,获取预设实时词表,该预设实时词表是基于机器学习所确定的实时词表,且该预设实时词表是实时更新,例如,一些新兴网络用语的实时更新等等;基于该预设实时词表对获取的信息集合进行分词,能够确保对信息集合分词的准确性。102、提取分词后的所述信息集合中的人物实体及机构实体。信息集合中的同一个句子中可能只包含人物实体、也可能只包含机构实体;还可能同时包含人物实体与机构实体;将信息集合中包含的所有人物实体及机构实体进行提取。示例性的,同一个句子中只包含人物实体,如,“某某明星的成长之路”;同一个句子中同时包含人物实体及机构实体,如,“老年人跟团玩,看看该选哪家旅行社”等等,本发明实施例对信息集合中包含的具体内容不进行限定。在实际操作时,相对于汉语的语法特点,人物实体和机构实体一般会作为整个句子的主语或者宾语,少数情况下,会作为句子的定语,因此,在提取人物实体及机构实体时,将句子的主语组成词语、宾语组成词语以及定语组成词语进行提取;此外,人物实体和机构实体的名称与信息集合中的其他词语相比,有其一定的特点,例如:人物实体的名称一般由两个字到三个字或者四个字组成,其中,包括姓和名,且中国的姓氏是能够一一列举;机构的名称一般具有地域的特点,例如:xx市人民政府、xx市旅游局等等;本发明实施例对人物实体名称及机构实体名称不进行具体限定。103、分别统计共同提及次数、人物实体提及次数以及机构实体提及次数。由于信息集合中包含的句子数量较多,因此,步骤102中提取的人物实体及机构实体的种类、数量也相对较多,为了对多种人物实体及机构实体进行统计、使用,因此,基于步骤102提取的人物实体及机构实体,分别统计人物实体的提及次数、机构实体的提及次数以及共同提及次数;其中,所述共同提及次数为在同一个句子中共同提及所述人物实体与机构实体的次数。104、根据所述共同提及次数确定所述人物实体与机构实体之间的关联关系。确定人物实体与机构实体之间的关联关系,其目的在于,分析舆情事件所涉及的人物实体和机构实体,当该舆情事件需要处理时,能够通过该舆情事件相关的人物实体和机构实体对该舆情事件进行引导。步骤103中统计的不同人物实体与机构实体对应的共同提及次数不同,本步骤中,将共同提及次数较多的人物实体与机构实体确定为人物实体与机构实体之间的关联关系;本发明实施例中,舆情事件的不同导致人物实体与机构实体的共同提及次数存在差异,而上述共同提及次数较多仅为一个相对概念,而非绝对概念;在此不对确定人物实体与机构实体之间的关联关所涉及的共同提及次数的具体次数进行限定。105、根据所述人物实体提及次数和/或所述机构实体提及次数、所述人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系。人物实体提及次数和/或机构实体提及次数较多的人物实体或者机构实体,是与舆情事件最相关的舆情事件实体,因此,通过人物实体提及次数或机构实体提及次数的次数,确定舆情事件的实体;在确定出舆情事件的实体之后,通过步骤104中确定的人物实体与机构实体确定舆情事件的实体关系。本发明实施例提供的舆情事件实体的分析方法,获取信息集合,并对该信息集合进行分词,该信息集合由n个句子组成,其中,n为大于0的整数;提取分词后的信息集合中的人物实体及机构实体,分别统计共同提及次数、人物实体提及次数及机构实体提及次数,该共同提及次数为在同一句子中共同提及人物实体及机构实体的次数;根据该共同提及次数确定人物实体与机构实体之间的关联关系,根据该人物实体提及次数和/或机构实体提及次数、人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系;本发明实施例能够通过对信息集合的分析,准确定位舆情事件相关的实体及实体关系,不仅能够追溯舆情事件产生的原因,而且还能够准确的确定舆情事件的实体关系,能够及时确定解决该舆情事件的最佳引导方式。进一步的,作为对上述图1所示方法的细化和扩展,在步骤104根据所述共同提及次数确定人物实体与机构实体之间的关联关系时,首先,确定信息集合中,同一句子中包含的人物实体和机构实体有哪些,并获取各个人物实体与机构实体对应的共同提及次数,将获取的共同提及次数进行降序排列,获取共同提及次数最多的人物实体与机构实体,并确定该人物实体与机构实体之间关联关系。为了便于说明,以下将以示例的形式对确定人物实体与机构实体之间的关联关系进行说明。示例性的,假设,获取的信息集合中,一共有5种人物实体与机构实体同时存在于同一句子中,分别为:xx人物实体1与xx机构实体1、xx人物实体2与xx机构实体2、xx人物实体3与xx机构实体3、xx人物实体4与xx机构实体4、xx人物实体5与xx机构实体5,获取上述五种人物实体与机构实体对应的共同次数之后,对共同提及次数进行降序排列,如图表1所示,确定xx人物实体3与xx机构实体3的共同提及次数最多,因此,将xx人物实体3与xx机构实体3确定xx人物实体3与xx机构实体3的关联关系。需要说明的是,表1仅为示例性的举例,本发明实施例对人物实体、机构实体以及共同提及次数进行降序排列的具体展示形式不进行限定。表1序号人物实体机构实体共同提及次数1xx人物实体3xx机构实体312万2xx人物实体5xx机构实体58万3xx人物实体2xx机构实体20.9万4xx人物实体1xx机构实体10.86万5xx人物实体4xx机构实体40.63万需要说明的是,在对共同提及次数进行降序排列之后,建立人物实体与机构实体之间的关联关系,以便后续确定舆情事件的实体及实体关系时使用。例如:xx人物实体3-xx机构实体3、xx人物实体5-xx机构实体5、xx人物实体2-xx机构实体2、xx人物实体1-xx机构实体1、xx人物实体4-xx机构实体4,建立的人物实体与机构实体之间的关联关系,既能体现出实体之间的关联关系,又能体现出共同提及次数的排名情况。进一步的,根据所述人物实体提及次数和/或机构实体提及次数、人物实体与机构实体之间的关联关系确定舆情事件的实体及实体关系,具体实现过程如下:获取人物实体提及次数及机构实体提及次数,并分别对人物实体提及次数及机构实体提及次数进行降序排列;确定第一最大值与第二最大值,并将第一最大值与第二最大值进行比对;其中,第一最大值为人物实体提及次数的最大值,第二最大值为机构实体提及次数的最大值;若第一最大值大于或者等于第二最大值,则根据第一最大值对应的人物实体确定人物实体与机构实体之间的关联关系;将人物实体确定为舆情事件实体,将确定的人物实体与机构实体之间的关联关系确定为舆情事件的实体关系;若第一最大值小于第二最大值,则根据第二最大值对应的机构实体确定为人物实体与机构实体之间的关联关系;将机构实体确定为舆情事件实体,将确定的人物实体与机构实体之间的关联关系确定为舆情事件的实体关系。本发明实施例中,舆情事件的实体可能是由人物实体确定的,也可能是由机构实体确定的,其确定舆情事件实体的依据为人物实体或者机构实体被提及次数的最大值。示例性的,假设,人物实体的提及次数为15万,机构实体的提及次数为21.3万,人物实体的提及次数为15万小于机构实体的提及次数为21.3万,因此,将机构实体确定为舆情事件实体,在确定机构实体之后,根据舆情事件实体查找步骤104确定的人物实体及机构实体的关联关系,并将该关联关系涉及的人物实体与机构实体的关联关系,确定为舆情事件的实体关系。进一步的,为了确保提取分词后信息集合中人物实体与机构实体的准确性,在在提取分词后的所述信息集合中的人物实体及机构实体之后,获取预设人物机构数据库;所述预设人物机构数据库用于存储人物实体及机构实体,该预设人物机构数据库时人工标注的数据库;基于所述预设人物机构数据库对提取的人物实体及机构实体进行校验。示例性的,若信息集合中的句子包含:“中国国家男子足球队10月5日抵达长沙备战”对该句子进行分词为:“中国国家男子足球队、10月5日、抵达、长沙、备战”,提取的人物实体为“中国国家男子足球队”,对提取述信息集合中的人物实体及机构实体之后,可能由于预设实时词表更新的不及时,导致在提取述信息集合中的人物实体及机构实体时出现错误,通过预设人物机构数据库对提取的人物实体及机构实体进行校验,校验的人物实体为“中国国家男子足球队、国足”。以上仅为示例性的举例,本发明实施例对校验的具体内容不进行具体限定。可选的,在获取信息集合时,基于预置爬虫程序获取互联网中的信息集合。进一步的,作为对上述图1所示方法的实现,本发明另一实施例还提供了一种舆情事件实体的分析装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。本发明实施例提供一种舆情事件实体的分析装置,如图2所示,该装置包括:第一获取单元21,用于获取信息集合;所述信息集合由n个句子组成,其中,n为大于0的整数;分词单元22,用于对所述第一获取单元21获取的所述信息集合进行分词;提取单元23,用于提取所述分词单元22分词后的所述信息集合中的人物实体及机构实体;统计单元24,用于分别统计所述提取单元23提取的共同提及次数、人物实体提及次数以及机构实体提及次数,其中,所述共同提及次数为在同一个句子中共同提及所述人物实体与机构实体的次数;第一确定单元25,用于根据所述统计单元24统计的所述共同提及次数确定人物实体与机构实体之间的关联关系;第二确定单元26,用于根据所述统计单元25统计的所述人物实体提及次数和/或所述机构实体提及次数、所述第一确定单元确定的所述人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系。进一步的,如图3所示,所述第一确定单元25包括:获取模块251,用于获取不同人物实体与机构实体对应的共同提及次数;排列模块252,用于对所述获取模块251获取的所述共同提及次数进行降序排列;第一确定模块253,用于确定所述排列模块252排列的所述共同提及次数最多的人物实体与机构实体;第二确定模块254,用于确定所述第一确定模块253确定的所述共同提及次数最多的人物实体与机构实体为所述人物实体与机构实体之间的关联关系。进一步的,如图3所示,所述第二确定单元26包括:获取模块261,用于获取所述人物实体提及次数及机构实体提及次数;排列模块262,用于分别对所述获取模块261获取的所述人物实体提及次数及机构实体提及次数进行降序排列;第一确定模块263,用于根据所述排列模块262分别对所述人物实体提及次数及机构实体提及次数进行降序排列,确定第一最大值与第二最大值;比对模块264,用于将所述第一确定模块263确定的所述第一最大值与所述第二最大值进行比对;其中,所述第一最大值为所述人物实体提及次数的最大值,所述第二最大值为所述机构实体提及次数的最大值;第二确定模块265,用于当所述比对模块264比对的所述第一最大值大于或者等于所述第二最大值时,根据所述第一最大值对应的所述人物实体确定所述人物实体与机构实体之间的关联关系;第三确定模块266,用于将所述人物实体确定为所述舆情事件实体,将所述第二确定模块265确定的所述人物实体与机构实体之间的关联关系确定为所述舆情事件的实体关系。进一步的,如图3所示,所述第二确定单元26还包括:第四确定模块267,用于当所述比对模块264比对的所述第一最大值小于所述第二最大值时,根据所述第二最大值对应的所述机构实体确定为所述人物实体与机构实体之间的关联关系;第五确定模块268,用于将所述机构实体确定为所述舆情事件实体,将所述第四确定模块267确定的所述人物实体与机构实体之间的关联关系确定为所述舆情事件的实体关系。进一步的,如图3所示,所述装置还包括:第二获取单元27,用于在所述提取单元23提取分词后的所述信息集合中的人物实体及机构实体之后,获取预设人物机构数据库;所述预设人物机构数据库用于存储人物实体及机构实体;校验单元28,用于基于所述第二获取单元27获取的所述预设人物机构数据库对提取的人物实体及机构实体进行校验。本发明实施例提供的舆情事件实体的分析装置,获取信息集合,并对该信息集合进行分词,该信息集合由n个句子组成,其中,n为大于0的整数;提取分词后的信息集合中的人物实体及机构实体,分别统计共同提及次数、人物实体提及次数及机构实体提及次数,该共同提及次数为在同一句子中共同提及人物实体及机构实体的次数;根据该共同提及次数确定人物实体与机构实体之间的关联关系,根据该人物实体提及次数和/或机构实体提及次数、人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系;本发明实施例能够通过对信息集合的分析,准确定位舆情事件相关的实体及实体关系,不仅能够追溯舆情事件产生的原因,而且还能够准确的确定舆情事件的实体关系,能够及时确定解决该舆情事件的最佳引导方式。所述舆情事件实体的分析装置包括处理器和存储器,上述第一获取单元、分词单元、提取单元、统计单元、第一确定单元和第二确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决舆情监控系统不能准确分析出该舆情事件所涉及的人物和机构,导致用户不能通过舆情监控系统准确定位舆情事件产生的源头,从而导致不能及时确定解决该舆情事件的最佳引导方式的问题。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取信息集合,并对所述信息集合进行分词;所述信息集合由n个句子组成,其中,n为大于0的整数;提取分词后的所述信息集合中的人物实体及机构实体;分别统计共同提及次数、人物实体提及次数以及机构实体提及次数,其中,所述共同提及次数为在同一个句子中共同提及所述人物实体与机构实体的次数;根据所述共同提及次数确定人物实体与机构实体之间的关联关系;根据所述人物实体提及次数和/或机构实体提及次数、人物实体与机构实体之间的关联关系确定舆情事件实体及实体关系。在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1