分析对象特征信息的获取方法和装置制造方法
【专利摘要】本发明公开了一种分析对象特征信息的获取方法和装置。其中,该获取方法包括:获取用于获取待分析对象的特征信息的获取请求;获取待分析对象的关键词和关键词的属性信息;检测待分析对象的第一文本信息中是否存在关键词;若待分析对象的第一文本信息中存在关键词,则检测第一文本信息中是否存在属性信息;若第一文本信息中存在属性信息,则确定关键词和属性信息所指示的特征信息。通过本发明,解决了现有技术中对待分析对象的特征信息的提取不完整,导致对待分析对象的特征统计不准确的问题,实现了全面准确获取文本信息的特征信息的效果,从而提高了对待分析对象的特征统计的准确性。
【专利说明】分析对象特征信息的获取方法和装置
【技术领域】
[0001]本发明涉及网络【技术领域】,具体而言,涉及一种分析对象特征信息的获取方法和 |101|装直。
【背景技术】
[0002]当今社会的网络环境中,网民及各个网络媒体平台对某一事物的观点和看法,已经成为了社会舆论情况组成中非常重要的一部分。对于企业、政府部门等机构来说,为了更好的了解其产品、服务、政策或某一即时事件在互联网上被探讨的情况,搜集、提取网民及网络媒体对待分析对象的评价信息,也是必要的一项工作。
[0003]现有的待分析对象网络评价的提取采用以下方法:针对一个待分析对象的某一评价点,给定评价模板,该评价模板内包含与该评价点相关的语句。在分析范围内,对网络文本进行分析,将网络文本与该评价模板内的所有语句进行匹配,根据匹配结果反映关于该评价点的描述在所分析的网络文本内的出现情况。
[0004]以针对待分析对象【吉普】的评价点【油耗】为例,对现有的提取方法进行分步阐述:
[0005]1.确定待分析对象为【吉普】,希望在分析范围内提取与评价点【油耗】相关的内容。
[0006]2.创建【油耗】评价模板,在该评价模板内设定3类语句,分别就【油耗】的高中低进行描述,如:
[0007]1)氺#太费油了——油耗高;
[0008]2)觉得林油耗还行-油耗一般;
[0009]3)我朋友说挺省油的——油耗低。
[0010]其中,【林#】用以指代待分析对象,在本示例中即【吉普】。
[0011]3.针对网络文本的内容,匹配评价模板中的3条语句,即:
[0012]1)吉普太费油了——油耗高;
[0013]2)觉得吉普油耗还行——油耗一般;
[0014]3)我朋友说吉普挺省油的——油耗低。
[0015]4.对上述3条语句在分析范围内的出现次数进行统计:
[0016]1)吉普太费油了——油耗高,出现60次;
[0017]2)觉得吉普油耗还行——油耗一般,出现30次;
[0018]3)我朋友说吉普挺省油的——油耗低,出现10次。
[0019]5.结论:针对【吉普】这一待分析对象,在限定的分析范围内,网络文本中对其【油耗】的评价内容一共出现了 100次,其中,认为其【油耗高】的内容占60%,认为其【油耗一般】的内容占30%,认为其【油耗低】的内容占10%。
[0020]根据上述现有的评价提取方法的过程可知,其缺点在于,通过该方法对网络文本中的评价情况进行分析提取时,仅能识别评价模板内已有的固定语句,即网络文本内容需要与评价模板内的语句精确匹配,否则不能被识别和提取计数。例如,以上述【吉普】示例来说,假设所分析的网络文本内存在语句“吉普其实还挺费油的”,根据现有方法,没有与模板内任意一条语句完全匹配,则该语句不能被识别和提取计数。
[0021]针对现有技术中对待分析对象的特征信息的提取不完整,导致对待分析对象的特征统计不准确的问题,目前尚未提出有效的解决方案。
【发明内容】
[0022]针对相关技术中对待分析对象的特征信息的提取不完整,导致对待分析对象的特征统计不准确的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种分析对象特征信息的获取方法和装置,以解决上述问题。
[0023]为了实现上述目的,根据本发明的一个方面,提供了一种分析对象特征信息的获取方法,该获取方法包括:获取用于获取待分析对象的特征信息的获取请求;获取待分析对象的关键词和关键词的属性信息;检测待分析对象的第一文本信息中是否存在关键词;若待分析对象的第一文本信息中存在关键词,则检测第一文本信息中是否存在属性信息;若第一文本信息中存在属性信息,则确定关键词和属性信息所指示的特征信息。
[0024]进一步地,在检测待分析对象的第一文本信息中是否存在关键词之前,获取方法包括:获取待分析对象的第二文本信息;按照预设的划分方式将第二文本信息划分为多个第一文本信息;检测待分析对象的第一文本信息中是否存在关键词包括:按顺序逐个检测第一文本信息中是否存在关键词。
[0025]进一步地,按照预设的划分方式将第二文本信息划分为多个第一文本信息包括:将第二文本信息中符合预设字数的片段作为第一文本信息;或将第二文本信息按照标点符号划分为多个第一文本信息;或将第二文本信息中符合预设词语数的片段作为第一文本信肩、0
[0026]进一步地,检测第一文本信息中是否存在属性信息包括:检测第一文本信息中是否存在属性信息中的第一词语,其中,属性信息包括一个或多个第一词语;若第一文本信息中存在第一词语,则确定第一文本信息中存在属性信息。
[0027]进一步地,在确定关键词和属性信息所指示的特征信息之后,获取方法还包括:统计各个第一词语的总数,及各个属性信息对应的第二文本信息的总数。
[0028]进一步地,确定关键词和属性信息所指示的特征信息包括:从第一文本信息中提取关键词和第一词语之间的所有第二词语;将关键词、所有第二词语以及第一词语作为特征信息。
[0029]为了实现上述目的,根据本发明的另一方面,提供了一种分析对象特征信息的获取装置,该获取装置包括:第一获取模块,用于获取待分析对象的特征信息的获取请求;第二获取模块,用于获取待分析对象的关键词和关键词的属性信息;第一检测模块,用于检测待分析对象的第一文本信息中是否存在关键词;第二检测模块,用于在待分析对象的第一文本信息中存在关键词的情况下,检测第一文本信息中是否存在属性信息;第一确定模块,用于在第一文本信息中存在属性信息的情况下,确定关键词和属性信息所指示的特征信肩、0
[0030]进一步地,获取装置包括:第三获取模块,用于在检测待分析对象的第一文本信息中是否存在关键词之前,获取待分析对象的第二文本信息;划分模块,用于按照预设的划分方式将第二文本信息划分为多个第一文本信息;第一检测模块包括:第一检测子模块,用于按顺序逐个检测第一文本信息中是否存在关键词。
[0031]进一步地,划分模块包括:第一划分子模块,用于划分第二文本信息中符合预设字数的片段作为第一文本信息;或第二划分子模块,用于将第二文本信息按照标点符号划分为多个第一文本信息;或第三划分子模块,用于划分第二文本信息中符合预设词语数的片段作为第一文本信息。
[0032]进一步地,第二检测模块包括:第二检测子模块,用于检测第一文本信息中是否存在属性信息中的第一词语,其中,属性信息包括一个或多个第一词语;第二确定模块,用于在第一文本信息中存在第一词语的情况下,确定第一文本信息中存在属性信息。
[0033]进一步地,获取装置还包括:统计模块,用于在确定关键词和属性信息所指示的特征信息之后,统计各个第一词语的总数,及各个属性信息对应的第二文本信息的总数。
[0034]进一步地,第一确定模块包括:提取模块,用于从第一文本信息中提取关键词和第一词语之间的所有第二词语;确定子模块,用于确定关键词、所有第二词语以及第一词语作为特征信息。
[0035]采用本发明实施例,通过检测第一文本信息中是否存在待分析对象的关键词和关键词的属性信息,来判断待分析对象是否具有特征信息,也即通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配确定特征信息,无需将待分析对象的第一文本信息与模板内的语句进行精确匹配。在上述实施例中,通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配,可以对同一特征信息的不同表述方式进行识另I」,避免了现有技术中由于模板语句设置不全面,造成获取到的待分析对象的特征信息不完整的问题。通过本发明实施例,解决了现有技术中对待分析对象的特征信息的提取不完整,导致对待分析对象的特征统计不准确的问题,实现了全面准确获取文本信息的特征信息的效果,从而提高了对待分析对象的特征统计的准确性。
【专利附图】
【附图说明】
[0036]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0037]图1是根据本发明实施例的分析对象特征信息的获取方法的流程图;
[0038]图2是根据本发明实施例的一种可选的关键词和属性信息的关系的示意图;
[0039]图3是根据本发明实施例的一种可选的分析对象特征信息的获取方法的流程图;以及
[0040]图4是根据本发明实施例的分析对象特征信息的获取装置的示意图。
【具体实施方式】
[0041]为了使本【技术领域】的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0042]需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0043]图1是根据本发明实施例的分析对象特征信息的获取方法的流程图,如图1所示该获取方法包括如下步骤:
[0044]步骤3102,获取用于获取待分析对象的特征信息的获取请求。
[0045]步骤3104,获取待分析对象的关键词和关键词的属性信息。
[0046]步骤3106,检测待分析对象的第一文本信息中是否存在关键词。
[0047]在待分析对象的第一文本信息中存在关键词的情况下,执行步骤3108 ;在待分析对象的第一文本信息中不存在关键词的情况下,执行步骤3112。
[0048]步骤3108,检测第一文本信息中是否存在属性信息。
[0049]在第一文本信息中存在属性信息的情况下,执行步骤3110 ;在第一文本信息中不存在属性信息的情况下,执行步骤3112。
[0050]步骤3110,确定关键词和属性信息所指示的特征信息。
[0051]步骤3112,确定第一文本信息中不存在特征信息。
[0052]采用本发明实施例,通过检测第一文本信息中是否存在待分析对象的关键词和关键词的属性信息,来判断待分析对象是否具有特征信息,也即通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配确定特征信息,无需将待分析对象的第一文本信息与模板内的语句进行精确匹配。在上述实施例中,通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配,可以对同一特征信息的不同表述方式进行识另I」,避免了现有技术中由于模板语句设置不全面,造成获取到的待分析对象的特征信息不完整的问题。通过本发明实施例,解决了现有技术中对待分析对象的特征信息的提取不完整,导致对待分析对象的特征统计不准确的问题,实现了全面准确获取文本信息的特征信息的效果,从而提高了对待分析对象的特征统计的准确性。
[0053]根据本发明上述实施例,在检测待分析对象的第一文本信息中是否存在关键词之前,获取方法可以包括:获取待分析对象的第二文本信息;按照预设的划分方式将第二文本信息划分为多个第一文本信息;检测待分析对象的第一文本信息中是否存在关键词包括:按顺序逐个检测第一文本信息中是否存在关键词。
[0054]具体地,在获取待分析对象的第二文本信息之后,按照预设的划分方式将爬取到的第二文本信息划分为多个第一文本信息,并按顺序逐个检测该第一文本信息中是否存在关键词。
[0055]上述的待分析对象的第二文本信息可以为通过爬虫代码从网站资源上爬取到的一个或多个网络文本、通过扫描纸质文件得到的电子文本以及手动输入的电子文本等。
[0056]例如,若要获取购物网站上的某个商品(即上述实施例中的待分析对象)销售后的用户评价信息,可以通过爬虫代码从购物网站上获取该商品的一个或多个用户评价,爬取到的用户评价的文本内容即为上述实施例中的第二文本信息。
[0057]进一步地,按照预设的划分方式将第二文本信息划分为多个第一文本信息可以包括:将第二文本信息中符合预设字数的片段作为第一文本信息;或将第二文本信息按照标点符号划分为多个第一文本信息;或将第二文本信息中符合预设词语数的片段作为第一文本信息。
[0058]在本发明一个可选的实施例中,可以从第二文本信息中的第一个字开始,按顺序连续获取符合预设字数的第一个片段,然后从第二文本信息中的第二个字开始,按顺序连续获取符合预设字数的第二个片段,直至获取到的片段的最后一个字为该第二文本信息中的最后一个字为止。
[0059]例如,将第二文本信息“听说进口吉普的指南者油耗有点高啊共16个字)按预设字数(如,10个字)划分为多个(在该实施例中为7个)第一文本信息,可以得到如下7个片段(即上述实施例中的第一文本信息):(1)听说进口吉普的指南者;(2)说进口吉普的指南者油:(3)进口吉普的指南者油耗;(4) 口吉普的指南者油耗有;(5)吉普的指南者油耗有点:(6)普的指南者油耗有点高;以及(7)的指南者油耗有点高啊。
[0060]在另一个可选的实施例中,可以从第二文本信息中的第一个词语开始,按照顺序连续获取符合预设词语数的第一个片段,然后从第二文本信息中的第二个词语开始,按照顺序连续获取符合预设词语数的第二个片段,直至获取到的片段的最后一个词语为该第二文本信息中的最后一个词语为止。
[0061]例如,将第二文本信息“听说进口吉普的指南者油耗有点高啊”按预设词语数(如,5个词语)划分为多个第一文本信息,可以得到如下5个片段(即上述实施例中的第一文本信息):(1)听说进口吉普的指南者;(2)进口吉普的指南者油耗;(3)吉普的指南者油耗有点:(4)的指南者油耗有点高;以及(5)指南者油耗有点高啊。
[0062]上述的词语是预设的,按照预设词语数划分第二文本信息时,可以按照预设的词语来确定词语数并划分第二文本信息,如,上述第二文本信息中的词语可以包括:听说、进口、吉普、的、指南者、油耗、有点、高以及啊。
[0063]在上述的实施例中,对第二文本信息的划分是以预设的划分方式对字符串进行划分,取若干个连续的片段,得到第一文本信息。通过本发明上述实施例,只有在同一个第一文本信息中同时出现关键词和属性信息时,才认为该属性信息是描述该关键词的。通过限定关键词和属性信息之间的距离,避免了在不同第一文本信息中检测到关键词和属性信息时,错误的获取该关键词和属性信息对应的特征信息的问题,提高了获取特征信息的准确性。
[0064]例如,若获取到的第二文本信息为一篇文章,该文章中包括十句话,可以按照标点符号划分该文章,如将每句话作为一个第一文本信息,其中,第一句话为“最近听说有些网友对吉普的油耗发表了一些评价”,第十句话为“网友们提供的评价内容对我来说很有用,很高兴能得到大家的帮助,非常感谢”,那么可以在第一个第一文本信息中检测到“油耗”这一关键词,并在第十个第一文本信息中检测到“高”这一属性信息,但是很显然第十个第一文本信息中检测到的属性信息不是描述第一个第一文本信息中的关键词,若将该属性信息和该关键词作为获取特征信息的依据,则会获得错误的特征信息。在上述实施例中,限定了只有在同一个第一文本信息中检测到关键词和属性信息时,才获取检测到的关键词和属性信息对应的特征信息,通过该实施例限定了关键词和属性信息之间的距离,提高了获取特征信息的准确性。
[0065]在本发明的上述实施例中,检测第一文本信息中是否存在属性信息可以包括:检测第一文本信息中是否存在属性信息中的第一词语,其中,属性信息包括一个或多个第一词语;若第一文本信息中存在第一词语,则确定第一文本信息中存在属性信息。
[0066]具体地,只要在第一文本信息中检测到属性信息中的任意一个第一词语,即可确定该第一文本信息中存在属性信息。
[0067]在上述实施例中,可以从预设的词语数据库中读取待分析对象的关键词、该关键词的属性信息的一个或多个第一词语。
[0068]图2是根据本发明实施例的一种可选的关键词和属性信息的关系的示意图。下面结合图2详细说明本发明上述实施例。
[0069]如图2所示,待分析对象可以对应一个或多个关键词,如图2中的待分析对象可以对应“关键词1,......,关键词;每个关键词可以对应一个或多个属性信息,如图2中的关键词1可以对应“属性信息11、属性信息12和属性信息13”,和关键词III可以对应“属性信息“和属性信息;每个属性信息可以包括一个或多个第一词语,如图2中的属性信息11可以包括“第一词语111,……,第一词语1、属性信息12可以包括“第一词语121,……,第一词语12^”、属性信息13可以包括“第一词语131,……,第一词语13^”,以及属性信息“可以包括“第一词语“I,……,第一词语III…”和属性信息…可以包括“第一词语 11121,......,第一词语
[0070]在该实施例中,若待分析对象为吉普,那么图2中的关键词1可以是“油耗”,关键词~可以是与吉普有关的其他关键词(如,价格或者性能);关键词1对应的属性信息可以“高”、“一般”以及“低”三个属性信息;每个属性信息均可以包括一个或多个第一词语,如属性信息“高”可以包括如“高”、“较高”、“很高”和“不低”等多个第一词语、属性信息“一般”可以包括“一般” “还可以”以及“还行”等多个第一词语,以及属性信息“低”可以包括“不高”、“较低”、“低”以及“很低”等多个第一词语。
[0071]通过本发明上述实施例,在对第一文本信息中的内容进行检测时,不限制关键词与属性信息的第一词语之间的组合形式(如,在文本信息中出现的先后顺序以及两组词之间包含的其他内容),只要第一文本信息中同时出现关键词与该第一词语的任意组合,即可确定该第一文本信息中存在属性信息。通过上述实施例,避免了由于模板中的语句设置不全面,导致待分析对象的特征信息获取遗漏的问题,提高了获取待分析对象的特征信息的准确性。
[0072]根据本发明上述实施例,在确定关键词和属性信息所指示的特征信息之后,获取方法还可以包括:统计各个第一词语的总数,及各个属性信息对应的第二文本信息的总数。
[0073]具体地,在获取到各个第一词语对应的特征信息之后,统计各个第一词语的总数以获得特征信息的出现次数,并统计包含各个属性信息的第二文本信息的总数以获得各个属性信息的出现次数。
[0074]例如,若第二文本信息为一篇文章,该文章为对吉普油耗(即上述实施例中的关键词)的评价,且文章中出现了 10个关于油耗高的评价信息(即上述实施例中的属性信息为“高”,且文章中出现了 10个第一词语),那么在统计各个属性信息对应的第二文本信息的总数时,计数为1 ;在统计各个第一词语的总数时,计数为10。
[0075]在上述实施例中,通过统计到的第一词语的总数可以得到各个特征信息出现的总数,由于一个第二文本信息中可能出现一个属性信息的多个第一词语,但是该第二文本信息仅表达了该属性信息所指示的观点,那么通过统计包含各个属性信息的第二文本信息的总数可以得到表达有不同观点的各个文本的总数。
[0076]通过本发明上述实施例,可以反映待分析对象的各个特征信息的出现次数,以及含有各个特征信息的第二文本信息的总数,可以在用户需要了解待分析对象的某个特征信息时,为用户提供准确可靠的信息。
[0077]在本发明的上述实施例中,确定关键词和属性信息所指示的特征信息可以包括:从第一文本信息中提取关键词和第一词语之间的所有第二词语;将关键词、所有第二词语以及第一词语作为特征信息。
[0078]具体地,在第一文本信息中检测到关键词和第一词语之后,提取该关键词和该第一词语之间所有的词语(或文字),将该关键词、该第一词语以及提取到的词语(或文字)作为第一文本信息的特征信息。
[0079]例如,在第一文本信息“普的指南者油耗有点高”中,检测到关键词“油耗”和第一词语“高”,则提取第一文本信息中的“油耗有点高”,并将其作为第一文本信息的特征信息。
[0080]在上述实施例中,可将关键词、第一词语及其二者之间的内容全部提取出来,作为第一文本信息的特征信息。通过本发明上述实施例,避免了现有技术中由于模板的语句设置不全面而造成的待分析对象特征信息的提取遗漏,提高了提取特征信息的准确性及可靠性。
[0081]图3是根据本发明实施例的一种可选的分析对象特征信息的获取方法的流程图。下面结合图3详细介绍本发明上述实施例。
[0082]如图3所示,该获取方法可以包括如下步骤:
[0083]步骤3302,确定待分析对象。
[0084]步骤3304,从词语数据库中读取待分析对象的关键词以及评价词语。
[0085]上述的评价词语即本发明上述实施例中的第一词语。
[0086]在执行步骤310之前,执行步骤3306。
[0087]步骤3306,通过爬虫代码爬取网站资源上的网络文本。
[0088]其中,网络文本即为本发明上述实施例中的第二文本信息。
[0089]步骤3308,将爬取到的网络文本按预设拆分方式拆分为~个子文本。
[0090]其中,子文本即本发明上述实施例中的第一文本信息;预设拆分方式即本发明上述实施例中的预设的划分方式。
[0091]在得到~个子文本之后,执行步骤3310。
[0092]步骤3310,依次获取子文本。
[0093]具体地,在首次执行该步骤时,获取第一个子文本。
[0094]步骤3312,判断是否在子文本中查找到关键词。
[0095]在查找到关键词的情况下,执行步骤3314 ;在未查找到关键词的情况下,返回执行步骤3310,即获取下一个子文本,若第~次执行步骤3312,则获取第奸1个子文本。
[0096]步骤3314,在子文本内查找评价词语。
[0097]步骤3316,判断是否在子文本内查找到评价词语。
[0098]在查找到评价词语的情况下,结束该循环;在未查找到评价词语的情况下,返回执行步骤3310。
[0099]具体地,针对待分析对象,从词语数据库中读取两组词语:关键词和评价词语,该关键词和评价词语相互对应;在爬取到网络文本并将其拆分为~个子文本之后,按照关键词和评价词语按顺序逐个对~个子文本执行查找操作;在同一个子文本内查找到关键词和评价词语的情况下,结束该查找操作;若在子文本内未查找到关键词或评价词语,则继续查找下一个子文本,直至在同一个子文本内查找到关键词和评价词语,或者查找完所有子文本。
[0100]下面以待分析对象“吉普”为例,详细介绍图3所示的获取方法。
[0101]从词语数据库中读取关键词为“油耗”,从词语数据库中读取油耗的评价词语“高、低和一般”,将从网站资源上获取的所有包含“吉普”一词的网络文本,以句子为单位,将每个句子划分成多个子文本,按顺序逐个查找子文本中是否包含关键词“油耗”以及评价词语内的词汇(即上述的高、低和一般)。
[0102]在上述实施例中的评价词语“高、低和一般”仅作示例性说明,在实际操作中评价词语还可以包括:较高、不低等词汇。
[0103]在多个子文本内,按顺序查找每个子文本是否包含“油耗” 一词;在某个子文本内找到“油耗”后,在该子文本“油耗” 一词的前后查找“高,低和一般”几个词汇:若查找到“高”,则提取出“油耗”与“高”之间的全部词语,并确定该部分文本即表达了“油耗高”这一评价观点;若未找到“油耗”一词,或找到“油耗”但未找到“高,低和一般”,则在下一个子文本内重复以上查找。
[0104]对上述的步骤详解如下:
[0105]81.确定“吉普”为待分析对象。
[0106]82.确定待分析对象的关键词为“油耗”,同时确定“高,低和一般”为该关键词的评价词语。
[0107]83.将网络文本“听说进口吉普的指南者油耗有点高啊! ”以固定字数(如,10个字)的拆分方式,拆分成以下7段子文本:
[0108]1)听说进口吉普的指南者;
[0109]2)说进口吉普的指南者油;
[0110]3)进口吉普的指南者油耗;
[0111]4) 口吉普的指南者油耗有;
[0112]5)吉普的指南者油耗有点;
[0113]6)普的指南者油耗有点高;
[0114]7)的指南者油耗有点高啊。
[0115]84.逐个查找步骤33中的7段子文本中是否包含“油耗”一词,查找过程如下:
[0116]1)未查找到“油耗” 一词,进入下一个子文本;
[0117]2)未查找到“油耗” 一词,进入下一个子文本;
[0118]3)查找到“油耗”一词,未查找到“高,低和一般”,进入下一个子文本;
[0119]4)查找到“油耗”一词,未查找到“高,低和一般”,进入下一个子文本;
[0120]5)查找到“油耗”一词,未查找到“高,低和一般”,进入下一个子文本;
[0121]6)查找到“油耗”一词,同时查找到“高”,提取两个词之间的全部内容“油耗有点高”,并停止查找。
[0122]85.完成对该网络文本的分析,确定其对待分析对象“吉普”的内容表述为“油耗-高”这一评价观点。
[0123]通过本发明上述实施例,对包含吉普的网络文本执行查找操作,查找该网络文本中是否包含关键词和评价词语;同一子文本内查找到关键词和评价词语中的一个词语之后,提取关键词和评价词语之间的全部内容,并依此确定该网络文本表述的评价观点。通过上述实施例,避免了现有技术中由于模板的语句设置不全面而造成的待分析对象的评价信息的提取不完整,导致对待分析对象的评价信息统计不准确的问题,只需在网络文本中查找关键词和评价词语,即可判断该网络文本所表达的评价观点,提高了获取评价信息的灵活性和准确性,可以得到更加全面可靠的评价信息统计结果。
[0124]需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0125]图4是根据本发明实施例的分析对象特征信息的获取装置的示意图,如图4所示,该获取装置可以包括:第一获取模块10、第二获取模块30、第一检测模块50、第二检测模块70以及第一确定模块90。
[0126]其中,第一获取模块10用于获取待分析对象的特征信息的获取请求;第二获取模块30用于获取待分析对象的关键词和关键词的属性信息;第一检测模块50用于检测待分析对象的第一文本信息中是否存在关键词;第二检测模块70用于在待分析对象的第一文本信息中存在关键词的情况下,检测第一文本信息中是否存在属性信息;第一确定模块90用于在第一文本信息中存在属性信息的情况下,确定关键词和属性信息所指示的特征信肩、0
[0127]采用本发明实施例,通过第一检测模块和第二检测模块检测第一文本信息中是否存在待分析对象的关键词和关键词的属性信息,来判断待分析对象是否具有特征信息,也即通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配确定特征信息,无需将待分析对象的第一文本信息与模板内的语句进行精确匹配。在上述实施例中,通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配,可以对同一特征信息的不同表述方式进行识别,避免了现有技术中由于模板语句设置不全面,造成获取到的待分析对象的特征信息不完整的问题。通过本发明实施例,解决了现有技术中对待分析对象的特征信息的提取不完整,导致对待分析对象的特征统计不准确的问题,实现了全面准确获取文本信息的特征信息的效果,从而提高了对待分析对象的特征统计的准确性。
[0128]根据本发明上述实施例,获取装置可以包括:第三获取模块,用于在检测待分析对象的第一文本信息中是否存在关键词之前,获取待分析对象的第二文本信息;划分模块,用于按照预设的划分方式将第二文本信息划分为多个第一文本信息;第一检测模块包括:第一检测子模块,用于按顺序逐个检测第一文本信息中是否存在关键词。
[0129]具体地,在获取待分析对象的第二文本信息之后,按照预设的划分方式将爬取到的第二文本信息划分为多个第一文本信息,并按顺序逐个检测该第一文本信息中是否存在关键词。
[0130]上述的待分析对象的第二文本信息可以为通过爬虫代码从网站资源上爬取到的一个或多个网络文本、通过扫描纸质文件得到的电子文本以及手动输入的电子文本等。
[0131]进一步地,划分模块可以包括:第一划分子模块,用于划分第二文本信息中符合预设字数的片段作为第一文本信息;或第二划分子模块,用于将第二文本信息按照标点符号划分为多个第一文本信息;或第三划分子模块,用于划分第二文本信息中符合预设词语数的片段作为第一文本信息。
[0132]在本发明一个可选的实施例中,可以从第二文本信息中的第一个字开始,按顺序连续获取符合预设字数的第一个片段,然后从第二文本信息中的第二个字开始,按顺序连续获取符合预设字数的第二个片段,直至获取到的片段的最后一个字为该第二文本信息中的最后一个字为止。
[0133]在另一个可选的实施例中,可以从第二文本信息中的第一个词语开始,按照顺序连续获取符合预设词语数的第一个片段,然后从第二文本信息中的第二个词语开始,按照顺序连续获取符合预设词语数的第二个片段,直至获取到的片段的最后一个词语为该第二文本信息中的最后一个词语为止。
[0134]上述的词语是预设的,按照预设词语数划分第二文本信息时,需按照预设的词语来确定词语数并划分第二文本信息,如,上述第二文本信息中的词语可以包括:听说、进口、吉普、的、指南者、油耗、有点、高以及啊。
[0135]在上述的实施例中,对第二文本信息的划分是以预设的划分方式对字符串进行划分,取若干个连续的片段,得到第一文本信息。通过本发明上述实施例,只有在同一个第一文本信息中同时出现关键词和属性信息时,才认为该属性信息是描述该关键词的。通过限定关键词和属性信息之间的距离,避免了在不同第一文本信息中检测到关键词和属性信息时,错误的获取该关键词和属性信息对应的特征信息的问题,提高了获取特征信息的准确性。
[0136]在本发明的上述实施例中,第二检测模块可以包括:第二检测子模块,用于检测第一文本信息中是否存在属性信息中的第一词语,其中,属性信息可以包括一个或多个第一词语;第二确定模块,用于在第一文本信息中存在第一词语的情况下,确定第一文本信息中存在属性信息。
[0137]具体地,只要在第一文本信息中检测到属性信息中的任意一个第一词语,即可确定该第一文本信息中存在属性信息。
[0138]在上述实施例中,可以从预设的词语数据库中读取待分析对象的关键词、该关键词的属性信息的一个或多个第一词语。
[0139]根据本发明上述实施例,获取装置还可以包括:统计模块,用于在确定关键词和属性信息所指示的特征信息之后,统计各个第一词语的总数,及各个属性信息对应的第二文本信息的总数。
[0140]具体地,在获取到各个第一词语对应的特征信息之后,统计各个第一词语的总数以获得特征信息的出现次数,并统计包含各个属性信息的第二文本信息的总数以获得各个属性信息的出现次数。
[0141]在上述实施例中,通过统计到的第一词语的总数可以得到各个特征信息出现的总数,由于一个第二文本信息中可能出现一个属性信息的多个第一词语,但是该第二文本信息仅表达了该属性信息所指示的观点,那么通过统计包含各个属性信息的第二文本信息的总数可以得到表达有不同观点的各个文本的总数。
[0142]通过本发明上述实施例,可以反映待分析对象的各个特征信息的出现次数,以及含有各个特征信息的第二文本信息的总数,可以在用户需要了解待分析对象的某个特征信息时,为用户提供准确可靠的信息。
[0143]在本发明的上述实施例中,第一确定模块可以包括:提取模块,用于从第一文本信息中提取关键词和第一词语之间的所有第二词语;确定子模块,用于确定关键词、所有第二词语以及第一词语作为特征信息。
[0144]具体地,在第一文本信息中检测到关键词和第一词语之后,提取该关键词和该第一词语之间所有的词语(或文字),将该关键词、该第一词语以及提取到的词语(或文字)作为第一文本信息的特征信息。
[0145]在上述实施例中,可将关键词、第一词语及其二者之间的内容全部提取出来,作为第一文本信息的特征信息。通过本发明上述实施例,避免了现有技术中由于模板的语句设置不全面而造成的待分析对象特征信息的提取遗漏,提高了提取特征信息的准确性及可靠性。
[0146]本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然,需要注意的是,上述模块涉及的方案可以不限于方法实施例中的内容和场景,且上述模块可以运行在计算机终端或移动终端,可以通过软件或硬件实现。
[0147]从以上的描述中,可以看出,本发明实现了如下技术效果:
[0148]采用本发明实施例,通过检测第一文本信息中是否存在待分析对象的关键词和关键词的属性信息,来判断待分析对象是否具有特征信息,也即通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配确定特征信息,无需将待分析对象的第一文本信息与模板内的语句进行精确匹配。在上述实施例中,通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配,可以对同一特征信息的不同表述方式进行识另I」,避免了现有技术中由于模板语句设置不全面,造成获取到的待分析对象的特征信息不完整的问题。通过本发明实施例,解决了现有技术中对待分析对象的特征信息的提取不完整,导致对待分析对象的特征统计不准确的问题,实现了全面准确获取文本信息的特征信息的效果,从而提高了对待分析对象的特征统计的准确性。
[0149]显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0150]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种分析对象特征信息的获取方法,其特征在于,包括:获取用于获取待分析对象的特征信息的获取请求;获取所述待分析对象的关键词和所述关键词的属性信息;检测所述待分析对象的第一文本信息中是否存在所述关键词;若所述待分析对象的第一文本信息中存在所述关键词,则检测所述第一文本信息中是否存在所述属性信息;若所述第一文本信息中存在所述属性信息,则确定所述关键词和所述属性信息所指示的所述特征信息。
2.根据权利要求1所述的获取方法,其特征在于,在检测所述待分析对象的第一文本信息中是否存在所述关键词之前,所述获取方法包括:获取所述待分析对象的第二文本信息;按照预设的划分方式将所述第二文本信息划分为多个所述第一文本信息;检测所述待分析对象的第一文本信息中是否存在所述关键词包括:按顺序逐个检测所述第一文本信息中是否存在所述关键词。
3.根据权利要求2中所述的获取方法,其特征在于,按照预设的划分方式将所述第二文本信息划分为多个所述第一文本信息包括:将所述第二文本信息中符合预设字数的片段作为所述第一文本信息;或将所述第二文本信息按照标点符号划分为多个所述第一文本信息;或将所述第二文本信息中符合预设词语数的片段作为所述第一文本信息。
4.根据权利要求1至3中任意一项所述的获取方法,其特征在于,检测所述第一文本信息中是否存在所述属性信息包括:检测所述第一文本信息中是否存在所述属性信息中的第一词语,其中,所述属性信息包括一个或多个所述第一词语;若所述第一文本信息中存在所述第一词语,则确定所述第一文本信息中存在所述属性信息。
5.根据权利要求4所述的获取方法,其特征在于,在确定所述关键词和所述属性信息所指示的所述特征信息之后,所述获取方法还包括:统计各个所述第一词语的总数,及各个所述属性信息对应的所述第二文本信息的总数。
6.根据权利要求4所述的获取方法,其特征在于,确定所述关键词和所述属性信息所指示的所述特征信息包括:从所述第一文本信息中提取所述关键词和所述第一词语之间的所有第二词语;将所述关键词、所述所有第二词语以及所述第一词语作为所述特征信息。
7.一种分析对象特征信息的获取装置,其特征在于,包括:第一获取模块,用于获取待分析对象的特征信息的获取请求;第二获取模块,用于获取所述待分析对象的关键词和所述关键词的属性信息;第一检测模块,用于检测所述待分析对象的第一文本信息中是否存在所述关键词;第二检测模块,用于在所述待分析对象的第一文本信息中存在所述关键词的情况下,检测所述第一文本信息中是否存在所述属性信息;第一确定模块,用于在所述第一文本信息中存在所述属性信息的情况下,确定所述关键词和所述属性信息所指示的所述特征信息。
8.根据权利要求7所述的获取装置,其特征在于,所述获取装置包括:第三获取模块,用于在检测所述待分析对象的第一文本信息中是否存在所述关键词之前,获取所述待分析对象的第二文本信息;划分模块,用于按照预设的划分方式将所述第二文本信息划分为多个所述第一文本信息;所述第一检测模块包括:第一检测子模块,用于按顺序逐个检测所述第一文本信息中是否存在所述关键词。
9.根据权利要求8中所述的获取装置,其特征在于,所述划分模块包括:第一划分子模块,用于划分所述第二文本信息中符合预设字数的片段作为所述第一文本信息;或第二划分子模块,用于将所述第二文本信息按照标点符号划分为多个所述第一文本信息;或第三划分子模块,用于划分所述第二文本信息中符合预设词语数的片段作为所述第一文本信息。
10.根据权利要求7至9中任意一项所述的获取装置,其特征在于,所述第二检测模块包括:第二检测子模块,用于检测所述第一文本信息中是否存在所述属性信息中的第一词语,其中,所述属性信息包括一个或多个所述第一词语;第二确定模块,用于在所述第一文本信息中存在所述第一词语的情况下,确定所述第一文本信息中存在所述属性信息。
11.根据权利要求10所述的获取装置,其特征在于,所述获取装置还包括:统计模块,用于在确定所述关键词和所述属性信息所指示的所述特征信息之后,统计各个所述第一词语的总数,及各个所述属性信息对应的所述第二文本信息的总数。
12.根据权利要求10所述的获取装置,其特征在于,所述第一确定模块包括:提取模块,用于从所述第一文本信息中提取所述关键词和所述第一词语之间的所有第二词语;确定子模块,用于确定所述关键词、所述所有第二词语以及所述第一词语作为所述特征信息。
【文档编号】G06F17/30GK104462279SQ201410693965
【公开日】2015年3月25日 申请日期:2014年11月26日 优先权日:2014年11月26日
【发明者】梁梦溪, 杨韬, 余德乐, 何鑫 申请人:北京国双科技有限公司