对象处理方法及系统、计算机系统及计算机可读存储介质与流程

文档序号:19376255发布日期:2019-12-10 23:54阅读:154来源:国知局
对象处理方法及系统、计算机系统及计算机可读存储介质与流程

本公开涉及互联网技术领域,更具体地,涉及一种对象处理方法及系统、计算机系统及计算机可读存储介质。



背景技术:

相关技术中,品牌商一有新产品诞生,一般都会举行新品发布会,或者通过网络进行产品宣传。此外,对于一些小众品牌更多地可能是通过线上渠道发布相关信息进行产品宣传,比如在官方网站,官方微博,微信公众号等平台上宣传新产品的相关信息。而如何及时识别不同平台上发布的相关信息是否包括新产品的相关信息,对于产品选择具有重要意义。

为了能够及时识别新产品,在相关技术中一般会对一些关于产品的文章(或仅仅是一小段描述信息)进行聚类分析,将文章按产品类目划分成若干簇,对于一篇新的文章,如果发现这篇文章距离每个聚类中心都比较远,那么就认为该文章中描述的产品可能是一个新品。

然而,在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:

对文章做产品聚类分析可能会混入一些与产品无关的文章,导致新品识别的准确率偏低。



技术实现要素:

有鉴于此,本公开提供了一种对象处理方法及其系统、计算机系统和计算机可读存储介质。

本公开的一个方面提供了一种对象处理方法,包括获取与对象关联的语料信息;确定与上述对象关联的上述语料信息中包含的一个或多个特征词,其中,每个特征词对应于一个特征词权重;基于上述一个或多个特征词中每个特征词对应的特征词权重,对与上述对象关联的上述语料信息进行量化;以及根据与上述对象关联的上述语料信息的量化结果,确定上述对象是否具有预定属性。

根据本公开的实施例,上述对象处理方法还包括在确定与上述对象关联的上述语料信息中包含的一个或多个特征词之前,判断与上述对象关联的上述语料信息中是否包含有上述一个或多个特征词;以及在判断出与上述对象关联的上述语料信息中不包含上述一个或多个特征词的情况下,确定上述对象不具有上述预定属性。

根据本公开的实施例,根据与上述对象关联的上述语料信息的量化结果,确定上述对象是否具有预定属性包括判断与上述对象关联的上述语料信息的量化结果对应的量化值是否大于或等于预设阈值;以及在判断出与上述对象关联的上述语料信息的量化结果对应的量化值大于或等于上述预设阈值的情况下,确定上述对象具有上述预定属性。

根据本公开的实施例,上述对象处理方法还包括确定上述一个或多个特征词中每个特征词的权重,确定上述一个或多个特征词中每个特征词的权重包括获取训练样本,其中,上述训练样本用于确定上述一个或多个特征词中每个特征词的特征词权重;将上述训练样本进行分类,得到第一数据集和第二数据集,其中,上述第一数据集对应的对象具有上述预定属性,上述第二数据集中对应的对象不具有上述预定属性;确定上述一个或多个特征词中每个特征词占上述第一数据集中包含的所有词的比例,得到第一占比;确定上述一个或多个特征词中每个特征词占上述第二数据集中包含的所有词的比例,得到第二占比;以及根据上述第一占比和上述第二占比,确定上述一个或多个特征词中每个特征词的特征词权重。

根据本公开的实施例,确定与上述对象关联的上述语料信息中包含的一个或多个特征词包括将与上述对象关联的上述语料信息进行分词处理,得到一个或多个词语;判断上述一个或多个词语中的词语是否与预设特征词集合中的特征词相同或类似;以及在上述一个或多个词语中的词语与上述预设特征词集合中的特征词相同或类似的情况下,将上述预设特征词集合中与上述一个或多个词语中的词语相同或类似的特征词确定为上述一个或多个特征词。

本公开的另一方面提供了一种对象处理系统,包括获取模块、第一确定模块、量化模块和第二确定模块。获取模块用于获取与对象关联的语料信息;第一确定模块用于确定与上述对象关联的上述语料信息中包含的一个或多个特征词,其中,每个特征词对应于一个特征词权重;量化模块用于基于上述一个或多个特征词中每个特征词对应的特征词权重,对与上述对象关联的上述语料信息进行量化;以及第二确定模块用于根据与上述对象关联的上述语料信息的量化结果,确定上述对象是否具有预定属性。

根据本公开的实施例,上述系统还包括判断模块和第三确定模块。判断模块用于在确定与上述对象关联的上述语料信息中包含的一个或多个特征词之前,判断与上述对象关联的上述语料信息中是否包含有上述一个或多个特征词;以及第三确定模块用于在判断出与上述对象关联的上述语料信息中不包含上述一个或多个特征词的情况下,确定上述对象不具有上述预定属性。

根据本公开的实施例,上述第二确定模块包括第一判断单元和第一确定单元。第一判断单元用于判断与上述对象关联的上述语料信息的量化结果对应的量化值是否大于或等于预设阈值;以及第一确定单元用于在判断出与上述对象关联的上述语料信息的量化结果对应的量化值大于或等于上述预设阈值的情况下,确定上述对象具有上述预定属性。

根据本公开的实施例,上述系统还包括第四确定模块,用于确定上述一个或多个特征词中每个特征词的权重,上述第四确定模块包括获取单元、分类单元、第二确定单元、第三确定单元和第四确定单元。获取单元用于获取训练样本,其中,上述训练样本用于确定上述一个或多个特征词中每个特征词的特征词权重;分类单元用于将上述训练样本进行分类,得到第一数据集和第二数据集,其中,上述第一数据集对应的对象具有上述预定属性,上述第二数据集中对应的对象不具有上述预定属性;第二确定单元用于确定上述一个或多个特征词中每个特征词占上述第一数据集中包含的所有词的比例,得到第一占比;第三确定单元用于确定上述一个或多个特征词中每个特征词占上述第二数据集中包含的所有词的比例,得到第二占比;以及第四确定单元,用于根据上述第一占比和上述第二占比,确定上述一个或多个特征词中每个特征词的特征词权重。

根据本公开的实施例,上述第一确定模块包括分词单元、第二判断单元和第五确定单元。分词单元用于将与上述对象关联的上述语料信息进行分词处理,得到一个或多个词语;第二判断单元用于判断上述一个或多个词语中的词语是否与预设特征词集合中的特征词相同或类似;以及第五确定单元用于在上述一个或多个词语中的词语与上述预设特征词集合中的特征词相同或类似的情况下,将上述预设特征词集合中与上述一个或多个词语中的词语相同或类似的特征词确定为上述一个或多个特征词。

本公开的另一方面提供了一种计算机系统,包括一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的对象处理方法。

本公开的另一方面提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的对象处理方法。

本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的对象处理方法。

通过本公开的实施例,根据与对象相关联的语料信息中所包含的特征词的特征词权重,可以对对象相关联的语料信息进行量化,最后根据量化结果可以判断对象是否具有预定属性的技术手段,所以至少部分地克服了相关技术中识别新品的准确度低的技术问题,进而达到了提高识别新品的准确度的技术效果。

附图说明

通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:

图1示意性示出了根据本公开实施例的可以应用对象处理方法及对象处理系统的示例性系统架构;

图2示意性示出了根据本公开实施例的对象处理方法的流程图;

图3a示意性示出了根据本公开另一实施例的对象处理方法的流程图;

图3b示意性示出了根据本公开实施例的确定对象是否具有预定属性的流程图;

图3c示意性示出了根据本公开另一实施例的对象处理方法的流程图;

图3d示意性示出了根据本公开实施例的确定一个或多个特征词中每个特征词的权重的流程图;

图3e示意性示出了根据本公开实施例的确定与对象关联的语料信息中包含的一个或多个特征词的流程图;

图4示意性示出了根据本公开实施例的对象处理系统的框图;

图5a示意性示出了根据本公开另一实施例的对象处理系统的框图;

图5b示意性示出了根据本公开实施例的第二确定模块的框图;

图5c示意性示出了根据本公开另一实施例的对象处理系统的框图;

图5d示意性示出了根据本公开实施例的第四确定模块的框图;

图5e示意性示出了根据本公开实施例的第一确定模块的框图;以及

图6示意性示出了根据本公开实施例的适于实现对象处理方法的计算机系统的框图。

具体实施方式

以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。

在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。在使用类似于“a、b或c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b或c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“a或b”应当被理解为包括“a”或“b”、或“a和b”的可能性。

本公开的实施例提供了一种对象处理方法及对象处理系统,该对象处理方法包括获取与对象关联的语料信息;确定与对象关联的语料信息中包含的一个或多个特征词,其中,每个特征词对应于一个特征词权重;基于一个或多个特征词中每个特征词对应的特征词权重,对与对象关联的语料信息进行量化;以及根据与对象关联的语料信息的量化结果,确定对象是否具有预定属性。

图1示意性示出了根据本公开实施例的可以应用对象处理方法及对象处理系统的示例性系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是,本公开实施例所提供的对象处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的对象处理系统一般可以设置于服务器105中。本公开实施例所提供的对象处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的对象处理系统也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。或者,本公开实施例所提供的对象处理方法也可以由终端设备101、102、或103执行,或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地,本公开实施例所提供的对象处理系统也可以设置于终端设备101、102、或103中,或设置于不同于终端设备101、102、或103的其他终端设备中。

例如,终端设备101、102、或103中的任意一个(例如,终端设备101,但不限于此)从本地,其他终端设备或服务器获取与对象关联的语料信息。然后,终端设备101可以在本地执行本公开实施例所提供的对象处理方法,或者将获取的语料信息发送到其他终端设备、服务器、或服务器集群,并由接收该语料信息的其他终端设备、服务器、或服务器集群来执行本公开实施例所提供的对象处理方法。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的对象处理方法的流程图。

如图2所示,该方法包括操作s210~s240,其中:

在操作s210,获取与对象关联的语料信息。

根据本公开的实施例,可以从对象发布平台上获取与对象相关联的语料信息。例如,对象发布平台可以包括微信平台,微博平台,或者公司官网等平台,具体地,可以通过网络爬虫技术从这些平台中的一个或者多个上爬取描述对象如产品的语料信息,或者可以通过从这些平台的相应服务器中获取描述对象如产品的语料信息。其中,语料信息可以是一段描述产品的话,例如,本公司将于本月新上市一款操作系统为第9代的最新笔记本电脑,该笔记本性能优良,相比于其他产品价格优惠。

在操作s220,确定与对象关联的语料信息中包含的一个或多个特征词,其中,每个特征词对应于一个特征词权重。

根据本公开的实施例,在获取与对象关联的语料信息之后,可以确定该语料信息中所包含的特征词,可以是一个或多个特征词,每个特征词都对应于一个特征词权重。例如,语料信息为本公司将于本月新上市一款操作系统为第9代的最新笔记本电脑,该笔记本电脑性能优良,相比于其他产品价格优惠。从中确定的特征词可以是新上市,最新笔记本电脑,其中,新上市所对应的特征词权重可以是0.5,最新笔记本电脑所对应的特征词权重可以是0.8。需要说明的是,特征词可以对不同平台上大量的语料信息进行数据分析后确定的,也可以是人为设定的,每个特征词的权重可以根据表征对象具有预定属性的概率进行确定。

在操作s230,基于一个或多个特征词中每个特征词对应的特征词权重,对与对象关联的语料信息进行量化。

根据本公开的实施例,从获取的语料信息中确定特征词之后,根据每个特征词对应的特征词权重,对与对象关联的语料信息进行量化。例如,将每个特征词对应的特征词权重按照预设公式进行计算后,得到计算结果作为与对象关联的语料信息的量化值,具体地,例如,可以将每个特征词对应的特征词权重相加求和,得到的求和结果作为与对象关联的语料信息的量化值。

在操作s240,根据与对象关联的语料信息的量化结果,确定对象是否具有预定属性。

根据本公开的实施例,以对象为品牌商生产设计的产品为例,确定对象是否具有预定属性可以是确定产品是否是新产品,品牌商一般会在官方微博或官方网站等平台上发布品牌商的信息,其中可以包括品牌商生产设计的产品。如何有效识别品牌商发布的信息是否包含新产品的信息,可以通过上述方式对产品相关联的语料信息进行量化后,得到量化结果,当量化值较高时,可以确定品牌商发布的信息包含新产品的信息,当量化值较低时,可以确定品牌商发布的信息不包含新产品的信息。具体地,可以将量化结果与预设阈值进行比较,从而可以确定品牌商发布的信息是否包含新产品的信息。

根据本公开的实施例,以对象为品牌商为例,可以获取与品牌商关联的语料信息,采用上述方法对语料信息进行量化后,可以确定品牌商是否是发布了新产品的信息。对应地,根据与对象关联的语料信息的量化结果,确定对象是否具有预定属性为确定品牌商是否有发布新产品。根据本公开的实施例,采用本公开的上述方法,也可以判断任何一条语料信息是否是关于具有预定属性的对象的信息。例如根据获取的语料信息中所包含的特征词所对应的特征词权重,对语料信息进行量化,从而根据量化结果判断该语料信息是否是描述具有预定属性的对象的信息。例如,从企业官网上发布的一条语料信息中可以判断该语料信息是否是针对新产品的信息。

通过本公开的实施例,根据与对象相关联的语料信息中所包含的特征词的特征词权重,可以对对象相关联的语料信息进行量化,最后根据量化结果可以判断对象是否具有预定属性的技术手段,相比于相关技术中采用聚类算法确定语料信息是否是关于新产品的信息而言,提供了一种新的识别新产品的方法,从语料信息数据源中过滤了许多干扰数据,对识别准确度带来了提升,所以至少部分地克服了相关技术中识别新品的准确度低的技术问题,进而达到了提高识别新品的准确度的技术效果。

下面参考图3a~图3e,结合具体实施例对图2所示的方法做进一步说明。

图3a示意性示出了根据本公开另一实施例的对象处理方法的流程图。

如图3a所示,对象处理方法还包括操作s250~s260,其中:

在操作s250,在确定与对象关联的语料信息中包含的一个或多个特征词之前,判断与对象关联的语料信息中是否包含有一个或多个特征词。

在操作s260,在判断出与对象关联的语料信息中不包含一个或多个特征词的情况下,确定对象不具有预定属性。

根据本公开的实施例,在获取与对象关联的语料信息之后,可以先判断与对象关联的语料信息中是否包含有一个或多个特征词,若判断出与对象关联的语料信息中不包含一个或多个特征词的情况下,确定对象不具有预定属性。若判断出与对象关联的语料信息中包含一个或多个特征词的情况下,则执行操作s220~s240中描述的方法。例如,语料信息为:本公司将于明日在鸟巢开年会。从中若判断该语料信息中不包含有一个或多个特征词,则可以确定该语料信息不同针对新产品的语料。或者,语料信息为:本公司去年发布的第8代笔记本电脑降价了。从中若判断该语料信息中不包含有一个或多个特征词,则可以确定该语料信息不同针对新产品的语料,则该笔记本电脑不是新产品。

通过本公开的实施例,在语料信息中没有特征词的情况下,直接确定该产品不是新品,从而提高了数据处理效率。

图3b示意性示出了根据本公开实施例的确定对象是否具有预定属性的流程图。

如图3b所示,根据与对象关联的语料信息的量化结果,确定对象是否具有预定属性包括操作s241~s242,其中:

在操作s241,判断与对象关联的语料信息的量化结果对应的量化值是否大于或等于预设阈值。

在操作s242,在判断出与对象关联的语料信息的量化结果对应的量化值大于或等于预设阈值的情况下,确定对象具有预定属性。

根据本公开的实施例,确定对象是否具有预定属性可以是判断相应的量化结果是否大于或等于预设阈值,例如,语料信息中包含的多个特征词相对应的权重为0.5,0.8和1.5,对与对象关联的语料信息中的特征词的权重按照求和公式进行求和后,得到语料信息的得分为2.8,若预设阈值为2.5,则量化值大于预设阈值,此时则确定对象具有预定属性。

根据本公开的实施例,预设阈值的大小可以根据实际情况人为确定,或者根据大量的训练数据进行多次验证后,得到满足实际识别准确度的阈值。

通过本公开的实施例,通过将语料信息的量化结果对应的量化值与预设阈值进行比较,可以快速高效的识别产品对象是否具有预定属性。采用设置预设阈值的方法,可以根据实际情况调整预设阈值的大小,从而更加符合实际情况。

图3c示意性示出了根据本公开另一实施例的对象处理方法的流程图。

需要说明的是,在该实施例中,除了包括图2中所描述的操作s210~s240,还包括操作s270,为了描述的简洁起见,在此不再赘述操作s210~s240,具体参考上述图2的相应描述,如图3c所示,对象处理方法还包括操作s270,其中:

在操作s270,确定一个或多个特征词中每个特征词的权重。

根据本公开的实施例,不同特征词的权重可以相同也可以不同,特征词的权重可以用于表征对象是否具有预定属性的程度。

图3d示意性示出了根据本公开实施例的确定一个或多个特征词中每个特征词的权重的流程图。

如图3d所示,确定一个或多个特征词中每个特征词的权重包括操作s271~s275,其中:

在操作s271,获取训练样本,其中,训练样本用于确定一个或多个特征词中每个特征词的特征词权重。

根据本公开的实施例,训练样本中包括多条语料信息,样本来源可以是从不同平台上获取的语料信息,也可以是同一平台上的语料信息。

在操作s272,将训练样本进行分类,得到第一数据集和第二数据集,其中,第一数据集对应的对象具有预定属性,第二数据集中对应的对象不具有预定属性。

根据本公开的实施例,将获取的训练样本进行分类,可以标记好训练样本中每条语料信息是否是描述具有预定属性的对象的语料信息,因此,可以得到用于描述具有预定属性的对象的第一数据集和不具有预定属性的对象的第二数据集。具体地,以是否是用于描述新产品的语料信息为例,将训练样本中的语料信息标记成用于描述新产品的第一数据集和不用于描述新产品的第二数据集,其中,第一数据集对应的对象具有预定属性表示第一数据集中的语料信息所描述的对象是新产品,第二数据集中对应的对象不具有预定属性表示第一数据集中的语料信息所描述的对象不是新产品。

在操作s273,确定一个或多个特征词中每个特征词占第一数据集中包含的所有词的比例,得到第一占比。

根据本公开的实施例,可以采用分词的技术对第一数据集中包含的语料信息先进行分词处理,统计第一数据集中所包含的词的总数,并统计每个特征词在第一数据集中包含的语料信息中出现的总次数,根据每个特征词在第一数据集中包含的语料信息中出现的总次数占第一数据集中所包含的词的总数的比例,确定出一个或多个特征词中每个特征词占第一数据集中包含的所有词的比例。

在操作s274,确定一个或多个特征词中每个特征词占第二数据集中包含的所有词的比例,得到第二占比。

根据本公开的实施例,可以采用分词的技术对第二数据集中包含的语料信息先进行分词处理,统计第二数据集中所包含的词的总数,并统计每个特征词在第二数据集中包含的语料信息中出现的总次数,根据每个特征词在第二数据集中包含的语料信息中出现的总次数占第二数据集中所包含的词的总数的比例,确定出一个或多个特征词中每个特征词占第二数据集中包含的所有词的比例。

在操作s275,根据第一占比和第二占比,确定一个或多个特征词中每个特征词的特征词权重。

根据本公开的实施例,确定一个或多个特征词中每个特征词的特征词权重可以采用如下公式:

其中,wightw表示特征词的特征词权重,posw表示特征词在第一数据集中包含的语料信息中出现的总次数,pos表示第一数据集中所包含的词的总数,negw表示特征词在第二数据集中包含的语料信息中出现的总次数,neg表示第二数据集中所包含的词的总数。由于一般情况下第二数据集所包含的词非常大,导致negw很大,因此采用对数函数将第二占比缩放到一个合理范围可以提高计算精度,进一步的提高识别对象具有预定属性的准确度。

通过本公开的实施例,采用上述方式确定每个特征词的特征词权重,可以有效的表征对象具有预定属性,提高识别对象具有预定属性的准确度。

图3e示意性示出了根据本公开实施例的确定与对象关联的语料信息中包含的一个或多个特征词的流程图。

如图3e所示,确定与对象关联的语料信息中包含的一个或多个特征词包括操作s221~s223,其中:

在操作s221,将与对象关联的语料信息进行分词处理,得到一个或多个词语。

根据本公开的实施例,例如,与对象关联的语料信息为“本公司将于本月新上市一款操作系统为第9代的首款笔记本电脑”,可以将该与对象关联的语料信息进行分词处理,得到以下词语:本公司、将于、本月、新上市、一款、操作系统、为、第9代、的、首款、笔记本电脑。

在操作s222,判断一个或多个词语中的词语是否与预设特征词集合中的特征词相同或类似。

根据本公开的实施例,预设特征词集合可以是根据大数据分析后人为添加设置的,预设特征词集合中的数量可以根据实际识别情况设置。根据本公开的实施例,预设特征词集合中的特征词可以包括:新上市、最新、独创、新型、首次。需要说明的是,预设特征词集合中的特征词不限于上述列举的情况,在此不再赘述。

根据本公开的实施例,可以将分词得到的一个或多个词语与预设特征词集合中的特征词进行比较,判断是否有相同或类似的词语,例如,上述语料信息中包含新上市,与预设特征词集合中的特征词中新上市相同;上述语料信息中包含首款,与预设特征词集合中的特征词中最新相类似。

在操作s223,在一个或多个词语中的词语与预设特征词集合中的特征词相同或类似的情况下,将预设特征词集合中与一个或多个词语中的词语相同或类似的特征词确定为一个或多个特征词。

通过本公开的实施例,通过将将分词得到的一个或多个词语与预设特征词集合中的特征词进行比较,提供一种确定语料信息中的特征词的方法,可以快速的确定语料信息中是否包含特征词,从而提高了对象处理效率。

图4示意性示出了根据本公开实施例的对象处理系统的框图。

如图4所示,对象处理系统400包括获取模块410、第一确定模块420、量化模块430和第二确定模块440。

获取模块410用于获取与对象关联的语料信息。

第一确定模块420用于确定与对象关联的语料信息中包含的一个或多个特征词,其中,每个特征词对应于一个特征词权重。

量化模块430用于基于一个或多个特征词中每个特征词对应的特征词权重,对与对象关联的语料信息进行量化。

第二确定模块440用于根据与对象关联的语料信息的量化结果,确定对象是否具有预定属性。

通过本公开的实施例,根据与对象相关联的语料信息中所包含的特征词的特征词权重,可以对对象相关联的语料信息进行量化,最后根据量化结果可以判断对象是否具有预定属性的技术手段,相比于相关技术中采用聚类算法确定语料信息是否是关于新产品的信息而言,提供了一种新的识别新产品的方法,从语料信息数据源中过滤了许多干扰数据,对识别准确度带来了提升,所以至少部分地克服了相关技术中识别新品的准确度低的技术问题,进而达到了提高识别新品的准确度的技术效果。

图5a示意性示出了根据本公开另一实施例的对象处理系统的框图。

如图5a所示,对象处理系统400除了包括获取模块410、第一确定模块420、量化模块430和第二确定模块440之外,对象处理系统400还包括判断模块450和第三确定模块460。其中:

判断模块450用于在确定与对象关联的语料信息中包含的一个或多个特征词之前,判断与对象关联的语料信息中是否包含有一个或多个特征词。

第三确定模块460用于在判断出与对象关联的语料信息中不包含一个或多个特征词的情况下,确定对象不具有预定属性。

通过本公开的实施例,在语料信息中没有特征词的情况下,直接确定该产品不是新品,从而提高了数据处理效率。

图5b示意性示出了根据本公开实施例的第二确定模块的框图。

如图5b所示,根据本公开的实施例,第二确定模块440包括第一判断单元441和第一确定单元442。

第一判断单元441用于判断与对象关联的语料信息的量化结果对应的量化值是否大于或等于预设阈值。

第一确定单元442用于在判断出与对象关联的语料信息的量化结果对应的量化值大于或等于预设阈值的情况下,确定对象具有预定属性。

通过本公开的实施例,通过将语料信息的量化结果对应的量化值与预设阈值进行比较,可以快速高效的识别产品对象是否具有预定属性。采用设置预设阈值的方法,可以根据实际情况调整预设阈值的大小,从而更加符合实际情况。

图5c示意性示出了根据本公开另一实施例的对象处理系统的框图。

如图5c所示,对象处理系统400除了包括获取模块410、第一确定模块420、量化模块430和第二确定模块440之外。根据本公开的实施例,对象处理系统400还包括第四确定模块470,用于确定一个或多个特征词中每个特征词的权重。

图5d示意性示出了根据本公开实施例的第四确定模块的框图。

如图5d所示,第四确定模块470包括获取单元471、分类单元472、第二确定单元473、第三确定单元474和第四确定单元475。

获取单元471用于获取训练样本,其中,训练样本用于确定一个或多个特征词中每个特征词的特征词权重。

分类单元472用于将训练样本进行分类,得到第一数据集和第二数据集,其中,第一数据集对应的对象具有预定属性,第二数据集中对应的对象不具有预定属性。

第二确定单元473用于确定一个或多个特征词中每个特征词占第一数据集中包含的所有词的比例,得到第一占比。

第三确定单元474用于确定一个或多个特征词中每个特征词占第二数据集中包含的所有词的比例,得到第二占比。

第四确定单元475用于根据第一占比和第二占比,确定一个或多个特征词中每个特征词的特征词权重。

通过本公开的实施例,采用上述方式确定每个特征词的特征词权重,可以有效的表征对象具有预定属性,提高识别对象具有预定属性的准确度。

图5e示意性示出了根据本公开实施例的第一确定模块的框图。

如图5e所示,根据本公开的实施例,第一确定模块420包括分词单元421、第二判断单元422和第五确定单元423。

分词单元421用于将与对象关联的语料信息进行分词处理,得到一个或多个词语。

第二判断单元422用于判断一个或多个词语中的词语是否与预设特征词集合中的特征词相同或类似。

第五确定单元423用于在一个或多个词语中的词语与预设特征词集合中的特征词相同或类似的情况下,将预设特征词集合中与一个或多个词语中的词语相同或类似的特征词确定为一个或多个特征词。

通过本公开的实施例,通过将将分词得到的一个或多个词语与预设特征词集合中的特征词进行比较,提供一种确定语料信息中的特征词的方法,可以快速的确定语料信息中是否包含特征词,从而提高了对象处理效率。

可以理解的是,获取模块410、第一确定模块420、量化模块430、第二确定模块440、判断模块450、第三确定模块460以及第四确定模块470可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,获取模块410、第一确定模块420、量化模块430、第二确定模块440、判断模块450、第三确定模块460以及第四确定模块470中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,获取模块410、第一确定模块420、量化模块430、第二确定模块440、判断模块450、第三确定模块460以及第四确定模块470中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。

需要说明的是,本公开的实施例中对象处理系统部分与本公开的实施例中对象处理方法部分是相对应的,对象处理系统部分的描述具体参考对象处理方法部分,在此不再赘述。

图6示意性示出了根据本公开实施例的适于实现对象处理方法的计算机系统的框图。图6示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示,根据本公开实施例的计算机系统600包括处理器601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行参考图2,图3a~图3e描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在ram603中,存储有系统600操作所需的各种程序和数据。处理器601、rom602以及ram603通过总线604彼此相连。处理器601通过执行rom602和/或ram603中的程序来执行以上参考图2,图3a~图3e描述的各种操作。需要注意,所述程序也可以存储在除rom602和ram603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行以上参考图2,图3a~图3e描述的各种操作。

根据本公开的实施例,系统600还可以包括输入/输出(i/o)接口605,输入/输出(i/o)接口605也连接至总线604。系统600还可以包括连接至i/o接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

根据本公开的实施例,上文参考流程图描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

需要说明的是,本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。根据本公开的实施例,计算机可读存储介质可以包括上文描述的rom602和/或ram603和/或rom602和ram603以外的一个或多个存储器。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行对象处理方法,包括获取与对象关联的语料信息;确定与对象关联的语料信息中包含的一个或多个特征词,其中,每个特征词对应于一个特征词权重;基于一个或多个特征词中每个特征词对应的特征词权重,对与对象关联的语料信息进行量化;以及根据与对象关联的语料信息的量化结果,确定对象是否具有预定属性。可选地,对象处理方法还包括在确定与对象关联的语料信息中包含的一个或多个特征词之前,判断与对象关联的语料信息中是否包含有一个或多个特征词;以及在判断出与对象关联的语料信息中不包含一个或多个特征词的情况下,确定对象不具有预定属性。可选地,根据与对象关联的语料信息的量化结果,确定对象是否具有预定属性包括:判断与对象关联的语料信息的量化结果对应的量化值是否大于或等于预设阈值;以及在判断出与对象关联的语料信息的量化结果对应的量化值大于或等于预设阈值的情况下,确定对象具有预定属性。可选地,对象处理方法还包括确定一个或多个特征词中每个特征词的权重,包括:获取训练样本,其中,训练样本用于确定一个或多个特征词中每个特征词的特征词权重;将训练样本进行分类,得到第一数据集和第二数据集,其中,第一数据集对应的对象具有预定属性,第二数据集中对应的对象不具有预定属性;确定一个或多个特征词中每个特征词占第一数据集中包含的所有词的比例,得到第一占比;确定一个或多个特征词中每个特征词占第二数据集中包含的所有词的比例,得到第二占比;以及根据第一占比和第二占比,确定一个或多个特征词中每个特征词的特征词权重。可选地,确定与对象关联的语料信息中包含的一个或多个特征词包括:将与对象关联的语料信息进行分词处理,得到一个或多个词语;判断一个或多个词语中的词语是否与预设特征词集合中的特征词相同或类似;以及在一个或多个词语中的词语与预设特征词集合中的特征词相同或类似的情况下,将预设特征词集合中与一个或多个词语中的词语相同或类似的特征词确定为一个或多个特征词。

以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1