信息处理方法及装置与流程

文档序号:11864779阅读:142来源:国知局
信息处理方法及装置与流程

本发明涉及计算机技术,尤其涉及一种信息处理方法及装置。



背景技术:

产品生产商为了提高产品的质量,通常需要了解用户反馈的对产品的各属性的评价信息,根据用户对产品各属性的评价信息确定产品的各功能信息,以根据各功能信息指导产品的改进方向。

现有技术中,产品生产商通过问卷调查、与客户代表沟通等方式获取用户对产品各属性的评价信息,根据用户对产品各属性的评价信息确定产品的各功能信息。

采用现有技术的方法,信息处理的效率不高。



技术实现要素:

本发明提供一种信息处理方法及装置,提高了信息处理的效率。

本发明提供一种信息处理方法,包括:

获取用户在网络平台发布的对产品的各属性的评价信息;

根据所述评价信息,确定产品的功能信息。

在本发明一实施例中,所述获取用户在网络平台发布的对产品的各属性的评价信息,包括:

通过网络爬虫技术获取用户在网络平台发布的对产品的各属性的评价信息。

在本发明一实施例中,所述通过网络爬虫技术获取用户在网络平台发布的对产品的各属性的评价信息,包括:

爬取所述网络平台对应的统一资源定位符URL;

加载所述URL对应的网页,获取所述网页中用户对产品的各属性的评价信息。

在本发明一实施例中,所述爬取所述网络平台对应的URL,包括:

爬取用户在预设时间段内访问的所有的网页的URL;

从所述所有的网页的URL中筛选出所述网络平台对应的URL。

在本发明一实施例中,所述通过网络爬虫技术获取用户在网络平台发布的对产品的各属性的评价信息,包括:

爬取所述网络平台对应的URL;

解析所述URL中的脚本代码;

加载所述URL和所述脚本代码,获取所述网页中用户对产品的各属性的评价信息。

在本发明一实施例中,所述获取所述网页中用户对产品的各属性的评价信息之前,还包括:

对所述URL进行去重复处理。

在本发明一实施例中,所述获取用户在网络平台发布的对产品的各属性的评价信息,包括:

根据情感词库,获取用户在网络平台发布的对产品的各属性的评价信息。

在本发明一实施例中,所述根据情感词库,获取用户在网络平台发布的对产品的各属性的评价信息之前,还包括:

通过用户的词汇使用习惯,建立所述情感词库。

在本发明上述实施例中,所述根据所述评价信息,确定产品的功能信息,包括:

通过神经网络训练模型对所述评价信息进行处理,确定产品的功能信息。

本发明提供一种信息处理装置,包括:

获取模块,用于获取用户在网络平台发布的对产品的各属性的评价信息;

处理模块,用于根据所述评价信息,确定产品的功能信息。

在本发明一实施例中,获取模块具体用于通过网络爬虫技术获取用户在网络平台发布的对产品的各属性的评价信息。

在本发明一实施例中,述获取模块具体用于爬取所述网络平台对应的统一资源定位符URL;加载所述URL对应的网页,获取所述网页中用户对产品的各属性的评价信息。

在本发明一实施例中,获取模块具体用于爬取用户在预设时间段内访问的所有的网页的URL;从所述所有的网页的URL中筛选出所述网络平台对应的URL

在本发明一实施例中,获取模块具体用于爬取所述网络平台对应的URL;解析所述URL中的脚本代码;加载所述URL和所述脚本代码,获取所述网页中用户对产品的各属性的评价信息。

在本发明一实施例中,获取模块还用于对所述URL进行去重复处理。

在本发明一实施例中,获取模块具体用于根据情感词库,获取用户在网络平台发布的对产品的各属性的评价信息。

在本发明一实施例中,所述获取模块还用于通过用户的词汇使用习惯,建立所述情感词库。

在本发明上述实施例中,所述处理模块具体用于通过神经网络训练模型对所述评价信息进行处理,确定产品的功能信息。

本发明提供一种信息处理方法及装置,通过获取用户在网络平台发布的对产品的各属性的评价信息,并根据评价信息确定产品的功能信息。本发明提供的信息处理方法及装置,能够从用户在网络平台发布的对产品的评价信息确定产品的功能信息,提高了信息处理的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明信息处理方法实施例一的流程示意图;

图2为本发明信息处理方法实施例二的流程示意图;

图3为本发明信息处理方法实施例三的流程示意图;

图4为本发明网络爬虫系统实施例一的结构示意图;

图5为本发明网络爬虫系统实施例一的流程示意图;

图6为本发明用户价值模型示意图;

图7为本发明用户价值模型建立过程示意图;

图8为本发明属性层到目标层的映射示意图;

图9为本发明信息处理装置实施例一的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为本发明信息处理方法实施例一的流程示意图。如图1所示,本实施例信息处理方法包括以下步骤:

S101:获取用户在网络平台发布的对产品的各属性的评价信息。

其中,产品的属性是用户对产品性能的需求。例如:产品的属性可以包括:产品电池的使用时间,产品的外壳的可靠程度,产品通话时的信号强弱等等。网络平台可以是微博、论坛等用户可以发布原创信息的网站。

获取评价信息一种可能的实现方式为,以产品名称为关键字,在用户在网络平台发表的信息中搜索该关键字,提取其中用户对产品的属性的评价信息。

获取评价信息另一种可能的实现方式为,用户使用某产品发布对于该产品的评价信息,则该产品在用户发布评价信息时获取该评价信息。

S102:根据评价信息,确定产品的功能信息。

其中,根据S101中获取的评价信息,确定产品的功能信息。功能信息是产品设计人员基于用户对产品的属性的评价信息,在设计上考虑的产品的特征。

本实施例,通过获取用户在网络平台发布的对产品的各属性的评价信息,并根据评价信息确定产品的功能信息,能够从用户在网络平台发布的对产品的评价信息确定产品的功能信息,提高了信息处理的效率。

图2为本发明信息处理方法实施例二的流程示意图。如图2所示,本实施例信息处理方法包括以下步骤:

S201:通过网络爬虫技术获取用户在网络平台发布的对产品的各属性的评价信息。

其中,网络爬虫从网站的某一个页面开始,读取页面内容,并沿着页面内的链接地址访问其他网页并读取网页内容,直至获取完网站上的所有网页的内容。

S202:根据评价信息,确定产品的功能信息。

本步骤的详细描述参见步骤S102,此处不再赘述。

本实施例,通过网络爬虫技术获取用户在网络平台发布的对产品的各属性的评价信息,并根据评价信息确定产品的功能信息,能够从用户在网络平台发布的对产品的评价信息确定产品的功能信息,提高了信息处理的效率。

进一步地,在上述实施例中,通过网络爬虫技术获取用户在网络平台发布的对产品的各属性的评价信息,包括:爬取网络平台对应的统一资源定位符(Uniform Resource Locator,简称:URL);加载URL对应的网页,获取网页中用户对产品的各属性的评价信息。

具体地,本实施例中提供的网络爬虫在工作过程中将爬取URL和加载URL对应的网页两个过程分离开,成为两个独立的过程。首先,爬取URL过程从一个初始URL开始,循环爬取网页中符合特定格式的URL,并建立URL资源库,将爬取到的URL都放入URL资源库中。随后加载网页,加载网页时,只加载URL资源库中的URL对应的网页。

可选地,本实施例的网络爬虫的爬取策略可以由用户配置。用户配置的方式可以包括,例如:用户指定浏览娱乐网站或新闻网站,则爬取URL时,只爬取娱乐网站和新闻网站的URL;或者根据用户平时的浏览习惯,用户常浏览股票网站,则自动将URL爬取的范围设置为只爬取股票网站的URL。通过用户配置的URL爬取策略,指导URL爬取过程中,过滤无效链接并将符合URL爬取策略的URL保存至URL资源库,从而形成个性化的URL爬取。

可选地,用户还可以设置URL爬取的范围。例如,网络爬虫可以针对整个Wap的URL进行爬取、针对目标站点的URL进行爬取或者针对符合特定结构的URL进行爬取。

进一步地,在上述实施例中,爬取网络平台对应的URL包括:爬取用户在预设时间段内访问的所有的网页的URL;从所有的网页的URL中筛选出网络平台对应的URL。

本实施例中,先爬取用户在预设时间内访问的所有网页的URL,并将所有爬取到的URL都储存在URL资源库中。为了获取网络平台对应的URL,则在URL资源库中筛选出网络平台对应的URL。

本实施例,通过网络爬虫技术爬取网络平台对应的URL,将网络爬虫工作过程中URL爬取和加载网页两个过程分离开,提高了网络爬虫的工作效率;并通过网络平台对应的URL获取用户在网络平台发布的对产品的各属性的评价信息,根据评价信息确定产品的功能信息,能够从用户在网络平台发布的对产品的评价信息确定产品的功能信息,提高了信息处理的效率。

图3为本发明信息处理方法实施例三的流程示意图。如图3所示,本实施例信息处理方法中的网络爬虫支持动态页面数据的采集,本实施例信息处理方法包括以下步骤:

S301:爬取所述网络平台对应的URL。

其中,爬取URL过程从一个初始URL开始,循环爬去网页中网络平台对应的URL。

S302:解析所述URL中的脚本代码。

可选地,本发明实施例应用于手机上时,采用手机渲染引擎实现的浏览器作为系统核心,在爬取URL过程中,浏览器与脚本内容相互协作,加载超文本标记语言(HyperText Markup Language,简称:HTML)网页并解析脚本代码,提取运行时的动态页面数据,写入本地静态HTML文件中,实现动态页面数据的采集。

S303:加载URL和脚本代码,获取网页中用户对产品的各属性的评价信息。

可选地,本发明实施例应用于手机上时,当浏览器和脚本内容相互协作时,加载URL和对应的脚本代码,从而通过脚本代码提取分页内容,得到动态页面数据。并通过动态页面内的数据获取网页中用户对产品的各属性的评价信息。

S304:根据所述评价信息,确定产品的功能信息。

本步骤的详细描述参见步骤S102,此处不再赘述。

可选地,图4为本发明网络爬虫系统实施例一的结构示意图。如图4所示,本发明信息处理方法的网络爬虫系统包括:手机浏览器、URL爬取模块、URL资源库、脚本生成模块、翻页脚本和储存在用户本地终端上的数据(简称:Cookie)管理。网络爬虫系统通过手机浏览器访问无线应用通信协议(Wireless Application Protocol,简称:Wap)网站,以获得Wap上的信息源。网络爬虫系统通过应用程序界面呈献给手机使用者。其中,手机浏览器访问URL,加载、解析并渲染网页,执行对应此网页结构的翻页脚本,获取分页内容。URL爬取模块用来抽取动态页面网站模型中不同页面之间实现跳转的URL。URL爬取模块按照一定的字符串过滤规则爬取网页中匹配特定格式的URL。可选地,URL爬取模块在抽取过程中使用广度优先的搜索方法,完成当前层次的搜索后进行下一层次的搜索,当爬取的URL到达一定数量后停止抽取。URL资源库是一个文本文件,用来存储URL爬取模块爬取到的URL。脚本生成模块通过用户在网页内容上的标注及相关的参数设置,脚本生成模块自动生成针对某一样本页面的翻页脚本文件。翻页脚本是一段脚本代码,是一个以脚本格式保存的独立文件,这段代码在手机浏览器中执行,用来在网页中定位点击元素并模拟点击操作,从而实现翻页的效果。Cookie管理负责Cookie的管理工作,主要包括Cookie的读取、保存和清除操作。

可选地,图5为本发明网络爬虫系统实施例一的流程示意图。如图5所示,采用手机渲染引擎实现的浏览器作为系统核心,当流程开始后,手机浏览器提取初始URL的页面内容,写入本地静态HTML文件中,并从初始的URL中爬取URL并加入URL资源库,随后执行爬取到的URL上的翻页脚本代码进行翻页,随后判断是否已获取该爬取到的URL上到最后一个页面,若否,则手机浏览器继续爬取URL;若是,则返回URL资源库。之后,判断URL是否爬取完,若是,则结束URL爬取;若否,返回手机浏览器,继续对初始URL内的URL进行爬取。

本实施例,通过网络爬虫技术爬取网络平台对应的URL,将网络爬虫工作过程中URL爬取和加载网页两个过程分离开,并利用该网络爬虫采集动态页面,提高了网络爬虫的工作效率;并通过网络平台对应的URL获取用户在网络平台发布的对产品的各属性的评价信息,根据评价信息确定产品的功能信息,能够从用户在网络平台发布的对产品的评价信息确定产品的功能信息,提高了信息处理的效率。

进一步地,在上述实施例中,获取网页中用户对产品的各属性的评价信息之前,还包括:对URL进行去重复处理。

其中,对URL进行去重复处理包括:完成对URL重复内容的筛选并删除重复的URL。筛选URL中的广告内容并删除该URL。

本实施例,通过网络爬虫技术爬取网络平台对应的URL,对URL中重复内容及广告内容进行筛选并删除,完成了对URL的清理,本发明在URL层面对重复内容和广告内容进行了处理,提高了对重复内容和广告内容处理的效率;并通过网络平台对应的URL获取用户在网络平台发布的对产品的各属性的评价信息,根据评价信息确定产品的功能信息,能够从用户在网络平台发布的对产品的评价信息确定产品的功能信息,提高了信息处理的效率。

进一步地,在上述实施例中,获取用户在网络平台发布的对产品的各属性的评价信息,包括:根据情感词库,获取用户在网络平台发布的对产品的各属性的评价信息。

其中,情感词库为能够表示情感的词汇。例如,用户在网络平台发布产品属性的评价信息为:“电池很好用”。则“好用”为用户表达肯定的词汇。

一种可能的实施方式为,情感词库提前设定,用于表示肯定、否定和中立情感的词汇可以分为:肯定词汇、否定词汇和中立词汇。当获取到用户在网络平台发布的产品属性的的评价信息时,根据情感词库判断用户对属性的评价信息中表示情感的词汇是肯定词汇、否定词汇或是中立词汇。

进一步地,在上述实施例中,根据情感词库获取用户在网络平台发布的对产品的各属性的评价信息之前,还包括:通过用户的词汇使用习惯,建立情感词库。

一种可能的实施方式为,根据用户的词汇使用习惯,借助加权及统计的方法,得到用户使用对应词汇时所表达的情感,并将对应的词汇加入情感词库。例如,用户多次使用“点赞”一词来表达肯定,则将该词汇加入情感词库用来表示肯定,当获取到用户在网络平台发布的产品属性的的评价信息为“给电池点赞”时,通过“点赞”一词判断用户所表达的情感为肯定。

进一步地,在上述各实施例中,根据评价信息确定产品的功能信息包括:通过神经网络训练模型对评价信息进行处理,确定产品的功能信息。

一种可能的实现方式为,建立用户价值模型,图6为本发明用户价值模型示意图。如图6所示,用户价值模型包括:属性层、结论层和目标层。其中,属性层为评价信息,目标层为功能信息。具体地,属性层中包括来自于用户在网络平台上发布的对产品各属性的评价信息,经过预处理及情感分析得到量化数值;结论层是根据产品各属性选取的更能描述用户对产品性能需求的抽象级别的特征;目标层是产品设计人员在设计上考虑的功能特征。

可选地,图7为本发明用户价值模型建立过程示意图,如图7所示,用户价值模型建立过程包括:模型定义、输入数据、处理数据、建模、输出数据。其中,模型定义根据具体的产品来对其定义顾客价值模型,针对模型中定义的属性,从网络平台中提取用户对产品的各属性的评价信息用于建立样本。输入数据为从网络平台中提取的用户对产品的各属性的评价信息,这些评价信息中包含了所定义的模型中的属性。处理数据包括对评价信息进行去重复、去广告等操作。建模为建立属性层至目标层的建模,可选地,使用基于MAPReduce思想的反向传播(Back Propagation,简称:BP)神经网络算法。输出数据通过建立好的模型,使用统计信息,对产品的用户价值进行计算。

可选地,实际的属性层可能会对结论层中的一个或多个属性有影响,结论层可能会对目标层中的一个或多个属性有影响,表1对这些关联关系进行简化的一种可能的实现方式:

表1

可选地,通过神经网络训练模型对评价信息进行处理,确定产品的功能信息包括:将产品属性层到目标层的映射通过神经网络模型实现。图8为本发明属性层到目标层的映射示意图,如图8所示,将计算模型定义为一个BP神经网络,将用户对产品的各属性的评价信息作为输入,利用神经网络训练模型,进而计算产品的功能信息的输出,从而得到在目标层上用户对产品的评价。其中,BP神经网络的流程为,首先初始化随后进行正向传播和误差计算,并判断误差是否小于固定值,若是,则流程结束;若否,则反向传播并重复正向传播和误差计算,直至误差小于固定值流程结束。

本实施例提供的信息处理方法,能够从用户在网络平台发布的对产品的评价信息确定产品的功能信息,提高了信息处理的效率。

图9为本发明信息处理装置实施例一的结构示意图,本实施例的装置包括:获取模块901和处理模块902,其中获取模块901用于获取用户在网络平台发布的对产品的各属性的评价信息,处理模块902用于根据所述评价信息,确定产品的功能信息。

本实施例的装置对应地可用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

在上述实施例中,获取模块901具体用于通过网络爬虫技术获取用户在网络平台发布的对产品的各属性的评价信息

本实施例的装置对应地可用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

在上述实施例中,获取模块901具体用于爬取网络平台对应的URL;加载URL对应的网页,获取网页中用户对产品的各属性的评价信息。

在上述实施例中,获取模块901具体用于爬取用户在预设时间段内访问的所有的网页的URL;从所述所有的网页的URL中筛选出所述网络平台对应的URL。

在上述实施例中,获取模块901具体用于爬取网络平台对应的URL;解析URL中的脚本代码;加载URL和脚本代码,获取网页中用户对产品的各属性的评价信息。

本实施例的装置对应地可用于执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

在上述实施例中,获取模块901还用于对所述URL进行去重复处理。

在上述实施例中,获取模块901具体用于根据情感词库,获取用户在网络平台发布的对产品的各属性的评价信息。

在上述实施例中,根据情感词库,所述获取模块还用于通过用户的词汇使用习惯,建立所述情感词库。

在上述各实施例中,处理模块902具体用于通过神经网络训练模型对所述评价信息进行处理,确定产品的功能信息。

本实施例的装置对应地可用于执行图6-图8所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1