设备信息处理方法及装置与流程

文档序号:12363894阅读:189来源:国知局
设备信息处理方法及装置与流程
本发明涉及到数据处理
技术领域
,特别涉及到设备信息处理方法及装置。
背景技术
:随着终端技术的不断发展,越来越多的终端进入人们的日常生活和工作中,且伴随着终端的增多,终端的品牌、机型和系统也在增多。以Android系统为例,Android平台的开放性,使得Android平台在经由刷机、ROOT等人为操作后,终端的硬件参数变得无法获取,或者获取到的是人为修改的信息,五花八门,没有标准。目前采集终端硬件信息一般通过智能手机API接口,采样收集硬件信息,除样本量不足外,还会因脱离了用户使用的实际场景,无法覆盖到各种实际过程中复杂的真实硬件环境(如刷机、root等),导致收集的硬件数据的准确性和覆盖度都不高;机型获取方式主要是通过采用人工收集和维护机型信息,收集到的机型信息无法与终端采集的信息进行直接匹配使用,也导致可用性极低。综上,现有方式下获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低。技术实现要素:本发明实施例提供一种设备信息处理方法及装置,旨在解决的现有方式下获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低问题。为实现上述目的,本发明实施例提出一种设备信息处理方法,包括:在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;将所述待处理的设备信息拼接到搜索引擎的URL地址中;通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本,并将所述输入文本与所述第二信息库的输入文本比对;在所述输入文本与所述第二信息库的输入文本匹配时,关联所述输入文本与所述第二信息库的输入文本。为了实现上述目的,本发明实施例还进一步提出一种设备信息处理装置,包括:读取模块,用于在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;拼接模块,用于将所述待处理的设备信息拼接到搜索引擎的URL地址中;获取模块,用于通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本;比对模块,用于将所述输入文本与所述第二信息库的输入文本比对;关联模块,用于在所述输入文本与所述第二信息库的输入文本匹配时,关联所述输入文本与所述第二信息库的输入文本。本发明通过将待处理信息拼接到搜索引擎的URL地址中,通过输入文本的比对,关联设备信息,即建立设备信息词语转换关系。有效避免现有设备信息处理方式下存在获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低的问题,使得设备信息读取方便,获取的设备信息准确性高且提高了设备信息采集和维护的智能化程度。附图说明图1为本发明实施例设备信息获取装置所涉及的硬件架构示意图;图2为本发明设备信息获取方法的第一实施例的流程示意图;图3为本发明将所述输入文本与所述第二信息库的输入文本比对一实施例的流程示意图;图4为本发明设备信息获取方法的第二实施例的流程示意图;图5为本发明灯塔机能库一实施例的整体架构图;图6为本发明数据处理部分一实施例的整体设计框架图;图7为本发明数据处理部分一实施例的流程示意图;图8为本发明分词结果处理和优化测试一实施例的示意图;图9为本发明归类后用作统计的品牌归类结果一实施例的示意图;图10为本发明归类后用作统计的机型归类结果一实施例的示意图;图11为本发明设备信息获取装置的第一实施例的功能模块示意图;图12为图11中比对模块第一实施例的细化功能模块示意图;图13为本发明设备信息获取装置的第一实施例的功能模块示意图。本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明实施例的主要解决方案是:在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;将所述待处理的设备信息拼接到搜索引擎的URL地址中;通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本,并将所述输入文本与所述第二信息库的输入文本比对;在所述输入文本与所述第二信息库的输入文本匹配时,关联所述输入文本与所述第二信息库的输入文本。通过将搜索引擎获取的设备信息自动化,词语描述建立起予以转换对应关系,实现品牌、机型字段的语义规整,使得设备信息读取方便,获取的设备信息准确性高且提高了设备信息采集和维护的智能化程度。由于现有设备信息处理方式下存在获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低的问题。本发明实施例架构一设备信息获取装置,该设备信息获取装置通过将待处理信息拼接到搜索引擎的URL地址中,通过输入文本的比对,关联设备信息,即建立设备信息词语转换关系。有效避免现有设备信息处理方式下存在获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工 采集和维护智能化程度低的问题,使得设备信息读取方便,获取的设备信息准确性高且提高了设备信息采集和维护的智能化程度。其中,本实施例设备信息获取装置可以承载于PC端,也可以承载于手机、平板电脑等可以获取和查询设备信息的电子终端。该设备信息获取装置所涉及的硬件架构可以如图1所示。图1示出了本发明实施例设备信息获取装置所涉及的硬件架构。如图1所示,所述设备信息获取装置所涉及的硬件包括:处理器301,例如CPU,网络接口304,用户接口303,存储器305,通信总线302。其中,通信总线302用于实现该信息推送平台中各组成部件之间的连接通信。用户接口303可以包括显示屏(Display)、键盘(Keyboard)、鼠标等组件,用于接收用户输入的信息,并将接收的信息发送至处理器305进行处理。显示屏可以为LCD显示屏、LED显示屏,也可以为触摸屏,用于显示设备信息获取装置需要显示的数据,例如显示设备信息查询、设备信息获取等操作界面。可选用户接口303还可以包括标准的有线接口、无线接口。网络接口304可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器305可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器305可选的还可以是独立于前述处理器301的存储装置。如图1所示,作为一种计算机存储介质的存储器305中可以包括操作系统、网络通信模块、用户接口模块以及设备信息获取程序。在图1所示的设备信息获取装置所涉及的硬件中,网络接口304主要用于连接应用平台,与应用平台进行数据通信;用户接口303主要用于连接客户端,与客户端进行数据通信,接收客户端输入的信息和指令;而处理器301可以用于调用存储器305中存储的设备信息获取程序,并执行以下操作:在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;将所述待处理的设备信息拼接到搜索引擎的URL地址中;通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本,并将所述输入文本与所述第二信息库的输入文本比对;在所述输入文本与所述第二信息库的输入文本匹配时,关联所述输入文本与所述第二信息库的输入文本。进一步地,在一个实施例中,处理器301调用存储器305中存储的设备信息获取程序可以执行以下操作:将所述输入文本分词得到分词后的输入文本;从所述第二信息库中获取分词输入文本,将所述分词后的输入文本与所述分词输入文本比对。进一步地,在一个实施例中,处理器301调用存储器305中存储的设备信息获取程序可以执行以下操作:在所述输入文本与所述第二信息库的输入文本不匹配时,按照预设方式从所述输入文本及所述第二信息库的输入文本中选取预设数量的输入文本并保存;接收基于所述选取的输入文本的关联指令,将所述关联指令对应的输入文本关联。进一步地,在一个实施例中,处理器301调用存储器305中存储的设备信息获取程序可以执行以下操作:接收通过SDK上报的设备信息,将所述上报的设备信息保存作为第一信息库。进一步地,在一个实施例中,处理器301调用存储器305中存储的设备信息获取程序可以执行以下操作:通过第三方网站获取设备信息,并对所述获取的设备信息进行分词作为分词输入文本保存为第二信息库。本实施例根据上述方案,通过将待处理信息拼接到搜索引擎的URL地址中,通过输入文本的比对,关联设备信息,即建立设备信息词语转换关系。有效避免现有设备信息处理方式下存在获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低的问题,使得设备信息读取方便,获取的设备信息准确性高且提高了设备信息采集和维护的智能化程度。基于上述硬件架构,提出本发明设备信息获取方法实施例。如图2所示,提出本发明一种设备信息获取方法的第一实施例,所述设备信息获取方法包括:步骤S10,在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;在本实施例中,提前建立第一信息库和第二信息库,所述第一信息库包括设备信息,所述设备信息包括但不限于设备品牌、机型、RAM、ROM等设备硬件信息,所述第二信息库为设备信息,包括但不限于品牌、机型、是否主键等设备硬件信息。所述构建第一信息库的过程包括:接收通过SDK上报的设备信息,将所述上报的设备信息保存作为第一信息库。具体的,通过调用智能设备的API接口,通过固定事件rqd_model上报包括品牌、机型、RAM、ROM等设备硬件信息,按照日常经验和实际数据分析发现,一般来说,一个智能设备的品牌+机型+ROM+网络制式就能唯一确认一款机型,其他的参数在这四个参数一致时,其他参数信息均相同(山寨、刷机等特殊情况除外,此信息可用作刷机的判断因素之一)。而网络制式信息,与人们日常使用的场景相关,经分析,可暂时不用作唯一机型的判定的关键KEY值;ROM参数为数值型,规范化整理规则相对简单,因此,在本实施例中,主要用于品牌、机型字段的自动化规范。第一信息库表示实例如表1所示:表1创建第二信息库的过程可以包括:通过第三方网站获取设备信息,并对所述获取的设备信息进行分词作为分词输入文本保存为第二信息库。所述第三方网站包括主流手机官网、工信部网站、第三方手机信息网站等,通过从上述网站获取设备信息,组成网络机型库数据,通过分词工具将所述获取的设备信息进行分子,作为分词输入文本。第二信息库表示实例如表2所示:字段名字段含义是否主键字段取值举例Brand品牌Y三星Model机型YGT-I9100……表2在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息数据,即从所述第一信息库中读取需要“规范化”处理的数据。优选地,所述待处理的设备信息为所述第一信息库中保存的设备信息的关键词信息,按行存入文本文件,作为输入源。步骤S20,将所述待处理的设备信息拼接到搜索引擎的URL地址中;在本实施例中,Python提供现成的http协议方法,将输入关键词信息以参数形式拼接到搜索引擎的URL地址中(如:输入“MI2手机”,则拼接成URL地址为:http:m.baidu.com/s?word=MI+2+%E6%89%B%E6%9C%BA)。步骤S30,通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本,并将所述输入文本与所述第二信息库的输入文本比对;在将设备信息拼接在URL地址中后,访问该URL,抓取返回的数据包作为分词解析的输入文本。对文本进行分词处理,将所述输入文本与第二信息库中的输入文本比对,以确定所述输入文本与所述第二信息库中的输入文本是否匹配具体的,参考图3,所述将所述输入文本与所述第二信息库的输入文本比对的过程包括:步骤S31,将所述输入文本分词得到分词后的输入文本;步骤S32,从所述第二信息库中获取分词输入文本,将所述分词后的输入文本与所述分词输入文本比对。将所述输入文本通过分词工具进行分词,得到分词后的输入文本,所述分词操作利用开源项目jieba分词提供的现成工具进行关键词提取,例如:jieba.analyse.extract_tags(sentence.copk),说明:其中sentence为待提取的输入文本,在本项目中为通过第一信息库关键词搜索返回的文本;topk为返回权重最大的关键词,本项目中优选为返回5个权重最大的关键词;所述topk为手动归类所需要用到的关键词信息。步骤S40,在所述输入文本与所述第二信息库的输入文本匹配时,关联所 述输入文本与所述第二信息库的输入文本。在所述输入文本与所述第二信息库的输入文本匹配时,即在分词后的输入文本与第二信息库中的分词输入文本匹配时,自动回写数据库,关联匹配的输入文本合并回写数据库。本实施例通过将待处理信息拼接到搜索引擎的URL地址中,通过输入文本的比对,关联设备信息,即建立设备信息词语转换关系。有效避免现有设备信息处理方式下存在获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低的问题,使得设备信息读取方便,获取的设备信息准确性高且提高了设备信息采集和维护的智能化程度。进一步地,基于上述设备信息获取方法的第一实施例,提出本发明的第二实施例。如图4所示,所述步骤S30之后,还可以包括:步骤S50,在所述输入文本与所述第二信息库的输入文本不匹配时,按照预设方式从所述输入文本及所述第二信息库的输入文本中选取预设数量的输入文本并保存;步骤S60,接收基于所述选取的输入文本的关联指令,将所述关联指令对应的输入文本关联。在本实施例中,所述预设方式为TF-IDF(termfrequency–inversedocumentfrequency,词频-逆文档频率指数),TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被引擎应用,作为文件与用户查询之间相关程度的度量或评级。所述预设数量优选为5个,即选取5个权重值最大的关键词信息,写入到人工归类系统中,供人工帅选,手工建立“关系”,即,接收基于所述选取的输入文本的关联指令,将所述关联指令对应的输入文本关联。以上过程,已经通过Python脚本实现自动化,在数据工厂中配置例行调度任务,按天执行。本实施例中通过在输入文件与所述第二信息库中的输入文本不匹配时,按照预设方式输出部分输入文件,供人工建立关联关系,进一步保证设备信息的准确度。为了更好的描述本发明设备信息处理过程,以灯塔为例,参考图5,为灯塔机能库的整体架构图,在灯塔机能中一些名词解释,qimei:灯塔项目中解决识别移动终端唯一标识的身份ID,该ID基于移动终端各种固有ID(如IMEI,MAC、IMSI等ID,在实际的复杂场景中均无法有效识别唯一一款终端设备)经过数学方法进行计算,最终达到确认唯一终端设备的目的;灯塔:基于终端的运营解决方案,功能包括用户分析、终端分析、网络分析、APP质量优化等,为移动APP提供全方位运营服务的平台产品;灯塔SDK:在灯塔解决方案中,用于嵌入到智能终端APP中,在用户授权范围内,用于采集智能终端相关信息和APP相关信息的软件开发工具套件;词库:分词过程中,为特定领域的语料提高分词成功率,提供的该领域语料的词库,本文中,指通过网络爬虫获取的信息,整理筛选出智能终端品牌、机型信息的词汇集合,整理成“手机品牌词库”和“手机机型词库”。灯塔上报:真实的海量用户终端硬件信息,形成灯塔机能库;工信部、评测门户、厂商官网、业务自身维护的机型库;多种数据源,几乎覆盖市面上全部的品牌、机型信息,形成爬虫网络机型库;数据处理部分整体设计框架,按信息自动化规划过程分为四个部分,参考图6:1、构建灯塔机能库和爬虫网络机型库;2、构建灯塔机能库与爬虫机能库之间关键词的“语义关联关系”;3、人工干预,查漏补缺;4、双库信息合并。详细步骤流程如图7所示:分词结果处理和优化测试如图8所示:以如下数据为例:XIAOMIMI3@小米,MI3,XIAOMI,秘密,XIAOMIMI3WCDMA。输入的查询关键词为XIAOMIMI3;返回的分词结果为:按词频+逆文频率排序的top5词,将top5返回词语“词库”一一匹配,匹配上,则关系构建成功;匹配不上,进入人工匹配环节。归类后用作统计的计算结果展示如图9,为品牌归类结果;如图10所示,为机型归类结果。本实施例中的爬虫程序可以用不同的语言实现(如perl、ruby等);同时针对不同的场景和用途,可自行建立个性化的“词库”和“语料库”,用来调整分词的准确度和TF-IDF指数;还可以通过不同的搜 索引擎来替代,亦可自行建立搜索引擎;分词工具可采用其他类似的工具或者自编写工具;人工关联规则,也有一定的人工痕迹,可根据具体的应用场景不同来制定更适合的关联规则。本发明的应用价值在于,能够利用公开的技术和工具,在有限的人力投入的情况下,构建一套自动的“语义转换关系”的系统,大幅提升终端机能库信息的准确性和可读性的同时,降低人工维护成本。对应地,提出本发明设备信息获取装置的较佳实施例。参考图8,所述设备信息获取装置包括获取模块10、拼接模块20及推送模块30。所述读取模块10,用于在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;在本实施例中,提前建立第一信息库和第二信息库,所述第一信息库包括设备信息,所述设备信息包括但不限于设备品牌、机型、RAM、ROM等设备硬件信息,所述第二信息库为设备信息,包括但不限于品牌、机型、是否主键等设备硬件信息。所述构建第一信息库的过程包括:接收通过SDK上报的设备信息,将所述上报的设备信息保存作为第一信息库。具体的,通过调用智能设备的API接口,通过固定事件rqd_model上报包括品牌、机型、RAM、ROM等设备硬件信息,按照日常经验和实际数据分析发现,一般来说,一个智能设备的品牌+机型+ROM+网络制式就能唯一确认一款机型,其他的参数在这四个参数一致时,其他参数信息均相同(山寨、刷机等特殊情况除外,此信息可用作刷机的判断因素之一)。而网络制式信息,与人们日常使用的场景相关,经分析,可暂时不用作唯一机型的判定的关键KEY值;ROM参数为数值型,规范化整理规则相对简单,因此,在本实施例中,主要用于品牌、机型字段的自动化规范。第一信息库表示实例如表1所示:创建第二信息库的过程可以包括:通过第三方网站获取设备信息,并对所述获取的设备信息进行分词作为分词输入文本保存为第二信息库。所述第三方网站包括主流手机官网、工信部网站、第三方手机信息网站等,通过从上述网站获取设备信息,组成网络机型库数据,通过分词工具将所述获取的设备信息进行分子,作为分词输入文本。第二信息库表示实例如表2所示:在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信 息数据,即从所述第一信息库中读取需要“规范化”处理的数据。优选地,所述待处理的设备信息为所述第一信息库中保存的设备信息的关键词信息,按行存入文本文件,作为输入源。所述拼接模块20,用于将所述待处理的设备信息拼接到搜索引擎的URL地址中;在本实施例中,Python提供现成的http协议方法,将输入关键词信息以参数形式拼接到搜索引擎的URL地址中(如:输入“MI2手机”,则拼接成URL地址为:http:m.baidu.com/s?word=MI+2+%E6%89%B%E6%9C%BA)。所述获取模块30,用于通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本;所述比对模块40,用于将所述输入文本与所述第二信息库的输入文本比对;在将设备信息拼接在URL地址中后,访问该URL,抓取返回的数据包作为分词解析的输入文本。对文本进行分词处理,将所述输入文本与第二信息库中的输入文本比对,以确定所述输入文本与所述第二信息库中的输入文本是否匹配具体的,参考图12,所述比对模块40包括分词单元41和比对单元42,所述分词单元41,用于将所述输入文本分词得到分词后的输入文本;所述比对单元42,用于从所述第二信息库中获取分词输入文本,将所述分词后的输入文本与所述分词输入文本比对。将所述输入文本通过分词工具进行分词,得到分词后的输入文本,所述分词操作利用开源项目jieba分词提供的现成工具进行关键词提取,例如:jieba.analyse.extract_tags(sentence.copk),说明:其中sentence为待提取的输入文本,在本项目中为通过第一信息库关键词搜索返回的文本;topk为返回权重最大的关键词,本项目中优选为返回5个权重最大的关键词;所述topk为手动归类所需要用到的关键词信息。所述关联模块50,用于在所述输入文本与所述第二信息库的输入文本匹配时,关联所述输入文本与所述第二信息库的输入文本。在所述输入文本与所述第二信息库的输入文本匹配时,即在分词后的输入文本与第二信息库中的分词输入文本匹配时,自动回写数据库,关联匹配 的输入文本合并回写数据库。本实施例通过将待处理信息拼接到搜索引擎的URL地址中,通过输入文本的比对,关联设备信息,即建立设备信息词语转换关系。有效避免现有设备信息处理方式下存在获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低的问题,使得设备信息读取方便,获取的设备信息准确性高且提高了设备信息采集和维护的智能化程度。进一步地,基于上述设备信息获取装置的第一实施例,提出本发明设备信息获取装置的第二实施例。如图13所示,所述设备信息获取装置还可以包括:选取模块60、保存模块70和接收模块80,所述选取模块60,用于在所述输入文本与所述第二信息库的输入文本不匹配时,按照预设方式从所述输入文本及所述第二信息库的输入文本中选取预设数量的输入文本;所述保存模块70,用于将所选取的输入文本保存;所述接收模块80,用于接收基于所述选取的输入文本的关联指令;所述关联模块50,还用于将所述关联指令对应的输入文本关联。在本实施例中,所述预设方式为TF-IDF(termfrequency–inversedocumentfrequency,词频-逆文档频率指数),TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被引擎应用,作为文件与用户查询之间相关程度的度量或评级。所述预设数量优选为5个,即选取5个权重值最大的关键词信息,写入到人工归类系统中,供人工帅选,手工建立“关系”,即,接收基于所述选取的输入文本的关联指令,将所述关联指令对应的输入文本关联。以上过程,已经通过Python脚本实现自动化,在数据工厂中配置例行调度任务,按天执行。本实施例中通过在输入文件与所述第二信息库中的输入文本不匹配时,按照预设方式输出部分输入文件,供人工建立关联关系,进一步保证设备信息的准确度。为了更好的描述本发明设备信息处理过程,以灯塔为例,参考图5,为灯 塔机能库的整体架构图,在灯塔机能中一些名词解释,qimei:灯塔项目中解决识别移动终端唯一标识的身份ID,该ID基于移动终端各种固有ID(如IMEI,MAC、IMSI等ID,在实际的复杂场景中均无法有效识别唯一一款终端设备)经过数学方法进行计算,最终达到确认唯一终端设备的目的;灯塔:基于终端的运营解决方案,功能包括用户分析、终端分析、网络分析、APP质量优化等,为移动APP提供全方位运营服务的平台产品;灯塔SDK:在灯塔解决方案中,用于嵌入到智能终端APP中,在用户授权范围内,用于采集智能终端相关信息和APP相关信息的软件开发工具套件;词库:分词过程中,为特定领域的语料提高分词成功率,提供的该领域语料的词库,本文中,指通过网络爬虫获取的信息,整理筛选出智能终端品牌、机型信息的词汇集合,整理成“手机品牌词库”和“手机机型词库”。灯塔上报:真实的海量用户终端硬件信息,形成灯塔机能库;工信部、评测门户、厂商官网、业务自身维护的机型库;多种数据源,几乎覆盖市面上全部的品牌、机型信息,形成爬虫网络机型库;数据处理部分整体设计框架,按信息自动化规划过程分为四个部分,参考图6:1、构建灯塔机能库和爬虫网络机型库;2、构建灯塔机能库与爬虫机能库之间关键词的“语义关联关系”;3、人工干预,查漏补缺;4、双库信息合并。详细步骤流程如图7所示:分词结果处理和优化测试如图8所示:以如下数据为例:XIAOMIMI3@小米,MI3,XIAOMI,秘密,XIAOMIMI3WCDMA。输入的查询关键词为XIAOMIMI3;返回的分词结果为:按词频+逆文频率排序的top5词,将top5返回词语“词库”一一匹配,匹配上,则关系构建成功;匹配不上,进入人工匹配环节。归类后用作统计的计算结果展示如图9,为品牌归类结果;如图10所示,为机型归类结果。本实施例中的爬虫程序可以用不同的语言实现(如perl、ruby等);同时针对不同的场景和用途,可自行建立个性化的“词库”和“语料库”,用来调整分词的准确度和TF-IDF指数;还可以通过不同的搜索引擎来替代,亦可自行建立搜索引擎;分词工具可采用其他类似的工具或 者自编写工具;人工关联规则,也有一定的人工痕迹,可根据具体的应用场景不同来制定更适合的关联规则。本发明的应用价值在于,能够利用公开的技术和工具,在有限的人力投入的情况下,构建一套自动的“语义转换关系”的系统,大幅提升终端机能库信息的准确性和可读性的同时,降低人工维护成本。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1