一种行业信息识别方法及装置与流程

文档序号:23384037发布日期:2020-12-22 13:48阅读:135来源:国知局
一种行业信息识别方法及装置与流程

本申请实施例涉及机器学习技术领域,尤其涉及一种行业信息识别方法及装置。



背景技术:

公司名称可以在一定程度上反映出这个公司的经验范围以及行业分类,用户在填写行业时,可能会出现填写错误的情况,从而给审计带来一定的风险。目前,可以通过人工识别用户所填写的行业信息,然后人工分析用户所填行业是否存在错配的情况,虽然该方法可以比较准确地确定用户是否错误填写行业信息,但是这需要消耗大量人力,而且无法应对大数据场景。



技术实现要素:

由于采用人工识别行业信息的方法人力耗费大,且不适应大数据场景的问题,本申请实施例提供了一种行业信息识别方法及装置。

一方面,本申请实施例提供了一种行业信息识别方法,该方法包括:

获取待识别文本,采用行业关键词字典提取所述待识别文本对应的目标关键词,所述行业关键词字典中包括每个行业对应的关键词集合;

将所述待识别文本对应的目标关键词输入行业预测模型,确定所述待识别文本与每个行业的目标匹配概率;

根据所述待识别文本与每个行业的目标匹配概率确定所述待识别文本对应的目标行业。

一方面,本申请实施例提供了一种行业信息识别装置,包括:

提取模块,用于获取待识别文本,采用行业关键词字典提取所述待识别文本对应的目标关键词,所述行业关键词字典中包括每个行业对应的关键词集合;

预测模块,用于将所述待识别文本对应的目标关键词输入行业预测模型,确定所述待识别文本与每个行业的目标匹配概率;

匹配模块,用于根据所述待识别文本与每个行业的目标匹配概率确定所述待识别文本对应的目标行业。

可选地,还包括判定模块;

所述判定模块具体用于:

获取所述待识别文本对应配置的行业信息;

在确定的所述目标行业与所述对应配置的行业信息不匹配时,确定所述对应配置的行业信息异常。

可选地,所述提取模块具体用于:

采用行业关键词字典对待识别文本进行分词,从所述待识别文本中确定第一类关键词;

根据语义字典确定所述第一类关键词对应的语义解释文本;

采用所述行业关键词字典对所述第一类关键词对应的语义解释文本进行分词,从所述第一类关键词对应的语义解释文本中确定第二类关键词;

将所述第一类关键词和所述第二类关键词确定为所述待识别文本对应的目标关键词。

可选地,所述预测模块具体用于:

针对每个行业,根据在所述行业下每个目标关键词出现的概率、所述行业出现的概率以及所述待识别文本对应的目标关键词同时出现的概率确定所述待识别文本与所述行业的目标匹配概率。

可选地,所述预测模块具体用于:

针对每个行业,根据在所述行业下每个目标关键词出现的概率、所述行业出现的概率以及所述待识别文本对应的目标关键词同时出现的概率确定所述待识别文本与所述行业的初始匹配概率;

根据所述行业与其他行业之间的相似度确定所述行业的近邻行业;

根据所述待识别文本与所述行业的初始匹配概率、所述待识别文本与所述近邻行业的初始匹配概率、所述行业与所述近邻行业的相似度确定所述待识别文本与所述行业的目标匹配概率。

可选地,所述预测模块具体用于:

根据所述行业的关键词集合与其他任一行业的关键词集合之间的交集和并集,确定所述行业与其他任一行业之间的相似度;

将所述相似度满足预设条件的其他行业确定为所述行业的近邻行业。

可选地,所述预测模块还用于:

当所述行业与所述待识别文本对应配置的行业信息不匹配时,在所述行业下每个目标关键词出现的概率符合下述公式(1):

其中,p1(tj|ci)表示当行业ci与待识别文本对应配置的行业信息不匹配时,行业ci下出现目标关键词tj的概率,count(tj,ci)表示行业ci下出现目标关键词tj的次数,count(tj,ck)表示行业ck下出现目标关键词tj的次数,v为所有关键词集合,m为行业数量;

当所述行业与所述待识别文本对应配置的行业信息匹配时,在所述行业下每个目标关键词出现的概率符合下述公式(2):

其中,p2(tj|ci)表示当行业ci与待识别文本对应配置的行业信息匹配时,行业ci下出现目标关键词tj的概率,p1(tj|ci)表示当行业ci与待识别文本对应配置的行业信息不匹配时,行业ci下出现目标关键词tj的概率,α和β为置信度参数。

本申请实施例中,由于在获取待识别文本后,采用行业关键词字典提取待识别文本中的目标关键词,实现从待识别文本中提取表征行业信息的关键词,然后将目标关键词输入行业预测模型,确定待识别文本与每个行业的目标匹配概率,根据目标匹配概率确定待识别文本对应的目标行业,相较于人工识别行业信息来说,大大提高了识别效率,同时适用大数据场景。通过将目标行业与用户输入的行业信息进行比对,判断用户输入的行业信息是否错误,从而避免填错行业信息带来的风险。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用场景示意图;

图2为本申请实施例提供的一种应用程序界面的示意图;

图3为本申请实施例提供的一种应用程序界面的示意图;

图4为本申请实施例提供的一种应用程序界面的示意图;

图5为本申请实施例提供的一种行业信息识别装置的结构示意图;

图6为本申请实施例提供的一种行业信息识别方法的流程示意图;

图7为本申请实施例提供的一种构建行业关键词字典的方法的流程示意图;

图8为本申请实施例提供的一种提取目标关键词的方法的流程示意图;

图9为本申请实施例提供的一种行业信息识别方法的流程示意图;

图10为本申请实施例提供的一种行业信息识别装置的结构示意图;

图11为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

为了方便理解,下面对本申请实施例中涉及的名词进行解释。

tf_idf算法:termfrequency–inversedocumentfrequency,一种用于信息检索与数据挖掘的常用加权技术。tf意思是词频(termfrequency),idf意思是逆文本频率指数(inversedocumentfrequency)。

在具体实践过程中,公司名称可以在一定程度上反映出这个公司的经验范围以及行业分类,用户在填写行业时,可能会出现填写错误的情况,从而给审计带来一定的风险。目前,可以通过人工识别用户所填写的行业信息,然后人工分析用户所填行业是否存在错配的情况,但是该方法过于依赖人力,当数据量激增时,人工识别行业信息的方法将不再适应。

为此,考虑到行业信息一般采用特定的词语的表示,通过提取公司名称或公司简介中的与行业信息对应的关键词,可以预测对应的识别信息,鉴于此,本申请实施例提供了一种行业信息识别方法,该方法包括:首选获取待识别文本,并采用行业关键词字典提取待识别文本对应的目标关键词,行业关键词字典中包括每个行业对应的关键词集合。然后根据待识别文本对应的目标关键词和行业预测模型确定待识别文本与每个行业的目标匹配概率,之后再根据待识别文本与每个行业的目标匹配概率确定待识别文本对应的目标行业。

由于在获取待识别文本后,采用行业关键词字典提取待识别文本中的目标关键词,实现从待识别文本中提取表征行业信息的目标关键词,然后将目标关键词输入行业预测模型,确定待识别文本与每个行业的目标匹配概率,根据目标匹配概率确定待识别文本对应的目标行业,相较于人工识别行业信息来说,大大提高了识别效率,同时适用大数据场景。

本申请实施例中的行业信息识别方法可以应用于如图1所示的应用场景,在该应用场景中包括终端设备101、服务器102。

终端设备101是具备网络通信能力的电子设备,该电子设备可以是智能手机、平板电脑或便携式个人计算机等等。终端设备101上预先安装用于行业信息识别的应用程序。用户可以使用应用程序识别公司名称、公司简介等待识别文本对应的目标行业,然后还可以进一步判断目标行业与用户输入的行业信息是否匹配,及时发现用户填错行业信息的问题。应用程序可以单独识别并验证一个待识别文本,也可以批量识别并验证多个待识别文本。

示例性地,如图2所示,用户在启动终端设备101上的应用程序后,用户可以在显示界面的公司名称框中输入公司名称“xx公司”或者以下拉菜单的形式选择公司名称“xx公司”,然后在行业框中输入行业信息“xx行业”,之后点击提交按钮。

在一种可能的实施方式中,行业信息识别装置可以位于终端设备101中,终端设备101直接识别公司名称对应的目标行业,然后将目标行业与用户输入的行业信息进行比对,若匹配,则在显示界面中弹出对话框,在对话框中显示“行业信息正常”,具体如图3所示,否则在显示界面中弹出对话框,在对话框中显示“行业信息异常”,具体如图4所示。

在另一种可能的实施方式中,终端设备101通过无线网络与服务器102连接。行业信息识别装置可以位于服务器102中,终端设备101将公司名称和用户输入的行业信息发送至服务器102。服务器102识别公司名称对应的目标行业,然后将目标行业与用户输入的行业信息进行比对,若匹配,则返回“行业信息正常”的消息至终端设备101,终端设备101在显示界面中弹出对话框,在对话框中显示“行业信息正常”,具体如图3所示,否则返回“行业信息异常”的消息至终端设备101,终端设备101在显示界面中弹出对话框,在对话框中显示“行业信息异常”,具体如图4所示。

进一步地,在图1所示的应用场景图中,位于终端设备101或服务器102中的行业信息识别装置的结构如图5所示,包括关键词提取模块501,行业预测模块502和判定模块503。

关键词提取模块501用于采用行业关键词字典提取待识别文本中的关键词,关键词是具有行业识别能力的词。比如,公司名称为“宜宾市翠屏区伊依阁服装店”时,提取的关键词为“服装店”。

行业预测模块502用于根据待识别文本对应的目标关键词和行业预测模型确定待识别文本与每个行业的目标匹配概率,根据待识别文本与每个行业的目标匹配概率确定待识别文本对应的目标行业。比如根据关键词“服装店”和行业预测模型确定“宜宾市翠屏区伊依阁服装店”属于各个行业的概率,然后将概率满足预设条件的行业确定为“宜宾市翠屏区伊依阁服装店”的目标行业,目标行业可以是一个或多个。

判定模块503用于根据行业预测模块确定的待识别文本对应的目标行业和待识别文本对应配置的行业信息,判定对应配置的行业信息是否异常,对应配置的行业信息可以是用户输入的行业信息。比如,行业预测模块502确定“宜宾市翠屏区伊依阁服装店”属于服装行业,而用户输入的行业信息为餐饮行业,由此,可以判断用户输入的行业信息异常。

基于图1所示的应用场景图和图5所示的行业信息识别装置的结构示意图,本申请实施例提供了一种行业信息识别方法的流程,该方法的流程可以由行业信息识别装置执行,如图6所示,包括以下步骤:

步骤s601,获取待识别文本,采用行业关键词字典提取待识别文本对应的目标关键词。

具体地,待识别文本可以是公司名称,也可以是公司简介等段落。行业关键词字典中包括每个行业对应的关键词集合。

构建行业关键词字典的过程如图7所示,首选获取公司名称或公司简介作为初始语料,采用通用词典对初始语料进行分词,获得词列表,采用过滤词典过滤词列表中一些不重要的词,比如省市区县等名称,然后按照每个行业汇总过滤后的词,汇总格式为(行业-词)的词列表,获得训练语料。采用tf_idf算法计算每个行业下每个词的tf-idf值,从而得到词的tf-idf值库,格式为(行业-词-tf-idf值),然后根据tf-idf值对词进行筛选,去掉tf-idf值低于设定阈值的词,得到行业关键词字典。

步骤s602,将待识别文本对应的目标关键词输入行业预测模型,确定待识别文本与每个行业的目标匹配概率。

具体地,行业预测模型可以是朴素贝叶斯模型、神经网络模型等。将待识别文本对应的目标关键词输入行业预测模型,行业预测模型根据目标关键词预测待识别文本与每个行业的目标匹配概率。

步骤s603,根据待识别文本与每个行业的目标匹配概率确定待识别文本对应的目标行业。

当待识别文本与,某行业的目标匹配概率越高时,说明待识别文本对应的目标行业越有可能是该行业。待识别文本对应的目标行业可以是一个或多个,比如,将目标匹配概率最高的行业确定为待识别文本对应的目标行业。又比如,将待识别文本与每个行业的目标匹配概率按照从高到低进行排序,将排在前n位的行业确定为待识别文本对应的目标行业,n为预设阈值。再比如,将待识别文本与每个行业的目标匹配概率大于预设概率的行业确定为待识别文本对应的目标行业。

由于在获取待识别文本后,采用行业关键词字典提取待识别文本中的目标关键词,实现从待识别文本中提取表征行业信息的关键词,然后根据目标关键词和行业预测模型确定待识别文本与每个行业的目标匹配概率,根据目标匹配概率确定待识别文本对应的目标行业,相较于人工识别行业信息来说,大大提高了识别效率,同时适用大数据场景。

可选地,在步骤s603之后,获取待识别文本对应配置的行业信息,在确定的目标行业与对应配置的行业信息不匹配时,确定对应配置的行业信息异常。

具体实施中,待识别样本对应配置的行业信息可以是用户输入的行业信息。示例性地,设定待识别文本为“宜宾市翠屏区伊依阁服装店”,对“宜宾市翠屏区伊依阁服装店”进行行业信息识别,确定目标匹配概率排名前三的目标行业为“服装行业、零售行业、批发行业”,用户输入的行业信息为“餐饮行业”。由于用户输入的行业信息与识别的三个目标行业均不匹配,则确定用户输入行业信息异常。通过识别公司名称对应的目标行业,然后将目标行业与用户输入的行业信息进行比对,判断用户输入的行业信息是否错误,从而避免填错行业信息带来的风险。

可选地,在上述步骤s601中,在采用行业关键词字典提取待识别文本对应的目标关键词时,本申请实施例至少提供以下两种实施方式:

在一种可能的实施方式中,采用行业关键词字典对待识别文本进行分词,从待识别文本中确定第一类关键词,根据语义字典确定第一类关键词对应的语义解释文本。采用行业关键词字典对第一类关键词对应的语义解释文本进行分词,从第一类关键词对应的语义解释文本中确定第二类关键词,然后将第一类关键词和第二类关键词确定为待识别文本对应的目标关键词。

示例性地,如图8所示,设定一个公司名称为“xx超市”,首先采用行业关键词字典对“xx超市”进行分词,获得第一类关键词为“超市”。然后采用语义字典确定第一类关键词“超市”的解释文本为“超市即超级市场,一般是指商品开放陈列、顾客自我选购、排队收银结算,以经营生鲜食品、日杂用品为主的商店。一种消费者自助选购、统一收银结算的零售企业”。采用行业关键词字典对第一类关键词对应的语义解释文本进行分词,获得第二类关键词为“超市、市场、商品、经营、生鲜食品、日杂、用品、商店、自助、零售、企业”,进一步地,根据第一类关键词和第二关键词得到“xx超市”对应的目标关键词为“超市、市场、商品、经营、生鲜食品、日杂、用品、商店、自助、零售、企业”。由于在提取待识别文本的目标关键词时,不仅提取待识别文本中的关键词,同时提取关键词对应的解释文本中的关键词,故最终获取的目标关键词能更全面的表征待识别文本的特征,从而提高后续行业预测的准确性。

在一种可能的实施方式中,采用行业关键词字典对待识别文本进行分词,从待识别文本中确定待识别文本对应的目标关键词。

示例性地,设定待识别文本为公司简介,具体为“家乐福(carrefour)成立于1959年,是大卖场业态的首创者,是欧洲第一大零售商,世界第二大国际化零售连锁集团。现拥有11000多家营运零售单位,业务范围遍及世界30个国家和地区。集团以三种主要经营业态引领市场:大型超市、超市以及折扣店。此外,家乐福还在一些国家发展了便利店和会员制量贩店。”采用行业关键词字典对上述待识别文本进行分词,获得目标关键词为“卖场、零售、超市、折扣店、便利店、量贩店”。当待识别文件为公司简介等段落文字时,可以直接采用行业关键词字典对待识别文本进行分词,确定待识别文本对应的目标关键词,从而提高关键词提取的效率。

可选地,在上述步骤s602中,在将待识别文本对应的目标关键词输入行业预测模型,确定待识别文本与每个行业的目标匹配概率时,本申请实施例至少提供了以下两种实施方式:

在一种可能的实施方式中,针对每个行业,根据在该行业下每个目标关键词出现的概率、行业出现的概率以及待识别文本对应的目标关键词同时出现的概率确定待识别文本与行业的目标匹配概率,具体符合下述公式(3):

其中,p(ci|t1,t2,…,tn)表示目标关键词是t1,t2,…,tn的情况下待识别文本与行业ci的目标匹配概率,p(tj|ci)表示行业ci下出现目标关键词tj的概率,p(ci)表示行业ci出现的概率,p(t1,t2,…,tn)表示目标关键词t1,t2,…,tn同时出现的概率。具体实施中,p(t1,t2,…,tn)为每个目标关键词出现的概率p(tq)的乘积,q=1,2,…,n,p(ci)和p(tq)可以通过统计获得。

在另一种可能的实施方式中,针对每个行业,根据在该行业下每个目标关键词出现的概率、该行业出现的概率以及待识别文本对应的目标关键词同时出现的概率确定待识别文本与行业的初始匹配概率,然后根据该行业与其他行业之间的相似度确定该行业的近邻行业,之后再根据初始匹配概率和该行业与近邻行业的相似度确定待识别文本与行业的目标匹配概率。

具体地,根据在该行业下每个目标关键词出现的概率、该行业出现的概率以及待识别文本对应的目标关键词同时出现的概率确定待识别文本与行业的初始匹配概率符合下述公式(4):

其中,py(ci|t1,t2,…,tn)表示目标关键词是t1,t2,…,tn的情况下待识别文本与行业ci的初始匹配概率,p(tj|ci)表示行业ci下出现目标关键词tj的概率,p(ci)表示行业ci出现的概率,p(t1,t2,…,tn)表示目标关键词t1,t2,…,tn同时出现的概率。

在根据该行业与其他行业之间的相似度确定该行业的近邻行业时,可以先根据该行业的关键词集合与其他任一行业的关键词集合之间的交集和并集,确定该行业与其他任一行业之间的相似度,具体符合下述公式(5):

其中,表示行业ci与行业ck的相似度,表示行业ci的关键词集合,表示行业ck的关键词集合。

将相似度满足预设条件的其他行业确定为行业的近邻行业。

具体实施中,可以将其他行业按照相似度从大到小进行排序,将排在前m位的其他行业确定为该行业的近邻行业,m为预设阈值。示例性地,设定m为3,针对“服装行业”,计算“服装行业”与其他行业之间的相似度,相似度从大到小排序时,排在前三位的行业为“零售行业”、“批发行业”、“纺织行业”,则将这三个行业确定为“服装行业”的近邻行业。

再根据待识别文本与该行业的初始匹配概率、待识别文本与近邻行业的初始匹配概率、该行业与近邻行业的相似度确定待识别文本与行业的目标匹配概率,具体符合下述公式(6):

其中,p(ci|t1,t2,…,tn)表示目标关键词是t1,t2,…,tn的情况下待识别文本与行业ci的目标匹配概率,py(ck|t1,t2,…,tn)表示目标关键词是t1,t2,…,tn的情况下待识别文本与行业ck的初始匹配概率,表示行业ci与行业ck的相似度,s为行业ci的近邻行业集合,行业与自身的相似度是1。

由于行业间存在相似度较大的行业,它们之间可能会存在层级关系、同属大行业中的不同细分关系,所以在计算公司名称所属行业的概率时,可以融入该公司名称属于近邻行业的概率,然后按照行业相似度进行加权平均,实现相似行业的信息互通,从而提高预测准确率,减少行业错配识别的误报率。

可选地,在确定任一行业下每个目标关键词出现的概率时,本申请实施例至少提供以下两种实施方式:

在一种可能的实施方式中,采用下述公式(7)计算确定任一行业下每个目标关键词出现的概率:

其中,p(tj|ci)表示行业ci下出现目标关键词tj的概率,count(tj,ci)表示行业ci下出现目标关键词tj的次数,count(tj,ck)表示行业ck下出现目标关键词tj的次数,v为所有关键词集合,m为行业数量。

在一种可能的实施方式中,由于在填写行业信息时,大多数用户都会填写真实的行业信息,而这些真实的行业信息有助于降低误报率,故在计算任一行业下每个目标关键词出现的概率时,可以根据行业与待识别文本对应配置的行业信息的匹配情况,采用不同计算方式,具体地:

当行业与待识别文本对应配置的行业信息不匹配时,在该行业下每个目标关键词出现的概率符合下述公式(1):

其中,p1(tj|ci)表示当行业ci与待识别文本对应配置的行业信息不匹配时,行业ci下出现目标关键词tj的概率,count(tj,ci)表示行业ci下出现目标关键词tj的次数,count(tj,ck)表示行业ck下出现目标关键词tj的次数,v为所有关键词集合,m为行业数量。

当行业与待识别文本对应配置的行业信息匹配时,在该行业下每个目标关键词出现的概率符合下述公式(2):

其中,p2(tj|ci)表示当行业ci与待识别文本对应配置的行业信息匹配时,行业ci下出现目标关键词tj的概率,p1(tj|ci)表示当行业ci与待识别文本对应配置的行业信息不匹配时,行业ci下出现目标关键词tj的概率,α和β为置信度参数。

具体实施中,根据公司名称与行业信息的匹配度大小来决定多大程度相信用户,如果用户填写的行业信息与公司名称的匹配程度越高,那么对“用户已经填写了正确的行业信息”的事实给予越高的置信度,否则对此给予越低的置信度。故在确定置信度参数时,采用内嵌线性的指数增强公式,按照用户填写的行业信息与公司名称的匹配程度大小,指数性调高或调低置信度,因为指数函数具有斜率不断增大的特点,从而能实现根据行业匹配度高低给差别化的置信度功能,即随着匹配度增大,置信度的增速将不断放大。

由于在预测待识别文本与每个行业的目标匹配概率时,融入用户输入的行业信息,从而提高预测准确率,减少行业错配识别的误报率。

为了更好的解释本申请实施例,下面结合具体的实施场景描述本申请实施例提供的一种行业信息识别方法,如图9所示,该方法包括以下步骤:

设定待识别文本为“xx餐厅”,采用行业关键词字典提取“xx餐厅”中的关键词“餐厅”,然后采用语义字典确定关键词“餐厅”的语义解释文本“餐厅是指在一定场所,公开地对一般大众提供食品、饮料等餐饮的设施或公共餐饮屋。”。然后采用行业关键词字典提取语义解释文本中的关键词为“食品、饮料、餐饮”。将关键词“餐厅、食品、饮料、餐饮”作为待识别文本“xx餐厅”的目标关键词。将上述目标关键词输入行业预测模型,输出“xx餐厅”与每个行业的目标匹配概率,行业预测模型为朴素贝叶斯模型。具体实施中,采用公式(1)和公式(2)确定任一行业下每个目标关键词出现的概率,然后采用公式(4)至公式(6)确定“xx餐厅”与每个行业的目标匹配概率。按照目标匹配概率从大到小的顺序将每个行业进行排序,将排在前五的行业确定为“xx餐厅”对应的目标行业。设定目标行业分别为“行业a、行业b、行业c、行业d、行业e”,用户输入的行业信息为“行业a”,由于用户输入的行业信息与目标行业中的“行业a”匹配,则确定用户输入的行业信息正常。

由于在获取待识别文本后,采用行业关键词字典提取待识别文本中的目标关键词,实现从待识别文本中提取表征行业信息的关键词,然后根据目标关键词和行业预测模型确定待识别文本与每个行业的目标匹配概率,根据目标匹配概率确定待识别文本对应的目标行业,相较于人工识别行业信息来说,大大提高了识别效率,同时适用大数据场景。通过将目标行业与用户输入的行业信息进行比对,判断用户输入的行业信息是否错误,从而避免填错行业信息带来的风险。

基于相同的技术构思,本申请实施例提供了一种行业信息识别装置,如图10所示,该装置1000包括:

提取模块1001,用于获取待识别文本,采用行业关键词字典提取所述待识别文本对应的目标关键词,所述行业关键词字典中包括每个行业对应的关键词集合;

预测模块1002,用于将所述待识别文本对应的目标关键词输入行业预测模型,确定所述待识别文本与每个行业的目标匹配概率;

匹配模块1003,用于根据所述待识别文本与每个行业的目标匹配概率确定所述待识别文本对应的目标行业。

可选地,还包括判定模块1004;

所述判定模块1004具体用于:

获取所述待识别文本对应配置的行业信息;

在确定的所述目标行业与所述对应配置的行业信息不匹配时,确定所述对应配置的行业信息异常。

可选地,所述提取模块1001具体用于:

采用行业关键词字典对待识别文本进行分词,从所述待识别文本中确定第一类关键词;

根据语义字典确定所述第一类关键词对应的语义解释文本;

采用所述行业关键词字典对所述第一类关键词对应的语义解释文本进行分词,从所述第一类关键词对应的语义解释文本中确定第二类关键词;

将所述第一类关键词和所述第二类关键词确定为所述待识别文本对应的目标关键词。

可选地,所述预测模块1002具体用于:

针对每个行业,根据在所述行业下每个目标关键词出现的概率、所述行业出现的概率以及所述待识别文本对应的目标关键词同时出现的概率确定所述待识别文本与所述行业的目标匹配概率。

可选地,所述预测模块1002具体用于:

针对每个行业,根据在所述行业下每个目标关键词出现的概率、所述行业出现的概率以及所述待识别文本对应的目标关键词同时出现的概率确定所述待识别文本与所述行业的初始匹配概率;

根据所述行业与其他行业之间的相似度确定所述行业的近邻行业;

根据所述待识别文本与所述行业的初始匹配概率、所述待识别文本与所述近邻行业的初始匹配概率、所述行业与所述近邻行业的相似度确定所述待识别文本与所述行业的目标匹配概率。

可选地,所述预测模块1002具体用于:

根据所述行业的关键词集合与其他任一行业的关键词集合之间的交集和并集,确定所述行业与其他任一行业之间的相似度;

将所述相似度满足预设条件的其他行业确定为所述行业的近邻行业。

可选地,所述预测模块1002还用于:

当所述行业与所述待识别文本对应配置的行业信息不匹配时,在所述行业下每个目标关键词出现的概率符合下述公式(1):

其中,p1(tj|ci)表示当行业ci与待识别文本对应配置的行业信息不匹配时,行业ci下出现目标关键词tj的概率,count(tj,ci)表示行业ci下出现目标关键词tj的次数,count(tj,ck)表示行业ck下出现目标关键词tj的次数,v为所有关键词集合,m为行业数量;

当所述行业与所述待识别文本对应配置的行业信息匹配时,在所述行业下每个目标关键词出现的概率符合下述公式(2):

其中,p2(tj|ci)表示当行业ci与待识别文本对应配置的行业信息匹配时,行业ci下出现目标关键词tj的概率,p1(tj|ci)表示当行业ci与待识别文本对应配置的行业信息不匹配时,行业ci下出现目标关键词tj的概率,α和β为置信度参数。

基于相同的技术构思,本申请实施例提供了一种计算机设备,如图11所示,包括至少一个处理器1101,以及与至少一个处理器连接的存储器1102,本申请实施例中不限定处理器1101与存储器1102之间的具体连接介质,图11中处理器1101和存储器1102之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中,存储器1102存储有可被至少一个处理器1101执行的指令,至少一个处理器1101通过执行存储器1102存储的指令,可以执行前述的行业信息识别方法中所包括的步骤。

其中,处理器1101是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器1102内的指令以及调用存储在存储器1102内的数据,从而识别行业信息。可选的,处理器1101可包括一个或多个处理单元,处理器1101可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1101中。在一些实施例中,处理器1101和存储器1102可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。

处理器1101可以是通用处理器,例如中央处理器(cpu)、数字信号处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器1102作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1102可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(randomaccessmemory,ram)、静态随机访问存储器(staticrandomaccessmemory,sram)、可编程只读存储器(programmablereadonlymemory,prom)、只读存储器(readonlymemory,rom)、带电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,eeprom)、磁性存储器、磁盘、光盘等等。存储器1102是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1102还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。

该计算机设备还包括输入单元1103、显示单元1104、射频单元1105、音频电路1106、扬声器1107、麦克风1108、无线保真(wirelessfidelity,wifi)模块1109、蓝牙模块1110、电源1111、外部接口1112、耳机插孔1113等部件。

输入单元1103可用于接收用户输入的下载目标应用程序的请求、用户输入的安装目标应用程序的指令以及用户输入的授权应用管理程序使用网络拦截组件的指令等等。例如,输入单元1103可包括触摸屏11031以及其它输入设备11032。触摸屏11031可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏11031上或在触摸屏11031附近的操作),即触摸屏11031可用于检测触摸压力以及触摸输入位置和触摸输入面积,并根据预先设定的程序驱动相应的连接装置。触摸屏11031可以检测用户对触摸屏11031的触控操作,将触控操作转换为触控信号发送给处理器1101,或者理解为可将触控操作的触控信息发送给处理器1101,并能接收处理器1101发来的命令并加以执行。触控信息至少可以包括压力大小信息和压力持续时长信息中的至少一种。触摸屏11031可以提供计算机设备和用户之间的输入界面和输出界面。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏11031。除了触摸屏11031,输入单元1103还可以包括其它输入设备11032。比如,其它输入设备11032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1104可用于显示由用户输入的信息或提供给用户的信息。进一步的,触摸屏11031可覆盖显示单元1104,当触摸屏11031检测到在其上或附近的触控操作后,传送给处理器1101以确定的触控操作的压力信息。在本申请实施例中,触摸屏11031与显示单元1104可以集成为一个部件而实现计算机设备的输入、输出、显示功能。为便于描述,本申请实施例以触摸屏11031代表触摸屏11031和显示单元1104的功能集合为例进行示意性说明,当然在某些实施例中,触摸屏11031与显示单元1104也可以作为两个独立的部件。

当显示单元1104和触摸板以层的形式彼此叠加以形成触摸屏11031时,显示单元1104可以用作输入装置和输出装置,在作为输出装置时,可以用于显示图像,例如显示目标应用程序的安装界面。显示单元1104可以包括液晶显示器(liquidcrystaldisplay,lcd)、薄膜晶体管液晶显示器(thinfilmtransistorliquidcrystaldisplay,tft-lcd)、有机发光二极管(organiclightemittingdiode,oled)显示器、有源矩阵有机发光二极体(activematrixorganiclightemittingdiode,amoled)显示器、平面转换(in-planeswitching,ips)显示器、柔性显示器、3d显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看,这可以称为透明显示器,根据特定想要的实施方式,计算机设备可以包括两个或更多显示单元。

射频单元1105可用于收发信息或通话过程中信号的接收和发送。通常,射频电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(lownoiseamplifier,lna)、双工器等。此外,射频单元1005还可以通过无线通信与网络设备和其它设备通信。无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystemofmobilecommunication,gsm)、通用分组无线服务(generalpacketradioservice,gprs)、码分多址(codedivisionmultipleaccess,cdma)、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)、长期演进(longtermevolution,lte)、电子邮件、短消息服务(shortmessagingservice,sms)等。

音频电路1106、扬声器1107、麦克风1108可提供用户与计算机设备之间的音频接口。音频电路1106可将接收到的音频数据转换后的电信号,传输到扬声器1107,由扬声器1107转换为声音信号输出。另一方面,麦克风1108将收集的声音信号转换为电信号,由音频电路1106接收后转换为音频数据,再将音频数据输出处理器1101处理后,经射频单元1105以发送给比如另一电子设备,或者将音频数据输出至存储器1102以便进一步处理,音频电路也可以包括耳机插孔1113,用于提供音频电路和耳机之间的连接接口。

wifi属于短距离无线传输技术,计算机设备通过wifi模块1109可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图11示出了wifi模块1109,但是可以理解的是,其并不属于计算机设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

蓝牙是一种短距离无线通讯技术。利用蓝牙技术,能够有效地简化掌上电脑、笔记本电脑和手机等移动通信计算机设备之间的通信,也能够成功地简化以上这些设备与因特网(internet)之间的通信,计算机设备通过蓝牙模块1110使计算机设备与因特网之间的数据传输变得更加迅速高效,为无线通信拓宽道路。蓝牙技术是能够实现语音和数据无线传输的开放性方案。虽然图11示出了wifi模块1109,但是可以理解的是,其并不属于计算机设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

计算机设备还可以包括电源1111(比如电池),其用于接收外部电力为计算机设备内的各个部件供电。优选的,电源1111可以通过电源管理系统与处理器1101逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

计算机设备还可以包括外部接口1112,该外部接口1112可以包括标准的microusb接口,也可以包括多针连接器,可以用于连接计算机设备与其它设备进行通信,也可以用于连接充电器为计算机设备充电。

尽管未示出,计算机设备还可以包括摄像头、闪光灯等其它可能的功能模块,在此不再赘述。

基于相同的技术构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行行业信息识别方法的步骤。

本领域内的技术人员应明白,本申请的实施例可提供为方法、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1