信息分析方法、装置、计算机设备及存储介质与流程

文档序号:18869696发布日期:2019-10-14 19:14阅读:152来源:国知局
信息分析方法、装置、计算机设备及存储介质与流程

本申请涉及到计算机领域,特别是涉及到信息分析方法、装置、计算机设备及存储介质。



背景技术:

业内具有普适性、可广泛使用的业务分析监控系统几乎没有。阿里的鹰眼,大众的cat,平安的运维工具pinpoint等,虽然在监控系统的底层(即代码层、链路层)的监控做到及其细致,但却没有在业务层面的系统分析工具,少量具有业务分析功能的监控系统,都是定制化的,具有业务数据的使用局限性,如阿里云的业务分析或者平安的mario系统,都需要用户根据业务经验,手动录入当前监控系统对应业务领域的相关业务信息,才能得到业务分析数据,当用户无相关的业务经验或输入其他业务领域的相关信息时,会导致不识别或分析错误。



技术实现要素:

本申请的主要目的为提供信息分析方法,旨在解决现有业务分析监控系统具有业务领域局限性的技术问题。

本申请提出一种信息分析方法,包括:

获取用户注册服务时录入的原始信息;

将所述原始信息按照第一预设规则进行语句分割,并根据第二预设规则从语句分割后的原始信息中提取名词,其中,所述名词为所述原始信息中与业务类型关联度最高的词语;

判断所述名词与所述预设聚类属性的匹配度是否超过预设阈值,其中,所述预设聚类属性预先存储于注册系统数据库;

若是,则判定所述原始信息与所述预设聚类属性对应的业务聚类相同;

获取预设聚类属性对应的业务聚类中的业务信息,以形成所述原始信息对应的业务描述。

优选地,所述将所述原始信息按照第一预设规则进行语句分割,并根据第二预设规则从语句分割后的原始信息中提取名词的步骤,包括:

分析所述原始信息中是否包含预设动词库中的第一动词;

若所述原始信息中包含预设动词库中的第一动词,则根据所述第一动词对所述原始信息进行语句分割,从左至右依次分割成位于所述第一动词左端的第一段、位于所述第一动词右端的第二段以及所述第一动词;

判断所述第一段是否为预设文字类字符;

若所述第一段为预设文字类字符,则根据所述第一段确定所述名词。

优选地,所述根据所述第一段确定所述名词的步骤,包括:

判断所述第一段中是否包含预设动词库中的第二动词;

若所述第一段中包含预设动词库中的第二动词,则根据所述第二动词对所述原始信息进行语句分割,从左至右依次分割成位于所述第二动词左端的第三段、位于所述第二动词右端的第四段以及所述第二动词;

判断所述第三段是否为所述预设文字类字符;

若所述第三段为所述预设文字类字符,则将所述第三段作为所述名词;否则将所述第一段作为所述名词。

优选地,所述分析所述原始信息中是否包含预设动词库中的第一动词的步骤,包括:

提取所述原始信息与所述预设动词库均包括的所有动词,并标记所有所述动词;

判断所有动词的数量是否大于或等于两个;

若是,则将位于所述原始信息中最右端的动词作为所述第一动词。

优选地,所述判断所述第一段是否为预设文字类字符的步骤之后,包括:

若所述第一段不是预设文字类字符,则通过第三预设规则从所述原始信息对应的附加信息中确定所述名词。

优选地,所述预设聚类属性至少包括标签属性,所述标签属性对应于部署层级大于或等于资源组的属性,所述判断所述名词与所述预设聚类属性的匹配度是否超过预设阈值的步骤,包括:

判断所述名词与第一资源组的第一参考项的第一匹配率是否为100%,其中,所述第一资源组包含于所有资源组,所述资源组为逻辑上相关的资源组合,包括影响业务聚类的各参考项,所述第一参考项包含于所有所述参考项中,为对业务聚类优先级最高的参数项;

若是,则输出第一匹配率并将所述原始数据归类于所述第一资源组。

优选地,所述判断所述名词与第一资源组的第一参考项的第一匹配率是否为100%的步骤之后,包括:

若否,则获取所述名词与所述第一资源组的第二参考项的第二匹配率,以及所述名词与第二资源组的第三匹配率,其中,所述第二参考项为对业务聚类优先级次高的参数项,所述第二匹配率小于所述第一匹配率,所述第一资源组和所述第二资源组属于同一系统id的不同资源组;

根据所述第二匹配率和所述第三匹配率,确定所述原始数据归类的资源组。

本申请还提供了一种信息分析装置,包括:

第一获取模块,用于获取用户注册服务时录入的原始信息;

分割模块,用于将所述原始信息按照第一预设规则进行语句分割,并根据第二预设规则从语句分割后的原始信息中提取名词,其中,所述名词为所述原始信息中与业务类型关联度最高的词语;

判断模块,用于判断所述名词与所述预设聚类属性的匹配度是否超过预设阈值,其中,所述预设聚类属性预先存储于注册系统数据库;

判定模块,用于若是,则判定所述原始信息与所述预设聚类属性对应的业务聚类相同;

第二获取模块,用于获取预设聚类属性对应的业务聚类中的业务信息,以形成所述原始信息对应的业务描述。

本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请通过名词与预设聚类属性的匹配度,对原始信息进行业务聚类,本申请的系统架构底层(包括代码层、链路层)的监控做到及其细致,以便将底层的链路信息、服务信息转化为业务信息,并通过底层与业务层对应的映射关系,实现根据底层的链路信息、服务信息等,对业务层面的不同业务聚类的业务信息进行分析并形成对应的业务描述,为业务改进和企业发展提供指导。本申请通过预设动词库中的动词实现对原始信息进行语句分割,根据动词位于原始信息中的位置,对原始信息进行语句分割,从左至右依次分割成三段,即位于所述动词左端的主语名词、位于动词右端的宾语以及动词谓语,以便根据汉语句法快速定位到与业务相关的名词,实现业务聚类及业务信息分析。本申请根据名词来源定义不同来源得到的名词的优先级,名词中的名词优先级最高,以便提高业务聚类的精准性。本申请通过聚类模型中匹配不同聚类属性对应的参考项的聚类方法,实现更精准地聚类分析,提高业务聚类的准确率,为自动业务分析提供便利和可靠的资源。

附图说明

图1本申请一实施例的信息分析方法流程示意图;

图2本申请一实施例的信息分析装置结构示意图;

图3本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

参照图1,本申请一实施例的信息分析方法,包括:

s1:获取用户注册服务时录入的原始信息。

s2:将所述原始信息按照第一预设规则进行语句分割,并根据第二预设规则从语句分割后的原始信息中提取名词,其中,所述名词为所述原始信息中与业务类型关联度最高的词语。

本实施例的信息为业务信息,业务信息与原始信息中的名词息息相关,也通过名词聚类分析实现业务聚类,即统一业务通常具有百分百对应或完全包含的对应关系。本实施例通过对原始信息进行语句分割,以便更精准地提取到原始信息中与业务关联度最高的名词,实现对原始信息的业务聚类。本实施例的原始信息为用户注册服务时录入的业务归属信息中的部分或全部,业务归属信息用于标识与区分不同的业务种类。上述第一预设规则指语句分割时的规则,比如根据动词进行语句分割;上述第二预设规则指提取名词的规则,比如定义动词左端的词语为名词,上述“第一”和“第二”仅用于区别,不用于限定。

s3:判断所述名词与所述预设聚类属性的匹配度是否超过预设阈值,其中,所述预设聚类属性预先存储于注册系统数据库。

s4:若是,则判定所述原始信息与所述预设聚类属性对应的业务聚类相同。

本实施例的注册系统数据库可为某个公司的业务服务系统,根据业务领域的不同,业务服务系统的数据属性也不同。用户在注册服务时,被要求选择服务的归属信息,上述归属信息包括服务接口描述、资源组描述、业务功能描述、业务系统、所属公司、受益人、所属机房、网络区域等多维度信息,以便利用上述归属信息从业务服务系统中获取相关的业务信息,无需用户再次使用业务服务系统时,重新一一输入上述归属信息,只需输入上述归属信息中的任意部分组成原始信息,即可从业务服务系统自动调取相应的业务信息,突破业务领域的局限性,提高业务分析的便利性。本实施例通过名词与预设聚类属性的匹配度,对原始信息进行业务聚类。本实施例名词与预设聚类属性的匹配度超过预设匹配阈值,则判定为与预设聚类属性对应的业务聚类为同一类业务,否则与预设聚类属性对应的业务聚类不属于同一类业务。比如,上述预设匹配阈值为0.7,大于0.7则为同一业务,小于0.7则不属于同一业务。

s5:获取预设聚类属性对应的业务聚类中的业务信息,以形成所述原始信息对应的业务描述。

本实施例通过获取业务服务系统中该业务聚类已有的业务信息,以形成原始信息对应的业务描述,以便更针对性对该业务聚类的业务信息进行有效分析,以得出该业务的未来发展规划或业务需要改进的技术等方面的业务指导依据。本实施例的系统架构底层(包括代码层、链路层)的监控做到及其细致,以便将底层的链路信息、服务信息转化为业务信息,并通过底层与业务层对应的映射关系,实现根据底层的链路信息、服务信息等对业务层面的信息分析方法,形成对应的业务描述,为业务改进和企业发展提供指导。业务服务系统中包括多种业务领域的业务信息,可通过业务聚类实现针对性地调取不同业务的业务信息,并通过分析业务信息形成业务描述,突破对业务领域的局限性。

进一步地,所述将所述原始信息按照第一预设规则进行语句分割,并根据第二预设规则从语句分割后的原始信息中提取名词的步骤s2,包括:

s21:分析所述原始信息中是否包含预设动词库中的第一动词。

本实施例通过预设动词库中的动词实现对原始信息进行语句分割。上述预设动词库中的动词可由人工根据业务特征进行筛选标注形成,也可根据多次归类分析过程中通过自学习后识别标注形成的动词。如根据业务特征,形成的预设动词库中的动词包括:“查询,调用,投保,审核,复审等”,上述预设动词存储于业务服务系统,以便及时调用。本实施例的第一动词为预设动词库中的任一动词,“第一”仅用于区别,不用于限定,其他处的类似用语作用相同,不赘述。若原始信息中不包含预设动词库中的任意动词,则将原始信息整体标记为名词n。

s22:若所述原始信息中包含预设动词库中的第一动词,则根据所述第一动词对所述原始信息进行语句分割,从左至右依次分割成位于所述第一动词左端的第一段、位于所述第一动词右端的第二段以及所述第一动词。

本实施例根据第一动词位于原始信息中的位置,对原始信息进行语句分割,从左至右依次分割成三段,即位于所述第一动词左端的第一段、位于所述第一动词右端的第二段以及所述第一动词。本实施例在对原始信息进行语句分割前,先通过语义识别技术,将原始信息的描述方式从句子主干结构到句子的细分结构均解析为标准表述方式,以便更精准地根据最关键的动词进行语句分割,以便从原始信息中抓取业务名,业务动作,业务对象等元素。上述标准表述方式包括:“主-谓”或“主-谓-宾”或“主-谓-宾-宾补”等。

s23:判断所述第一段是否为预设文字类字符。

s24:若所述第一段为预设文字类字符,则根据所述第一段确定所述名词。

本实施例的预设文字类字符表示具有相应的文字内容,则从第一段中确定存在对应的名词,否则第一段中不存在对应的名词。

进一步地,所述根据所述第一段确定所述名词的步骤s24,包括:

s241:判断所述第一段中是否包含预设动词库中的第二动词。

本实施例通过对第一段进行再次语句分割,以便从第一段中确定与业务聚类相关性更高的名词。上述第二动词为位于第一段中的预设动词库中的任一动词。

s242:若所述第一段中包含预设动词库中的第二动词,则根据所述第二动词对所述原始信息进行语句分割,从左至右依次分割成位于所述第二动词左端的第三段、位于所述第二动词右端的第四段以及所述第二动词。

本实施例对第一段进行再次语句分割的过程与原理,与原始信息的语句分割的过程与原理相同,不赘述。

s243:判断所述第三段是否为所述预设文字类字符。

s244:若所述第三段为所述预设文字类字符,则将所述第三段作为所述名词;否则将所述第一段作为所述名词。

本实施例将根据第一动词对应提取的主语名词标记为n,将对n再次提取的主语名词标记为nn,本实施例的优先级为nn大于n,即若能提取到nn,则以nn为标准进行业务聚类,若不能提取到nn,则将第一段整个标记为n,并以n为标准进行业务聚类。

进一步地,所述分析所述原始信息中是否包含预设动词库中的第一动词的步骤s21,包括:

s211:提取所述原始信息与所述预设动词库均包括的所有动词,并标记所有所述动词。

s212:判断所有动词的数量是否大于或等于两个。

s213:若所有动词的数量大于或等于两个,则将位于所述原始信息中最右端的动词作为所述第一动词。

本实施例中,若原始信息中包括了预设动词库中的多个动词,则根据各动词在原始信息中的排布顺序,决定哪个为第一动词。根据汉语句子的排布以及表述规则,排在句子最右端的动词对原始信息的语义影响力最大,其他动词起到修饰或限定作用的趋势更强,所以本实施例在原始信息中存在多个动词时,以排在句子最右端的动词作为第一动词,以便进一步提高语句分割的精准度。本申请其他实施例中原始信息中包括附属描述,附属描述是人工经验添加,无任何物理含义,且只有出现在语句末尾的,才能被判断为附属描述,附属描述包含如“接口、组件、请求、服务、请求接口、服务组件”等描述语言,附属描述属于附件库的词汇,由人工经验录入,当原始信息中存在附属描述,需要先将附属描述去除掉,以便附属描述中某些动词扰乱语句分割。

进一步地,所述判断所述第一段是否为预设文字类字符的步骤s23之后,包括:

s25:若所述第一段不是预设文字类字符,则通过第三预设规则从所述原始信息对应的附加信息中确定所述名词。

本实施例的第一段不是预设文字类字符,则表明原始信息的语句中不存在对应的名词,则从系统中其他处获取与该原始信息相关的辅助名词,标记为ns,上述ns指用户录入的原始信息不全,或者原始信息为非标准语句,抓取相应的名词比较困难时,则沿用其上层描述信息的分析结果,举例地,在接口层无法获取有效信息,则可沿用接口层的上一层抓取结果,上述接口层的上一层即资源组描述。上述ns的优先级低于n,更低于nn,即只有无法获取nn或n的前提下,才通过ns进行业务聚类。

进一步地,所述预设聚类属性至少包括标签属性,所述标签属性对应于部署层级大于或等于资源组的属性,所述判断所述名词与所述预设聚类属性的匹配度是否超过预设阈值的步骤s3,包括:

s31:判断所述名词与第一资源组的第一参考项的第一匹配率是否为100%,其中,所述第一资源组包含于所有资源组,所述资源组为逻辑上相关的资源组合,包括影响业务聚类的各参考项,所述第一参考项包含于所有所述参考项中,为对业务聚类优先级最高的参数项。

本实施例的资源组是指群集服务作为一个逻辑单元进行管理的资源集合。通过将逻辑上相关的资源分成资源组,可以更容易地管理应用资源和群集实体。对资源组执行群集服务操作时,操作对于该组内包含的各个资源都有效。上述第一资源组为同一层级id下多个资源组中的任一个,第一资源组包括多个业务接口。上述第一参考项为对业务聚类最可靠的参数项,可通过预先设定实现,比如第一参考项为资源组描述。

s32:若是,则输出第一匹配率并将所述原始数据归类于所述第一资源组。

本实施例中,若通过第一参考项抓取原始信息对应的名词,与第一资源组下通过上述名词提取方式得到的名词,具有较高的相似度,则输出第一匹配基准值为1,则判定原始信息与第一资源组匹配率达到100%,则聚类于第一资源组。

本实施例通过标签属性得到的聚类信息为宏观聚类信息,可用于业务宏观方向的业务规划等。如:专业公司=平安渠道,某季度期间涉及已知业务操作种类共35种,其中查询、绑定、承保、充值、识别操作占比最高。

本申请另一实施例中,预设聚类属性还包括部署层级低于资源组的基础属性,比如uri、ip、网络区域等,通过基础属性和标签属性共同使用,可唯一定位到某个uri接口、某个服务集群、或者某个实例,以便得到微观业务描述,如:“第三方兑换核销业务”的“短信发送”子服务,某季度期间的总业务请求量为10万笔,单笔请求平均耗时20毫秒,服务效率较高,异常率为0.001%,整体稳定性良好等,可用于分析哪些具体技术细节需要再改进等。

进一步地,所述判断所述名词与第一资源组的第一参考项的第一匹配率是否为100%的步骤s31之后,包括:

s33:若否,则获取所述名词与第一资源组的第二参考项的第二匹配率,以及所述名词与第二资源组的第三匹配率,其中,所述第二参考项为对业务聚类优先级次高的参数项,所述第二匹配率小于所述第一匹配率,所述第一资源组和所述第二资源组属于同一系统id的不同资源组。

s34:根据所述第二匹配率和所述第三匹配率,确定所述原始数据归类的资源组。

本实施例在通过第一参考项不能得到第一资源组对应的名词描述,则通过第二参考项将原始信息对应的名词与第一资源组中同种方式获得的其他业务接口的描述n相比,若包容或匹配,则根据第二预设基准加上第一幅度值得到匹配率,其中第二预设基准对应于第二参考项,第一预设基准对应于第一参考项,第二预设基准低于第一预设基准,比如第二预设基准为1,第二预设基准为0.8。若通过第一资源组的第二参考项,得到原始信息对应的名词与第一资源组中同种方式获得的其他业务接口的描述n相比,若包容或匹配,则增加第一幅度值0.1,得到第三匹配率为0.9,大于预设阈值0.7,则将原始信息聚类于第一资源组。

通过第二参考项将原始信息对应的名词与第一资源组中同种方式获得的其他业务接口的描述n相比,若完全不包容且不匹配,则判断原始信息对应的名词与第二资源组中同种方式获得的多个业务接口的描述n相比,是否具有匹配关系,若与第二资源组中同种方式获得的多个业务接口的描述n具有完全包容关系,则判定原始信息对应的名词与第一资源组中同种方式获得的其他业务接口的描述n相比具有高冲突风险,则根据第二预设基准降低第二幅度值得到匹配率,其中第二幅度值远大于第一幅度值,比如第二幅度值为0.5,则此时的匹配率为0.8减去0.5,得到0.3,低于预设阈值,原始信息则不能聚类于第一资源组,原始信息聚类于第二资源组或单独成为一个聚类孤点,具体要分析与第二资源组的匹配关系,匹配方法同上,不赘述。

本实施例通过名词与预设聚类属性的匹配度,对原始信息进行业务聚类,本实施例的系统架构底层(包括代码层、链路层)的监控做到及其细致,以便将底层的链路信息、服务信息转化为业务信息,并通过底层与业务层对应的映射关系,实现根据底层的链路信息、服务信息等,对业务层面的不同业务聚类的业务信息进行分析并形成对应的业务描述,为业务改进和企业发展提供指导。本实施例通过预设动词库中的动词实现对原始信息进行语句分割,根据动词位于原始信息中的位置,对原始信息进行语句分割,从左至右依次分割成三段,即位于所述动词左端的主语名词、位于动词右端的宾语以及动词谓语,以便根据汉语句法快速定位到与业务相关的名词,实现业务聚类及业务信息分析。本实施例根据名词来源定义不同来源得到的名词的优先级,名词中的名词优先级最高,以便提高业务聚类的精准性。本实施例通过聚类模型中匹配不同聚类属性对应的参考项的聚类方法,实现更精准地聚类分析,提高业务聚类的准确率,为自动业务分析提供便利和可靠的资源。

参照图2,本申请一实施例的信息分析方法,包括:

第一获取模块1,用于获取用户注册服务时录入的原始信息。

分割模块2,用于将所述原始信息按照第一预设规则进行语句分割,并根据第二预设规则从语句分割后的原始信息中提取名词,其中,所述名词为所述原始信息中与业务类型关联度最高的词语。

本实施例的信息为业务信息,业务信息与原始信息中的名词息息相关,也通过名词聚类分析实现业务聚类,即统一业务通常具有百分百对应或完全包含的对应关系。本实施例通过对原始信息进行语句分割,以便更精准地提取到原始信息中与业务关联度最高的名词,实现对原始信息的业务聚类。本实施例的原始信息为用户注册服务时录入的业务归属信息中的部分或全部,业务归属信息用于标识与区分不同的业务种类。上述第一预设规则指语句分割时的规则,比如根据动词进行语句分割;上述第二预设规则指提取名词的规则,比如定义动词左端的词语为名词,上述“第一”和“第二”仅用于区别,不用于限定。

判断模块3,用于判断所述名词与所述预设聚类属性的匹配度是否超过预设阈值,其中,所述预设聚类属性预先存储于注册系统数据库。

判定模块4,用于若是,则判定所述原始信息与所述预设聚类属性对应的业务聚类相同。

本实施例的注册系统数据库可为某个公司的业务服务系统,根据业务领域的不同,业务服务系统的数据属性也不同。用户在注册服务时,被要求选择服务的归属信息,上述归属信息包括服务接口描述、资源组描述、业务功能描述、业务系统、所属公司、受益人、所属机房、网络区域等多维度信息,以便利用上述归属信息从业务服务系统中获取相关的业务信息,无需用户再次使用业务服务系统时,重新一一输入上述归属信息,只需输入上述归属信息中的任意部分组成原始信息,即可从业务服务系统自动调取相应的业务信息,突破业务领域的局限性,提高业务分析的便利性。本实施例通过名词与预设聚类属性的匹配度,对原始信息进行业务聚类。本实施例名词与预设聚类属性的匹配度超过预设匹配阈值,则判定为与预设聚类属性对应的业务聚类为同一类业务,否则与预设聚类属性对应的业务聚类不属于同一类业务。比如,上述预设匹配阈值为0.7,大于0.7则为同一业务,小于0.7则不属于同一业务。

第二获取模块5,用于获取预设聚类属性对应的业务聚类中的业务信息,以形成所述原始信息对应的业务描述。

本实施例通过获取业务服务系统中该业务聚类已有的业务信息,以形成原始信息对应的业务描述,以便更针对性对该业务聚类的业务信息进行有效分析,以得出该业务的未来发展规划或业务需要改进的技术等方面的业务指导依据。本实施例的系统架构底层(包括代码层、链路层)的监控做到及其细致,以便将底层的链路信息、服务信息转化为业务信息,并通过底层与业务层对应的映射关系,实现根据底层的链路信息、服务信息等对业务层面的信息分析方法,形成对应的业务描述,为业务改进和企业发展提供指导。业务服务系统中包括多种业务领域的业务信息,可通过业务聚类实现针对性地调取不同业务的业务信息,并通过分析业务信息形成业务描述,突破对业务领域的局限性。

进一步地,所述分割模块2,包括:

分析单元,用于分析所述原始信息中是否包含预设动词库中的第一动词。

本实施例通过预设动词库中的动词实现对原始信息进行语句分割。上述预设动词库中的动词可由人工根据业务特征进行筛选标注形成,也可根据多次归类分析过程中通过自学习后识别标注形成的动词。如根据业务特征,形成的预设动词库中的动词包括:“查询,调用,投保,审核,复审等”,上述预设动词存储于业务服务系统,以便及时调用。本实施例的第一动词为预设动词库中的任一动词,“第一”仅用于区别,不用于限定,其他处的类似用语作用相同,不赘述。若原始信息中不包含预设动词库中的任意动词,则将原始信息整体标记为名词n。

分割单元,用于若所述原始信息中包含预设动词库中的第一动词,则根据所述第一动词对所述原始信息进行语句分割,从左至右依次分割成位于所述第一动词左端的第一段、位于所述第一动词右端的第二段以及所述第一动词。

本实施例根据第一动词位于原始信息中的位置,对原始信息进行语句分割,从左至右依次分割成三段,即位于所述第一动词左端的第一段、位于所述第一动词右端的第二段以及所述第一动词。本实施例在对原始信息进行语句分割前,先通过语义识别技术,将原始信息的描述方式从句子主干结构到句子的细分结构均解析为标准表述方式,以便更精准地根据最关键的动词进行语句分割,以便从原始信息中抓取业务名,业务动作,业务对象等元素。上述标准表述方式包括:“主-谓”或“主-谓-宾”或“主-谓-宾-宾补”等。

第一判断单元,用于判断所述第一段是否为预设文字类字符。

第一确定单元,用于若所述第一段为预设文字类字符,则根据所述第一段确定所述名词。

本实施例的预设文字类字符表示具有相应的文字内容,则从第一段中确定存在对应的名词,否则第一段中不存在对应的名词。

进一步地,所述第一确定单元,包括:

第一判断子单元,用于判断所述第一段中是否包含预设动词库中的第二动词。

本实施例通过对第一段进行再次语句分割,以便从第一段中确定与业务聚类相关性更高的名词。上述第二动词为位于第一段中的预设动词库中的任一动词。

分割子单元,用于若所述第一段中包含预设动词库中的第二动词,则根据所述第二动词对所述原始信息进行语句分割,从左至右依次分割成位于所述第二动词左端的第三段、位于所述第二动词右端的第四段以及所述第二动词。

本实施例对第一段进行再次语句分割的过程与原理,与原始信息的语句分割的过程与原理相同,不赘述。

第二判断子单元,用于判断所述第三段是否为所述预设文字类字符。

第一作为子单元,用于若所述第三段为所述预设文字类字符,则将所述第三段作为所述名词;否则将所述第一段作为所述名词。

本实施例将根据第一动词对应提取的主语名词标记为n,将对n再次提取的主语名词标记为nn,本实施例的优先级为nn大于n,即若能提取到nn,则以nn为标准进行业务聚类,若不能提取到nn,则将第一段整个标记为n,并以n为标准进行业务聚类。

进一步地,所述分析单元,包括:

标记子单元,用于提取所述原始信息与所述预设动词库均包括的所有动词,并标记所有所述动词。

第三判断子单元,用于判断所有动词的数量是否大于或等于两个。

第二作为子单元,用于若所有动词的数量大于或等于两个,则将位于所述原始信息中最右端的动词作为所述第一动词。

本实施例中,若原始信息中包括了预设动词库中的多个动词,则根据各动词在原始信息中的排布顺序,决定哪个为第一动词。根据汉语句子的排布以及表述规则,排在句子最右端的动词对原始信息的语义影响力最大,其他动词起到修饰或限定作用的趋势更强,所以本实施例在原始信息中存在多个动词时,以排在句子最右端的动词作为第一动词,以便进一步提高语句分割的精准度。本申请其他实施例中原始信息中包括附属描述,附属描述是人工经验添加,无任何物理含义,且只有出现在语句末尾的,才能被判断为附属描述,附属描述包含如“接口、组件、请求、服务、请求接口、服务组件”等描述语言,附属描述属于附件库的词汇,由人工经验录入,当原始信息中存在附属描述,需要先将附属描述去除掉,以便附属描述中某些动词扰乱语句分割。

进一步地,所述第一确定单元,包括:

确定子单元,用于若所述第一段不是预设文字类字符,则通过第三预设规则从所述原始信息对应的附加信息中确定所述名词。

本实施例的第一段不是预设文字类字符,则表明原始信息的语句中不存在对应的名词,则从系统中其他处获取与该原始信息相关的辅助名词,标记为ns,上述ns指用户录入的原始信息不全,或者原始信息为非标准语句,抓取相应的名词比较困难时,则沿用其上层描述信息的分析结果,举例地,在接口层无法获取有效信息,则可沿用接口层的上一层抓取结果,上述接口层的上一层即资源组描述。上述ns的优先级低于n,更低于nn,即只有无法获取nn或n的前提下,才通过ns进行业务聚类。

进一步地,所述预设聚类属性至少包括标签属性,所述标签属性对应于部署层级大于或等于资源组的属性,所述判断模块3,包括:

第二判断单元,用于判断所述名词与第一资源组的第一参考项的第一匹配率是否为100%,其中,所述第一资源组包含于所有资源组,所述资源组为逻辑上相关的资源组合,包括影响业务聚类的各参考项,所述第一参考项包含于所有所述参考项中,为对业务聚类优先级最高的参数项。

本实施例的资源组是指群集服务作为一个逻辑单元进行管理的资源集合。通过将逻辑上相关的资源分成资源组,可以更容易地管理应用资源和群集实体。对资源组执行群集服务操作时,操作对于该组内包含的各个资源都有效。上述第一资源组为同一层级id下多个资源组中的任一个,第一资源组包括多个业务接口。上述第一参考项为对业务聚类最可靠的参数项,可通过预先设定实现,比如第一参考项为资源组描述。

输出单元,用于若是,则输出第一匹配率并将所述原始数据归类于所述第一资源组。

本实施例中,若通过第一参考项抓取原始信息对应的名词,与第一资源组下通过上述名词提取方式得到的名词,具有较高的相似度,则输出第一匹配基准值为1,则判定原始信息与第一资源组匹配率达到100%,则聚类于第一资源组。

本实施例通过标签属性得到的聚类信息为宏观聚类信息,可用于业务宏观方向的业务规划等。如:专业公司=平安渠道,某季度期间涉及已知业务操作种类共35种,其中查询、绑定、承保、充值、识别操作占比最高。

本申请另一实施例中,预设聚类属性还包括部署层级低于资源组的基础属性,比如uri、ip、网络区域等,通过基础属性和标签属性共同使用,可唯一定位到某个uri接口、某个服务集群、或者某个实例,以便得到微观业务描述,如:“第三方兑换核销业务”的“短信发送”子服务,某季度期间的总业务请求量为10万笔,单笔请求平均耗时20毫秒,服务效率较高,异常率为0.001%,整体稳定性良好等,可用于分析哪些具体技术细节需要再改进等。

进一步地,所述判断模块3,包括:

获取单元,用于若否,则获取所述名词与第一资源组的第二参考项的第二匹配率,以及所述名词与第二资源组的第三匹配率,其中,所述第二参考项为对业务聚类优先级次高的参数项,所述第二匹配率小于所述第一匹配率,所述第一资源组和所述第二资源组属于同一系统id的不同资源组。

第二确定单元,用于根据所述第二匹配率和所述第三匹配率,确定所述原始数据归类的资源组。

本实施例在通过第一参考项不能得到第一资源组对应的名词描述,则通过第二参考项将原始信息对应的名词与第一资源组中同种方式获得的其他业务接口的描述n相比,若包容或匹配,则根据第二预设基准加上第一幅度值得到匹配率,其中第二预设基准对应于第二参考项,第一预设基准对应于第一参考项,第二预设基准低于第一预设基准,比如第二预设基准为1,第二预设基准为0.8。若通过第一资源组的第二参考项,得到原始信息对应的名词与第一资源组中同种方式获得的其他业务接口的描述n相比,若包容或匹配,则增加第一幅度值0.1,得到第三匹配率为0.9,大于预设阈值0.7,则将原始信息聚类于第一资源组。

通过第二参考项将原始信息对应的名词与第一资源组中同种方式获得的其他业务接口的描述n相比,若完全不包容且不匹配,则判断原始信息对应的名词与第二资源组中同种方式获得的多个业务接口的描述n相比,是否具有匹配关系,若与第二资源组中同种方式获得的多个业务接口的描述n具有完全包容关系,则判定原始信息对应的名词与第一资源组中同种方式获得的其他业务接口的描述n相比具有高冲突风险,则根据第二预设基准降低第二幅度值得到匹配率,其中第二幅度值远大于第一幅度值,比如为第二幅度值0.5,则此时的匹配率为0.8减去0.5,得到0.3,低于预设阈值,原始信息则不能聚类于第一资源组,原始信息聚类于第二资源组或单独成为一个聚类孤点,具体要分析与第二资源组的匹配关系,匹配方法同上,不赘述。

参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储业务信息分析过程需要的所有数据。该计算机设备的网络接口用于与外部的端通过网络连接通信。该计算机程序被处理器执行时以实现信息分析方法。

上述处理器执行上述信息分析方法,包括:获取用户注册服务时录入的原始信息;将所述原始信息按照第一预设规则进行语句分割,并根据第二预设规则从语句分割后的原始信息中提取名词,其中,所述名词为所述原始信息中与业务类型关联度最高的词语;判断所述名词与所述预设聚类属性的匹配度是否超过预设阈值,其中,所述预设聚类属性预先存储于注册系统数据库;若是,则判定所述原始信息与所述预设聚类属性对应的业务聚类相同;获取预设聚类属性对应的业务聚类中的业务信息,以形成所述原始信息对应的业务描述。

上述计算机设备,通过名词与预设聚类属性的匹配度,对原始信息进行业务聚类,通过将系统架构底层(包括代码层、链路层)的监控做到及其细致,以便将底层的链路信息、服务信息转化为业务信息,并通过底层与业务层对应的映射关系,实现根据底层的链路信息、服务信息等,对业务层面的不同业务聚类的业务信息进行分析并形成对应的业务描述,为业务改进和企业发展提供指导。通过预设动词库中的动词实现对原始信息进行语句分割,根据动词位于原始信息中的位置,对原始信息进行语句分割,从左至右依次分割成三段,即位于所述动词左端的主语名词、位于动词右端的宾语以及动词谓语,以便根据汉语句法快速定位到与业务相关的名词,实现业务聚类及业务信息分析。根据名词来源定义不同来源得到的名词的优先级,名词中的名词优先级最高,以便提高业务聚类的精准性。通过聚类模型中匹配不同聚类属性对应的参考项的聚类方法,实现更精准地聚类分析,提高业务聚类的准确率,为自动业务分析提供便利和可靠的资源。

在一个实施例中,上述处理器将所述原始信息按照第一预设规则进行语句分割,并根据第二预设规则从语句分割后的原始信息中提取名词的步骤,包括:分析所述原始信息中是否包含预设动词库中的第一动词;若所述原始信息中包含预设动词库中的第一动词,则根据所述第一动词对所述原始信息进行语句分割,从左至右依次分割成位于所述第一动词左端的第一段、位于所述第一动词右端的第二段以及所述第一动词;判断所述第一段是否为预设文字类字符;若所述第一段为预设文字类字符,则根据所述第一段确定所述名词。

在一个实施例中,上述处理器根据所述第一段确定所述名词的步骤,包括:判断所述第一段中是否包含预设动词库中的第二动词;若所述第一段中包含预设动词库中的第二动词,则根据所述第二动词对所述原始信息进行语句分割,从左至右依次分割成位于所述第二动词左端的第三段、位于所述第二动词右端的第四段以及所述第二动词;判断所述第三段是否为所述预设文字类字符;若所述第三段为所述预设文字类字符,则将所述第三段作为所述名词;否则将所述第一段作为所述名词。

在一个实施例中,上述处理器分析所述原始信息中是否包含预设动词库中的第一动词的步骤,包括:提取所述原始信息与所述预设动词库均包括的所有动词,并标记所有所述动词;判断所有动词的数量是否大于或等于两个;若是,则将位于所述原始信息中最右端的动词作为所述第一动词。

在一个实施例中,上述处理器判断所述第一段是否为预设文字类字符的步骤之后,包括:若所述第一段不是预设文字类字符,则通过第三预设规则从所述原始信息对应的附加信息中确定所述名词。

在一个实施例中,所述预设聚类属性至少包括标签属性,所述标签属性对应于部署层级大于或等于资源组的属性,上述处理器判断所述名词与所述预设聚类属性的匹配度是否超过预设阈值的步骤,包括:判断所述名词与第一资源组的第一参考项的第一匹配率是否为100%,其中,所述第一资源组包含于所有资源组,所述资源组为逻辑上相关的资源组合,包括影响业务聚类的各参考项,所述第一参考项包含于所有所述参考项中,为对业务聚类优先级最高的参数项;若是,则输出第一匹配率并将所述原始数据归类于所述第一资源组。

在一个实施例中,上述处理器判断所述名词与第一资源组的第一参考项的第一匹配率是否为100%的步骤之后,包括:若否,则获取所述名词与所述第一资源组的第二参考项的第二匹配率,以及所述名词与第二资源组的第三匹配率,其中,所述第二参考项为对业务聚类优先级次高的参数项,所述第二匹配率小于所述第一匹配率,所述第一资源组和所述第二资源组属于同一系统id的不同资源组;根据所述第二匹配率和所述第三匹配率,确定所述原始数据归类的资源组。

本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现信息分析方法,包括:获取用户注册服务时录入的原始信息;将所述原始信息按照第一预设规则进行语句分割,并根据第二预设规则从语句分割后的原始信息中提取名词,其中,所述名词为所述原始信息中与业务类型关联度最高的词语;判断所述名词与所述预设聚类属性的匹配度是否超过预设阈值,其中,所述预设聚类属性预先存储于注册系统数据库;若是,则判定所述原始信息与所述预设聚类属性对应的业务聚类相同;获取预设聚类属性对应的业务聚类中的业务信息,以形成所述原始信息对应的业务描述。

上述计算机可读存储介质,通过名词与预设聚类属性的匹配度,对原始信息进行业务聚类,通过将系统架构底层(包括代码层、链路层)的监控做到及其细致,以便将底层的链路信息、服务信息转化为业务信息,并通过底层与业务层对应的映射关系,实现根据底层的链路信息、服务信息等,对业务层面的不同业务聚类的业务信息进行分析并形成对应的业务描述,为业务改进和企业发展提供指导。通过预设动词库中的动词实现对原始信息进行语句分割,根据动词位于原始信息中的位置,对原始信息进行语句分割,从左至右依次分割成三段,即位于所述动词左端的主语名词、位于动词右端的宾语以及动词谓语,以便根据汉语句法快速定位到与业务相关的名词,实现业务聚类及业务信息分析。根据名词来源定义不同来源得到的名词的优先级,名词中的名词优先级最高,以便提高业务聚类的精准性。通过聚类模型中匹配不同聚类属性对应的参考项的聚类方法,实现更精准地聚类分析,提高业务聚类的准确率,为自动业务分析提供便利和可靠的资源。

在一个实施例中,上述处理器将所述原始信息按照第一预设规则进行语句分割,并根据第二预设规则从语句分割后的原始信息中提取名词的步骤,包括:分析所述原始信息中是否包含预设动词库中的第一动词;若所述原始信息中包含预设动词库中的第一动词,则根据所述第一动词对所述原始信息进行语句分割,从左至右依次分割成位于所述第一动词左端的第一段、位于所述第一动词右端的第二段以及所述第一动词;判断所述第一段是否为预设文字类字符;若所述第一段为预设文字类字符,则根据所述第一段确定所述名词。

在一个实施例中,上述处理器根据所述第一段确定所述名词的步骤,包括:判断所述第一段中是否包含预设动词库中的第二动词;若所述第一段中包含预设动词库中的第二动词,则根据所述第二动词对所述原始信息进行语句分割,从左至右依次分割成位于所述第二动词左端的第三段、位于所述第二动词右端的第四段以及所述第二动词;判断所述第三段是否为所述预设文字类字符;若所述第三段为所述预设文字类字符,则将所述第三段作为所述名词;否则将所述第一段作为所述名词。

在一个实施例中,上述处理器分析所述原始信息中是否包含预设动词库中的第一动词的步骤,包括:提取所述原始信息与所述预设动词库均包括的所有动词,并标记所有所述动词;判断所有动词的数量是否大于或等于两个;若是,则将位于所述原始信息中最右端的动词作为所述第一动词。

在一个实施例中,上述处理器判断所述第一段是否为预设文字类字符的步骤之后,包括:若所述第一段不是预设文字类字符,则通过第三预设规则从所述原始信息对应的附加信息中确定所述名词。

在一个实施例中,所述预设聚类属性至少包括标签属性,所述标签属性对应于部署层级大于或等于资源组的属性,上述处理器判断所述名词与所述预设聚类属性的匹配度是否超过预设阈值的步骤,包括:判断所述名词与第一资源组的第一参考项的第一匹配率是否为100%,其中,所述第一资源组包含于所有资源组,所述资源组为逻辑上相关的资源组合,包括影响业务聚类的各参考项,所述第一参考项包含于所有所述参考项中,为对业务聚类优先级最高的参数项;若是,则输出第一匹配率并将所述原始数据归类于所述第一资源组,其中所述第一匹配率为100%。

在一个实施例中,上述处理器判断所述名词与第一资源组的第一参考项的第一匹配率是否为100%的步骤之后,包括:若否,则获取所述名词与所述第一资源组的第二参考项的第二匹配率,以及所述名词与第二资源组的第三匹配率,其中,所述第二参考项为对业务聚类优先级次高的参数项,所述第二匹配率小于所述第一匹配率,所述第一资源组和所述第二资源组属于同一系统id的不同资源组;根据所述第二匹配率和所述第三匹配率,确定所述原始数据归类的资源组。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1