文本主要内容的确定方法、装置、存储介质及计算机设备与流程

文档序号:22931317发布日期:2020-11-13 16:30阅读:190来源:国知局
文本主要内容的确定方法、装置、存储介质及计算机设备与流程

本发明涉及信息技术领域,尤其是涉及一种文本主要内容的确定方法、装置、存储介质及计算机设备。



背景技术:

随着信息时代的快速发展,大量信息涌现在用户面前,用户需要阅读大量的文本,了解其记载的主要内容,以便跟上信息时代的发展。

目前,用户通常通过人工解读的方式了解文本的主要内容。然而,这种方式需要用户逐行逐句阅读文本的全部文字,才能够了解文本所记载的主要内容,从而导致用户的解读效率较低,且无法满足用户对阅读量的需求,此外,这种方式较为依赖用户的主观因素,很可能因为理解偏差,导致其无法正确理解文本所记载的主要内容。



技术实现要素:

本发明提供了一种文本主要内容的确定方法、装置、存储介质及计算机设备,主要在于能够提高用户解读文本的效率,节省用户的阅读时间,满足用户对阅读量的需求,同时能够保证用户所解读的文本内容的准确性。

根据本发明的第一个方面,提供一种文本主要内容的确定方法,包括:

识别待识别文本中的各个实体;

根据所述各个实体在所述待识别文本的不同语句中的所属语义成分,确定所述各个实体在所述不同语句中的权重值;

根据所述各个实体在所述不同语句中的权重值,计算所述各个实体对应的重要度评分;

根据计算的重要度评分对所述各个实体进行排序,并根据排序结果确定所述待识别文本对应的主要内容。

根据本发明的第二个方面,提供一种文本主要内容的确定装置,包括:

识别单元,用于识别待识别文本中的各个实体;

确定单元,用于根据所述各个实体在所述待识别文本的不同语句中的所属语义成分,确定所述各个实体在所述不同语句中的权重值;

计算单元,用于根据所述各个实体在所述不同语句中的权重值,计算所述各个实体对应的重要度评分;

排序单元,用于根据计算的重要度评分对所述各个实体进行排序,并根据排序结果确定所述待识别文本对应的主要内容。

根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:

识别待识别文本中的各个实体;

根据所述各个实体在所述待识别文本的不同语句中的所属语义成分,确定所述各个实体在所述不同语句中的权重值;

根据所述各个实体在所述不同语句中的权重值,计算所述各个实体对应的重要度评分;

根据计算的重要度评分对所述各个实体进行排序,并根据排序结果确定所述待识别文本对应的主要内容。

根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:

识别待识别文本中的各个实体;

根据所述各个实体在所述待识别文本的不同语句中的所属语义成分,确定所述各个实体在所述不同语句中的权重值;

根据所述各个实体在所述不同语句中的权重值,计算所述各个实体对应的重要度评分;

根据计算的重要度评分对所述各个实体进行排序,并根据排序结果确定所述待识别文本对应的主要内容。

本发明提供的一种文本主要内容的确定方法、装置、存储介质及计算机设备,与目前人工解读文本主要内容的方式相比,本发明能够识别待识别文本中的各个实体;并根据所述各个实体在所述待识别文本的不同语句中的所属语义成分,确定所述各个实体在所述不同语句中的权重值;与此同时,根据所述各个实体在所述不同语句中的权重值,计算所述各个实体对应的重要度评分;最终根据计算的重要度评分对所述各个实体进行排序,并根据排序结果确定所述待识别文本对应的主要内容,从而能够提高用户解读文本的效率,节省用户的阅读时间,满足用户阅读大量文本的需求,同时能够保证用户所解读的文本内容的准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1示出了本发明实施例提供的一种文本主要内容的确定方法流程图;

图2示出了本发明实施例提供的另一种文本主要内容的确定方法流程图;

图3示出了本发明实施例提供的一种文本主要内容的确定装置的结构示意图;

图4示出了本发明实施例提供的另一种文本主要内容的确定装置的结构示意图;

图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

目前,人工解读文本的方式,会导致用户的解读效率较低,无法满足用户对阅读量的需求,此外,很可能因为用户理解偏差,导致其无法正确理解文本所记载的主要内容。

为了解决上述问题,本发明实施例提供了一种文本主要内容的确定方法,如图1所示,所述方法包括:

101、识别待识别文本中的各个实体。

其中,待识别文本为用户需要进行解读的文本,待识别文本中的各个实体,具体包括:机构、公司、品牌、产品、时间、地点、职位、属性等,对于本发明实施例,为了克服人工解读文本的缺陷,本发明实施提供了一种自动解读文本的方法,能够提高用户解读文本的效率,确保用户所解读的文本内容的准确性,本发明实施例的执行主体为能够确定待识别文本主要的内容的装置或者设备,对于本发明实施例,当接收到用户所要解读的待识别文本时,对待识别文本进行实体识别,得到待识别文本对应的各个实体,具体地,可以利用预设自然语言模型对待识别文本中的各个实体进行识别,其中,该预设自然语言模型可以为但不局限于预设序列标注模型,将接收的待识别文本输入至预设序列标注模型进行实体标注,根据标注结果确定待识别文本中的各个实体,该标注具体包括:机构、公司、品牌、人物、地点、属性描述等,例如,待识别文本中的某个词为上海,其标注为地点,能够确定上海为地点实体,由此能够确定待识别文本中所包含的各个实体,以便从确定的各个实体中筛选出重要度较高的实体,根据筛选后的实体确定待识别文本的主要内容,避免通篇解读文本,节省用户阅读时间,提高用户对文本的解读效率。

进一步地,为了构建预设序列标注模型进行实体标注,搜集大量语料,并对大量语料中的实体进行标注,将标注后的大量语料作为训练样本,并利用预设序列标注算法对训练样本进行训练,构建预设序列标注模型,具体对语料进行标注时,可以使用brat系统创建需要标注的标签,并设置不同的颜色值,同时将包含txt语料的文件夹放置到安装文件下data的目录下,并对每个txt文件创建一个空的标引文件,该标引文件用于存放标注结果,标注人员具体标注时,选择需要标注的语料,同时为其选择对应的标签便可以完成标注,采用这种标注方式能够直观的看到标注结果,同时方便标注人员进行审核,进一步地,将标注后的大量语料作为训练样本,利用预设序列标注算法对训练样本进行训练,具体训练时,为了防止过拟合现象的发生,设置训练参数,embedding_dim=300;epoch=60。

102、根据所述各个实体在所述待识别文本的不同语句中的所属语义成分,确定所述各个实体在所述不同语句中的权重值。

对于本发明实施例,为了确定各个实体在待识别文本的不同语句中的权重值,首先将待识别文本拆分为多个语句,具体可以根据待识别文本中的标点符号将待识别文本拆分成多个语句,例如,根据待识别文本中的句号、问号、分号、感叹号、省略号将待识别文本拆分为多个语句,之后对待拆分的各个语句进行语义分析,确定各个语句的语义组成,例如,某语句的语义组成包括主语、谓语、宾语,另一语句的语义组成包括主语、谓语、状语、定语、宾语,具体地,可以利用预设语义分析算法对各个语句进行语义分析,其中,该预设语义分析算法具体可以为但不局限于预设sdp语义分析算法,由此能够确定待识别文本中各个语句的语义组成,进一步地,基于各个语句的语义组成,确定各个实体在不同语句中的所属语义成分,具体地,将识别出的各个实体与不同语句中的各个语义成分进行匹配,根据匹配结果确定各个实体在不同语句中的所属语义成分,例如,语句1的语义组成包括主语、谓语和宾语,且实体a在语句1中处于主语部分,则确定实体a在语句1中的所属语义组成为主语,再比如,语句2的语义组成包括主语、定语、状语和宾语,实体b在语句2中的处于状语部分,则确定实体b在语句2中的所属语义组成为状语。

进一步地,根据各个实体在不同的语句中的所属语义成分,确定各个实体在不同语句中的权重值,以便确定各个实体在不同语句中的重要程度,例如,若实体a在语句1中的所属语义成分为主语,则确定实体a在语句1中的权重值为5,若实体a在语句2中的所属语义成分为宾语,则确定实体a在语句2中的权重值为0分,此外,若实体a出现在标题中,则认为实体a的重要程度较高,可以设定其在标题中的权重值为10分;若实体a未出现在标题中,则可以设定其在标题中的权重值为0分,由此能够确定各个实体在标题和不同语句中的权重值集合,例如,实体a的权重值集合为(x1,x2,x3,…),其中,x1,x2,x3分别为实体在不同句语句或者标题中的权重值,从而能够确定各个实体在不同语句或者标题中的权重值,以便根据该权重值,确定在待识别文本中重要程度较高的实体,并根据该重要程度较高的实体,能够确定待识别文本的主要内容。

103、根据所述各个实体在所述不同语句中的权重值,计算所述各个实体对应的重要度评分。

对于本发明实施例,为了确定各个实体的重要程度,需要计算各个实体对应的重要度评分,具体可以采用预设重要度评分模型计算各个实体的重要度评分,其中,该重要度评分模型具体可以为但不局限于预设textrank重要度评分模型,具体地,为了利用预设textrank重要度评分模型对各个实体进行重要度评分,需要根据各个实体不在不同语句中的权重值,构建预设实体权重表,该预设实体权重表中包括各个实体及其在不同语句或者标题中的权重值,之后将构建的预设实体权重表输入至预设预设textrank重要度评分模型进行评分,得到各个实体在待识别文本中的重要度评分,根据该重要度评分能够确定实体在待识别文本中的重要程度,实体的重要度评分越高,代表该实体在待识别文本中的重要程度越高,该实体越能体现待识别文本中的主要内容;实体的重要度评分越低,代表该实体在待识别文本中的重要程度越低,该实体可能无法体现待识别文本的主要内容。

104、根据计算的重要度评分对所述各个实体进行排序,并根据排序结果确定所述待识别文本对应的主要内容。

对于本发明实施例,为了根据各个实体对应的重要度评分,确定待识别文本的主要内容,需要对各个实体对应的重要度评分进行排序,以便根据排序结果确定待识别文本对应的主要内容,具体地,可以按照各个实体对应的重要度评分高低,对各个实体进行排序,并从高到低选取排序名次处于预设范围内的各个实体进行输出,由于排序名次较高的各个实体在待识别文本中的重要程度较高,其能够代表待识别文本所讲述的主要内容,从而能够避免用户逐行逐句解读文本,提高了用户解读文本的效率,同时能够保证用户所解读的文本内容的准确性,不受用户主观因素影响。

进一步地,由于不同的用户关注待识别文本的重点不同,因此为了使用户能够从不同的维度了解文本的主要内容,满足用户的需求,需要对待识别文本从不同维度进行分析,步骤104具体包括:将识别出的各个实体进行分类,确定不同类别下的各个实体;根据不同类别下的各个实体对应重要度评分,分别对不同类别下的各个实体从高到低进行排序,得到不同类别下的实体排序结果;根据不同类别下的实体排序结果,确定待识别文本的主要内容。其中,实体类别主要包括:通用型命名实体、对象和层面描述,该通用型命名实体主要包括:机构、公司、品牌、产品、职位等;该对象主要包括:公司、品牌、产品等;该层面描述主要包括:对象的描述或属性,由此能够将识别出的各个实体分成多类,以便用户从不同维度解读待识别文本的主要内容,需要说明的是,本发明实施例中实体类别不局限于通用型命名实体、对象和层面描述,还可以根据业务需求进行其他分类,本发明实施例不做具体限定。

例如,在确定待识别文本中的各个通用型命名实体、各个对象和各个层面描述之后,根据各个通用型命名实体对应的重要度评分、各个对象对应的重要度评分和各个层面描述对应的重要度评分,分别对各个通用型命名实体、各个对象和各个层面描述进行排序,由此得到通用型命名实体的排序结果、对象的排序结果和层面描述的排序结果,进一步地,根据不同实体类别的排序结果,能够从多维度获取该待识别文本的主要内容,在提升用户解读文本效率的同时,用户能够根据自身需求,从不同维度解读待识别文本的主要内容。

本发明实施例提供的一种文本主要内容的确定方法,与目前人工解读文本主要内容的方式相比,本发明能够识别待识别文本中的各个实体;并根据所述各个实体在所述待识别文本的不同语句中的所属语义成分,确定所述各个实体在所述不同语句中的权重值;与此同时,根据所述各个实体在所述不同语句中的权重值,计算所述各个实体对应的重要度评分;最终根据计算的重要度评分对所述各个实体进行排序,并根据排序结果确定所述待识别文本对应的主要内容,从而能够提高用户解读文本的效率,节省用户的阅读时间,满足用户阅读大量文本的需求,同时能够保证用户所解读的文本内容的准确性,此外,还能够从不同维度对文本进行解析,满足用户的需求。

进一步的,为了更好的说明上述文本主要内容的确定过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种文本主要内容的确定方法,如图2所示,所述方法包括:

201、识别待识别文本中的各个实体。

其中,待识别文本为用户需要进行解读的文本,该文本可以包括新闻、媒体评论、文章等,各个实体具体可以为不同类别下的各个实体,对于本发明实施例,用户在用户端选择需要进行解读的文本,且点击文本解读按钮后,后台会接收到解读待识别文本的指令,同时还会获取待识别文本,为了解读待识别文本,获取待识别文本对应的主要内容,后台服务器会对待识别文本中的各个实体进行识别,具体地,可以利于预设自然语言模型对待识别文本进行实体标注,根据标注结果确定待识别文本中的各个实体,其中,预设自然语言模型可以为但不局限于预设bi-lstm-crf序列标注模型,将待识别文本输入至预设预设bi-lstm-crf序列标注模型进行实体标注,根据输出的标注结果能够识别各个实体。

进一步地,为了能够从不同维度对待识别文本进行解读,可以将识别出的各个实体进行分类,确定不同类别下的各个实体,以便根据不同类别下的各个实体,从多维度确定待识别文本的主要内容,例如,将各个实体分为通用型命名实体、对象和层面描述,该层面描述为对象的相关属性和描述词,通用型命名实体具体包括:时间、地点和人物等实体,对象具体包括:品牌、公司和产品等实体,层面描述包括对象的属性和描述等实体,由此能够确定实体中的各个通用型命名实体、各个对象和各个层面描述,需要说明的是,实体分类方式可以根据业务需求进行设定,并不局限于上述分类方式。

202、根据所述各个实体在所述待识别文本的不同语句中的所属语义成分,确定所述各个实体在所述不同语句中的权重值。

对于本发明实施例,为了计算各个实体在待识别文本中的重要度评分,需要先确定各个实体在不同语句中的权重值,步骤202具体包括:将所述待识别文本拆分成各个语句,并利用预设语义分析算法对所述各个语句进行语义分析,确定所述各个语句对应的语义组成;根据所述各个语句对应的语义组成,确定所述各个实体在不同语句中的所属语义成分;根据确定的所属语义成分,确定所述各个实体在所述不同语句中的权重值。此外,若各个实体为不同类别下的各个实体,为了确定不同类别下的各个实体在不同语句中的权重中,所述根据所述各个语句对应的语义组成,确定所述各个实体在不同语句中的所属语义成分,具体包括:根据各个语句对应的语义组成,分别确定不同类别下的各个实体在不同语句中的所属语义成分,与此同时,所述根据确定的所属语义成分,确定所述各个实体在所述不同语句中的权重值,具体包括:根据确定的语义成分,确定所述不同类别下的各个实体在所述不同语句中的权重值。

其中,预设语义分析算法具体可以为预设sdp语义分析算法,利用预设sdp语义分析算法能够确定拆分后的各个语句对应的语义组成,进一步地,分析不同类别下的各个实体在不同语句中的所属语义成分,例如,对象a为xx公司,确定对象a在语句1中的语义成分为主语,对象a在语句2中的语义成分为宾语,由此能够确定各个对象在不同语句中的所属语义成分,同理可以确定各个通用型命名实体和各个层面描述在不同语句中的所属语义成分。进一步地,由于不同的语义成分对应的权重值不同,根据确定的语义成分,确定所述不同类别下的各个实体在所述不同语句中的权重值,例如,若对象b出现在标题中,则确定对象b在标题中的权重值为10;若对象b在语句1中的所属语义成分为主语,则确定对象b在语句1中的权重值为5;若对象b在语句2中的所属语义成分为宾语,则确定对象b在语句2中的权重值为1;若对象b在语句3中未出现,则确定对象b在语句3中的权重值为0。

进一步地,如果某语句中存在双主语,且目标实体为双主语之一,判断该目标实体是否为主体部分,根据判断结果确定目标实体在该语句中的权重值,例如,某语句为对象a比对象b看起来更好,该语句中存在双主语对象a和对象b,对象a为双主语中的主体部分,因此确定对象a在该语句中的权重值为5,对象b为双主语中的客体部分,因此确定对象b在该语句中的权重值为3,由此能够根据不同类别下的各个实体在不同语句中的所属语义成分,确定不同类别下的各个实体对应的权重值,以便根据确定的权重值,计算不同类别下的各个实体在待识别文本中的重要度评分,通过不同类别下的各个实体对应的重要度评分,能够从多维度了解待识别文本所讲述的主要内容,满足用户的需求。

203、根据所述各个实体及其在所述不同语句中的权重值,构建预设实体权重表。

其中,预设实体权重表中存储有不同类别下的各个实体及其对应的权重值,对于本发明实施例,为了利用预设重要度评分模型计算各个实体对应的重要度评分,需要够预设实体权重表,具体地,根据不同类别下的各个实体与各个权重值之间的映射关系,构建预设实体权重表,以便根据该预设实体权重表计算不同类别下的各个实体对应的重要度评分。

204、将所述预设实体权重表输入至预设重要度评分模型进行评分,得到所述各个实体对象对应的重要度评分。

对于本发明实施例,为了计算各个实体对应的重要度评分,以便根据计算的重要度评分,解读文本的主要内容,步骤204具体包括:根据所述各个实体在所述待识别文本中出现的次数,计算所述各个实体对应的初始评分;将计算的初始评分和所述预设实体权重表输入至预设重要度评分模型进行评分,得到所述各个实体对应的重要度评分。此外,为了能够从多维度解读文本的主要内容,所述根据所述各个实体在所述待识别文本中出现的次数,计算所述各个实体对应的初始评分,具体包括:根据不同类别下的各个实体在所述待识别文本中出现的次数,计算所述不同类别下的各个实体对应的初始评分。与此同时,所述将计算的初始评分和所述预设实体权重表输入至预设重要度评分模型进行评分,得到所述各个实体对应的重要度评分,具体包括:将计算的初始评分和所述预设实体权重表输入至预设重要度评分模型进行评分,得到所述不同类别下的各个实体对应的重要度评分。

其中,该预设预设重要度评分模型可以为预设textrank重要度评分模型,由于预设textrank重要度评分模型需要根据不同类别下各个实体对应的初始分值计算重要度评分,因此需要确定不同类别下各个实体对应的初始分值,具体地,可以利用预设tf-idf算法计算不同类别下的各个实体对应的初始评分,首先统计不同类别下各个实体在待识别文本中出现的频率tf,之后根据待识别文本数1确定逆向文件频率idf,由此将不同类别下各个实体对象的词频tf和逆向文件频率idf相乘,能够得到不同类别下的各个实体对应的初始评分。进一步地,将计算的初始评分和预设实体权重表输入至预设textrank重要度评分模型进行评分,得到不同类别下的各个实体对应的重要度评分,以便根据该重要度评分,确定不同类别下重要程度较高的实体,通过确定的重要程度较高的实体,能够从不同维度得知待识别文本所讲述的主要内容。

此外,计算的重要度评分是根据不同类别下的各个实体在不同句中的所属语义成分确定的,为了保证计算的重要度评分的准确性,还需要考虑不同类别下的各个实体在通篇文本中的影响度,因此需要对计算的重要度评分进行调整,即再次对不同类别下的各个实体进行加权处理,以确保后续解读文本主要内容的准确性,在步骤204之后,所述方法还包括:对所述各个实体进行分类处理,确定不同类别下的各个实体;根据所述各个实体所属类别以及所述各个实体在所述待识别文本中的位置,对所述不同类别下的各个实体对应的重要度评分进行调整。其中,当实体为目标实体,或者出现在待识别文本中的标题中、句首,可以为该实体设定较高的权重值。

例如,设定不同类别下的各个实体对应的初始权重值为1,在此基础上,如果某实体为对象或者层面描述,即某实体为目标实体时,则认为其重要程度较高,在初始权重值的基础上+8;如果某实体为通用型命名实体,则在初始权重的基础上+1;如果某实体出现在标题中,则认为其重要程度较高,在初始权重值的基础上+8;如果某实体出现在句首,则认为其重要程度较高,在初始权重值的基础上+4,由此能够确定不同类别下的各个实体在待识别文本中的权重值,并将确定的不同类别下的各个实体在待识别文本中权重值与其对应的重要度评分进行相加,得到调整后的不同类别下的各个实体对应的重要度评分,由此,通过对之前计算的不同类别下的各个实体对应的重要度评分进行调整,提高了重要度评分的计算精度,以便确保后续解读文本主要内容的准确性。

205、根据计算的重要度评分对所述各个实体进行排序,并根据排序结果确定所述待识别文本对应的主要内容。

对于本发明实施例,为了从多维度解读待识别文本对应的主要内容,步骤205具体包括:根据调整后的重要度评分分别对所述不同类别下的各个实体进行排序,得到不同类别下的实体排序结果;根据所述不同类别下的实体排序结果,确定所述待识别文本对应的主要内容。为了保证最终的重要度评分在100以内,对其进行归一化处理,归一化的具体公式如下:

其中,s为归一化处理后的不同类别下的各个实体对应的重要度评分,a,b,k为常数,在本发明实施例中提供一组优选参数值:a=0.9688,b=1.0342,k=0.6998,若s>100时,确定s=100。进一地,根据归一化处理后的重要度评分,对不同类别下的各个实体进行排序,并根据排序结果,能够从不同维度确定待识别文本的主要内容,由此克服了用户人工解读文本的缺陷,在提高用户解读文本效率的同时,能够从不同维度确定文本的主要内容,满足用户额需求。

进一步地,在待识别文本中实体名称很可能不是标准化的名称,或者在待识别文本中同一实体出现不同的名称,因此在将排序名次处于预设范围的不同类别下的各个实体输出之前,需要对其名称进行标注化处理,以便将同一实体的不同名称进行统一,便于用户理解和查看,对于本发明实施例,在步骤205之前,利用预设实体命名库对所述不同类别下的各个实体对应的名称进行标准化处理,得到不同类别下的各个实体对应的标准化名称,其中,该预设实体命名知识库中存储有不同实体的标准化名称及其对应的别名,如果某实体在待识别文本中的名称并非标准化名称(别名),通过查询预设实体命名库能够确定该实体对应的标准化名称,由此能够将待识别文本中不同类别下的各个实体对应的名称进行标准化处理,便于用户查看和理解,增强用户的体验。

进一步地,在能够对文本进行多维度解读的同时,还能够确定不同类别下的实体之间的关联关系,例如,确定各个对象与各个层面描述之间的关联关系,根据该关联关系,可以得知该文本主要讲述的对象包括哪些,同时还能够得知该文本讲述的是关于这些对象的哪方面内容,对于本发明实施例,所述方法还包括:从所述各个实体中筛选出各个对象和各个层面描述;将所述各个对象中的任一对象与所述各个层面描述中的任一层面描述进行组合,得到所述各个对象和所述各个层面描述之间的多个组合;确定各个组合中的对象和层面描述在不同语句中的关联性权重值;根据确定的关联性权重值,计算所述各个组合中对象和层面描述之间的关联性评分;基于计算的关联性评分,对所述各个组合进行排序,根据排序结果确定所述各个对象中的任一对象与所述各个层面描述中的任一层面描述之间的关联关系。进一步地,针对所述不同语句中的目标语句,所述确定各个组合中的对象和层面描述在不同语句中的关联性权重值,具体包括:判断所述各个组合中目标组合的对象和层面描述在所述目标语句中的间隔词数是否大于或者等于预设间隔词数;若大于或者等于预设间隔词数,则确定所述目标组合的对象和层面描述在所述目标语句中的关联性权重值为第一预设关联性权重值;若小于预设间隔词数,则确定所述目标组合的对象和层面描述在所述目标语句中的关联性权重值为第二预设关联性权重值。其中,预设间隔词数、第一预设关联性权重和第二预设关联性权重可以根据业务需求具体设定。

例如,将待识别文本中的各个对象和各个层面描述进行组合,得到对象与层面描述之间的多个组合,即建立对象与层面描述两两之间的共现关系,进一步地,针对各个组合中的对象和层面描述,分别确定其在不同语句中的权重值,例如,预设间隔词数为10,第一预设关联性权重为1,第二预设关联性权重为2,若a组对象和层面描述在语句1中的间隔词数大于或者等于10,则认为a组中的对象和层面之间的共现关系不符合要求,即a组对象和层面描述在语句1中存在关联关系的可能性较小,由此确定a组对象和层面描述在语句1中的关联性权重值为1;若a组对象和层面描述在语句2中的间隔词数小于10,则认为a组中的对象和层面之间的共现关系符合要求,即a组对象和层面描述在语句2中很可能存在关联关系,由此确定a组对象和层面描述在语句2中的关联性权重值为2,从而能够确定各组对象和层面描述在不同语句中的关联性权重值,进一步地,将各组对象和层面描述在不同语句中的关联性权重进行累加,得到各组对象和层面描述在待识别文本中的关联性评分,基于计算的关联性评分,对各个组合中的对象和层面描述进行排序,根据该排序结果能够确定不同对象和不同层面描述之间的关联关系,例如,对象a和层面描述b的关联性评分排名较高,则认为对象a和层面描述b之间存在关联关系,待识别文本中讲述了对象a关于层面描述b的内容。

本发明实施例提供的另一种文本主要内容的确定方法,与目前人工解读文本主要内容的方式相比,本发明能够识别待识别文本中的各个实体;并根据所述各个实体在所述待识别文本的不同语句中的所属语义成分,确定所述各个实体在所述不同语句中的权重值;与此同时,根据所述各个实体在所述不同语句中的权重值,计算所述各个实体对应的重要度评分;最终根据计算的重要度评分对所述各个实体进行排序,并根据排序结果确定所述待识别文本对应的主要内容,从而能够提高用户解读文本的效率,节省用户的阅读时间,满足用户阅读大量文本的需求,保证用户所解读的文本内容的准确性,此外,还能够从不同维度对文本进行解析,满足用户的需求,同时还能够输出不同类别实体之间的关联关系,根据该关联关系用户能够确定文本讲述的主要对象及其对应的内容。

进一步地,作为图1的具体实现,本发明实施例提供了一种文本主要内容的确定装置,如图3所示,所述装置包括:识别单元31、确定单元32、计算单元33和排序单元34。

所述识别单元31,可以用于识别待识别文本中的各个实体。所述识别单元31是本装置中识别待识别文本中的各个实体的主要功能模块。

所述确定单元32,可以用于根据所述各个实体在所述待识别文本的不同语句中的所属语义成分,确定所述各个实体在所述不同语句中的权重值。所述确定单元32是本装置中根据所述各个实体在所述待识别文本的不同语句中的所属语义成分,确定所述各个实体在所述不同语句中的权重值的主要功能模块,也是核心模块。

所述计算单元33,可以用于根据所述各个实体在所述不同语句中的权重值,计算所述各个实体对应的重要度评分。所述计算单元33是本装置中根据所述各个实体在所述不同语句中的权重值,计算所述各个实体对应的重要度评分的主要功能模块,也是核心模块。

所述排序单元34,可以用于根据计算的重要度评分对所述各个实体进行排序,并根据排序结果确定所述待识别文本对应的主要内容。所述排序单元34是本装置中根据计算的重要度评分对所述各个实体进行排序,并根据排序结果确定所述待识别文本对应的主要内容的主要功能模块。

进一步地,如图4所示,为了计算各个实体对应的重要度评分,所述计算单元33,包括:构建模块331和评分模块332。

所述构建模块331,可以用于根据所述各个实体及其在所述不同语句中的权重值,构建预设实体权重表。

所述评分模块332,可以用于将所述预设实体权重表输入至预设重要度评分模型进行评分,得到所述各个实体对象对应的重要度评分。

进一步地,为了确定各个实体对象对应的重要度评分,所述构建模块331,包括:计算子模块和评分子模块。

所述计算子模块,可以用于根据所述各个实体在所述待识别文本中出现的次数,计算所述各个实体对应的初始评分。

评分子模块,可以用于将计算的初始评分和所述预设实体权重表输入至预设重要度评分模型进行评分,得到所述各个实体对应的重要度评分。

对于本发明实施例,为了提高重要度评分的计算精度,所述装置还包括:调整单元35。

所述确定单元32,还可以用于对所述各个实体进行分类处理,确定不同类别下的各个实体。

所述调整单元35,还可以用于根据所述各个实体所属类别以及所述各个实体在所述待识别文本中的位置,对所述不同类别下的各个实体对应的重要度评分进行调整。

进一步地,所述排序单元34,包括:排序模块341和确定模块342,所述排序模块341,可以用于根据调整后的重要度评分分别对所述不同类别下的各个实体进行排序,得到不同类别下的实体排序结果。

所述确定模块342,可以用于根据所述不同类别下的实体排序结果,确定所述待识别文本对应的主要内容。

在具体应用场景中,为了确定各个对象和层面之间的关联关系,所述装置还包括:筛选单元36和组合单元37。

所述筛选单元36,可以用于从所述各个实体中筛选出各个对象和各个层面描述。

所述组合单元37,可以用于将所述各个对象中的任一对象与所述各个层面描述中的任一层面描述进行组合,得到所述各个对象和所述各个层面描述之间的多个组合。

所述确定单元32,还可以用于确定各个组合中的对象和层面描述在不同语句中的关联性权重值。

所述计算单元33,还可以用于根据确定的关联性权重值,计算所述各个组合中对象和层面描述之间的关联性评分。

所述排序单元34,还可以用于基于计算的关联性评分,对所述各个组合进行排序,根据排序结果确定所述各个对象中的任一对象与所述各个层面描述中的任一层面描述之间的关联关系。

进一步地,为了确定各个组合中的对象和层面描述在不同语句中的关联性权重值,所述确定单元32,还包括:判断模块321和确定模块322。

所述判断模块321,可以用于判断所述各个组合中目标组合的对象和层面描述在所述目标语句中的间隔词数是否大于或者等于预设间隔词数。

所述确定模块322,可以用于若大于或者等于预设间隔词数,则确定所述目标组合的对象和层面描述在所述目标语句中的关联性权重值为第一预设关联性权重值。

所述确定模块322,还可以用于若小于预设间隔词数,则确定所述目标组合的对象和层面描述在所述目标语句中的关联性权重值为第二预设关联性权重值。

进一步地,为了确定所述各个实体在所述不同语句中的权重值,所述确定单元32,还包括:分析模块323。

所述分析模块323,可以用于将所述待识别文本拆分成各个语句,并利用预设语义分析算法对所述各个语句进行语义分析,确定所述各个语句对应的语义组成。

所述确定模块322,还可以用于根据所述各个语句对应的语义组成,确定所述各个实体在不同语句中的所属语义成分。

所述确定模块322,还可以用于根据确定的所属语义成分,确定所述各个实体在所述不同语句中的权重值。

需要说明的是,本发明实施例提供的一种文本主要内容的确定装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。

基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:识别待识别文本中的各个实体;根据所述各个实体在所述待识别文本的不同语句中的所属语义成分,确定所述各个实体在所述不同语句中的权重值;根据所述各个实体在所述不同语句中的权重值,计算所述各个实体对应的重要度评分;根据计算的重要度评分对所述各个实体进行排序,并根据排序结果确定所述待识别文本对应的主要内容。

基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:识别待识别文本中的各个实体;根据所述各个实体在所述待识别文本的不同语句中的所属语义成分,确定所述各个实体在所述不同语句中的权重值;根据所述各个实体在所述不同语句中的权重值,计算所述各个实体对应的重要度评分;根据计算的重要度评分对所述各个实体进行排序,并根据排序结果确定所述待识别文本对应的主要内容。

通过本发明的技术方案,本发明能够识别待识别文本中的各个实体;并根据所述各个实体在所述待识别文本的不同语句中的所属语义成分,确定所述各个实体在所述不同语句中的权重值;与此同时,根据所述各个实体在所述不同语句中的权重值,计算所述各个实体对应的重要度评分;最终根据计算的重要度评分对所述各个实体进行排序,并根据排序结果确定所述待识别文本对应的主要内容,从而能够提高用户解读文本的效率,节省用户的阅读时间,满足用户阅读大量文本的需求,保证用户所解读的文本内容的准确性,此外,还能够从不同维度对文本进行解析,满足用户的需求,同时还能够输出不同类别实体之间的关联关系,根据该关联关系用户能够确定文本讲述的主要对象及其对应的内容。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1