基于多主题语义标签信息映射的结构化处理方法及装置与流程

文档序号:12863932阅读:286来源:国知局
基于多主题语义标签信息映射的结构化处理方法及装置与流程
本申请涉及文本处理
技术领域
,尤其涉及一种基于多主题语义标签信息映射的结构化处理方法及装置。
背景技术
:咨询平台是指能在短时间内为用户提供咨询结果的自动化服务平台。用户根据自身需求输入咨询平台的文本千差万别,通常是包含多个名称、子问题、计量单位以及同义词的非结构化文本。在处理这些非结构化文本过程中会出现无法识别信息或者识别的信息与用户意愿存在偏差的问题,降低咨询业务处理准确度。为了提供准确的咨询结果,咨询平台要对用户输入的非结构化文本进行结构化处理。非结构化文本是指不能直接通过数据库二维逻辑表来表示的文本,例如,“迷你贷安全吗”,“我现在在投人人贷,陆金所,开鑫贷,帮我看一下这几个平台”等,为了识别非结构化文本,现有技术示出一种将非结构化文本信息转换成结构化形式的方法,方法通过对非结构化文本信息进行语法分析,提取关键词,并在多个关键词内寻找结构化规则中定义的文本片段,将文本信息转化成二维逻辑表。例如,当用户输入“迷你贷安全吗”这一问题时,识别出“迷你贷”、“安全吗”两个关键词,通过与结构化规则中定义的片段进行匹配,生成逻辑表,如图1所示。在咨询平台中,用户输入的文本常包括多个名称以及多个与名称具有映射关系的关联信息,在结构化处理中需要确定这些名称与关联信息之间的映射关系。例如,当用户输入“迷你贷、人人贷危险吗?还有果树财富,你们为什么撤资,能投吗?”此时,根据输入文本所提取的名称为“迷你贷”、“人人贷”和“果树财富”,但三者在语句中对应的关联信息是不同的,即“迷你贷、人人贷”对应的是“询问安全性”,而“果树财富”对应“询问是否可投”。可见,通过现有方法在处理上述文本时,不能确定多个名称和关联信息之间的对应关系,以致出现错误,使文本结构化处理结果不能反映客户咨询问题的真实含义。技术实现要素:本申请提供了一种基于多主题语义标签信息映射的结构化处理方法及装置,以解决传统方法不能正确确定映射关系的问题。第一方面,本申请实施例提供一种基于多主题语义标签信息映射的结构化处理方法,所述方法包括:获取非结构化文本;从所述非结构化文本中提取关键词;将所述关键词与预置语料进行匹配,确定至少一个语义标签信息,所述语义标签信息包括:与所述预置语料对应的标签内容、标签值以及标签描述;将所述语义标签信息进行分类,所述语义标签信息的类别包括:名称标签和状态标签;根据预设规则,建立名称标签与状态标签间的映射关系,生成结构化文本。可选地,所述根据预设规则,建立名称标签与状态标签间的映射关系,生成结构化文本的步骤包括:根据状态标签的标签描述判断所述状态标签是否可以建立映射关系;如果所述状态标签可以建立映射关系,获取所述状态标签与名称标签对应关键词之间的间隔字符数;根据所述名称标签与所述状态标签对应关键词之间的间隔字符数,确定名称标签与所述状态标签的映射关系;将映射关系生成结构化文本。可选地,所述根据所述名称标签与所述状态标签对应关键词之间的间隔字符数,确定名称标签与所述状态标签的映射关系的步骤包括:获取所述状态标签的标签值数量以及所述名称标签的标签值数量;如果所述名称标签标签值的数量大于1,判断多个所述名称标签标签值间是否为并列关系;根据所述状态标签的标签值数量,以及名称标签标签值间的并列关系,确定名称标签与状态标签之间的映射关系。可选地,根据所述状态标签的标签值数量,以及名称标签标签值间的并列关系,建立名称标签与状态标签之间的映射关系,包括:如果状态标签的标签值数量等于1,且多个名称标签标签值间没有并列关系,比较多个名称标签标签值与状态标签标签值对应关键词的间隔字符数,确定所述间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值间有映射关系;如果状态标签的标签值数量等于1,且多个名称标签标签值间存在并列关系,比较多个名称标签标签值与状态标签标签值对应关键词的间隔字符数,确定所述间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值间有映射关系,且存在并列关系的多个名称标签标签值有相同映射关系;如果状态标签的标签值数量大于1,比较多个名称标签标签值与状态标签的每个标签值对应关键词的间隔字符数,确定所述间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值对应内容间有映射关系;如果状态标签的标签值数量大于1,且名称标签标签值与状态标签多个标签值对应关键词的间隔字符数相等,则在同一方向上,确定间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值对应内容间有映射关系。可选地,根据预设规则,建立名称标签与状态标签间的映射关系,生成结构化文本的步骤之后,所述方法还包括:根据标签内容,识别与时间和数字相关的语义标签信息,作为数字标签;获取数字标签的标签值和标签值对应的计量单位;根据计量单位间的换算关系对标签值进行归一化处理,获得处理后标签值;将标签值替换为处理后标签值。根据本申请实施例的第二方面,提供了一种基于多主题语义标签信息映射的结构化处理装置,所述装置包括:文本输入模块,用于获取非结构化文本;识别模块,用于从所述非结构化文本中提取关键词;匹配模块,用于将所述关键词与预置语料进行匹配,确定至少一个语义标签信息,所述语义标签信息包括:与所述预置语料对应的标签内容、标签值以及标签描述;分类模块,用于将所述语义标签信息进行分类,所述语义标签信息的类别包括:名称标签和状态标签;映射关系确定模块,用于根据预设规则,建立名称标签与状态标签间的映射关系,生成结构化文本。可选地,所述映射关系确定模块包括:状态标签判断子模块,用于根据状态标签的标签描述判断所述状态标签是否可以建立映射关系;字符数获取单元,用于如果所述状态标签可以建立映射关系,获取所述状态标签与名称标签对应关键词之间的间隔字符数;映射关系判断子模块:用于根据所述名称标签与所述状态标签对应关键词之间的间隔字符数,确定名称标签与所述状态标签的映射关系;文本输出子模块,用于将映射关系生成结构化文本。可选地,所述映射关系确定模块还包括:标签值数量获取子模块以及并列关系判断子模块所述数量获取子模块,用于获取所述状态标签的标签值数量以及所述名称标签的标签值数量;所述并列关系判断子模块,用于如果所述名称标签的标签值数量大于1,判断多个所述名称标签标签值间是否为并列关系;映射关系判断子模块,如果多个所述名称标签标签值间是并列关系,根据所述状态标签的标签值数量,建立名称标签与状态标签之间的映射关系。可选地,所述映射关系确定模块通过以下方案确定名称标签与状态标签之间的映射关系:如果状态标签的标签值数量等于1,且多个名称标签标签值间没有并列关系,比较多个名称标签标签值与状态标签标签值对应关键词的间隔字符数,确定所述间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值间有映射关系;如果状态标签的标签值数量等于1,且多个名称标签标签值间存在并列关系,比较多个名称标签标签值与状态标签标签值对应关键词的间隔字符数,确定所述间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值间有映射关系,且存在并列关系的多个名称标签标签值有相同映射关系;如果状态标签的标签值数量大于1,比较多个名称标签标签值与状态标签的每个标签值对应关键词的间隔字符数,确定所述间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值对应内容间有映射关系;如果状态标签的标签值数量大于1,且名称标签标签值与状态标签多个标签值对应关键词的间隔字符数相等,则在同一方向上,确定间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值对应内容间有映射关系。可选地,所述装置还包括数字标签识别模块,计量单位获取模块,归一化处理模块以及信息替换模块;所述数字标签识别模块,用于根据标签内容,识别与时间和数字相关的语义标签信息,作为数字语义标签信息;所述计量单位获取模块,用于获取数字语义标签信息的标签值和标签值对应的计量单位;所述归一化处理模块,用于根据计量单位间的换算关系对标签值进行归一化处理,获得处理后标签值;所述信息替换模块,用于将标签值替换为处理后标签值。由以上技术方案可知,本申请提供的基于多主题语义标签信息映射的结构化处理方法及装置可以面向咨询平台,对咨询平台中的用户输入的咨询问题等非结构化文本进行结构化处理,以便计算机进行识别。该方法通过在非结构化文本中提取关键词,将关键词与预置语料进行匹配,确定至少一个包括标签内容、标签值以及标签描述的语义标签信息,再通过判断语义标签信息的类型,根据预设规则建立名称标签与状态标签间的映射关系,生成结构化文本。其中,预设规则是根据名称标签标签值与状态标签标签值对应关键词之间的间隔字符数,并结合多个名称标签标签值间是否存在并列关系,以及状态标签的标签值数量,等条件来建立名称标签与状态标签之间的映射关系。本申请实施例提供的结构化处理方法,能够将非结构化文本转化成可识别的语义标签信息,且能够确定名称标签和状态标签之间的映射关系,使计算机识别的文本内容更接近用户意愿,提高咨询平台对所输入问题的答复准确程度。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为现有技术中结构化处理方法示意图;图2为本申请提供的基于多主题语义标签信息映射的结构化处理方法的流程示意图;图3为实施例一中基于多主题语义标签信息映射的结构化处理方法流程示意图;图4为实施例二中基于多主题语义标签信息映射的结构化处理方法流程示意图;图5为实施例三中基于多主题语义标签信息映射的结构化处理方法流程示意图;图6为实施例四中基于多主题语义标签信息映射的结构化处理方法流程示意图;图7为实施例五中基于多主题语义标签信息映射的结构化处理方法流程示意图;图8为基于多主题语义标签信息映射的结构化处理装置的结构示意图;图9为基于多主题语义标签信息映射的结构化处理装置一个实施例的结构示意图。具体实施方式这里将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本发明相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的装置和方法的示例。在咨询平台中,为了识别用户咨询文本的含义,需要在平台中预置标准文本。标准文本包括对于一个主题尽可能多的表达方式,其中一种表达方式就是一种预置语料。多个预置语料所共同表达的主题称为语义标签信息,语义标签信息具有名称标签和状态标签两种类型,其中名称标签是指包含至少一个名称的语义标签信息,一般为一些专有名词所构成的集合;状态标签是指表示询问状态的语义标签信息,一般除名称标签外的其它语义标签信息都是状态标签。语义标签信息包括标签内容和标签值,标签内容是指语义标签信息所对应的所有预置语料表达的具体含义,标签值是对应标签内容下的具体值或具体内容。例如,文本中包括“迷你贷”,就是一种名称标签,其标签内容为“理财平台名称”,标签值为“迷你贷”,表示该语义标签信息对应的关键词的含义为“一个叫迷你贷的理财平台”;又例如,文本中包括“安全吗”,就是一种状态标签,其标签内容为“询问安全性”,标签值为“是”,表示该语义标签信息对应的关键词的含义为“该词表示询问安全性”。参见图2,为一种基于多主题语义标签信息映射的结构化处理方法的流程示意图。如图2所示,该方法主要包括以下步骤:s101:获取非结构化文本。获取非结构化文本,即用户在咨询平台输入的文本。在自动化咨询平台中,用户通过平台输入的问题主观程度很高,每个用户根据自身情况对于问题的描述方式也具有很大的差别。例如,用户想要咨询迷你贷这个理财平台的安全性,会通过很多种方式进行表述:“迷你贷安全吗”、“迷你贷的安全性怎么样”、“我想知道迷你贷的安全性”、“迷你贷上投资危险不危险”……除此以外,咨询平台所提供的文本输入方式可能也有不同,可以直接在文本输入框中输入,也可以通过语音输入并转换成文字内容。s102:从所述非结构化文本中提取关键词。对于非结构化文本,关键词是指能够反映文本含义的词语片段。咨询平台在获取到用户输入的文本后,会对文本进行初步识别,确定没有实质含义的语气词和标点符号,并结合语法规则以及词语的词性,将文本分割成多个词语片段。例如,当用户输入的文本为“麻袋网是不是比投哪网安全一些呢”,经过初步识别,文本中含有没有实质含义的语气词“一些呢”,因此词语片段“一些呢”不是该文本的关键词,再通过分析文本的语法规则,可知文本中包括“××比××安全”的句式,因此提取文本片段“××比××安全”,同时,通过分析语句中词语的词性,确定文本还包含关键词“麻袋网”和“投哪网”。因此,本实施例中,提取到的关键词为“麻袋网”、“投哪网”、“××比××安全”。s103:将所述关键词与预置语料进行匹配,确定至少一个语义标签信息,所述语义标签信息包括:与所述预置语料对应的标签内容、标签值以及标签描述。本实施例中,咨询平台通过录入标准文档,形成数据库。预置语料是标准文档的一部分,存储在咨询平台的服务器中。当提取到非结构化文本的关键词后,平台将关键词与预置语料进行匹配,当关键词与预置语料内容相同或者相似时,确定该预置语料所对应的语义标签信息,作为非结构化文本的一个语义标签信息,从而获得该语义标签信息下对应的标签内容以及标签值。例如,当用户输入的文本内容为“麻袋网是不是比投哪网安全一些呢”,提取到关键词“麻袋网”、“投哪网”以及“××比××安全”,其中关键词“××比××安全”与如表一所示的标准文档中的预置语料“××比××安全”相同,因此确定该预置语料下对应的语义标签信息,其标签内容为“对比安全性”,标签值为“是”。表一:进一步地,为了减少预置语料的检索量,可事先对标准文档进行分类,标准文档的分类依据可以是语料中能够表达问题性质的词语,例如,对比和询问;也可以根据标签内容所属的
技术领域
,例如,科技、理财等。将标准文档分类以后,咨询平台在识别非结构化文本中的关键词后,可通过关键词对所述非结构化文本所属的分类进行判断,并且在该分类的标准文档下进行关键词与预置语料进行匹配,减少咨询平台在匹配过程中对预置语料的检索量,提高匹配速度。另外,将标准文档分类后可以在匹配过程开始前对用户的咨询内容所属分类进行确定,以便平台根据所属分类中的名称和专业术语进行正确划分,提高平台提取非结构化文本中关键词的准确性。表一中示出的标准文档还包含标签描述,标签描述是为了便于理解,对多个预置语料所对应的标签内容进行的注释。标签描述可以在标准文档录入过程中及时了解语义标签信息和语义标签信息所属分类,提高标准文档的录入效率。s104:将所述语义标签信息进行分类,所述语义标签信息的类别包括:名称标签和状态标签。在这一步骤中,咨询平台根据语义标签信息对应关键词的内容来确定语义标签信息类别,即判断非结构化文本中是否存在名称标签,以便通过后续步骤确定名称标签与状态标签之间的对应关系。其中,从用户输入的非结构化文本中提取的关键词是表示名称的专有名词时,可判断,该关键词所对应的语义标签信息为名称标签,相对的,如果从用户输入的非结构化文本中提取的关键词不是表示名称的专有名词,则判断此关键词对应的语义标签信息为状态标签。例如,当用户输入“迷你贷安全吗”,平台提取“迷你贷”和“安全吗”两个关键词,通过与标准文档中的预置语料进行匹配,获取如表二所示的语义标签信息。表二:上述实施例中,提取的关键词“迷你贷”是表示名称的专有名词,所以为名称标签标签值,因此确定“迷你贷”对应的语义标签信息为名称标签;而对于“安全吗”,由于关键词中不包含表示名称的内容,且通过与预置语料进行匹配,确定“安全吗”是表示文本的询问状态,因此“安全吗”对应的语义标签信息类别为状态标签。s105:根据预设规则,建立名称标签与状态标签间的映射关系,生成结构化文本。在咨询平台中,根据用户输入的非结构化文本内容,确定的语义标签信息有三种情况,即:第一种情况,所述非结构化文本中没有名称标签标签值,这种情况下只需根据状态标签的标签内容和标签值就能够确定非结构化文本的含义;第二种情况,所述非结构化文本中只有一个名称标签标签值,在此情况下直接可以确定该名称标签标签值与状态标签标签内容下标签值的映射关系;第三种情况,所述非结构化文本中含有多个名称标签标签值,这种情况较为复杂,为确定多个名称标签标签值与状态标签标签内容下标签值间的映射关系,本申请通过以下实施例来具体说明此情况下的预设规则。实施例一。如图3所示,本实施例中,咨询平台获取用户输入的问题,即获取非结构化文本;识别非结构化文本中的关键词;并与预置语料进行匹配,获取与关键词对应的语义标签信息;通过对语义标签信息进行分类,确定哪些语义标签信息是名称标签,哪些语义标签信息是状态标签;对语义标签信息分类后,根据状态标签的标签描述判断每个状态标签是否可以建立映射关系;如果状态标签可以建立映射关系,获取状态标签标签值与名称标签标签值对应关键词之间的间隔字符数;再根据名称标签标签值与所述状态标签标签值对应关键词之间的间隔字符数,确定名称标签与所述状态标签的映射关系。对于状态标签,应根据标准文档中预置的标签描述确定该状态标签是否可以与名称标签标签值建立映射关系。例如,标签内容为“询问安全性”的状态标签,需要与对应的名称标签标签值建立映射关系才能完整表述文本的实际含义,即“询问名称标签对应内容的安全性”。又例如,标签内容为“投资状态”的状态标签,只有与对应的名称标签标签值,如“人人贷”,建立映射关系才能完整表述文本内容,即表示“在人人贷的投资状态”。因此,可以在标准文档中针对标签内容和标签值在对应的标签描述中,设定该状态标签是否可以与名称标签建立映射关系。当状态标签不可以建立映射关系时,例如,当用户输入的非结构化文本内容为“迷你贷比人人贷安全吗”,关键词“××比××安全吗”对应的状态标签不可以建立映射关系,而“对比安全性”必然要在两个或两个以上名称标签标签值之间进行对比,因此可以直接确定名称标签和状态标签之间的关系含义。当状态标签可以建立映射关系时,名称标签与状态标签之间的映射关系是通过比较多个名称标签标签值与状态标签标签值对应关键词的间隔字符数,确定所述间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值间有映射关系,例如:当用户询问“迷你贷危险吗,还有小牛在线可以重仓吗”;咨询平台提取关键词“迷你贷”、“危险吗”、“小牛在线”、“可以重仓吗”;将关键词与预置语料进行匹配,获取如表三所示的语义标签信息;表三:关键词标签内容标签值标签类别“迷你贷”平台名称迷你贷名称标签“危险吗”询问安全性是状态标签“小牛在线”平台名称小牛在线名称标签“可以重仓吗”询问能否重仓是状态标签如表三示出的语义标签信息,其中,关键词“危险吗”以及“可以重仓”对应的语义标签信息为状态标签,且均可以建立映射关系;根据非结构化文本的内容,关键词“迷你贷”与关键词“危险吗”的间隔字符数为0,关键词“迷你贷”与关键词“可以重仓吗”的间隔字符数为10,因此确定关键词“迷你贷”对应的名称标签与关键词“危险吗”对应的状态标签之间具有映射关系,如表四所示。同理,关键词“小牛在线”与关键词“危险吗”的间隔字符数为3,关键词“小牛在线”与关键词“可以重仓吗”的间隔字符数为0,确定关键词“小牛在线”对应的名称标签与关键词“可以重仓吗”对应的状态标签之间具有映射关系,如表五所示。表四:标签内容标签值平台名称迷你贷询问安全性是询问能否重仓否表五:将上述表四和表五内容进行输出,生成结构化文本。应当指出的是,在上述实施例中,关键词“可以重仓吗”在与预置语料进行匹配过程中可能会匹配到两个语义标签信息,即标签内容为“询问能否重仓”的语义标签信息以及标签内容为“投资状态”的语义标签信息,从而造成数据冗余,使咨询平台对非结构化文本进行结构化处理时获得的语义标签信息不能正确反映用户输入的文本的本质含义。因此在实际使用中,可以对语义标签信息的优先级进行设定,优先级的设定依据可以来自于统计结果,将用户输入频率高的语义标签信息的优先级设置的比较高,也可以根据非结构化文本中所包含的其他词语进行判断,在分析语法结构和语义的基础上设定语义标签信息的优先级,例如,本实施例输入的非结构化文本中“小牛在线可以重仓吗”,其中包含语气词“吗”,表示文本的询问状态,因此可以确定文本的关键信息在于“询问能否重仓”,因此设定标签内容为“询问能否重仓”的语义标签信息优先级高于标签内容为“投资状态”的语义标签信息,避免数据的冗余。实施例二。如图4所示,本实施例的实施步骤与实施例一的实施步骤基本相同,仅在根据名称标签标签值与状态标签标签值对应关键词之间的间隔字符数,确定名称标签与状态标签的映射关系步骤中,包括以下技术方案:s301:获取名称标签的标签值数量;s302:如果所述名称标签的标签值数量大于1,判断多个所述名称标签标签值间是否为并列关系;s303:根据所述状态标签的标签值数量,及名称标签标签值之间的并列关系,确定名称标签与状态标签之间的映射关系。其中,并列关系可以根据名称标签对应的关键词之间是否有标志性文本,如:顿号,“和”、“或”等,或者根据文本内容来判断并列关系,如:文本中连续多次出现标签值不同的名称标签,且多个名称标签标签值对应关键词之间的间隔字符数基本保持一致,则可判断关键词对应的名称标签标签值之间存在并列关系。本实施例中,具有并列关系的名称标签标签值之间具有相同的映射关系,在确定映射关系过程中,只需要判断其中一个名称标签标签值与状态标签标签内容下标签值的映射关系即可。如果多个名称标签标签值间存在并列关系,则比较多个名称标签标签值与状态标签标签值对应关键词的间隔字符数,确定所述间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值间有映射关系,且存在并列关系的多个名称标签标签值有相同映射关系。例如,当用户输入“迷你贷、人人贷危险吗?还有果树财富,你们为什么撤资,能投吗?”咨询平台提取关键词“迷你贷”、“人人贷”、“危险吗”、“果树财富”、“为什么撤资”以及“能投吗”;将提取到的关键词与标准文档中预置语料进行匹配获得如表六所示的语义标签信息;表六:关键词标签内容标签值标签类别“迷你贷”平台名称迷你贷名称标签“人人贷”平台名称人人贷名称标签“危险吗”询问安全性是状态标签“果树财富”平台名称果树财富名称标签“为什么撤资”询问不投资原因是状态标签“能投吗”询问是否可投是状态标签可见,本实施例中,名称标签的标签值数量为3,大于1,因此需要判断名称标签标签值间是否具有并列关系,由于关键词“迷你贷”和“人人贷”之间包括一个顿号“、”,且与关键词“果树财富”之间有明显的字符间隔,因此,确定关键词“迷你贷”和“人人贷”对应的名称标签标签值之间具有并列关系,根据预设规则,获取其中一个名称标签标签值与状态标签标签值的间隔字符数,即:关键词“人人贷”与关键词“危险吗”的间隔字符数为0,与关键词“为什么撤资”的间隔字符数为13,与关键词“能投吗”的间隔字符数为19,因此确定间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值间有映射关系,即关键词“危险吗”对应的状态标签与关键词“人人贷”对应的名称标签之间有映射关系,并且关键词“迷你贷”对应的名称标签标签值与关键词“人人贷”对应的名称标签标签值具有相同的映射关系,如表七所示。表七:对于关键词“果树财富”所对应的名称标签标签值,其映射关系的确定与实施例一中映射关系的确定方法相同,不再赘述。实施例三。如图5所示,本实施例中,与实施例二的步骤相同,是实施例二的一种情况,当输入的非结构化文本中,同一个标签内容下对应的标签值数量大于1时,比较多个名称标签标签值与状态标签的每个标签值对应关键词的间隔字符数,确定所述间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值对应内容间有映射关系。例如,当用户输入的非结构化文本内容为“我现在在投人人贷,能否重仓,另外目前还想投理财范”;咨询平台提取出关键词“在投”、“人人贷”、“能否重仓”、“想投”、“理财范”,与标准文档的预置语料进行匹配,确定如表八所示的语义标签信息。表八:关键词标签内容标签值标签类别“在投”投资状态在投状态标签“人人贷”平台名称人人贷名称标签“能否重仓”询问能否重仓是状态标签“想投”投资状态想投状态标签“理财范”平台名称理财范名称标签可见,本实施例中,关键词“在投”和“想投”都对应标签内容为“投资状态”的语义标签信息,是该语义标签信息对应的两个标签值,由于两个标签值“在投”和“想投”所对应名称标签标签值是不同的,因此在确定映射关系过程中,要分别通过所述标签值与名称标签标签值对应的关键词的间隔字符数,确定名称标签标签值和状态标签标签内容下标签值对应内容间的映射关系。即,获取名称标签对应关键词“人人贷”与状态标签标签值对应关键词“在投”的间隔字符数,本实施例中,关键词“人人贷”与“在投”的间隔字符数为0,而关键词“理财范”与“在投”的间隔字符数为16,因此确定关键词“人人贷”对应的名称标签的标签值内容与关键词“在投”对应的状态标签投资状态下的标签值内容间具有映射关系,如表九所示。同样,关键词“理财范”与关键词“想投”的间隔字符数为0,而关键词“人人贷”与关键词“想投”的间隔字符数为11,因此确定关键词“理财范”对应的名称标签的标签值内容与关键词“想投”对应的状态标签投资状态下的标签值内容间有映射关系,如表十所示。表十:标签内容标签值平台名称理财范投资状态想投另外,本实施例的非结构化文本中,还包括标签内容为“询问能否重仓”的状态标签,对于该状态标签与名称标签的映射关系,与实施例一和实施例二中映射关系确定方式相同,不再赘述。实施例四。如图6所示,在咨询平台中用户输入的非结构化文本的主观程度很高,很有可能出现多个名称标签标签值所对应的关键词与状态标签标签值对应的关键词之间的间隔字符数相等的情况,对于这种情况,应该在同一方向上确定间隔字符数相等的关键词所对应的语义标签信息间的映射关系,即:如果名称标签标签值与状态标签多个标签值对应关键词的间隔字符数相等,则在同一方向上确定间隔字符数相等的关键词所对应的语义标签信息间的映射关系。这里所说的同一方向是指,在非结构化文本中,统一从句首向句尾或者从句尾向句首的方向上来确定名称标签与状态标签的映射关系。例如:当用户输入的非结构化文本内容为“在投人人贷想投陆金所,想知道安全吗”;咨询平台从非结构化文本中提取关键词“在投”、“人人贷”、“想投”、“陆金所”“安全吗”,将提取的关键词与标准文档中的预置语料进行匹配,确定如表十一所示的语义标签信息。表十一:与实施例三的语义标签信息情况相同,标签内容为“投资状态”语义标签信息在非结构化文本中出现了两个与状态标签标签值对应的关键词“在投”和“想投”,通过提取关键词之间的间隔字符数确定映射关系的步骤中,关键词“人人贷”与关键词“在投”的间隔字符数为0,与关键词“想投”的间隔字符数也为0,并且关键词“陆金所”与关键词“想投”的间隔字符数也为0,此时,就要在同一方向上确定关键词间隔字符数相等的对应语义标签信息的映射关系。即从句首向句尾,确定“在投”对应的状态标签投资状态下标签值与“人人贷”对应的名称标签标签值之间具有映射关系,如表十二所示,而“想投”对应的状态标签投资状态下标签值与“陆金所”对应的名称标签标签值之间具有映射关系,如表十三所示。表十二:标签内容标签值平台名称人人贷投资状态在投表十三:标签内容标签值平台名称陆金所投资状态想投在本实施例中,虽然关键词“人人贷”与关键词“在投”和“想投”之间的间隔字符数都为0,如果确定关键词“人人贷”对应的名称标签标签值与“想投”对应的状态标签投资状态下标签值之间有映射关系,会出现关键词“在投”与“陆金所”对应的语义标签信息无法确定映射关系,而当统一从句首向句尾方向(或者从句尾向句首方向)来确定映射关系时,非结构化文本中刚好使一个状态标签标签内容下标签值对应一个名称标签标签值。因此,本实施例提供的技术方案表明,当名称标签标签值与状态标签多个标签值对应关键词的间隔字符数相等时,应当在同一方向上确定间隔字符数相等的关键词所对应的语义标签信息间的映射关系。实施例五。本实施例与上述实施例的实现步骤相同,差别在于,如图7所示,根据预设规则,建立名称标签与状态标签间的映射关系,生成结构化文本的步骤之后,还包括以下步骤:s601:根据标签内容,识别与时间和数字相关的语义标签信息,作为数字标签;s602:获取数字标签的标签值和标签值对应的计量单位;s603:根据计量单位间的换算关系对标签值进行归一化处理,获得处理后标签值;s604:将标签值替换为处理后标签值。在确定非结构化文本对应语义标签信息和映射关系后,为了便于后续处理,避免文本识别中出现错误,对生成的结构化文本中与数字和时间相关的语义标签信息的标签值内容进行归一化处理,使所述标签值对应内容的计量单位保持一致,例如:用户输入的非结构化文本为“我有部分钱投的是6个月到一年的。是不是风险很大?”根据文本中的关键词,确定语义标签信息中包含数字标签,其标签值为“6个月到一年”,进行归一化为“180天-365天”。这样,将不同计量单位的标签值内容,转化为同一单位,便于咨询平台对文本内容的识别,也便于后续处理过程。由以上技术方案可知,本申请实施例提供的基于多主题语义标签信息映射的结构化处理方法,通过提取非结构化文本的关键词,与预置语料进行匹配,确定至少一个包括标签内容、标签值以及标签描述的语义标签信息,再通过判断语义标签信息的类型,根据预设规则建立名称标签与状态标签间的映射关系,生成结构化文本。方法中,预设规则是根据名称标签标签值与状态标签标签值对应关键词之间的间隔字符数,并结合多个名称标签标签值间是否存在并列关系,以及状态标签的标签值数量,等条件来建立名称标签与状态标签之间的映射关系。本申请实施例提供的结构化处理方法,能够将非结构化文本转化成可识别的语义标签信息,且能够确定多个名称标签标签值和状态标签标签内容下标签值之间的映射关系,使计算机识别的文本内容更接近用户意愿,提高咨询平台对所输入问题的答复准确程度,解决传统方法不能正确确定映射关系的问题。进一步地,为了前期优化模型和反馈标准文档,本申请提供的基于多主题语义标签信息映射的结构化处理方法还包括统计准确率。将结果文档与标准文档中同一个分类下的语义标签信息进行比较,形成对比文档。例如,当用户输入的非结构化文本内容为“为什么不建议投资,风险在哪里?”,通过上述分析过程可知,该文本对应的标签内容为“询问安全性”,在获得对应的结构化文本后,与标准文档进行比较,获得对比文档,如表十四所示。表十四:根据比较结果,当对比结果为“ture”是,表明结果文档与标准文档一致,当对比结果为“false”,则需要确定该语义标签信息是对应的标准文档中出现了错误还是需要进一步优化结构化文本的模型,并统计这一分类下文本处理的准确率,以便对模型进行优化以及反馈标准文档信息。进一步地,用户在表达自己咨询意愿时经常加入没有实际含义的语气词和口语化信息,使咨询平台获取的非结构化文本冗长。在此情况下,在获取名称标签标签值和状态标签标签值对应关键词的间隔字符数时,由于文本冗长,会出现部分具有映射关系的语义标签信息之间的间隔字符数过大。如果此时根据关键词间的间隔字符数确定对应名称标签标签值和状态标签标签内容下标签值的映射关系,应该具有映射关系的语义标签信息之间不能确定其映射关系,例如:当用户输入的非结构化文本内容为“我现在在投开鑫贷,想知道现阶段能不能重仓,另外还想投陆金所”;咨询平台提取的关键词为“在投”、“开鑫贷”、“能不能重仓”、“想投”、“陆金所”;如果根据上述方法来确定名称标签和状态标签之间的映射关系,则根据获取的语义标签信息对应关键词的间隔字符数确定映射关系时,关键词“开鑫贷”与关键词“能不能重仓”的间隔字符数为7,而关键词“陆金所”与关键词“能不能重仓”的间隔字符数为5,根据预设规则,此时应该确定关键词“陆金所”对应的名称标签标签值与关键词“能不能重仓”对应的状态标签询问能否重仓下标签值之间具有映射关系,显然这种映射关系是不正确的。因此,本实施例中,获取所述状态标签标签值与名称标签标签值对应关键词之间的间隔字符数,不能简单的从用户输入的非结构化文本中直接获取,而应该在获取所述间隔字符数前,对文本内容进行调整,判断文本中没有实质含义的语气词和口语化信息,在获取所述间隔字符数时将这部分语气词和口语化信息排除在外,或者按照规则转化成有效字符数以避免因为没有实质含义的词语对映射关系确定结果的影响。另外,由于语义标签信息对应的预置语料差别较大,同样表达一个语义标签信息可能表现出多个字符数不等的预置语料,例如,标签内容为“询问安全性”的语义标签信息,其对应的预置语料包括“安全吗”,“安全性怎么样”,“现在投资是不是有危险”……因此,在获取所述状态标签标签值与名称标签标签值对应关键词之间的间隔字符数时,还应考虑关键词本身所占的字符数对映射关系的影响。本实施例中,根据语义标签信息对应的类别,把名称标签标签值和状态标签标签值对应的关键词设置为固定的有效字符数,以此来增加确定映射关系的准确率。应当指出的是,上述实施例均以投资理财咨询平台为例说明本申请提供的基于多主题语义标签信息映射的结构化处理方法,显然,本申请提供的技术方法不仅限于投资理财咨询平台,任何能够通过名称标签和状态标签对所输入的非结构化文本进行处理的咨询平台都是本申请技术方案的应用范围。在不同咨询平台中,只需匹配不同分类的标准文档即可。基于上述结构化处理方法,本申请还提供一种基于多主题语义标签信息映射的结构化处理装置,图8为本申请实施例提供的一种基于多主题语义标签信息映射的结构化处理装置的结构示意图,如图8所示该装置主要包括:文本输入模块71,用于获取非结构化文本;识别模块72,用于从所述非结构化文本中提取关键词;匹配模块73,用于将所述关键词与预置语料进行匹配,确定至少一个语义标签信息,所述语义标签信息包括:与所述预置语料对应的标签内容、标签值以及标签描述;分类模块74,用于将所述语义标签信息进行分类,所述语义标签信息的类别包括:名称标签和状态标签;映射关系确定模块75,用于根据预设规则,建立名称标签与状态标签间的映射关系,生成结构化文本。进一步地,如图9所示,所述映射关系确定模块75包括:状态标签判断子模块751,用于判断状态标签是否可以建立映射关系;字符数获取单元752,用于如果所述状态标签可以建立映射关系,获取所述状态标签标签值与名称标签标签值对应关键词之间的间隔字符数;映射关系判断子模块753:用于根据所述名称标签标签值与所述状态标签标签值对应关键词之间的间隔字符数,确定名称标签标签值与所述状态标签标签内容下标签值的映射关系;文本输出子模块754,用于将映射关系生成结构化文本。进一步地,如图9所示,所述映射关系确定模块还包括:数量获取子模块755,用于获取所述状态标签的标签值数量以及所述名称标签的标签值数量;并列关系判断子模块756,用于如果所述名称标签的标签值数量大于1,判断多个所述名称标签标签值间是否为并列关系;进一步地,如图9所示,所述基于多主题语义标签信息映射的结构化处理装置还包括:数字标签识别模块76,用于根据标签内容,识别与时间和数字相关的语义标签信息,作为数字语义标签信息;计量单位获取模块77,用于获取数字语义标签信息的标签值和标签值对应的计量单位;归一化处理模块78,用于根据计量单位间的换算关系对标签值进行归一化处理,获得处理后标签值;信息替换模块79,用于将标签值替换为处理后标签值。由以上技术方案可知,本申请提供的基于多主题语义标签信息映射的结构化处理方法及装置可以面向咨询平台,对咨询平台中的用户输入的咨询问题等文本进行结构化处理,以便计算机进行识别。该方法通过在非结构化文本中提取关键词,将关键词与预置语料进行匹配,确定至少一个包括标签内容、标签值以及标签描述的语义标签信息,再通过判断语义标签信息的类型,根据预设规则建立名称标签与状态标签间的映射关系,生成结构化文本。其中,预设规则是根据名称标签标签值与状态标签标签值对应关键词之间的间隔字符数,并结合多个名称标签标签值间是否存在并列关系,以及状态标签的标签值数量,等条件来确定名称标签与状态标签之间的映射关系。本申请实施例提供的结构化处理方法,能够将非结构化文本转化成可识别的语义标签信息,且能够确定多个名称标签标签值和状态标签标签内容下标签值之间的映射关系,使计算机识别的文本内容更接近用户意愿,提高咨询平台对所输入问题的答复准确程度,以解决传统方法不能正确确定映射关系的问题。本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本发明总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下,依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1