一种基于语义分析的诗词检索方法及系统与流程

文档序号:15999248发布日期:2018-11-20 19:14阅读:212来源:国知局

本申请涉及文本语义分析技术领域,尤其涉及一种基于语义分析的诗词检索方法及系统。



背景技术:

自白话文普及以来,传统文学语言便不再作为日常用语的主流,加之网络用语对其产生的冲击,使得传统文学作品,尤其是文言文和诗词经常被使用者曲解其真实含义,不仅影响文化的传承和文学教育,而且是对传统文化的肆意践踏。为了便于传播传统文化,在传统文学领域中,会通过网络途径向诗词爱好者提供交流、赏析资源,旨在让更多人领略诗词之美和古语之趣,提高文化素养。

由于古代文人智慧的结晶,留存于世的诗词数量庞大,提供文化素材的同时也为人们欣赏、学习提供障碍。因此,通过网络途径学习诗词作品需要对诗词资源进行检索。现有技术中示出的诗词检索方法,其本身与传统搜索引擎的检索方式相似,即通过将用户输入的文本进行分词,与网络资源库中的数据进行匹配,再将匹配相近的文本资源进行显示,呈现给检索用户。例如,用户输入文本“月落乌啼霜满天”,搜索引擎根据文本内容进行检索,确定该文本属于《枫桥夜泊》的诗句原文,并将《枫桥夜泊》的原文内容作为检索结果进行显示。

从现有的诗词检索方法可以看出,诗词检索对文本的输入具有较高要求。而对于用户而言,个人诗词的理解程度参差不齐,很多用户由于自身知识的匮乏,在进行文本输入时并不能正确输入诗句内容,造成无法检索到合适的结果;或者用户想要检索表达某种情绪的诗词,如忧伤,喜悦,相思等,此时,输入的文本可能并不包含诗句内容,同样造成检索结果不尽如人意。例如,用户输入的文本内容为“表达思乡之情的诗词”,现有技术对于这种文本输入,一般通过检索用户在网络中提出的相似问题,以及将其他用户针对该问题的回答作为检索结果,可见检索结果极可能不能满足用户需求;另外,对于部分年代久远的诗词作品,语言佶屈聱牙,用户经常由于不能正确输入文本,而无法检索到想要的诗词资源。



技术实现要素:

本申请提供了一种基于语义分析的诗词检索方法及系统,以解决传统检索方法对输入文本的要求高,进而无法检索到满足用户需求的诗词资源的问题。

一方面,本申请提供一种基于语义分析的诗词检索方法,包括:

获取用户输入的会话文本;

根据所述会话文本内容,判断所述会话文本中是否含有必要属性信息,所述必要属性信息包括与诗词原文内容对应的词汇和/或描述诗词的词汇;

如果所述会话文本中不含有必要属性信息,显示提示信息,并获取用户再次输入的补充文本,并根据所述补充文本内容,确定必要属性信息,所述提示信息包括询问必要属性信息以及提示再次输入信息;

根据所述必要属性信息对应词汇确定检索范围;

匹配所述检索范围内的诗词资源与所述必要属性信息,确定检索结果,并反馈检索结果。

可选的,所述检索方法还包括:

获取诗词文本信息,所述诗词文本信息包括诗词原文文本、诗词描述文本以及诗词赏析文本;

根据所述诗词文本信息确定诗词属性信息,所述属性信息是文本信息对应的特征词汇集合;

根据所述诗词属性信息对所述诗词文本信息进行分类,以及确定每个分类的分类标签;

根据分类后的诗词文本构建诗词资源库。

可选的,根据所述会话文本内容,判断所述会话文本中是否含有必要属性信息,所述必要属性信息包括与诗词原文内容对应的词汇和/或描述诗词的词汇的步骤,包括:

提取所述会话文本中的关键词;

获取所述必要属性信息对应的预置语料,并将所述关键词与所述预置语料进行匹配,所述预置语料包括,预置在数据库中的与诗词原文内容对应的词汇,和/或描述诗词的词汇;

根据所述匹配结果,确定与所述预置语料相对应的关键词为必要属性信息。

可选的,根据所述必要属性信息对应词汇确定检索范围的步骤,包括:

获取所述会话文本中为所述必要属性信息的词汇数量;

判断所述必要属性信息词汇数量是否大于1;

如果所述词汇数量大于1,根据预设规则,设置多个所述必要属性信息词汇的优先级;

确定所述优先级最高的所述必要属性信息词汇在所述诗词资源库中的分类,并作为检索范围;

如果所述词汇数量等于1,确定所述词汇在所述诗词资源库中的分类,并作为检索范围。

可选的,根据所述必要属性信息对应词汇确定检索范围的步骤,包括:

获取所述会话文本中为所述必要属性信息的词汇数量;

判断所述必要属性信息词汇数量是否大于1;

如果所述词汇数量大于1,根据预设规则,设置多个所述必要属性信息词汇的优先级;

根据所述优先级顺序,依次确定多个所述必要属性信息词汇在所述诗词资源库中的分类;

根据每个所述分类的分类标签,确定所述诗词资源库中符合多个所述分类的诗词资源,构成诗词集合,并将所述诗词集合确定为检索范围;

如果所述词汇数量等于1,确定所述词汇在所述诗词资源库中的分类作为检索范围。

另一方面,本申请还提供一种基于语义分析的诗词检索系统,包括通过通信网络连接的终端和服务器,其中,所述终端用于提供用户会话文本输入、检索结果显示以及数据交互,所述服务器包括存储模块,并根据用户输入的会话文本检索诗词资源,所述服务器还包括:

文本获取模块,用于获取用户输入的会话文本;

必要属性信息确定模块,用于根据所述会话文本内容,判断所述会话文本中是否含有必要属性信息,所述必要属性信息包括与诗词原文内容对应的词汇和/或描述诗词的词汇;

提示信息模块,用于如果所述会话文本中不含有必要属性信息,显示提示信息,并获取用户再次输入的补充文本,并根据所述补充文本内容,确定必要属性信息,所述提示信息包括询问必要属性信息以及提示再次输入信息;

检索范围确定模块,用于根据所述必要属性信息对应词汇确定检索范围;

检索结果反馈模块,用于匹配所述检索范围内的诗词资源与所述必要属性信息,确定检索结果,并反馈检索结果。

可选的,所述服务器还包括:

诗词文本信息模块,用于获取诗词文本信息,所述诗词文本信息包括诗词原文文本、诗词描述文本以及诗词赏析文本;

属性信息模块,用于根据所述诗词文本信息确定诗词属性信息,所述属性信息是文本信息对应的特征词汇集合;

分类模块,用于根据所述诗词属性信息对所述诗词文本信息进行分类,以及确定每个分类的分类标签;

诗词资源库模块,用于根据分类后的诗词文本构建诗词资源库。

可选的,所述必要属性信息确定模块包括:

关键词提取单元,用于提取所述会话文本中的关键词;

关键词匹配单元,用于获取所述必要属性信息对应的预置语料,并将所述关键词与所述预置语料进行匹配,所述预置语料包括,预置在数据库中的与诗词原文内容对应的词汇,和/或描述诗词的词汇;

必要属性信息确定单元,用于根据所述匹配结果,确定与所述预置语料相对应的关键词为必要属性信息。

可选的,所述检索范围确定模块包括:

词汇数量获取单元,用于获取所述会话文本中为所述必要属性信息的词汇数量;

词汇数量判断单元,用于判断所述必要属性信息词汇数量是否大于1;

优先级确定单元,用于如果所述词汇数量大于1,根据预设规则,设置多个所述必要属性信息词汇的优先级;

检索范围确定单元,用于确定所述优先级最高的所述必要属性信息词汇在所述诗词资源库中的分类,并作为检索范围;并且,

如果所述词汇数量等于1,确定所述词汇在所述诗词资源库中的分类,并作为检索范围。

可选的,所述检索范围确定模块包括:

词汇数量获取单元,用于获取所述会话文本中为所述必要属性信息的词汇数量;

词汇数量判断单元,用于判断所述必要属性信息词汇数量是否大于1;

优先级确定单元,用于如果所述词汇数量大于1,根据预设规则,设置多个所述必要属性信息词汇的优先级;

分类确定单元,用于根据所述优先级顺序,依次确定多个所述必要属性信息词汇在所述诗词资源库中的分类;

检索范围确定单元,用于根据每个所述分类的分类标签,确定所述诗词资源库中符合多个所述分类的诗词资源,构成诗词集合,并将所述诗词集合确定为检索范围;并且,

如果所述词汇数量等于1,确定所述词汇在所述诗词资源库中的分类作为检索范围。

由以上技术方案可知,本申请提供一种基于语义分析的诗词检索方法及系统,所述方法在获取用户输入的会话文本后,判断会话文本是否含有必要属性信息,如果所述会话文本含有必要属性信息,根据所述必要属性信息对应词汇确定检索范围;如果所述会话文本中不含有必要属性信息,通过显示提示信息,提示用户再次输入并获取用户再次输入的补充文本,以多轮会话的形式获取含有必要属性信息的文本内容,再根据所述必要属性信息对应词汇确定检索范围,以及在检索范围内匹配诗词资源与所述必要属性信息,确定符合会话文本的检索结果并反馈。

本申请提供的检索方法,可以在用户输入的会话文本中不含有必要属性信息时,以多轮会话的形式提示用户输入补充文本,直到输入的内容中包含必要属性信息,以此避免因用户输入的会话文本缺乏必要属性信息而无法检索到诗词资源的问题;并且在检索过程中,通过必要属性信息确定检索范围,可以减小数据检索量,提高检索效率。以此,解决传统检索方法对输入文本的要求高,无法检索到满足用户需求诗词资源的问题。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为一种基于语义分析的诗词检索方法流程示意图;

图2为实施例二构建诗词资源库的流程示意图;

图3为实施例三分析会话文本的流程示意图;

图4为实施例四确定检索范围的流程示意图;

图5为实施例五确定检索范围的流程示意图;

图6为一种基于语义分析的诗词检索系统结构示意图。

具体实施方式

这里将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本发明相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

诗词,是以文言文形式表达的诗歌和词曲,具有行文对仗,辞藻简练的特点。对于绝大多数诗词作品还会引证故事典籍以及实事背景,使诗词作品在优美文字的外表下,含有更深层次的情感表达。基于诗词文字的特点,使得其在语义分析中无法单纯通过表面文字确定诗词的真实语义,并且对于部分诗词作品,其含义表达过于隐晦委婉,单纯通过文字分析很难获得诗词作品的真实含义。例如唐代诗人李商隐《无题·锦瑟》中的诗句“庄生晓梦迷蝴蝶,望帝春心托杜鹃。沧海月明珠有泪,蓝田日暖玉生烟。”连用四个典故,表达其忧伤思念之情,这种隐晦的情感内容很难单纯的从文字内容看出。因此在诗词检索过程中,应对诗词作品的语义进行分析,不仅要分析诗词原文内容,而且原文内容背后隐藏的表达思想亦具有重要的参考意义。

为了在诗词检索过程中,兼顾文字内容和表达思想,分析诗词原文文本时,还要通过对诗词对应的赏析文本的分析,获取诗词作品的表达思想。因此本申请中提到的诗词资源,是包括诗词原文,诗词描述以及诗词赏析文本构成的集合。其中,诗词描述是反应诗词背景的描述内容,包括:作者、创作时间(朝代,作者年龄阶段等)、诗词类型(山水诗,边塞诗等)、诗歌体裁(律诗,绝句,词等)、收录集等,对于词曲作品,还应包括词牌名。诗词赏析,来源于大数据,是文学研究人员创作的针对具体诗词作品的赏析文章。诗词资源存储在服务器的存储模块中,作为诗词检索的数据库文件。

诗词的属性信息是指能够表征诗词及诗词相关内容的信息,包括必要属性信息和非必要属性信息,必要属性信息是根据诗词原文可以直接确定的信息,如:标题、原文、作者、主题、情感等,必要属性信息是表现在词汇内容上的具体值,例如:表示标题的词汇“饮酒”,等;表现原文的词汇“采菊东篱下”等;表现作者的词汇“陶渊明”等。非必要属性信息是指除必要属性信息外的其他信息,通过非必要属性信息不能明确判断诗词资源,但能够确定用户具有检索诗词资源的意愿,表现为:诗词的创作时间、诗词类型、诗词体裁等。例如,“一首绝句”可以理解为非必要属性诗词体裁(绝句),缺少必要属性信息。可见,用户在诗词检索过程中,要想获得符合自身需求的诗词资源,其检索的文本中,必须包含至少一个必要属性信息。但用户在进行检索前,可能对于想要的诗词一知半解,不能正确描述诗词的属性信息,使输入的文本中缺少必要属性信息。

本申请通过多轮会话的方式,引导用户在文本输入时正确输入包含必要属性信息的文本内容,以检索到更加符合用户检索意愿的诗词资源,具体包括以下实施方式:

实施例一

参见图1,为一种基于语义分析的诗词检索方法的流程示意图。

本申请提供的基于语义分析的诗词检索方法,包括:

S101:获取用户输入的会话文本;

S102:根据所述会话文本内容,判断所述会话文本中是否含有必要属性信息,所述必要属性信息包括与诗词原文内容对应的词汇和/或描述诗词的词汇;

S103:如果所述会话文本中不含有必要属性信息,显示提示信息,并获取用户再次输入的补充文本,并根据所述补充文本内容,确定必要属性信息,所述提示信息包括询问必要属性信息以及提示再次输入信息;

S104:根据所述必要属性信息对应词汇内容确定检索范围;

S105:匹配所述检索范围内的诗词资源与所述必要属性信息对应词汇,确定检索结果,并反馈检索结果。

对于步骤S101,用户通过终端设备的检索界面输入会话文本,并在执行确定操作后,由终端设备将所述会话文本发送至服务器,服务器接收来自终端设备的会话文本,并对会话文本进行分析处理。本申请的终端是指具有文本输入和显示功能且与服务器建立通信网络连接的电子设备,如计算机、手机、平板电脑、电子阅读器等。

对于步骤S102,在服务器接收到所述会话文本后,服务器根据会话文本内容判断所述会话文本中是否含有必要属性信息,具体地,服务器接收到所述会话文本后,对所述会话文本按词汇进行分割,获得会话文本中的全部词汇信息,再通过分析词性和文字内容,去除没有实际含义的语气词以及与诗词资源无关的词语。例如,用户输入的会话文本内容为“我想知道琵笆行的原文是什么”,分词工具对会话文本进行分割,示例如下:

我/想/知道/琵笆行/的/原文/是/什么;

通过分析对分割后的词汇进行分析,可知,“我”、“想”、“知道”、“的”、“是”、“什么”都是与诗词资源无关的词语,因此服务器在检索时只保留“琵笆行”和“原文”这两个词汇。本申请中,所述必要属性信息包括与诗词原文内容对应的词汇和/或描述诗词的词汇。上述示例,“琵笆行”是诗词的标题,是能够表征诗词内容的必要属性信息,而“原文”虽然是能够表示诗词或相关的词汇,但不能表示诗词的具体内容,因此是一种非必要属性信息。需要说明的是,此处“原文”只表示用户会话文本的词汇内容,与上述必要属性信息中的“原文”不是同一个概念。即,此处“原文”只表示“原文”这两个字,而上述必要属性信息中的“原文”是表示诗词资源中对应的原文内容,如“浔阳江头夜送客,枫叶荻花秋瑟瑟”。因此,为了区分类似的概念,可以设有一种非必要属性信息“模式”,包括表示词汇的文本内容,如“原文”、“上下文”等,并将此处是“原文”认定为该非必要属性信息的一个值。

本实施例中服务器对所述会话文本内容中是否含有必要属性信息进行判断,如果所述会话文本中包含必要属性信息,执行步骤S104;如果所述会话文本中不包含必要属性信息,执行步骤S103。

对于步骤S103,当所述会话文本中缺少必要属性信息时,服务器无法根据输入的文本内容判断用户的检索意愿,此时,服务器发送提示信息给终端,终端将提示信息向用户显示,用户可以根据提示信息再次进行输入。本实施例中,提示信息以会话的形式呈现给用户,实现与用户的交互,例如:

用户输入的会话文本内容为“来一首古诗”,对这一会话文本进行分词后,可以得到:

“来/一首/古诗”

其中,“来”和“一首”是与诗词资源无关的词汇,而“古诗”不能具体确定具体是诗词资源内容,因此,判断所述会话文本中不含有所述必要属性信息,此时显示提示信息,如“您检索的范围过大,请重新输入关键词”,提示用户再次输入补充文本。进一步地,所述提示信息可以根据会话文本的内容生成,在语言风格上尽量接近用户输入的会话文本,并且包括与提示信息内容相近的示例文本,例如:根据用于输入会话文本“来一首古诗”的分词内容,“来”和“一首”可以生成相应的提示信息内容为“您想来一首什么样的古诗?并且,在显示提示信息的同时,还可以随机推送一首诗或者推送一首检索频率高的诗,同时显示示例文本,示例文本中要包含必要属性信息,进一步询问要检索诗词资源的作者、标题、情感、主题或者部分诗句内容等,如在显示“您想来一首什么样的古诗”的同时,还显示“例如,一首忧伤的古诗”,以提示信息和示例文本引导用户输入正确的补充文本。

在用户重新输入补充文本后,服务器再次判断补充文本中是否含有必要属性信息,如果含有必要属性信息,执行步骤S104,如果仍不含有必要属性信息,则再次执行步骤S103,直到用户输入的补充文本包含必要属性信息。如果用户在收到提示信息后,没有再次输入补充信息,则在本实施例中,获取检索热度最高且与用户输入会话文本中内容相近的词汇作为必要属性信息的对应词汇,继续进行检索,但在输出检索结果时,应予以显示,例如“大家都在找‘一首忧伤的古诗’”。

对于步骤S104,在判断所述会话文本或所述补充文本中含有必要属性信息后,根据所述必要属性信息对应词汇确定检索范围。本实施例中,所述检索范围是指与判断为必要属性信息的词汇对应的诗词资源集合,即在检索范围中,包含与所述必要属性信息对应词汇相符的诗词资源。进一步地,检索范围可以是诗词资源数据库中的某一个分类,也可以是网络资源中与所述必要属性信息对应词汇相符合的诗词资源。

对于步骤S105,在确定检索范围后,进一步匹配所述检索范围内的诗词资源与所述必要属性信息对应词汇,确定检索范围内包含所述必要属性信息对应词汇的诗词资源为检索结果,并反馈检索结果。在诗词资源的检索过程中,用户输入的会话文本差别较大。有时能够表达检索意愿的会话文本内容较含糊,使得满足所述会话文本的检索结果数量不唯一,本实施例中,对于多个数量的检索结果,可以按照选择其中检索热度最高的单个诗词资源作为结果,也可以按照预定规则,如检索热度,对所有检索结果进行排序,并向用户显示。

例如,用户输入的会话文本内容为“李商隐无题”,经过分析会话文本的内容,可知,“李商隐”为作者信息,“无题”为标题信息,两者皆为必要属性信息,而在数据库中,作者为“李商隐”,标题为“无题”的诗词资源共15首,其中,《无题·相见时难别亦难》的检索热度最高,因此将检索结果确定为《无题·相见时难别亦难》,并将该诗的原文、描述和赏析等信息反馈至用户终端。

实施例二

本实施例中,如图2所示,为了增加对诗词资源检索的准确率,以便为用户提供更加丰富的检索结果,本申请还提供了用于检索诗词资源的诗词资源库,以避免网络数据的过于冗杂,分类不规范的问题。相应地,本申请在对诗词资源进行检索前还包括以下步骤:

S201:获取诗词文本信息,所述诗词文本信息包括诗词原文文本、诗词描述文本以及诗词赏析文本;

S202:根据所述诗词文本信息确定诗词属性信息,所述属性信息是文本信息对应的特征词汇集合;

S203:根据所述诗词属性信息对所述诗词文本信息进行分类,以及确定每个分类的分类标签;

S204:根据分类后的诗词文本构建诗词资源库。

本实施例中,首先获取诗词文本信息,其中,诗词文本信息的获取来源可以是通过在服务器端由人工录入,也可以是通过对网络资源的调用并自动识别诗词获得。在调用网络资源过程中,应通过对网络资源的分析确定资源中表述相关诗词的原文文本,诗词描述文本以及诗词赏析文本。由于单个网络资源中可能仅包含上述文本中的一种,因此,为了规范资源库以便进行分类,在分析网络资源后,应根据诗词资源的相关信息在网络中继续调用其他网络资源,以将缺少的文本补全。

在获取到诗词文本信息后,根据诗词文本信息确定诗词的属性信息。对于诗词资源的原文文本,其属性信息即原文内容。对于诗词原文文本,应该以整首诗词的原文为依据,但依此进行判断时,会大大增加数据处理量以及降低检索结果的丰富度。因此,在进行检索时,应该以诗词原文文本中的词汇作为文本信息对应的属性信息,此时,属性信息为原文中所有特征词汇的集合。对于诗词描述文本,应该在所述描述文本中确定表达诗词资源的特征词,如表示作者信息的姓名词汇以及对应作者的笔名,字和号等词汇;表示主题思想的词汇;表示诗词资源收录或出处的词汇等。对于诗词赏析文本,主要依据诗词的创作背景,如,安史之乱,靖康之变等,或作者生活履历等作为表达诗词属性的特征词。

本实施例中,确定诗词属性信息后,对诗词资源进行分类处理,分类的依据可以从多个角度进行多次判断。本申请中,对于单个诗词资源,可以分属于多个分类,例如,《水调歌头·明月几时有》的诗词资源,其所属的分类可以为:作者为苏轼的分类,创作时间为北宋的分类,表达思想为思念的分类等。本实施例中,对于每个分类的分类标签应该为表达该分类的特征词汇。例如作者为苏轼的分类,其分类标签为“苏轼”,为了正确判断诗词资源的分类,所述分类标签中,还应该包括与特征词汇意义相同的词汇集合。例如,分类标签为“苏轼”的分类还应该包括能够表达作者为“苏轼”的其他词汇,如“苏东坡”、“苏子瞻”、“苏仙”等。最后根据分类后的诗词文本构建诗词资源库,并将诗词资源库进行保存。

另外,在对诗词资源进行分类时,可以构建诗词资源的分类体系,即根据所述诗词属性信息构建分类体系模型。也可以预先构建分类模型,再通过分类算法训练诗词资源从而获得诗词资源的分类,具体分类算法为本领域公知,不再赘述。

实施例三

如图3所示,本实施例与上述实施例的区别在于,根据所述会话文本内容,判断所述会话文本中是否含有必要属性信息,所述必要属性信息包括与诗词原文内容对应的词汇和/或描述诗词的词汇的步骤,包括:

S301:提取所述会话文本中的关键词;

S302:获取所述必要属性信息对应的预置语料,并将所述关键词与所述预置语料进行匹配,所述预置语料包括,预置在数据库中的与诗词原文内容对应的词汇,和/或描述诗词的词汇;

S303:根据所述匹配结果,确定与所述预置语料相对应的关键词为必要属性信息。

在现有的检索过程中,一般是将会话文本中的词汇,直接与诗词资源库中的全部文本数据进行匹配,这种匹配过程的数据调用量巨大,会降低检索效率,并且对于诗词文本信息与关键词进行匹配过程中,由于存在赏析文本,还可能将不是必要属性信息的词汇误认为关键词,从而将不符合用户意愿的检索结果反馈给用户。

为了避免上述问题,本实施例中,先通过提取所述会话文本中的关键词,再将所述关键词与所述必要属性信息对应的预置语料进行匹配,从而判断提取的关键词中是否包括必要属性信息。通过设置预置语料,将关键词与预置语料中的文本进行匹配,即可确定用户输入的会话文本中是否包含必要属性信息。预置语料可以是表示各分类的分类标签所构成的集合,并且随着诗词资源库的更新而更新。通过预置语料与关键词的匹配相对于与诗词资源直接进行匹配可以极大地降低数据调用量,提高检索效率,同时也避免了将不是必要属性信息的词汇误认为必要属性信息。

由于单个诗词资源可以分属于多个分类,因此为了更加精确的确定诗词资源,在检索过程中,可以通过多轮会话的方式提示用户输入多个确定诗词资源的必要属性信息。通过每个必要属性信息对应词汇确定分类,进而由多个属性信息确定分属于多个分类的诗词资源,作为检索结果。进一步地,当用户输入的会话文本中包括多个必要属性信息对应的词汇时,以设置优先级的方式确定分类及检索范围,具体包括以下两个实施例:

实施例四

如图4所示,本实施例中,根据所述必要属性信息对应词汇确定检索范围的步骤,包括:

S401:获取所述会话文本中为所述必要属性信息的词汇数量;

S402:判断所述必要属性信息词汇数量是否大于1;

S403:如果所述词汇数量大于1,根据预设规则,设置多个所述必要属性信息词汇的优先级;

S404:确定所述优先级最高的所述必要属性信息词汇在所述诗词资源库中的分类,并作为检索范围;

S405:如果所述词汇数量等于1,确定所述词汇在所述诗词资源库中的分类,并作为检索范围。

本实施例中,对用户输入的会话文本进行分割后,对获取的词汇进行数量判断,当所述必要属性信息对应的词汇数量大于1时,根据预设规则设置多个所述必要属性信息词汇的优先级,再将优先级最高的词汇在所述诗词资源库中的分类作为检索范围。其中,预设规则可以为根据数据检索过程中的统计结果,预先设置在服务器中。例如,用户输入的会话文本内容为“唐代诗人李白的忧伤七言绝句”,其中包括表示创作时间的词汇“唐代”,表示作者的词汇“李白”,表示情感的词汇“忧伤”,表示体裁的词汇“七言绝句”,这些词汇都是诗词的属性信息,并且“李白”、“忧伤”是必要属性信息。通过统计可知,检索过程中关于作者的检索热度最高,因此,设置作者对应词汇“李白”的优先级最高,即确定“李白”对应的分类为检索范围。

在确定了检索范围后,再通过其他词汇进行进一步匹配,从所述分类中检索符合其他属性信息的诗词资源。若没有检索到完全符合各属性信息的诗词资源,则根据各属性信息的优先级,尽量多的匹配到优先级高的属性信息,并推送对应的诗词资源,同时,附加推送未匹配属性信息的提示文本。仍以上述示例为例,当确定“李白”对应的分类为检索范围后,再通过“忧伤”、“唐代”、“七言绝句”进一步确定检索结果。如果在诗词资源库中没有检索到满足上述所有属性信息的诗词资源,即没有检索到李白关于忧伤的七言绝句,但可以检索到李白关于忧伤的五言绝句,则将对应的五言绝句推送给用户终端作为检索结果,并且显示提示文本,“未检索到唐代诗人李白的忧伤七言绝句,为您显示唐代诗人李白的忧伤五言绝句”。另外,在显示提示文本的同时,还可以询问用户检索结果是否满足用户需要,如果不满足,再通过多轮会话对所述会话文本进行修改,重新确定检索结果。

本实施例中,通过设置多个分类的分类标签对诗词资源库中的诗词资源进行逐层筛选,直到确定检索结果。通过设置优先级最高的词汇确定检索范围,可以在减少数据检索量的同时,使检索结果更加丰富,以满足用户的需求。

实施例五

如图5所示,对于当用户输入的会话文本中包括多个必要属性信息对应的词汇时,本实施例中,以设置优先级的方式确定分类及检索范围,与实施例四的区别在于,在设置优先级后,根据优先级顺序再次对诗词资源进行筛分,具体包括如下步骤:

S501:获取所述会话文本中为所述必要属性信息的词汇数量;

S502:判断所述必要属性信息词汇数量是否大于1;

S503:如果所述词汇数量大于1,根据预设规则,设置多个所述必要属性信息词汇的优先级;

S504:根据所述优先级顺序,依次确定多个所述必要属性信息词汇在所述诗词资源库中的分类;

S505:根据每个所述分类的分类标签,确定所述诗词资源库中符合多个所述分类的诗词资源,构成诗词集合,并将所述诗词集合确定为检索范围;

S506:如果所述词汇数量等于1,确定所述词汇在所述诗词资源库中的分类作为检索范围。

本实施例中,对用户输入的会话文本进行分割后,对获取的词汇进行数量判断,当所述必要属性信息对应的词汇数量大于1时,根据预设规则设置多个所述必要属性信息词汇的优先级,再根据优先级顺序,依次确定多个所述必要属性信息词汇在所述诗词资源库中的分类,确定满足多个所述分类的诗词资源构成的集合,作为检索范围。例如,用户输入的会话文本内容为,“纳兰性德在28岁以后创作的表达思念之情的词”,其中包括,表示作者的词汇“纳兰性德”,表示创作时间的词汇“28岁以后”,表示情感的词汇“思念”。这些属性信息中,作者和情感是必要属性信息,因此优先级应较高,创作时间是非必要属性信息,因此设置优先级为“作者>情感>创作时间”,因此在检索过程中对这三个词汇逐一进行匹配,确定最终检索范围。

在确定所述检索范围后,本实施例再根据所有诗词属性信息,对检索范围内的诗词资源与属性信息对应的词汇进行匹配,确定符合所有属性信息的诗词资源为最终的检索结果。如果没有检索到完全符合各属性信息的诗词资源,则按照实施例四的方法,根据各属性信息的优先级,尽量多的匹配到优先级高的属性信息,并推送对应的诗词资源。

本实施例中,根据优先级顺序依次确定分类可以将所述检索范围逐渐缩小,使满足会话文本的诗词资源数量减小,进而使检索结果更加接近用户的检索意图。进一步地,为了增加检索结果的丰富程度,本实施例中,确定检索结果后,还可以向用户推送满足会话文本中部分词汇的诗词资源,以便用户参考。

基于上述诗词检索方法,本申请还提供了一种基于语义分析的诗词检索系统,包括通过通信网络连接的终端和服务器,如图6所示,其中,所述终端用于提供用户会话文本输入、检索结果显示以及数据交互,所述服务器包括存储模块,并根据用户输入的会话文本检索诗词资源,所述服务器还包括:

文本获取模块,用于获取用户输入的会话文本;

必要属性信息确定模块,用于根据所述会话文本内容,判断所述会话文本中是否含有必要属性信息,所述必要属性信息包括与诗词原文内容对应的词汇和/或描述诗词的词汇;

提示信息模块,用于如果所述会话文本中不含有必要属性信息,显示提示信息,并获取用户再次输入的补充文本,并根据所述补充文本内容,确定必要属性信息,所述提示信息包括询问必要属性信息以及提示再次输入信息;

检索范围确定模块,用于根据所述必要属性信息对应词汇确定检索范围;

检索结果反馈模块,用于匹配所述检索范围内的诗词资源与所述必要属性信息,确定检索结果,并反馈检索结果。

在一种技术方案中,所述服务器还包括:

诗词文本信息模块,用于获取诗词文本信息,所述诗词文本信息包括诗词原文文本、诗词描述文本以及诗词赏析文本;

属性信息模块,用于根据所述诗词文本信息确定诗词属性信息,所述属性信息是文本信息对应的特征词汇集合;

分类模块,用于根据所述诗词属性信息对所述诗词文本信息进行分类,以及确定每个分类的分类标签;

诗词资源库模块,用于根据分类后的诗词文本构建诗词资源库。

在一种技术方案中,所述必要属性信息确定模块包括:

关键词提取单元,用于提取所述会话文本中的关键词;

关键词匹配单元,用于获取所述必要属性信息对应的预置语料,并将所述关键词与所述预置语料进行匹配,所述预置语料包括,预置在数据库中的与诗词原文内容对应的词汇,和/或描述诗词的词汇;

必要属性信息确定单元,用于根据所述匹配结果,确定与所述预置语料相对应的关键词为必要属性信息。

在一种技术方案中,所述检索范围确定模块包括:

词汇数量获取单元,用于获取所述会话文本中为所述必要属性信息的词汇数量;

词汇数量判断单元,用于判断所述必要属性信息词汇数量是否大于1;

优先级确定单元,用于如果所述词汇数量大于1,根据预设规则,设置多个所述必要属性信息词汇的优先级;

检索范围确定单元,用于确定所述优先级最高的所述必要属性信息词汇在所述诗词资源库中的分类,并作为检索范围;并且,

如果所述词汇数量等于1,确定所述词汇在所述诗词资源库中的分类,并作为检索范围。

在一种技术方案中,所述检索范围确定模块包括:

词汇数量获取单元,用于获取所述会话文本中为所述必要属性信息的词汇数量;

词汇数量判断单元,用于判断所述必要属性信息词汇数量是否大于1;

优先级确定单元,用于如果所述词汇数量大于1,根据预设规则,设置多个所述必要属性信息词汇的优先级;

分类确定单元,用于根据所述优先级顺序,依次确定多个所述必要属性信息词汇在所述诗词资源库中的分类;

检索范围确定单元,用于根据每个所述分类的分类标签,确定所述诗词资源库中符合多个所述分类的诗词资源,构成诗词集合,并将所述诗词集合确定为检索范围;并且,

如果所述词汇数量等于1,确定所述词汇在所述诗词资源库中的分类作为检索范围。

由以上技术方案可知,本申请提供一种基于语义分析的诗词检索方法及系统,所述方法在获取用户输入的会话文本后,判断会话文本是否含有必要属性信息,如果所述会话文本含有必要属性信息,根据所述必要属性信息对应词汇确定检索范围;如果所述会话文本中不含有必要属性信息,通过显示提示信息,提示用户再次输入并获取用户再次输入的补充文本,以多轮会话的形式获取含有必要属性信息的文本内容,再根据所述必要属性信息对应词汇确定检索范围,以及在检索范围内匹配诗词资源与所述必要属性信息,确定符合会话文本的检索结果并反馈。

本申请提供的检索方法,可以在用户输入的会话文本中不含有必要属性信息时,以多轮会话的形式提示用户输入补充文本,直到输入的内容中包含必要属性信息,以此避免因用户输入的会话文本缺乏必要属性信息而无法检索到诗词资源的问题;并且在检索过程中,通过必要属性信息确定检索范围,可以减小数据检索量,提高检索效率。因此,解决传统检索方法对输入文本的要求高,无法检索到满足用户需求诗词资源的问题。

本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1