确定话题点转移以及获取回复文本的方法、装置与流程

文档序号:14911134发布日期:2018-07-10 23:26阅读:202来源:国知局

本发明涉及自然语言处理,尤其涉及一种确定话题点转移以及获取回复文本的方法、装置。



背景技术:

自然语言处理技术中涉及到一种新型的解析技术,即话题点转移。举个例子,当用户表达“我们去看电影吧”,现有技术中通常仅能够对该用户表达解析出其话题点为“看电影”,但实际上用户在表达“我们去看电影吧”时,已经出现了话题转移,其潜在话题点从“看电影”可能转移至“什么电影”、“约什么时间看电影”、“在哪看”等等。确定话题点转移能够更有效地理解用户的潜在意图,并广泛应用于搜索引擎、人机对话、自动问答等多种场景。

但目前虽然存在多种文本话题点的解析方法,但往往仅限于文本本身的话题点分析,并不能有效地确定文本的话题点转移。因此,亟需提供一种能够准确确定话题点转移的方法。



技术实现要素:

有鉴于此,本发明提供了一种确定话题点转移以及获取回复文本的方法、装置,用于实现更丰富准确地获取转移话题点,以及提升文本回复效果。

本发明为解决技术问题所提供的技术方案是提供一种确定话题点转移的方法,所述方法包括:针对文本数据分析文本话题点;利用分析得到的话题点查询预先训练得到的话题点转移模型,确定所述文本数据的转移话题点。

根据本发明一优选实施例,所述针对文本数据分析文本话题点包括:从所述文本数据中提取重要词;对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。

根据本发明一优选实施例,所述从所述文本数据中提取重要词包括:从所述文本数据中提取满足预设的词性要求的词语作为重要词;和/或,确定所述文本数据中各词语的重要性得分,提取重要性得分满足预设得分要求的词语作为重要词。

根据本发明一优选实施例,所述根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点包括:获取所述文本数据的语法树;根据所获取的语法树,确定与所述重要词相关的语法结构内容;将确定出的语法结构内容进行组合,得到所述文本数据的话题点。

根据本发明一优选实施例,所述话题点转移模型是采用如下方式预先建立的:获取对话文本对以及各对话文本的话题点;将各对话文本对中一个对话文本的话题点作为文本话题点,另一个对话文本的话题点作为所述文本话题点的转移话题点;利用所获取的各文本话题点以及与各文本话题点对应的转移话题点,建立所述话题点转移模型。

根据本发明一优选实施例,所述话题点转移模型是采用如下方式预先建立的:获取训练数据,所述训练数据包括各话题点以及与各话题点对应的转移话题点;将各话题点作为输入,将与各话题点对应的转移话题点作为输出,训练神经网络模型,得到所述话题点转移模型。

本发明为解决技术问题所采用的技术方案是提供一种确定话题点转移的装置,所述装置包括:分析单元,用于针对文本数据分析文本话题点;转移单元,用于利用分析得到的话题点查询预先训练得到的话题点转移模型,确定所述文本数据的转移话题点。

根据本发明一优选实施例,所述分析单元在针对文本数据分析文本话题点时,具体执行:从所述文本数据中提取重要词;对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。

根据本发明一优选实施例,所述装置还包括第一训练单元,用于采用如下方式预先建立话题点转移模型:获取对话文本对以及各对话文本的话题点;将各对话文本对中一个对话文本的话题点作为文本话题点,另一个对话文本的话题点作为所述文本话题点的转移话题点;利用所获取的各文本话题点以及与各文本话题点对应的转移话题点,建立所述话题点转移模型。

根据本发明一优选实施例,所述装置还包括第一训练单元,用于采用如下方式预先建立话题点转移模型:获取训练数据,所述训练数据包括各话题点以及与各话题点对应的转移话题点;将各话题点作为输入,将与各话题点对应的转移话题点作为输出,训练神经网络模型,得到所述话题点转移模型。

本发明为解决技术问题所采用的技术方案是提供一种获取回复文本的方法,所述方法包括:获取文本数据;确定所述文本数据的转移话题点;将所述文本数据和转移话题点输入预先训练得到的对话生成模型,得到所述对话生成模型输出的针对所述文本数据的回复文本。

根据本发明一优选实施例,所述确定所述文本数据的转移话题点包括:针对所述文本数据分析文本话题点;利用所述文本话题点查询话题点转移模型,确定所述文本数据的转移话题点。

根据本发明一优选实施例,所述针对所述文本数据分析文本话题点包括:从所述文本数据中提取重要词;对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。

根据本发明一优选实施例,所述从所述文本数据中提取重要词包括:从所述文本数据中提取满足预设的词性要求的词语作为重要词;和/或,确定所述文本数据中各词语的重要性得分,提取重要性得分满足预设得分要求的词语作为重要词。

根据本发明一优选实施例,所述根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点包括:获取所述文本数据的语法树;根据所获取的语法树,确定与所述重要词相关的语法结构内容;将确定出的语法结构内容进行组合,得到所述文本数据的话题点。

根据本发明一优选实施例,所述对话生成模型是采用如下方式预先训练得到:获取训练数据,所述训练数据包括对话文本对以及各对话文本对中任一对话文本的话题点;将对话文本对中已知话题点的对话文本以及话题点作为输入,将另一对话文本作为输出,训练神经网络模型,得到所述对话生成模型。

本发明为解决技术问题所采用的技术方案是提供一种获取回复文本的装置,所述装置包括:获取单元,用于获取文本数据;确定单元,用于确定所述文本数据的转移话题点;生成单元,用于将所述文本数据和转移话题点输入预先训练得到的对话生成模型,得到所述对话生成模型输出的针对所述文本数据的回复文本。

根据本发明一优选实施例,所述确定单元在确定所述文本数据的转移话题点时,具体执行:针对所述文本数据分析文本话题点;利用所述文本话题点查询话题点转移模型,确定所述文本数据的转移话题点。

根据本发明一优选实施例,所述装置还包括第二训练单元,用于采用如下方式预先训练得到对话生成模型:获取训练数据,所述训练数据包括对话文本对以及各对话文本对中任一对话文本的话题点;将对话文本对中已知话题点的对话文本以及话题点作为输入,将另一对话文本作为输出,训练神经网络模型,得到所述对话生成模型。

由以上技术方案可以看出,本发明通过话题点转移模型获取转移话题点,使得转移话题点能够更加准确地刻画原文本数据的核心语义,并反映原文本数据中话题点的转移情况;另外,本发明通过转移话题点以及对话生成模型获取回复文本,使得所生成的回复文本具有合理、通顺、不转义的特点,从而提升对话系统中回复文本的回复效果。

【附图说明】

图1为本发明一实施例提供的确定话题点转移的方法流程图;

图2为本发明一实施例提供的文本数据的语法结构的示意图;

图3为本发明一实施例提供的获取回复文本的方法流程图;

图4为本发明一实施例提供的确定话题点转移的装置结构图;

图5为本发明一实施例提供的获取回复文本的装置结构图;

图6为本发明一实施例提供的计算机系统/服务器的框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。

应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

文本数据的话题点转移可以在多种场景下应用,例如在对话系统中应用时,在获取当前聊天话语的话题点后,确定与该话题点对应的转移话题点,然后由对话系统利用当前聊天话语以及所确定的转移话题点生成对应当天聊天话语的回复话语;例如在搜索引擎中应用时,获取所输入查询文本的话题点后,确定与该话题点对应的转移话题点,然后由搜索引擎根据所确定的转移话题点进行搜索等。因此本发明首先提供一种确定话题点转移的方法,用于更加准确地获取文本数据的转移话题点。

图1为本发明一实施例提供的确定话题点转移的方法,如图1中所示,所述方法包括:

在101中,针对文本数据分析文本话题点。

在本步骤中,可以使用现有技术中的主题模型对文本数据中的主题进行预测,根据模型的预测结果获取该文本数据的话题点。也可以基于文本数据的重要词的方式,根据所获取的重要词确定文本数据的话题点。下面对使用重要词确定话题点的方式进行详细描述:

具体地,在使用重要词获取文本数据的话题点时,可以采用以下方式:从文本数据中提取重要词;对文本数据进行语法分析,根据文本数据中与重要词相关的语法结构内容,获取文本数据的话题点。

其中,在从文本数据中提取重要词时可以采用以下方式:对文本数据进行切词处理,获取文本数据的切词结果;根据文本数据的切词结果,将其中满足预设的提取要求的词语作为该文本数据的重要词进行提取。其中预设的提取要求包括:预设的词性要求或者预设的得分要求中的至少一种。

具体地,在从文本数据中提取满足预设的提取要求的词语作为重要词时,可以采用以下几种方式:

(1)提取文本数据中满足预设的词性要求的词语作为重要词。

其中,预设的词性要求可以为实词,例如普通名词、专有名词、有实际需求的动词等。在使用该种方式提取文本数据中的重要词时,可以通过词性分析技术确定文本数据中各词语的词性,然后根据预设的词性要求,提取满足要求的词语作为文本数据的重要词。例如,若预设的词性要求为名词,所获取的文本数据为“我爱A”,该文本数据对应的切词结果为“我”、“爱”以及“A”,其中若“A”表示城市名,则“A”的词性为名词,则提取“A”作为该文本数据的重要词。

(2)提取文本数据中满足预设的得分要求的词语作为重要词。

其中,预设的得分要求可以为文本数据中各词语的重要性得分超过预设阈值;还可以为根据文本数据中各词语的重要性得分,选取排在前N位的词语,其中N为正整数。举例来说,若文本数据为“我爱AB”,切词结果中各词语的重要性得分分别为“我0.168497”、“爱0.221857”、“A 0.203215”以及“B 0.406431”,其中“A”表示城市名,“B”表示景点名,若预设的得分要求为选取排在第一位的词语作为重要词,则选取“B”作为文本数据的重要词。

具体地,在获取文本数据中各词语的重要性时,可以基于词语在大规模数据中的统计指标,获取文本数据中各词语的重要性得分。例如,可以通过文本数据的TF-IDF(termfrequency-inversedocumentfrequency,词频-逆文档频率)、互信息等信息的计算结果,来获取文本数据中各词语的重要性得分。也可以使用预先训练得到的词语排序模型,将文本数据的切词结果输入该模型后,根据该模型的输出结果,获取文本数据中各词语的重要性得分。

其中,词语排序模型可以采用以下方式预先训练得到:获取训练数据,所获取的训练数据中包括标注有各词语重要性得分的文本数据;将训练数据中文本数据的各词语作为输入,将文本数据中各词语的重要性得分作为输出,训练深度学习模型,得到词语排序模型。其中,深度学习模型可以采用诸如多层感知机模型、卷积神经网络模型、循环神经网络模型等。利用该词语排序模型,能够根据输入的文本数据中的各词语,获取各词语的重要性得分。

(3)提取文本数据中同时满足预设的词性要求以及预设的得分要求的词语作为该文本数据的重要词。

在该种方式中,需同时获取文本数据中各词语的词性以及重要性得分,将满足预设的词性要求以及得分要求的词语作为该文本数据的重要词。举例来说,若文本数据中包含多个满足预设的词性要求的词语时,则根据预设的得分要求,将重要性得分排序在前N位的词语作为该文本数据的重要词,其中N可以为预设的1以上的整数;或者,若文本数据中各词语的重要性得分排序在前N位的词语有各种词性时,则将满足预设的词性要求的词语作为该文本数据的重要词,其中N可以为预设的1以上的整数。可以理解的是,本发明对从文本数据中所提取的重要词的数目不进行限定,可以是一个,也可以是多个。

具体地,在基于重要词获取文本数据的话题点时可以采用以下方式:获取文本数据的语法树,可以通过语法依存算法获取文本数据的语法树,即通过该语法树能够获取文本数据中各词语之间的依存关系,即文本数据中各词语之间的语法结构关系;根据所获取的语法树,确定与所提取的重要词相关的语法结构内容,即围绕所提取的重要词从语法树中找出与该重要词相关的语法结构内容,例如与重要词相关的主谓结构内容、动宾结构内容、修饰结构内容、否定结构内容等;将所确定的语法结构内容进行组合,得到文本数据的话题点。其中,在将所确定的语法结构内容进行组合时,可以从中选择一部分进行组合,例如选择满足预设语法结构要求的语法结构内容进行组合,预设语法结构要求可以为选取主谓结构、动宾结构、修饰结构等语法结构,其他的语法结构则不进行选择;也可以为选择所确定的与重要词相关的全部语法结构内容进行组合。

其中,在对语法结构内容进行组合时,可以分别提取所选择的语法结构内容中除重要词外的词语后,按照文本数据中各词语的出现顺序与重要词一起进行组合,将组合结果作为该文本数据的话题点。也可以按照文本数据中各语法结构内容的出现顺序进行组合,将其中的重复部分剔除后的结果作为该文本数据的话题点。

举例来说,若文本数据为“我们寝室的射手伪装了三年的天蝎”,通过语法依存算法获取的对应该文本数据的语法树如图2中所示。若所确定的重要词为“伪装”,则根据该语法树确定与重要词相关的语法结构内容分别为“射手伪装(SBV,主谓结构)”、“伪装了(MT,语态结构)”以及“伪装天蝎(VOB,动宾结构)”。若预设语法结构要求为主谓结构以及动宾结构,则从与重要词相关的语法结构内容中选择与主谓结构与动宾结构相对应的结构内容,即选择“射手伪装”以及“伪装天蝎”,将所选择的结构内容进行组合后作为该文本数据的话题点。在进行组合时,可以分别提取“射手伪装”中的“射手”以及“伪装天蝎”的天蝎,然后将“射手”“天蝎”以及重要词“伪装”按照文本数据中相应的出现顺序进行组合,将组合得到的“射手伪装天蝎”作为该文本数据的话题点。

在102中,利用分析得到的话题点查询预先训练得到的话题点转移模型,确定所述文本数据的转移话题点。

在本步骤中,根据步骤101所获得的文本数据的话题点,查询预先训练得到的话题点转移模型,从而确定该文本数据的转移话题点。

其中,话题点转移模型可以采用但不限于以下方式预先建立:

第一种方式:获取对话文本对以及各对话文本的话题点,其中各对话文本的话题点可以使用主题模型获取,也可以使用在步骤101中所描述的基于重要词的方式获取;将各对话文本对中一个对话文本的话题点作为文本话题点,另一个对话文本的话题点作为该文本话题点的转移话题点,即建立对应该对话文本对的话题点转移关系,利用所建立的话题点转移关系,根据对话文本对中任一对话文本的话题点均能确定与之对应的另一对话文本的话题点;利用所获取的各文本话题点以及与各文本话题点对应的转移话题点,建立话题点转移模型。可以理解的是,在建立话题点转移模型时,由于不同的对话文本可能具有相同的文本话题点,因此统计同一个文本话题点所对应的转移话题点作为该文本话题点的转移关系,然后利用所有的文本话题点的转移关系建立话题点转移模型。

这种方式下,建立的话题点转移模型可以看做是话题点和转移话题点之间的对应关系表,例如下表所示:

通过查询该对应关系表,就能够得到话题点对应的转移话题点,例如,解析出文本数据的话题点为“看电影”时,根据上述话题点和转移话题点之间的对应关系表,确定话题点“看电影”的转移话题点可以包括“什么电影”、“约周二如何”、“一起看”、“看什么”等。若话题点对应多个转移话题点时,可以从多个转移话题点中选取一个,例如从中选取出现频次最高的转移话题点;也可以使用全部的转移话题点,本发明对此不进行限定。

第二种方式:获取训练数据,所获取的训练数据包括各话题点以及与各话题点对应的转移话题点;将各话题点作为输入,将与各话题点对应的转移话题点作为输出,训练神经网络模型,得到话题点转移模型。其中,神经网络模型可以为循环神经网络模型、卷积神经网络模型等。利用训练得到的话题点转移模型,能够根据所输入的话题点获取与之对应的转移话题点。

举个例子,若当前的文本数据为“我们去看电影吧”,解析出其话题点为“看电影”,将该解析得到的话题点“看电影”作为话题点转移模型的输入,根据该模型的输出结果获取与其对应的转移话题点,例如将该模型输出的“什么电影”、“约周二如何”、“一起看”、“看什么”等结果作为话题点“看电影”的转移话题点。

根据文本数据的话题点所得到的转移话题点的应用场景有很多,例如在对话系统中利用转移话题点,使得所生成的回复对话具有通顺、合理、不转义的特点;在搜索系统中利用转移话题点进行搜索,能够扩大搜索范围,使得搜索结果更符合用户的搜索意图;利用转移话题点进行用户行为意图的判断,可以更加全面的构建用户画像,从而便于判断用户的消费意图、出行意图等方面。

下面以转移话题点在对话系统中的应用为例,进行详细说明:

图3为本发明一实施例提供的获取回复文本的方法流程图,如图3中所示,所述方法包括:

在301中,获取文本数据。

在本步骤中,所获取的文本数据可以为单个字符串的文本,也可以为由多个字符串构成的文本。在中文领域中该文本数据可以是句子、短语等。其中,所获取的文本数据可以为文本格式的文本数据,也可以为在获取语音、图像等非文本格式后进行转换得到的文本数据。

在302中,确定所述文本数据的转移话题点。

在本步骤中,在获取文本数据的转移话题点时,可以将利用主题模型、重要词分析等方式获取的文本数据的话题点作为该文本数据的转移话题点;也可以在获取文本数据的话题点后,再进一步根据所获取的该话题点获取该文本数据的转移话题点。

其中,在获取文本数据的话题点时,可以采用主题模型对文本数据进行分析的方式,也可以采用基于文本数据的重要词的方式。其中,采用基于文本数据的重要词的方式已在步骤101中详述,在此不进行赘述。而在获取文本数据的话题点后,可以直接将其作为该文本数据的转移话题点,也可以进一步根据所获取的话题点确定该文本数据的转移话题点。可以采用现有的相似文本获取方法,获取与话题点对应的文本作为转移话题点。也可以利用话题点转移模型确定与其对应的转移话题点,话题点转移模型的建立过程以及使用方法在步骤102中详述,在此不进行赘述。

在303中,将所述文本数据和转移话题点输入预先训练得到的对话生成模型,得到所述对话生成模型输出的针对所述文本数据的回复文本。

在本步骤中,基于步骤301所获取的文本数据以及步骤302所确定的转移话题点,利用对话生成模型获取对应该文本数据的回复文本。

具体地,该对话生成模型是采用如下方式预先训练得到的:

获取训练数据,所获取的训练数据中包括对话文本对以及各对话文本对中任一对话文本的话题点;将对话文本对中已知话题点的对话文本以及话题点作为输入,而对话文本对中另一对话文本作为输出,训练神经网络模型,得到对话生成模型。其中,神经网络模型可以包括循环神经网络模型、卷积神经网络模型等。利用训练得到的对话生成模型,能够根据文本数据以及与其对应的转移话题点,得到对应该文本数据的回复文本。

其中,在利用对话生成模型获取文本数据的回复文本时,可以将文本数据以及全部转移话题点作为对话生成模型的输入;也可以预先从对应文本数据的转移话题点中选取一个,将文本数据以及所选取的一个转移话题点作为对话生成模型的输入。

举个例子,假设在对话系统中,用户输入的文本数据为“我们去看电影吧”,通过图1所示流程图分析出用户的转移话题点为“什么电影”、“约周二如何”、“一起看”、“看什么”等后,将文本数据“我们去看电影吧”以及转移话题点“什么电影”、“约周二如何”、“一起看”、“看什么”等中的至少一个共同输入对话生成模型中,根据对话生成模型的输出结果获取该文本数据的回复文本,例如回复“咱们去看什么电影”、“咱们约周二去看电影如何”等文本。

图4为本发明一实施例提供的确定话题点转移的装置结构图,如图4中所示,所述装置包括:分析单元41、第一训练单元42以及转移单元43。

分析单元41,用于针对文本数据分析文本话题点。

分析单元41可以使用现有技术中的主题模型对文本数据中的主题进行预测,根据模型的预测结果获取该文本数据的话题点。分析单元41也可以基于文本数据的重要词的方式,根据所获取的重要词确定文本数据的话题点。

下面对分析单元41使用重要词确定话题点的方式进行详细描述:

具体地,分析单元41在使用重要词获取文本数据的话题点时,可以采用以下方式:分析单元41从文本数据中提取重要词;分析单元41对文本数据进行语法分析,根据文本数据中与重要词相关的语法结构内容,获取文本数据的话题点。

其中,在分析单元41从文本数据中提取重要词时,可以采用以下方式:分析单元41对文本数据进行切词处理,获取文本数据的切词结果;根据文本数据的切词结果,分析单元41将其中满足预设的提取要求的词语作为该文本数据的重要词进行提取。其中预设的提取要求包括:预设的词性要求或者预设的得分要求中的至少一种。

具体地,在分析单元41从文本数据中提取满足预设的提取要求的词语作为重要词时,可以采用以下几种方式:

(1)分析单元41提取文本数据中满足预设的词性要求的词语作为重要词。

其中,预设的词性要求可以为实词,例如普通名词、专有名词、有实际需求的动词等。在使用该种方式提取文本数据中的重要词时,分析单元41 可以通过词性分析技术确定文本数据中各词语的词性,然后根据预设的词性要求,提取满足要求的词语作为文本数据的重要词。例如,若预设的词性要求为名词,所获取的文本数据为“我爱A”,该文本数据对应的切词结果为“我”、“爱”以及“A”,其中若“A”表示城市名,则“A”的词性为名词,则分析单元41提取“A”作为该文本数据的重要词。

(2)分析单元41提取文本数据中满足预设的得分要求的词语作为重要词。

其中,预设的得分要求可以为文本数据中各词语的重要性得分超过预设阈值;还可以为根据文本数据中各词语的重要性得分,选取排在前N位的词语,其中N为正整数。举例来说,若文本数据为“我爱AB”,切词结果中各词语的重要性得分分别为“我0.168497”、“爱0.221857”、“A 0.203215”以及“B 0.406431”,其中“A”表示城市名,“B”表示景点名,若预设的得分要求为选取排在第一位的词语作为重要词,则选取“B”作为文本数据的重要词。

具体地,在分析单元41获取文本数据中各词语的重要性时,可以基于词语在大规模数据中的统计指标,获取文本数据中各词语的重要性得分。例如,可以通过文本数据的TF-IDF(termfrequency-inversedocumentfrequency,词频-逆文档频率)、互信息等信息的计算结果,来获取文本数据中各词语的重要性得分。也可以使用预先训练得到的词语排序模型,将文本数据的切词结果输入该模型后,根据该模型的输出结果,获取文本数据中各词语的重要性得分。

其中,分析单元41所使用的词语排序模型可以采用以下方式预先训练得到:获取训练数据,所获取的训练数据中包括标注有各词语重要性得分的文本数据;将训练数据中文本数据的各词语作为输入,将文本数据中各词语的重要性得分作为输出,训练深度学习模型,得到词语排序模型。其中,深度学习模型可以采用诸如多层感知机模型、卷积神经网络模型、循环神经网络模型等。利用该词语排序模型,能够根据输入的文本数据中的各词语,获取各词语的重要性得分。

(3)分析单元41提取文本数据中同时满足预设的词性要求以及预设的得分要求的词语作为该文本数据的重要词。

在该种方式中,分析单元41需同时获取文本数据中各词语的词性以及重要性得分,将满足预设的词性要求以及得分要求的词语作为该文本数据的重要词。举例来说,若文本数据中包含多个满足预设的词性要求的词语时,则根据预设的得分要求,分析单元41可以将重要性得分排序在前N位的词语作为该文本数据的重要词,其中N可以为预设的1以上的整数;或者,若文本数据中各词语的重要性得分排序在前N位的词语有各种词性时,则分析单元41可以将满足预设的词性要求的词语作为该文本数据的重要词,其中N 可以为预设的1以上的整数。可以理解的是,本发明对从文本数据中所提取的重要词的数目不进行限定,可以是一个,也可以是多个。

具体地,在分析单元41基于重要词获取文本数据的话题点时,可以采用以下方式:分析单元41获取文本数据的语法树,可以通过语法依存算法获取文本数据的语法树,即通过该语法树能够获取文本数据中各词语之间的依存关系,即文本数据中各词语之间的语法结构关系;分析单元41根据所获取的语法树,确定与所提取的重要词相关的语法结构内容,即围绕所提取的重要词从语法树中找出与该重要词相关的语法结构内容,例如与重要词相关的主谓结构内容、动宾结构内容、修饰结构内容、否定结构内容等;分析单元 41将所确定的语法结构内容进行组合,得到文本数据的话题点。其中,在将所确定的语法结构内容进行组合时,分析单元41可以从中选择一部分进行组合,例如选择满足预设语法结构要求的语法结构内容进行组合,预设语法结构要求可以为选取主谓结构、动宾结构、修饰结构等语法结构,其他的语法结构则不进行选择;分析单元41也可以为选择所确定的全部语法结构内容进行组合。

其中,分析单元41在对语法结构内容进行组合时,可以分别提取所选择的语法结构内容中除重要词外的词语后,按照文本数据中各词语的出现顺序与重要词一起进行组合,将组合结果作为该文本数据的话题点。分析单元41也可以按照文本数据中各语法结构内容的出现顺序进行组合,将其中的重复部分剔除后的结果作为该文本数据的话题点。

第一训练单元42,用于训练得到话题点转移模型。

第一训练单元42可以采用但不限于以下方式预先建立话题点转移模型:

第一种方式:获取对话文本对以及各对话文本的话题点,其中各对话文本的话题点可以使用主题模型获取,也可以使用上述的基于重要词的方式获取;将各对话文本对中一个对话文本的话题点作为文本话题点,另一个对话文本的话题点作为该文本话题点的转移话题点,即建立对应该对话文本对的话题点转移关系,利用所建立的话题点转移关系,根据对话文本对中任一对话文本的话题点均能确定与之对应的另一对话文本的话题点;利用所获取的各文本话题点以及与各文本话题点对应的转移话题点,建立话题点转移模型。可以理解的是,在建立话题点转移模型时,由于不同的对话文本可能具有相同的文本话题点,因此统计同一个文本话题点所对应的转移话题点作为该文本话题点的转移关系,然后利用所有的文本话题点的转移关系建立话题点转移模型。

这种方式下,第一训练单元42建立的话题点转移模型可以看做是话题点和转移话题点之间的对应关系表,例如下表所示:

通过查询该对应关系表,就能够得到话题点对应的转移话题点,例如,解析出文本数据的话题点为“看电影”时,根据上述话题点和转移话题点之间的对应关系表,确定话题点“看电影”的转移话题点可以包括“什么电影”、“约周二如何”、“一起看”、“看什么”等。若话题点对应多个转移话题点时,可以从多个转移话题点中选取一个,例如从中选取出现频次最高的转移话题点;也可以使用全部的转移话题点,本发明对此不进行限定。

第二种方式:获取训练数据,所获取的训练数据包括各话题点以及与各话题点对应的转移话题点;将各话题点作为输入,将与各话题点对应的转移话题点作为输出,训练神经网络模型,得到话题点转移模型。其中,神经网络模型可以为循环神经网络模型、卷积神经网络模型等。

利用第一训练单元42训练得到的话题点转移模型,能够根据所输入的话题点,获取与之对应的转移话题点。

转移单元43,用于利用分析得到的话题点查询预先训练得到的话题点转移模型,确定所述文本数据的转移话题点。

转移单元43根据分析单元41所获得的文本数据的话题点,查询第一训练单元42预先训练得到的话题点转移模型,从而确定该文本数据的转移话题点。

根据文本数据的话题点所得到的转移话题点的应用场景有很多,例如在对话系统中利用转移话题点所生成的回复对话具有通顺、合理、不转义的特点;在搜索系统中利用转移话题点进行搜索时,能够扩大搜索范围,使得搜索结果更符合用户的搜索意图;利用转移话题点进行用户行为意图的判断,可以更加全面的构建用户画像,从而便于判断用户的消费意图、出行意图等方面。

图5是本发明一实施例提供的获取回复文本的装置结构图,其特征在于,所述装置包括:获取单元51、确定单元52、第二训练单元53以及生成单元 54。

获取单元51,用于获取文本数据。

获取单元51所获取的文本数据可以为单个字符串的文本,也可以为由多个字符串构成的文本。在中文领域中该文本数据可以是句子、短语等。其中,获取单元51所获取的文本数据可以为文本格式的文本数据,也可以为在获取语音、图像等非文本格式后进行转换得到的文本数据。

确定单元52,用于确定所述文本数据的转移话题点。

在获取文本数据的转移话题点时,确定单元52可以将利用主题模型、重要词分析等方式获取的文本数据的话题点作为该文本数据的转移话题点。确定单元52也可以在使用上述方法获取文本数据的话题点后,再进一步根据所获取的话题点获取该文本数据的转移话题点。

其中,确定单元52在获取文本数据的话题点时,可以采用主题模型对文本数据进行分析的方式,也可以采用基于文本数据的重要词的方式。其中,采用基于文本数据的重要词的方式已在分析单元41中详述,在此不进行赘述。而确定单元52在获取文本数据的话题点后,可以直接将其作为该文本数据的转移话题点,也可以进一步根据所获取的话题点确定该文本数据的转移话题点。确定单元52可以采用现有的相似文本获取方法,获取与话题点对应的文本作为转移话题点;也可以利用话题点转移模型确定与其对应的转移话题点,话题点转移模型的建立过程以及使用方法在第一训练单元42以及转移单元43中分别详述,在此不进行赘述。

第二训练单元53,用于训练得到对话生成模型。

具体地,第二训练单元53可以采用如下方式训练得到对话生成模型:

获取训练数据,所获取的训练数据中包括对话文本对以及各对话文本对中任一对话文本的话题点;将对话文本对中已知话题点的对话文本以及话题点作为输入,而对话文本对中另一对话文本作为输出,训练神经网络模型,得到对话生成模型。其中,神经网络模型可以包括循环神经网络模型、卷积神经网络模型等。利用训练得到的对话生成模型,能够根据文本数据以及与其对应的转移话题点,得到对应该文本数据的回复文本。

生成单元54,用于将所述文本数据和转移话题点输入预先训练得到的对话生成模型,得到所述对话生成模型输出的针对所述文本数据的回复文本。

生成单元54基于获取单元51所获取的文本数据以及确定单元52所确定的转移话题点,利用第二训练单元53训练得到的对话生成模型,获取对应该文本数据的回复文本。

其中,生成单元54在利用对话生成模型获取文本数据的回复文本时,可以将获取单元51获取的文本数据以及确定单元52所确定的全部转移话题点作为对话生成模型的输入,获取回复文本;也可以预先从确定单元52所确定的对应文本数据的转移话题点中选取一个,将获取单元51所获取的文本数据以及所选取的一个转移话题点作为对话生成模型的输入,获取回复文本。

图6示出了适于用来实现本发明实施方式的示例性计算机系统/服务器 012的框图。图6显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质) 读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序,从而执行各种功能应用以及数据处理,例如实现一种确定话题点转移的方法,可以包括:

针对文本数据分析文本话题点;

利用分析得到的话题点查询预先训练得到的话题点转移模型,确定所述文本数据的转移话题点。

还可以实现一种获取回复文本的方法,可以包括:

获取文本数据;

确定所述文本数据的转移话题点;

将所述文本数据和转移话题点输入预先训练得到的对话生成模型,得到所述对话生成模型输出的针对所述文本数据的回复文本。

上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如,被上述一个或多个处理器执行的方法流程,可以包括:

针对文本数据分析文本话题点;

利用分析得到的话题点查询预先训练得到的话题点转移模型,确定所述文本数据的转移话题点。

还可以包括:

获取文本数据;

确定所述文本数据的转移话题点;

将所述文本数据和转移话题点输入预先训练得到的对话生成模型,得到所述对话生成模型输出的针对所述文本数据的回复文本。

随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN) 或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

由以上技术方案可以看出,本发明通过话题点转移模型获取转移话题点,使得转移话题点能够更加准确地刻画原文本数据的核心语义,并反映原文本数据中话题点的转移情况;另外,本发明通过转移话题点以及对话生成模型获取回复文本,使得所生成的回复文本具有合理、通顺、不转义的特点,从而提升对话系统中回复文本的回复效果。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等) 或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1