语句改述方法、程序以及系统的制作方法

文档序号:6456823阅读:171来源:国知局
专利名称:语句改述方法、程序以及系统的制作方法
技术领域
(相关申请)本申请要求在先的日本发明专利申请第2006-345757号(2006年12月22日申请)的优先权,所述在先申请的全部记载内容将通过引用被记入本申请文件中。
本发明涉及语句改述方法、转换规则计算方法、语句改述系统、转换规则计算用的程序以及语句改述用的程序,尤其是涉及学习语句的改述规则的语句改述方法、转换规则计算方法、语句改述系统、转换规则计算用的程序以及语句改述用的程序。
背景技术
由计算机将由人输入的文章转换为他国语言的文章的机器翻译已被广泛应用,但在将同一语言之间的转换为对象的情况下,则使用用于改变文章表述的语句的改述方法(参见非专利文献l)。
在非专利文献1中,记载了现有的语句的改述后的表述制定方法的一个例子。非专利文献1中记载的语句的改述后的表述制定方法是事先由人制定依照造句法特征(性质)来进行表述的改述规则的方法。而且对于获得的改述后的表述,最终需人工确认。
此外,语句改述方法还被用于对于转换后的疑问句自动输出答复的疑问应答系统等中(参见专利文献1)。例如,在专利文献1中,记载了通过机器学习从改述文集(corpus)获得语句改述模型的语句的改述后的表述制定方法的一个例子。在专利文献1所记载的语句的改述后的表述制定方法中,将多个对于辞典或新闻等报道中的相同标题的说明句当作具有改述关系的文件对来制定改述文集,并对此进行机器学习。
非专利文献1:藤田篤、他1名、「A Class-oriented Approach toBuilding a paraphrase Corpus (IWP)」、2005年10月、P.25 — 32 ;专利文献1:日本专利申请早期公幵特幵2002-014990号公报(第 0058 0059段、以及图4)。

发明内容
上述非专利文献1以及专利文献1的全部公开内容通过引用被记入本 申请文件中。
但是,当对由很多用户输入的疑问句适用现有的语句的改述后的表述 制定方法时,就人工制定改述规则的方法(例如,非专利文献1所记载的 语句的改述后的表述制定方法)而言,需要制定大量的规则。这是因为对 于多种多样的疑问句的内容和表述必须要实现充分的收罗性。而且,当获 得最终的改述后的表述时需要人工进行确认操作,因此大多情况下无法适 用于对用户的疑问句输入进行实时处理的系统。
此外,在专利文献1所记载的语句的改述后的表述制定方法中,就已 有的辞典的标题或新闻等报道中未收罗的领域而言,难以获取学习数据。 而且,如果学习数据当中包含有表述上不具有可改述的关系的语句对,则 学习时就会成为干扰(无用信息)。此时,根据学习数据的质量有时无法 获得恰当的语句改述模型(改述规则。以下称为改述模型)。即,在如专 利文献1所记载的那样从已有的辞典或新闻等报道数据进行机器学习的方 法中,被收罗的疑问句限定在与已有的辞典和新闻等报道数据相关的内 容,因此大多情况下对于用户多种多样的疑问句难以实现充分的收罗性。 语句对是指两个语句的组合(两句一组)。
因此,本发明的目的在于,提供对于用户的疑问句输入实时生成改述 表述的语句改述方法、转换规则计算方法、语句改述系统、转换规则计算 用的程序以及语句改述用的程序,尤其是提供能够对用户输入的疑问句的 改述模型进行学习的语句改述方法、转换规则计算方法、语句改述系统、 转换规则计算用的程序以及语句改述用的程序。
根据本发明的第一方面,提供一种语句改述方法,用于针对由用户输
入的疑问文件生成内容相同但表述不同的疑问文件,其特征在于,包括 第一句子提取步骤,从保存在存储单元中的具有同一答复文件的疑问文件
8中提取具有所设定的阈值以上的相似度的句子的组合;转换规则计算步 骤,基于在第一句子提取步骤中提取的句子的组合来计算用于转换为内容
相同但表述不同的句子的转换规则;第二句子提取歩骤,使用在转换规则
计算步骤中算出的转换规则从存储单元中再次提取具有阈值以上的相似度
的句子的组合;判定步骤,判定在第一以及第二句子提取步骤中提取的句 子的组合是否全部一致;以及文件生成步骤,使用在转换规则计算步骤中 算出的转换规则来生成所输入的疑问文件的改述文件,其中,重复执行第 一句子提取歩骤、转换规则计算步骤以及第二句子提取歩骤,直到在第一 以及第二句子提取步骤中提取的句子的组合全部一致为止。
在上述语句改述方法中,优选包括对用户显示所生成的改述文件的步 骤,并且一并显示生成的改述文件和表示相对于所输入的疑问句的相似度 的值。
可以在上述语句改述方法的文件生成步骤中包括将所输入的疑问文 件分解为单词序列的歩骤;对在转换规则计算步骤中算出的转换规则与所 述单词序列进行比较并选择多个相似度高的单词序列的选择步骤;以及对
在选择步骤中选择的单词序列进行重排的重排步骤。
根据本发明的第二方面,提供一种转换规则计算方法,用于针对由用 户输入的疑问文件计算用于生成内容相同但表述不同的疑问文件的转换规 则,其特征在于,包括第一句子提取步骤,从保存在存储单元中的具有 同一答复文件的疑问文件中提取具有所设定的阈值以上的相似度的句子的
组合;转换规则计算步骤,基于在第一句子提取步骤中提取的句子的组合 来计算用于转换为内容相同但表述不同的句子的转换规则;第二句子提取 步骤,使用在转换规则计算步骤中算出的转换规则从存储单元中再次提取 具有阈值以上的相似度的句子的组合;和判定步骤,判定在第一以及第二 句子提取步骤中提取的句子的组合是否全部一致,其中,重复执行第一句 子提取步骤、转换规则计算步骤以及第二句子提取步骤,直到在第一以及 第二句子提取步骤中提取的句子的组合全部一致为止。
在上述转换规则计算方法中,将从输入单元输入的疑问文件、针对疑 问文件的答复文件、以及表示疑问文件与答复文件的对应关系的信息存储在存储单元中,并且对于集合了内容相同的答复文件的一个组,应用信息 来生成与内容相同的答复文件对应的疑问文件的组。
上述转换规则计算方法可以包括更新存储单元中保存的信息的步骤。 此时也可以以存储单元的信息被更新了的事件为契机,开始进行第一句子 提取步骤的处理。
根据本发明的第三方面,提供一种语句改述系统,用于针对由用户输 入的疑问文件生成内容相同但表述不同的疑问文件,其特征在于,包括 输入单元,用于输入疑问文件;存储单元,用于存储输入至输入单元的疑 问文件以及针对疑问文件的答复文件;句子提取单元,从保存在存储单元 中的具有同一答复文件的疑问文件中提取具有所设定的阈值以上的相似度 的句子的组合;转换规则计算单元,基于在句子提取单元中提取的句子的 组合来计算用于转换为内容相同但表述不同的句子的转换规则;以及文件 生成单元,使用由转换规则计算单元算出的转换规则来生成由用户输入至 输入单元的疑问文件的改述文件。
上述语句改述系统中的存储单元优选包括第一存储单元,用于存储
输入至输入单元的疑问文件与针对疑问文件的答复文件;第二存储单元, 用于存储由句子提取单元提取的句子的组合;和第三存储单元,用于存储 由转换规则计算单元算出的转换规则。
此外,上述语句改述系统中的转换规则可以至少包括翻译模型、语言 模型以及单词序列。
此外,上述语句改述系统可以包括显示由文件生成单元生成的改述文 件的显示单元。可以在该显示单元上一并显示由文件生成单元生成的改述 文件、以及表示与由用户输入至输入单元的疑问句之间的相似度的值。
此外,上述语句改述系统可以包括依据输入至输入单元的指令来更新 存储单元中的信息的信息更新单元。该信息更新单元在更新了存储单元中 的信息时向句子提取单元发送用于开始提取句子的组合的信号。
此外,上述语句改述系统可以是根据由用户过去输入的疑问文件与针 对各疑问文件的答复文件之间的对应关系来制定与同一答复文件对应的疑 问文件集合,并将该疑问文件集合作为语句改述的学习数据来使用的语句
10改述系统。即便是对应于同一答复文件的疑问文件,也会根据制定每个文 件的用户对领域中的知识或问题的理解水平、意图或战略的不同等,不能 保证文件彼此间必定存在可相互进行改述的关系,因此该语句改述系统为 了从疑问句集合的所有语句对中只筛选出存在可相互进行改述的关系的语 句对,而通过改述模型(例如,后述的式(1)等)来提取存在可相互进 行改述的关系的语句对。然后,将所述提取的改述语句对(例如,图8所 述的语句对)作为学习数据进来进一步进行改述模型的学习。交替地重复 执行使用改述模型在上述改述语句对中提取改述语句对的过程和利用所提 取的改述语句对学习改述模型的过程这两个过程直到提取语句组(提取的 改述语句对)收敛(使用新学习到的改述模型提取的改述语句对与使用之 前的改述模型提取的改述语句对达到相同)为止,并获得最终的改述模 型。通过这样的逐次处理,能够从对应于同一答复文件的疑问文件集合中 高精度地提取存在改述语句的关系的语句对,因此能够将此语句对作为学 习数据来学习恰当的改述模型。
通过进行上述那样的学习,上述疑问句改述系统例如能够生成针对用 邮件接收的疑问文件的答复文件。即,即便顾客以各种各样的表述进行咨 询,对于该表述也能够生成各种各样的改述来对照。从而,只要预先备有 疑问文件与答复文件的对,就能够与咨询的表述不同无关地自动分配答复 文件。
上述的语句改述方法例如能够用于自动生成应对记录(摘要)。艮口, 当在语句改述系统中积累了答复文件(答复的邮件、或者将操作员用电话 答复的语音通过语音识别转换而成的文本)及其对应记录(由操作员将对 应内容摘录的记录)时,通过学习从该答复文件改述为应对记录的模型, 能够实现应对记录的自动生成。
根据本发明的第四方面,提供一种转换规则计算用的程序,针对由用 户输入的疑问文件计算用于生成内容相同但表述不同的疑问文件的转换规 则,所述程序用于使计算机执行以下处理第一句子提取处理,从保存在 存储单元中的具有同一答复文件的疑问文件中提取具有所设定的阈值以上 的相似度的句子的组合;转换规则计算处理,基于在第一句子提取步骤中提取的句子的组合来计算用于转换为内容相同但表述不同的句子的转换规 则;第二句子提取处理,使用在转换规则计算处理中算出的转换规则从存 储单元中再次提取具有阈值以上的相似度的句子的组合;和判定处理,判 定在第一以及第二句子提取处理中提取的句子的组合是否全部一致,其 中,使计算机重复执行第一句子提取处理、转换规则计算处理以及第二句 子提取处理,直到在第一以及第二句子提取处理中提取的句子的组合全部 一致为止。
上述转换规则计算用的程序可以使计算机执行以下处理,S卩在存储 了从输入单元输入的疑问文件、针对疑问文件的答复文件、以及表示疑问 文件与答复文件的对应关系的信息的存储单元中,对于集合了内容相同的 答复文件的一个组,应用信息来生成与内容相同的答复文件对应的疑问文 件的组。
上述转换规则计算用的程序也可以使计算机执行更新存储单元中保存 的信息的处理,以及以存储单元的信息被更新了的事件为契机来开始进行 第一句子提取处理的处理。
根据本发明的第五方面,提供一种语句改述用的程序,针对由用户输 入的疑问文件生成内容相同但表述不同的疑问文件,所述程序使计算机执 行以下处理第一句子提取处理,从保存在存储单元中的具有同一答复文 件的疑问文件中提取具有所设定的阈值以上的相似度的句子的组合;转换 规则计算处理,基于在第一句子提取处理中提取的句子的组合来计算用于 转换为内容相同但表述不同的句子的转换规则;第二句子提取处理,使用 在转换规则计算处理中算出的转换规则从存储单元中再次提取具有阈值以
上的相似度的句子的组合;判定处理,判定在第一以及第二句子提取处理 中提取的句子的组合是否全部一致;直到在判定出第一以及第二句子提取 处理中提取的句子的组合全部一致为止重复执行第一句子提取处理、转换 规则计算处理以及第二句子提取处理的处理;以及文件生成处理,使用在 转换规则计算处理中算出的转换规则来生成所输入的疑问文件的改述文 件。
上述语句改述用的程序可以使计算机执行一并显示表示相对于所输入的疑问句的相似度的值和生成的改述文件的处理。
上述语句改述用的程序可以使计算机在文件生成处理中执行将所输 入的疑问文件分解为单词序列的处理;对在转换规则计算处理中算出的转 换规则与单词序列进行比较并选择多个相似度高的单词序列的选择处理;
以及对在选择处理中选择的单词序列进行重排的重排处理。 发明效果
根据本发明,能够从用户过去输入的疑问文件与针对各疑问文件的答 复文件之间的对应关系学习疑问句改述模型。这是因为引入了一边逐步去 除不处于改述语句的关系的疑问句对、 一边同时学习改述模型以逐步提高 了改述模型精度的渐进的处理过程的缘故。于是,能够从对应于同一答复 文件的疑问文件集合中高精度地提取处于改述语句的关系的语句对。


图1是示出根据本发明的语句改述系统的一个例子的系统结构图; 图2是用于说明语句改述系统的动作的流程图; 图3是用于说明语句改述系统的动作的流程图4是示出存储在文件集合存储单元中的疑问文件集合的一个例子的 说明图5是示出针对图4所示的每个疑问句文件的答复文件的一个例子的 说明图6是示出图4中的每个疑问句文件与图5中的答复文件之间的对应 关系的说明图7是示出从图6的对应关系制定的、与同一答复文件对应的疑问文
件集合的关系的说明图8是示出由语句对提取单元提取的改述语句对的一个例子的说明
图9是示出与图8所示的改述语句对对应的各疑问句的文本(text) 的一个例子的说明图10是示出由模型学习单元对改述语句对(Q1_S1、 Q1_S2)执行的对准(alignment)结果的说明图11是由模型学习单元对改述语句对(Q1—Sl、 Q10—S2)执行的对 准结果的说明图12是示出由模型学习单元对改述语句对(Q2—Sl、 Q6—Sl)执行的 对准结果的说明图13是示出由模型学习单元对改述语句对(Q2—Sl、 Q9_S2)执行的 对准结果的说明图14是示出由模型学习单元对改述语句对(Q2一S1、 Q10—S2)执行 的对准结果的说明图15是示出由模型学习单元对改述语句对(Q2—Sl、 Q12—S2)执行 的对准结果的说明图16是示出由语句对提取单元提取的改述语句对的一个例子的说明
图17是示出与新追加的语句对(Q4—Sl、 Q8—Sl)对应的疑问句的文 本的一个例子的说明图18是示出由模型学习单元对改述语句对(Q4—Sl、 Q8—Sl)执行的 对准结果的说明图19是示出输入至输入单元的疑问句的 一个例子的说明图20是示出由候选生成单元使用改述模型生成的改述候选的一个例 子的说明图。
附图符号说明
100输入单元
200输出单元
300数据处理装置
301语句对提取单元
302模型学习单元
303文件登记单元
304候选生成单元
400存储单元401文件集合存储单元
402模型存储单元 403语句对存储单元
具体实施例方式
以下,参考附图对本发明的实施方式进行说明。图1是示出根据本发 明的语句改述系统的一个例子的系统结构图。语句改述系统包括输入单 元100、输出单元200、通过程序控制来动作的数据处理装置300、以及存 储单元400。本实施方式中的语句改述系统使用存储在存储单元400中的 疑问句改述模型实时生成输入至输入单元100的疑问句的改述候选。下 面,对输入至输入单元IOO的文章为疑问句的情况进行说明。
输入单元100例如通过用于输入文章等的键盘或鼠标等来实现。输入 单元100具有向数据处理装置300输出与用户的操作相应的输入信号的功 能。
输出单元200通过液晶显示装置等来实现。在输出单元200上,例如 显示由数据处理装置300生成的疑问句的改述候选。
数据处理装置300包含语句对提取单元301、模型学习单元302、 文件登记单元303。候选生成单元304。数据处理装置300例如通过CPU 和图中没有示出的外围电路来实现。数据处理装置300通过程序控制来动 作,生成输入至输入单元IOO的疑问句的改述候选。
语句对提取单元301具有对于存储在后述的存储单元400中的疑问文 件的集合中的所有语句对判定每个语句对是否具有改述语句对的关系的功 能。具体地说,语句对提取单元301使用存储在模型存储单元402中的疑 问句改述模型对存储在文件集合存储单元401中的疑问文件集合中的所有 语句对判定是否为改述语句对。本实施方式中的改述语句对是指处于可改 述的关系(即内容相同)的句子的组合(两句一组)。例如,在语句对包 含多个句子的情况下,也可以存在该语句对中的两个句子被判定为改述语 句对的情况。语句对提取单元301将被判定为改述语句对的语句对输出并 存储在语句对存储单元403中。模型学习单元302具有将存储在语句对存储单元403中的改述语句对 用作学习数据来学习疑问句改述模型的功能。模型学习单元302将学习的 疑问句改述模型存储在模型存储单元402中。本实施方式中的学习是指直 到获得与现有的疑问句改述模型不同的新的疑问句改述模型为止的整个处 理。
此外,在本实施方式中,疑问句改述模型以最优的形式应用于各处理 工序中。例如,语句对提取单元301在提取改述语句对时,将用于判定是 否为改述语句对的翻译概率等用作疑问句改述模型。此外,例如模型学习 单元302从所提取的改述语句对学习疑问句语言模型等。本实施方式中的 疑问句改述模型包含翻译概率、疑问句改述翻译模型、疑问句语言模型、 以及单词序列等。
文件登记单元303具有依据从输入单元100输入的指令来更新文件集 合存储单元401的信息的功能。具体地说,文件登记单元303将输入至输 入单元100的具有同一答复文件的疑问文件集合存储到文件集合存储单元 401中。此外,文件登记单元303具有依据输入至输入单元100的指令来 删除文件集合存储单元401中的疑问文件集合的功能。后述的改述语句对 的提取处理以文件登记单元303向语句对提取单元301输出的信号为契机 而开始。
候选生成单元304具有对从输入单元IOO输入的疑问句生成改述候选 并将该改述候选输出给输出单元200的功能。具体地说,候选生成单元 304具有应用存储在模型存储单元402中的疑问句改述模型实时生成针对 所输入的疑问句的改述候选的功能。并且,候选生成单元304将生成的改 述候选输出给输出单元200。
存储单元400包括文件集合存储单元401、模型存储单元402、语 句对存储单元403。存储单元400例如通过RAM等存储介质来实现,保 存由数据处理装置300执行的控制程序等各种数据。存储单元400的一部 分也可以通过ROM来实现,并且也可以在ROM部分中存储控制程序。
存储单元400具有存储由用户输入的疑问句、针对该疑问句的答复 句、疑问句与答复句的对应关系以及疑问句改述模型等的功能。文件集合存储单元401存储基于从输入单元100输入的疑问文件的集 合和对于所述各疑问文件的答复文件来制定的、与同一答复文件对应的疑 问句的集合等。
模型存储单元402具有存储疑问句改述模型的功能。具体地说,模型 存储单元402存储由模型学习单元302学习到的疑问句语言模型或单词序 列等新的疑问句改述模型。模型存储单元402所存储的疑问句改述模型被 语句对提取单元301或候选生成单元304读取。
语句对存储单元403具有存储由语句对提取单元301判定为改述语句 对的语句对(句子的组合)和每个语句对的文本数据等的功能。语句对存 储单元403所存储的改述语句对被语句对提取单元301或模型学习单元 302读取。
根据本发明的语句改述系统,如在后面说明的那样,由语句对提取单 元301、模型学习单元302、文件登记单元303、文件集合存储单元401、 模型学习单元402以及语句对存储单元403实现疑问句改述模型的学习。 此外,在本发明的语句改述系统中,由输入单元100、输出单元200、候 选生成单元304、模型存储单元402实现使用疑问句改述模型的改述候选 的生成。
接着,参考附图对本实施方式中的语句改述系统的动作进行说明。图 2是用于说明根据本发明的语句改述系统的动作的流程图。在本实施方式 中的语句改述系统中,候选生成单元304从模型存储单元402中读取疑问 句改述模型,实时生成被输入的疑问句的改述候选。在本实施方式中,当 由用户输入疑问句时,假定疑问句改述模型已存在于模型存储单元402 中。下面说明语句改述系统对疑问句改述模型进行学习的方法。
当用户向输入单元IOO输入了指令时,文件登记单元303更新包含在 文件集合存储单元401中的信息(步骤SIOI)。例如,当与登记指令一起 输入了疑问文件集合时,文件登记单元303将输入的疑问文件集合记录在 文件集合存储单元401中。此外,例如当选择文件集合存储单元401中的 疑问文件并输入删除指令时,文件登记单元303从文件集合存储单元401 中删除选中的疑问文件。文件登记单元303以文件集合存储单元401中的信息被更新的事件为契机,向语句对提取单元301发送用于开始进行改述 语句对的提取处理的信号(触发)。
语句对提取单元301对于存储在文件集合存储单元401中的疑问文件 集合中的所有语句对判定每个语句对是否具有改述语句对的关系。此时,
语句对提取单元301使用存储在模型存储单元402中的疑问句改述模型来 判定是否为改述语句对。语句对提取单元301将判定为改述语句对的语句 对输出并存储在语句对存储单元403中(步骤S102)。
接着,模型学习单元302将存储在语句对存储单元403中的改述语句 对用作学习数据来学习疑问句改述模型(步骤S103)。模型学习单元302 将学习到的疑问句改述模型存储在模型存储单元402中。疑问句改述模型 是指翻译概率、疑问句改述翻译模型、疑问句语言模型、单词序列等。
语句对提取单元301对于存储在文件集合存储单元401中的疑问文件 集合中的所有语句对再次判定每个语句对是否具有改述语句对的关系。具 体地说,语句对提取单元301使用由模型学习单元302学习到的疑问句改 述模型对文件集合存储单元401中的所有语句对判定是否为改述语句对。 此时,也可以从同一疑问句文件中提取改述语句对。语句对提取单元301 将判断为改述语句对的语句对输出并存储在语句对存储单元403中(歩骤
5104) 。
语句对提取单元301判定所提取的改述语句对是否收敛(步骤
5105) 。当提取的改述语句对不收敛时,语句对提取单元301以及模型学 习单元302重复执行上述的步骤S103和步骤S104中的处理,直到提取的 改述语句对收敛为止。步骤S102的处理、第一次循环中的步骤S104的处 理分别相当于第一语句提取步骤、第二语句提取步骤。而且,第n次循环 的步骤S104的处理、第(n+l)次循环的步骤S104的处理分别相当于第 一语句提取步骤、第二语句提取步骤。n为1以上的整数。此外,改述语 句对收敛是指由语句对提取单元301使用最新的疑问句改述模型提取的改 述语句对与使用之前的疑问句改述模型提取的改述语句对全部达到相同的 情况。
当提取的改述语句对收敛时(步骤S105:是),语句改述系统结束疑问句改述模型的生成处理。
接下来,对输入至输入单元100的疑问句的改述候选的生成方法进行 说明。图3是用于说明根据本发明的语句改述系统的动作的流程图。
当疑问句被输入至输入单元100时(步骤S201),候选生成单元304 从模型存储单元402中读取疑问句改述模型(步骤S202)。候选生成单元 304对于从输入单元100输入的疑问句,应用存储在模型存储单元402中 的疑问句改述模型实时生成针对所输入的疑问句的改述候选。
候选生成单元304将输入至输入单元100的疑问句分解为单词单位, 并与从模型存储单元402中读取的单词序列进行比较(步骤S203)。并且 选择多个后述的单词的改述概率大的单词序列(步骤S204)。
接着,候选生成单元304对所选择的单词序列进行重排,求出后述的 重排概率(步骤S205)。候选生成单元304选择多个重排概率大的文章, 并将该文章作为疑问句改述候选输出给输出单元200 (步骤S206)。候选 生成单元304所输出的改述候选也可以为一个。
接下来,参考附图对上述的动作进行更加具体的说明。
图4是示出存储在文件集合存储单元401中的疑问文件集合的一个例 子的说明图。此外,图5是示出针对图4所示的每个疑问句文件的答复文 件的一个例子的说明图。图6是示出图4中的每个疑问句文件与图5中的 答复文件之间的对应关系的说明图。
在图6所示的对应关系中示出例如,对于图4所示的疑问文件Q1, 由图5中的答复文件Al进行答复。此外,在图6所示的对应关系中示 出例如,对于图4所示的疑问文件Q4,由将图5中的答复文件Al和 A2这两个文件连接起来的文件进行答复。在图6中,当对疑问文件对应有 多个答复文件时,表示对应于该疑问文件的答复包含多个答复文件。例 如,就对于上述疑问文件Q4的答复文件来说,表示的是答复文件中包含 Al和A2这两个答复文件,而并不是表示答复文件中包含Al和A2中的 任一个答复文件。
图7是示出从图6的对应关系制定的、与同一答复文件对应的疑问文 件集合的关系的说明图。文件集合存储单元401存储图7所示那样的疑问文件集合的关系和图4所示那样的疑问文件(文本数据)。
语句对提取单元301对于存储在文件集合存储单元401中的与同一答 复文件对应的疑问文件集合中的所有语句对,使用存储在模型存储单元
402中的疑问句改述模型来判定是否为改述语句对。例如,在图7中,语 句对提取单元301对于与答复文件Al对应的疑问文件Ql和Q2中所包含 的所有语句对,判定每个句子是否处于改述语句对的关系。同样地,语句 对提取单元301对于与答复文件Al对应的疑问文件Ql和Q3中所包含的 所有句子,判定每个句子是否处于改述语句对的关系。在一个疑问文件中 包含多个句子的情况(例如,疑问文件Ql由3个句子构成的情况)下, 语句对提取单元301对于同一疑问文件中的每个句子也判定是否为改述语 句对。
接着,对由语句对提取单元301进行的判定改述语句对的方法进行说 明。这里,当存在具有共同的答复文件A的改述语句对、疑问句1 (句子 1)和疑问句2 (句子2)时,语句对提取单元301例如使用下面的模型Pn 叫来估计从疑问句1的单词序列W卜.Wk向疑问句2的词序列W""..W: 翻译的概率。
<formula>formula see original document page 20</formula>i)
式(i)中的pe表示阈值。并且,与式(l)中的单词序列wi相关
的积"n,./U)^'iK^)"相当于疑问句改述翻译模型。
在第一次(n=i)中,单词的改述概率Pn(r;i^^)以及单词的重排概
率《(W…C.『,',^由于尚未学习,因此使用如下述数学式2等那样的
专有(AdHoc)的初始翻译模型。即,语句对提取单元301在从文件集合 存储单元401初次提取改述语句对时,使用通过式(2)和(3)表述的疑 问句改述模型。 [数学式2]尸 K' I『")=(1 _ f ,, + S(l - ~;,,) …(2) C ■《'I (= H《),,,…W …(3)
通过使用上述那样的疑问句改述模型进行判定,语句对提取单元301
通过步骤S102的处理而获得图8和图9所示那样的改述语句对以及疑问 句(句子)。图8是示出由语句对提取单元301提取的改述语句对的一个 例子的说明图。此外,图9是示出与图8所示的改述语句对对应的各疑问 句的文本的一个例子的说明图。语句对提取单元301将提取的改述语句对 以及与该改述语句对对应的各疑问句的文本存储在语句对存储单元403中 (步骤S102)。
接下来,模型学习单元302将存储在语句对存储单元403中的改述语 句对(图8和图9所示那样的改述语句对以及疑问句)用作学习数据来学 习疑问句改述模型Pn=2。
此时,模型学习单元302为了求出单词的改述概率《,^;iw,^ (即疑
问句改述模型),进行与改述语句对的单词相关的对应关系的估计(对 准)。具体地说,模型学习单元302使用图8所示的改述语句对的关系, 估计图9所示疑问句中的单词的对应关系。
图IO是示出由模型学习单元302对于改述语句对(Q1—Sl、 Q2一S2) 执行的估计结果的说明图。同样地,图11是示出对于改述语句对 (Q1—Sl、 Q10—S2)执行的估计结果的说明图,图12是示出对于改述语 句对(Q2—Sl、 Q6—Sl)执行的估计结果的说明图,图13是示出对于改述 语句对(Q2一S1、 Q9—S2)执行的估计结果的说明图,图14是示出对于改 述语句对(Q2一S1、 Q10—S2)执行的估计结果的说明图,以及图15是示 出对于改述语句对(Q2—Sl、 Q12—S2)执行的估计结果的说明图。图10 图15中的符号"小"表示不存在对应的单词。
模型学习单元302基于图10 图15所示的改述语句对中相对应的单 词间的改述次数,估计单词的改述概率iUK'IK,…。此外,模型学习单元 302估计单词的重排概率A(『/'…CZ…『/,J)。例如,模型学习单元302 用改述后的单词序列的出现概率来代替从经单词置换后的单词序列 W、...W、向改述语句中的单词序列W,、...W"m的重排。<formula>formula see original document page 22</formula>
式(4)中的单词序列的出现概率iv",(w…^:)相当于疑问句语言模
型。模型学习单元302将式(4)所示那样的疑问句语言模型作为疑问句 改述模型进行学习,并将其存储在模型存储单元402中(步骤S103)。
语句对提取单元301使用新学习的疑问句改述模型Pn=2,从文件集合 存储单元401中再次提取改述语句对(步骤S104)。并且,语句对提取单 元301将判定为改述语句对的语句对记录在语句对存储单元403中。
图16是示出由语句对提取单元301使用疑问句改述模型P『2提取的 改述语句对的一个例子的说明图。例如,当将图16中的改述语句对和图8 中的改述语句对进行比较时,在图16中的改述语句对中,追加有作为新 改述语句对的语句对(Q4一S1、 Q8—Sl)。语句对提取单元301将图16所 示的改述语句对记录在语句对存储单元403中。
图17是示出与在图16中新追加的语句对(Q4—Sl、 Q8—Sl)对应的 疑问句的文本的一个例子的说明图。此外,图18是示出由模型学习单元 302对于改述语句对(Q4一S1、 Q8一S1)执行的估计结果的说明图。
由于在语句对存储单元403中追加了作为新改述语句对的语句对 (Q4—Sl、 Q8_S1),因此语句对提取单元301判定改述语句对不收敛 (步骤S105:否)。语句对提取单元301在将使用疑问句改述模型P『2所 提取的改述语句对记录到语句对存储单元403中时,从语句对存储单元 403中读取使用疑问句改述模型Pn=1所提取的改述语句对,并判定改述语 句对是否收敛。
模型学习单元302以及语句对提取单元301再次执行步骤S103以及 步骤S104中的处理。由此,模型学习单元302获得新的疑问句改述模型 Pn=3 (步骤S103)。
语句对提取单元301使用疑问句改述模型Pn=3从文件集合存储单元 401中再次提取改述语句对(步骤S104)。然后,语句对提取单元301判定改述语句对是否收敛(步骤S105)。当使用疑问句改述模型P^3提取的 改述语句对与上一次提取的改述语句对(使用疑问句改述模型P『2提取的 改述语句对)相比没有变化时,语句对提取单元301判定改述语句对收敛 (步骤S105:是)。 一旦判定改述语句对收敛,语句改述系统就结束疑问 句改述模型的生成。
然后,当疑问句被输入至输入单元IOO时(步骤S201),候选生成单 元304从模型存储单元402中读取疑问句改述模型(步骤S202)。候选生 成单元304应用存储在模型存储单元402中的疑问句改述模型,对于从输 入单元IOO输入的疑问句,实时生成针对所输入的疑问句的改述候选。
候选生成单元304将输入至输入单元100的疑问句分解为单词单位, 并与从模型存储单元402读取的单词序列进行比较(步骤S203)。并且选 择多个单词的改述概率大的单词序列(步骤S204)。
候选生成单元304对所选择的单词序列进行重排,求出单词的重排概 率(步骤S205)。候选生成单元304选择多个重排概率大的文章,并将该 文章作为疑问句改述候选输出给输出单元200 (步骤S205)。候选生成单 元304所输出的改述候选也可以为一个。
如上所述,候选生成单元304对于从输入单元IOO输入的疑问句,应 用存储在模型存储单元402中的疑问句改述模型来生成改述候选。
图19是示出输入至输入单元100的疑问句的一个例子的说明图。此 外,图20是示出由候选生成单元304针对图19所示的疑问句使用疑问句 改述模型生成的改述候选的一个例子的说明图。对于图19所示那样的输 入疑问句Q—in,候选生成单元304使用疑问句改述模型P『3生成图20所 示那样的改述候选。候选生成单元304将生成的改述候选与疑问句改述模 型的概率值(得分) 一并输出给输出单元200 (歩骤S105)。疑问句改述 模型的概率值(得分)用疑问句改述模型(单词的重排概率)的对数来表 现。此外,越是得分值大(即,得分绝对值小)的改述候选,对于所输入 的疑问句的相似度就越高。
如上所述,在本实施方式的语句改述系统中,从与同一答复文件对应 的疑问文件集合中只筛选出具有改述的关系的句子。即,通过使用疑问句改述模型,能够只提取具有改述的关系的语句对。
此外,本发明的语句改述系统直到提取语句组(提取的改述语句对) 收敛为止交替地重复执行使用疑问句改述模型提取改述语句对的过程和利 用所提取的改述语句对来学习疑问句改述模型的过程这两个过程,并获得 了最终的疑问句改述模型。通过这样的逐次处理,能够学习恰当的改述模 型,并能够从与同一答复文件对应的疑问文件集合中高精度地提取具有改 述语句的关系的语句对。
以上对本发明的优选实施方式进行了说明,但可在本发明的全部公开 (包括权利要求书)的框架内进一步基于本发明的基本的技术思想对实施 方式以至实施例进行变更和调整。此外,可在本发明权利要求书的框架内 对各种公开要件进行多种组合或选择。例如,在上述的实施方式中,对疑
问句改述模型已存在于模型存储单元402中的情况进行了说明,但语句改 述系统也可以以疑问句被输入至输入单元100的事件为契机,开始进行疑 问句改述模型的生成。 产业上的可利用性
本发明能够应用于将输入的文章转换为不同表述方式的文章的语句改 述系统。尤其是,本发明由于能够消除疑问句的表述不一致,因此能够应 用于邮件应对事例的检索精度的提高上。此外,本发明能够应用于针对用 邮件接收的疑问文件的答复文件的自动生成或应对记录(摘要)的自动生 成中。
2权利要求
1.一种语句改述方法,用于针对由用户输入的疑问文件生成内容相同但表述不同的疑问文件,其特征在于,包括第一句子提取步骤,从保存在存储单元中的具有同一答复文件的疑问文件中提取具有所设定的阈值以上的相似度的句子的组合;转换规则计算步骤,基于在所述第一句子提取步骤中提取的句子的组合来计算用于转换为内容相同但表述不同的句子的转换规则;第二句子提取步骤,使用在所述转换规则计算步骤中算出的转换规则从所述存储单元中再次提取具有所述阈值以上的相似度的句子的组合;判定步骤,判定在第一以及第二句子提取步骤中提取的句子的组合是否全部一致;以及文件生成步骤,使用在所述转换规则计算步骤中算出的转换规则来生成所输入的疑问文件的改述文件,其中,重复执行第一句子提取步骤、转换规则计算步骤以及第二句子提取步骤,直到在第一以及第二句子提取步骤中提取的句子的组合全部一致为止。
2. 如权利要求1所述的语句改述方法,其中,包括对用户显示所生成的改述文件的步骤,并且一并显示所述生成的改述文件和表示相对于所输入的疑问句的相似度的值。
3. 如权利要求1或2所述的语句改述方法,其中,所述文件生成步骤包括将所输入的疑问文件分解为单词序列的步骤;对在所述转换规则计算步骤中算出的转换规则与所述单词序列进行比较并选择多个相似度高的单词序列的选择步骤;以及对在所述选择步骤中选择的单词序列进行重排的重排步骤。
4. 一种转换规则计算方法,用于针对由用户输入的疑问文件计算用于生成内容相同但表述不同的疑问文件的转换规则,其特征在于,包括第一句子提取步骤,从保存在存储单元中的具有同一答复文件的疑问文件中提取具有所设定的阈值以上的相似度的句子的组合;转换规则计算步骤,基于在所述第一句子提取歩骤中提取的句子的组合来计算用于转换为内容相同但表述不同的句子的转换规则;第二句子提取步骤,使用在所述转换规则计算步骤中算出的转换规则从所述存储单元中再次提取具有所述阈值以上的相似度的句子的组合;和判定步骤,判定在第一以及第二句子提取步骤中提取的句子的组合是否全部一致,其中,重复执行第一句子提取步骤、转换规则计算步骤以及第二句子提取步骤,直到在第一以及第二句子提取步骤中提取的句子的组合全部一致为止。
5. 如权利要求4所述的转换规则计算方法,其中,将从输入单元输入的疑问文件、针对所述疑问文件的答复文件、以及表示所述疑问文件与所述答复文件的对应关系的信息存储在存储单元中,对于集合了内容相同的答复文件的一个组,应用所述信息来生成与内容相同的答复文件对应的疑问文件的组。
6. 如权利要求4或5所述的转换规则计算方法,其中,包括更新所述存储单元中保存的信息的步骤,并且以所述存储单元的信息被更新了的事件为契机,开始进行第一句子提取步骤的处理。
7. —种语句改述系统,用于针对由用户输入的疑问文件生成内容相同但表述不同的疑问文件,其特征在于,包括输入单元,用于输入疑问文件;存储单元,用于存储输入至所述输入单元的疑问文件以及针对所述疑问文件的答复文件;句子提取单元,从保存在存储单元中的具有同一答复文件的疑问文件中提取具有所设定的阈值以上的相似度的句子的组合;转换规则计算单元,基于在所述句子提取单元中提取的句子的组合来计算用于转换为内容相同但表述不同的句子的转换规则;以及文件生成单元,使用由所述转换规则计算单元算出的转换规则来生成由用户输入至所述输入单元的疑问文件的改述文件。
8. 如权利要求7所述的语句改述系统,其中, 存储单元包括第一存储单元,用于存储输入至输入单元的疑问文件与针对所述疑问 文件的答复文件;第二存储单元,用于存储由所述句子提取单元提取的句子的组合;和 第三存储单元,用于存储由所述转换规则计算单元算出的转换规则。
9. 如权利要求7或8所述的语句改述系统,其中, 所述转换规则至少包括翻译模型、语言模型以及单词序列。
10. 如权利要求7至9中任一项所述的语句改述系统,其中, 包括显示由所述文件生成单元生成的改述文件的显示单元, 所述显示单元一并显示由所述文件生成单元生成的改述文件、以及表示与由用户输入至输入单元的疑问句之间的相似度的值。
11.如权利要求7至IO中任一项所述的语句改述系统,其中,包括依据输入至输入单元的指令来更新存储单元中的信息的信息更新 单元,所述信息更新单元在更新了所述存储单元中的信息时向所述句子提取 单元发送用于开始提取句子的组合的信号。
12. —种转换规则计算用的程序,针对由用户输入的疑问文件来计算 用于生成内容相同但表述不同的疑问文件的转换规则,所述程序的特征在 于,用于使计算机执行以下处理第一句子提取处理,从保存在存储单元中的具有同一答复文件的疑问文件中提取具有所设定的阈值以上的相似度的句子的组合;转换规则计算处理,基于在所述第一句子提取步骤中提取的句子的组合来计算用于转换为内容相同但表述不同的句子的转换规则;第二句子提取处理,使用在所述转换规则计算处理中算出的转换规则从所述存储单元中再次提取具有所述阈值以上的相似度的句子的组合;和 判定处理,判定在第一以及第二句子提取处理中提取的句子的组合是否全部一致,其中,使计算机重复执行第一句子提取处理、转换规则计算处理以及第二句子提取处理,直到在第一以及第二句子提取处理中提取的句子的组合全部一致为止。
13. 如权利要求12所述的转换规则计算用的程序,其中,使计算机执行以下处理,即在存储了从输入单元输入的疑问文件、针对所述疑问文件的答复文件、以及表示所述疑问文件与所述答复文件的对应关系的信息的存储单元中,对于集合了内容相同的答复文件的一个组,应用所述信息来生成与内容相同的答复文件对应的疑问文件的组。
14. 如权利要求12或B所述的转换规则计算用的程序,其中,使计算机执行更新所述存储单元中保存的信息的处理,以及以所述存储单元的信息被更新了的事件为契机来开始进行第一句子提取处理的处理。
15. —种语句改述用的程序,针对由用户输入的疑问文件生成内容相同但表述不同的疑问文件,所述程序的特征在于,使计算机执行以下处理第一句子提取处理,从保存在存储单元中的具有同一答复文件的疑问文件中提取具有所设定的阈值以上的相似度的句子的组合;转换规则计算处理,基于在所述第一句子提取处理中提取的句子的组合来计算用于转换为内容相同但表述不同的句子的转换规则;第二句子提取处理,使用在所述转换规则计算处理中算出的转换规则从所述存储单元中再次提取具有所述阈值以上的相似度的句子的组合;判定处理,判定在第一以及第二句子提取处理中提取的句子的组合是否全部一致;直到在判定出第一以及第二句子提取处理中提取的句子的组合全部一致为止重复执行第一句子提取处理、转换规则计算处理以及第二句子提取处理的处理;以及文件生成处理,使用在所述转换规则计算处理中算出的转换规则来生成所输入的疑问文件的改述文件。
16. 如权利要求15所述的语句改述用的程序,其中,使计算机执行一并显示表示相对于所输入的疑问句的相似度的值和生成的改述文件的处理。
17. 如权利要求15或16所述的语句改述用的程序,其中,使计算机在文件生成处理中执行将所输入的疑问文件分解为单词序列的处理;对在所述转换规则计算处理中算出的转换规则与所述单词序列进行比较并选择多个相似度高的单词序列的选择处理;以及对在所述选择处理中选择的单词序列进行重排的重排处理。
全文摘要
对于用户对疑问句的输入,学习疑问句的改述模型,实时生成改述后的表述。当文件集合存储单元(401)的信息被更新时,语句对提取单元(301)从文件集合存储单元(401)提取改述语句对,并将其存储在语句对存储单元(403)中。模型学习单元(302)从语句对存储单元(402)中的改述语句对学习疑问句改述模型,并将其存储在模型存储单元(402)中。语句对提取单元(301)使用模型存储单元(302)所具有的疑问句改述模型从文件集合存储单元(401)再次提取改述语句对并将其存储在语句对存储单元(403)中。当存储的改述语句对与存储在语句对存储单元(403)中的改述语句对相同时,结束疑问句改述模型的学习。候选制定单元(303)从模型存储单元(402)读取疑问句改述模型,生成所输入的疑问句的改述候选。
文档编号G06F17/21GK101563682SQ200780047490
公开日2009年10月21日 申请日期2007年12月21日 优先权日2006年12月22日
发明者石川开, 赤峰享 申请人:日本电气株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1