语言处理系统的制作方法

文档序号：6561518阅读：286来源：国知局

专利名称：语言处理系统的制作方法
技术领域：
本发明涉及词素分析技术，特别涉及语言处理系统。
背景技术：
在从文本合成声音的系统中，利用以下的功能，即与预先登记在系统中的系统单词相比，优先将系统使用者所追加登记的用户登记单词用于声音合成中。例如，即使在系统中登记了“神戸(こうべ)”这样的系统单词，如果系统使用者向系统追加了“神戸(かんべ)”这样的用户登记单词，则以后也使“神戸(かんべ)”比“神戸(こうべ)”的发音优先，而合成声音。
但是，在不是如日语那样将单词隔开写(例如日语中，为了容易念懂而将词与词之间分隔开的写法)的语言中，即使在连续写的阶段，文本中包含系统使用者所追加的用户登记单词的情况下，在词素分析的过程中也有可能生成不包含与用户登记单词对应的词素的单词序列。例如，针对“在阪神戸の”这样的文本，假设系统使用者希望以“神戸(かんべ)”这样的读法输出“神戸”的部分，并登记为用户登记单词。但是，在系统进行词素分析的过程中，生成了隔开写为“在—阪神—戸—の”的单词序列的情况下，为了分割“阪神”和“戸”之间，而不输出“神戸(かんべ)”这样的读法。相反，提出了以下的技术在文本中包含播放禁止用语等对于系统使用者来说是不理想的单词的情况下，在通过词素分析确定了单词序列后，检测出与记载在列表中的播放禁止用语一致的词素，然后跳过与播放禁止用语一致的词素地读出，或者改读为其他的单词(例如参考专利文献1)。但是，并没有在确定隔开写的单词序列之前，预先防止生成包含对于系统使用者来说不理想的单词的单词序列的系统。
在将单词隔开写的语言中，也依然存在同样的问题。这是因为即使单词的分界是明显的，如果在词素分析中评价与前后相连的单词的连接性的强度而确定单词序列，则即使在登记有用户登记单词的情况下，也并不一定只限于生成包含与用户登记单词对应的词素的单词序列。
专利文献1特开平5-165486号公报发明内容本发明提供一种预先防止生成包含对于系统使用者来说不理想的单词的单词序列的语言处理系统。
根据本发明的第一形式，提供一种语言处理系统，具备保存使用禁止词素的禁止词素存储部件；根据连续写的文本生成分别用多个词素隔开写了的多个单词序列候选的序列候选生成部件；从禁止词素存储部件中读出使用禁止词素，从多个单词序列候选中排除包含使用禁止词素的候选，在多个单词序列候选中选择多个词素之间连接的可能性最高的最优单词序列的最优序列选择部件。
根据本发明的第二形式，提供一种语言处理系统，具备保存使用禁止词素的禁止词素存储部件；读出保存在禁止词素存储部件中的使用禁止词素，禁止使用禁止词素的使用，根据连续写的文本生成分别用多个词素隔开写了的多个单词序列候选的序列候选生成部件；在多个单词序列候选中选择多个词素之间连接的可能性最高的最优单词序列的最优序列选择部件。
根据本发明，能够提供一种预先防止生成包含对于系统使用者来说不理想的单词的单词序列的语言处理系统。

图1是表示本发明的实施例1的语言处理系统的框图。
图2是本发明的实施例1的语言处理系统所生成的日语的一个例子的格子(lattice)构造的第一模式图。
图3是本发明的实施例1的语言处理系统所生成的中国语的一个例子的格子构造的第一模式图。
图4是本发明的实施例1的语言处理系统所生成的英语的一个例子的格子构造的第一模式图。
图5是表示本发明的实施例1的保存在禁止词素存储部件中的日语的一个例子的禁止词素的第一表。
图6是表示本发明的实施例1的保存在禁止词素存储部件中的中国语的一个例子的禁止词素的第一表。
图7是表示本发明的实施例1的保存在禁止词素存储部件中的英语的一个例子的禁止词素的第一表。
图8是本发明的实施例1的语言处理系统所生成的日语的一个例子的格子构造的第二模式图。
图9是本发明的实施例1的语言处理系统所生成的中国语的一个例子的格子构造的第二模式图。
图10是本发明的实施例1的语言处理系统所生成的英语的一个例子的格子构造的第二模式图。
图11是表示本发明的实施例1的语言处理方法的流程图。
图12是表示本发明的实施例1的保存在禁止词素存储部件中的禁止词素的第二表。
图13是本发明的实施例1的语言处理系统所生成的英语的其他例子的格子构造的第一模式图。
图14是表示本发明的实施例1的保存在禁止词素存储部件中的英语的其他例子的禁止词素的第一表。
图15是本发明的实施例1的语言处理系统所生成的英语的其他例子的格子构造的第二模式图。
图16是表示本发明的实施例2的语言处理系统的框图。
图17是本发明的实施例2的语言处理系统所生成的日语的一个例子的格子构造的模式图。
图18是本发明的实施例2的语言处理系统所生成的中国语的一个例子的格子构造的模式图。
图19是本发明的实施例2的语言处理系统所生成的英语的一个例子的格子构造的模式图。
图20是本发明的实施例2的语言处理系统所生成的英语的其他例子的格子构造的模式图。
图21是表示本发明的实施例2的语言处理方法的流程图。
图22是表示本发明的实施例3的语言处理系统的框图。
图23是表示本发明的实施例3的语言处理方法的流程图。
图24是表示本发明的实施例4的语言处理系统的框图。
图25是表示本发明的实施例4的保存在禁止词素存储部件中的日语的一个例子的禁止词素的表。
图26是用于说明本发明的实施例4的将禁止词素追加保存到禁止词素存储部件中的中国语的一个例子的情况的图。
图27是用于说明本发明的实施例4的将禁止词素追加保存到禁止词素存储部件中的英语的一个例子的情况的图。
图28是表示本发明的实施例4的语言处理方法的流程图。
图29是用于说明本发明的实施例4的将禁止词素追加保存到禁止词素存储部件中的中国语的其他例子的图。
图30是表示本发明的实施例5的语言处理系统的框图。
图31是用于说明本发明的实施例5的将禁止词素追加保存到禁止词素存储部件中的中国语的一个例子的图。
图32是用于说明本发明的实施例5的将禁止词素追加保存到禁止词素存储部件中的英语的一个例子的图。
图33是表示本发明的实施例5的语言处理方法的流程图。
图34是用于说明本发明的实施例5的将禁止词素追加保存到禁止词素存储部件中的中国语的其他例子的图。
图35是用于说明本发明的实施例5的将禁止词素追加保存到禁止词素存储部件中的英语的其他例子的图。
具体实施例方式
接着，参考附图，说明本发明的实施例。在以下的附图的记载中，对相同或类似的部分附加相同或类似的符号。另外，以下所示的实施例是示例用于对本发明的技术思想进行具体化的装置或方法的例子，本发明的技术思想的构成部件的配置等并不只限于以下的说明。在权利要求范围内，可以对本发明的技术思想进行各种变更。
(实施例1)实施例1的语言处理系统如图1所示，具备中央计算处理装置(CPU)100a、与CPU100a连接的数据存储装置200。数据存储装置200进而具备禁止词素存储部件202和系统辞典存储部件201。禁止词素存储部件202保存以被禁止的读法读出的禁止词素。系统辞典存储部件201保存记录了多个单词的读法和词类的系统辞典。另外，CPU100a还具备序列候选生成部件111、最优序列选择部件112。序列候选生成部件111根据连续写的文本生成分别用多个词素隔开写了的多个单词序列候选。最优序列选择部件112从禁止词素存储部件202中读出使用禁止词素，从多个单词序列候选中排除包含使用禁止词素的候选，在多个单词序列候选中选择多个词素之间连接的可能性最高的最优单词序列。
具体地说，序列候选生成部件111参照系统辞典将连续写输入了的文本分解为多个词素，进而生成将多个词素配置在格子点上的格子(lattice)构造。例如输入日语的“主記憶上の空間が”这样的文本，在系统辞典中登记了被分别附加了“主(ぬし)”、“主(しゆ)”、“主(あゐじ)”、“主(おも)”、“記憶(きおく)”、“上の空(うわのそら)”、“上(うえ)”、“上(かみ)”、“上(じよう)”、“の”、“空(そら)”、“空(くう)”、“空(から)”、“空間(くうかん)”、“間(かん)”、“間(あいだ)”、“間(はざま)”、“が”的读法的词素的情况下，序列候选生成部件111生成作为登记在系统辞典中的词素的组合的图2所示的格子(lattice)构造50。在格子构造50中包含多个单词序列候选。例如如果以“主(ぬし)”为开始点，则可以生成“主(ぬし)記憶(きおく)上の空(うわのそら)間(かん)が”这样的单词序列候选、“主(ぬし)記憶(きおく)上(うえ)の空間(くうかん)が”这样的单词序列候选等。
同样，例如输入中国语的“你看他拿着火车票”这样的文本，在系统辞典中登记了分别被附加了“你(ni3)”、……“车票(che1piao4)”的读法的词素的情况下，序列候选生成部件111生成作为登记在系统辞典中的词素的组合的图3所示的格子构造50。在格子构造50中包含多个单词序列候选。例如如果以“着”作为开始点，则可以生成“着(zhe)火车票(huo3che1piao4)”这样的单词序列候选、“着火(zhao2huo3)车票(che1piao4)”这样的单词序列候选等。
另外，例如输入英语的“Drink much mate”这样的文本，在系统辞典中登记有分别被附加了“drink”……“mate”的读法的词素的情况下，序列候选生成部件111生成作为登记在系统辞典中的词素的组合的图4所示的格子构造50。在格子构造50中包含多个单词序列候选。例如如果以“much”为开始点，则可以生成“much mate[meit]”这样的单词序列候选、“much mate[matei]”这样的单词序列候选等。
图1所示的禁止词素存储部件202保存以对于系统使用者来说不想输出的“读法”读出的禁止词素。例如如图5所示，对于文字“主”，保存附加了作为对于系统使用者来说不想输出的读法的“おも”的读法的禁止词素“主(おも)”，对于字符串“上の空”，保存附加了作为对于系统使用者来说不想输出的读法的“うわのそら”的读法的禁止词素“上の空(うわのそら)”等。
同样，例如如图6所示，对于文字“看”，保存附加了作为对于系统使用者来说不想输出的读法的“ka1”的读法的禁止词素“看(ka1)”，对于字符串“着火”，保存附加了作为对于系统使用者来说不想输出的读法的“zhao2huo3”的读法的禁止词素“着火(zhao2huo3)”等。
另外，例如如图7所示，对于字符串“mate”，保存附加了作为对于系统使用者来说不想输出的读法的“matei”的读法的禁止词素“mate[matei]”等。
图1所示的最优序列选择部件112还具备禁止模块114和选择模块12。禁止模块114在包含在图2所示的格子构造50中的多个词素中，检索是否有与保存在禁止词素存储部件202中的禁止词素对应的词素。进而禁止模块114在格子构造50中检索出禁止词素的情况下，从格子构造50中删除禁止词素。例如在如图5所示在禁止词素存储部件202中分别保存了禁止词素“主(おも)”和禁止词素“上の空(うわのそら)”的情况下，如图8所示，从格子构造50中删除禁止词素“主(おも)”和“上の空(うわのそら)”。
同样，如图9所示，从格子构造50中删除禁止词素“看(ka1)”和“着火(zhao2huo3)”。
另外，如图10所示，从格子构造50中删除禁止词素“mate[matei]”。
图1所示的选择模块12利用深度优先探索(depth-first search)、宽度优先探索(breadth-first search)等探索算法，从图8所示的删除了禁止词素后的格子构造50中，选择词素间的连接可能性最高并且被判断为读法最接近的最优单词序列。在选择时，也同时利用最长一致法、文节数最小法、成本最小法等探索法(heuristics)。在此，作为最优单词序列，图1所示的选择模块12从格子构造50中选择作为词素间的连接可能性最高的单词序列的“主(しゆ)記憶(きおく)上(じよう)の空間(くうかん)が”。声音文件生成部件116生成用于输出最优单词序列的读法的声音文件。
数据存储装置200还具备格子构造存储部件203和最优序列存储部件204。格子构造存储部件203保存序列候选生成部件111所生成的格子构造50。最优序列存储部件204保存最优序列选择部件112所选择出的最优单词序列。另外，CPU100a还与扬声器342、输入装置340、输出装置341、程序存储装置230、暂时存储装置231连接。扬声器342通过声音输出包含在声音文件中的最优单词序列的读法。作为输入装置340例如可以使用键盘、鼠标等指针设备等。输出装置341可以使用液晶显示器、监视器等图像显示装置、打印机等。程序存储装置230保存控制CPU100a的操作系统等。暂时存储装置231逐次存储CPU100a的计算结果。作为程序存储装置230和暂时存储装置231，可以使用例如半导体存储器、磁盘、光盘、光磁盘、磁带等记录程序的记录介质等。
接着，使用图11所示的流程图说明实施例1的语言处理方法。
(a)在步骤S100中，通过图1所示的输入装置340向CPU100a的序列候选生成部件111输入包含汉字的连续写的文本。在此作为一个例子，假设输入了“主記憶上の空間が”这样的文本。接着，在步骤S101中，序列候选生成部件111参照保存在系统辞典存储部件201中的系统辞典，将作为输入文本的“主記憶上の空間が”分解为多个词素，进而生成用多个词素形成的图2所示的格子构造50。序列候选生成部件111将生成的格子构造50保存到格子构造存储部件203中。
(b)在步骤S102中，图1所示的禁止模块114从格子构造存储部件203中读出图2所示的格子构造50。接着，图1所示的禁止模块114在包含在图2所示的格子构造50中的多个词素中，检索是否有与保存在禁止词素存储部件202中的禁止词素对应的词素。在此，如图5所示，在禁止词素存储部件202中保存了禁止词素“主(おも)”和禁止词素“上の空(うわのそら)”的情况下，禁止模块114如图8所示那样，从格子构造50中删除禁止词素“主(おも)”和“上の空(うわのそら)”。然后，图1所示的禁止模块114将删除了禁止词素后的格子构造50写入保存到格子构造存储部件203中。
(c)在步骤S103中，选择模块12从格子构造存储部件203中读出删除了禁止词素后的格子构造50。接着，选择模块12使用探索算法和探索法，从图8所示的删除了禁止词素后的格子构造50中，选择被判断为读法最接近的最优单词序列。在此，作为最优单词序列，选择模块12选择“主(しゆ)記憶(きおく)上(じよう)の空間(くうかん)が”。然后，最优序列选择部件112将选择出的最优单词序列保存到最优序列存储部件204中。
(d)在步骤S104中，声音文件生成部件116从最优序列存储部件204中读出作为最优单词序列的“主(しゆ)記憶(きおく)上(じよう)の空間(くうかん)が”。接着，声音文件生成部件116将最优单词序列“主(しゆ)記憶(きおく)上(じよう)の空間(くうかん)が”的读法变换为声音文件。然后，声音文件生成部件116从扬声器342输出包含在声音文件中的最优单词序列的读法，结束实施例1的语言处理方法。
以上，根据图1和图11所示的实施例1的语言处理系统和语言处理方法，在系统辞典中保存了以对于使用者来说不希望输出的读法而读出的单词，将禁止词素预先保存在禁止词素存储部件202中，能够防止对输入的文本附加不希望的读法。因此，能够以更高的概率向文本附加使用者希望的读法。另外，在图5所示的例子中，表示了将标题和发音的组合保存在禁止词素存储部件202中的例子。对此，也可以如图12所示，将标题、发音和词类的组合保存在禁止词素存储部件202中。
例如，输入英语的“Colored pencil leads break easily”这样的文本，在系统辞典中登记了分别被附加了“colored”……“easily”的读法的词素的情况下，序列候选生成部件111生成作为登记在系统辞典中的词素的组合的图13所示的格子构造50。
在此，例如如图14所示，针对字符串“pencil”，将附加了对于系统使用者来说不希望输出的词类v、发音“pensl”的读法的禁止词素“pencil(v)[pensl]”等保存到禁止词素存储部件202中。
由此，禁止模块114如图15所示从格子构造50中删除禁止词素“pencil(v)[pensl]”。
由此，不只是单词的发音记号，还可以正确地处理句子构造，提高了读出时的抑扬顿挫等自然性。
(实施例2)实施例2的语言处理系统与图1所示的语言处理系统的不同点在于如图16所示，禁止部件214与序列候选生成部件211连接。禁止部件214在系统辞典存储部件201中保存有与保存在禁止词素存储部件202中的禁止词素一致的词素的情况下，进行设置而禁止序列候选生成部件211参考与登记在系统辞典中的禁止词素一致的词素。
因此，例如在向序列候选生成部件211输入了“主記憶上の空間が”这样的文本的情况下，序列候选生成部件211不参考与包含在系统辞典中的禁止词素一致的词素“上の空(うわのそら)”和“間(かん)”，如图17所示生成预先不包含禁止词素的格子构造51。由于图16所示的语言处理系统的其他构成要素与图1一样，所以省略说明。
同样，例如在向序列候选生成部件211输入了中国语的“你看他拿着火车票”这样的文本的情况下，序列候选生成部件211不参考与包含在系统辞典中的禁止词素一致的词素“看(ka1)”和“着火(zhao2huo3)”，如图18所示生成预先不包含禁止词素的格子构造51。
另外，同样，例如在向序列候选生成部件211输入了英语的“Drink much mate”这样的文本的情况下，序列候选生成部件211不参考与包含在系统辞典中的禁止词素一致的词素“mate[matei]”，如图19所示生成预先不包含禁止词素的格子构造51。
进而，同样，例如在向序列候选生成部件211输入了英语的“Colored pencil leads break easily”这样的文本的情况下，序列候选生成部件211不参考与包含在系统辞典中的禁止词素一致的词素“pencil(v)[pensl]”，如图20所示生成预先不包含禁止词素的格子构造51。
接着，使用图21所示的流程图说明实施例2的语言处理方法。
(a)在步骤S200中，通过图16所示的输入装置340向CPU100b的序列候选生成部件211输入包含汉字的连续写的文本“主記憶上の空間が”。在步骤S201中，禁止部件214在系统辞典存储部件201中保存有与保存在禁止词素存储部件202中的禁止词素一致的词素的情况下，进行设置而禁止序列候选生成部件211参考与登记在系统辞典中的禁止词素一致的词素。
(b)在步骤S202中，序列候选生成部件211参照保存在系统辞典存储部件201中的系统辞典，将作为输入文本的“主記憶上の空間が”分解为多个词素，进而生成用多个词素形成的图17所示的格子构造51。这时，由于在步骤S201中进行设置而禁止序列候选生成部件211参考与登记在系统辞典中的禁止词素一致的词素，所以在所生成的格子构造51中不包含禁止词素。序列候选生成部件211将生成的不包含禁止词素的格子构造51保存到格子构造存储部件203中。
(c)在步骤S203中，最优序列选择部件212从格子构造存储部件203中读出不包含禁止词素的格子构造51。接着，最优序列选择部件212使用探索算法和探索法，从格子构造51中选择被判断为读法最接近的最优单词序列。然后，与步骤S104一样地实施步骤S204，结束实施例2的语言处理方法。
以上，根据图16和图21所示的实施例2的语言处理系统和语言处理方法，能够防止对输入文本附加不希望的读法。
(实施例3)实施例3的语言处理系统与图1所示的语言处理系统的不同点在于如图22所示，禁止部件314与最优序列选择部件312连接。禁止部件214在系统辞典存储部件201中保存有与保存在禁止词素存储部件202中的禁止词素一致的词素的情况下，进行设置而禁止最优序列选择部件312选择包含禁止词素的单词序列候选作为最优单词序列。因为图22所示的语言处理系统的其他构成要素与图1一样，所以省略说明。
接着，使用图23所示的流程图说明实施例3的语言处理方法。
(a)在步骤S300中，通过图1所示的输入装置340向CPU100c的序列候选生成部件111输入包含汉字的连续写的文本“主記憶上の空間が”。接着，在步骤S301中，序列候选生成部件111参照保存在系统辞典存储部件201中的系统辞典，将作为输入文本的“主記憶上の空間が”分解为多个词素，进而生成用多个词素形成的图2所示的格子构造50。序列候选生成部件111将生成的格子构造50保存到格子构造存储部件203中。
(b)在步骤S302中，禁止部件314在系统辞典存储部件201中保存有与保存在禁止词素存储部件202中的禁止词素一致的词素的情况下，进行设置而禁止最优序列选择部件312选择包含禁止词素的单词序列候选作为最优单词序列。在步骤S303中，最优序列选择部件312从格子构造存储部件203中读出格子构造50。接着，最优序列选择部件312使用探索算法和探索法，从格子构造50中选择被判断为读法最接近的最优单词序列。然后，与步骤S104一样地实施步骤S304，结束实施例3的语言处理方法。
以上，根据图22和图23所示的实施例3的语言处理系统和语言处理方法，能够防止对输入文本附加不希望的读法。
(实施例4)实施例4的语言处理系统与图1所示的语言处理系统的不同点在于如图24所示，CPU100d还包含错误范围指定部件120和禁止词素追加部件121。在此，例如针对输入文本“主記憶上の空間が”，最优序列选择部件112错误地选择了“主(しゆ)記憶(きおく)上の空(うわのそら)間(かん)が”作为最优单词序列。在该情况下，错误范围指定部件120从系统使用者接受错误选择了的最优单词序列中的被附加了不理想的读法的误读词素的指定。例如，在指定了字符串“上の空間”的情况下，错误范围指定部件120通过将字符串“上の空間”与格子构造50对照，而分割为词素“上の空(うわのそら)”和词素“間(かん)”，并将各个定义为误读词素。禁止词素追加部件121将误读词素作为禁止词素追加保存到禁止词素存储部件202中。在图25中，表示这时向禁止词素存储部件追加保存了的禁止词素的例子。由于图24所示的语言处理系统的其他构成要素与图1一样，所以省略说明。
同样，如图26所示，假设例如针对中国语的输入文本“你看他拿着火车票”，最优序列选择部件112错误地选择了“你(ni3)”“看(kan4)”“他(ta1)”“拿(na2)”“着火(zhao2huo3)”“车票(che1piao4)”作为最优单词序列。错误范围指定部件120从系统使用者接受错误选择了的最优单词序列中的被附加了不理想的读法的误读词素的指定。例如在指定了字符串“着火车票”的情况下，错误范围指定部件120通过将字符串“着火车票”与格子构造50对照，而分割为词素“着火(zhao2huo3)”和词素“车票(che1piao4)”，并将各个定义为误读词素。禁止词素追加部件121将误读词素作为禁止词素追加保存到禁止词素存储部件202中。
另外，如图27所示，假设例如针对英语的输入文本“Drink muchmate”，最优序列选择部件112错误地选择了“drink(v)”“much(adv)”“mate(n)[matei])”作为最优单词序列。错误范围指定部件120从系统使用者接受错误选择了的最优单词序列中的被附加了不理想的读法的误读词素的指定。例如在指定了字符串“mate”的情况下，错误范围指定部件120通过将字符串“mate”与格子构造50对照，而确定为词素“mate(n)[meit]”，并将各个定义为误读词素。禁止词素追加部件121将误读词素作为禁止词素追加保存到禁止词素存储部件202中。
接着，使用图28所示的流程图说明实施例4的语言处理方法。
(a)与图11所示的步骤S100和步骤S101一样地实施图28所示的步骤S400和步骤S401。在步骤S402中，图24所示的禁止模块114从格子构造存储部件203中读出格子构造。接着，禁止模块114在包含在格子构造中的多个词素中，删除与保存在禁止词素存储部件202中的禁止词素对应的词素。另外，假设这时在禁止词素存储部件202中没有保存词素“上の空(うわのそら)”和“間(かん)”。然后，禁止模块114将删除了禁止词素后的格子构造写入保存到格子构造存储部件203中。
(b)在步骤S403中，选择模块12从格子构造存储部件203中读出删除了禁止词素后的格子构造。接着，选择模块12使用探索算法和探索法，从图8所示的删除了禁止词素后的格子构造中，选择被判断为读法最接近的最优单词序列。在此，选择模块12选择“主(しゆ)記憶(きおく)上の空(うわのそら)間(かん)が”作为最优单词序列。然后，最优序列选择部件112将错误选择出的最优单词序列保存到最优序列存储部件204中，输出装置341输出错误选择出的最优单词序列。
(c)在步骤S404中，错误范围指定部件120经由输入装置340从系统使用者接受错误范围的输入。在作为错误范围由系统使用者输入了包含在错误选择出的最优单词序列“主(しゆ)記憶(きおく)上の空(うわのそら)間(かん)が”中的字符串“上の空間”的情况下，错误范围指定部件120通过将字符串“上の空間”与格子构造50对照，而分割为词素“上の空(うわのそら)”和词素“間(かん)”，并将各个定义为误读词素。然后，错误范围指定部件120将误读词素转送到禁止词素追加部件121。
同样，在针对中国语的输入文本“你看他拿着火车票”，系统使用者输入了包含在错误选择出的最优单词序列“你(ni3)”“看(kan4)”“他(ta1)”“拿(na2)”“着火(zhao2huo3)”“车票(che1piao4)”中的字符串“着火车票”作为错误范围的情况下，错误范围指定部件120通过将字符串“着火车票”与格子构造50对照，而分割为词素“着火(zhao2huo3)”和词素“车票(che1piao4)”，并将各个定义为误读词素。然后，错误范围指定部件120将误读词素转送到禁止词素追加部件121。
同样，在针对英语的输入文本“Drink much mate”，系统使用者输入了包含在错误选择出的最优单词序列“drink(v)”“much(adv)”“mate(n)[matei])”中的字符串“mate”作为错误范围的情况下，错误范围指定部件120将字符串“mate”与格子构造50对照，而确定为词素“mate(n)[meit]”，并将各个定义为误读词素。然后，错误范围指定部件120将误读词素转送到禁止词素追加部件121。
(d)在步骤S405中，禁止词素追加部件121将误读词素“上の空(うわのそら)”和误读词素“間(かん)”分别作为禁止词素保存到禁止词素存储部件202中，结束实施例4的语言处理方法。
以上，根据图24和图28所示的实施例4的语言处理系统和语言处理方法，下次以后，不会选择包含禁止词素“上の空(うわのそら)”和禁止词素“間(かん)”的单词序列候选作为最优单词序列。
另外，在步骤S404中指定的错误范围也可以不必须是在最优单词序列内能够分割为词素的范围。具体地说，不只是“上の空(うわのそら)間(かん)”，也可以指定“空(そら)間(かん)”作为错误范围。在该情况下，禁止词素追加部件121可以将部分地包含作为错误范围指定的“空(そら)”的词素“上の空(うわのそら)”作为禁止词素保存到禁止词素存储部件202中。另外，在实施例4中，表示了在图1所示的语言处理系统中进而包含错误范围指定部件120和禁止词素追加部件121的例子，但当然也可以进而在图10或图22所示的语言处理系统中包含错误范围指定部件120和禁止词素追加部件121。
同样，对于在步骤S404中指定的错误范围，在中国语文本的例子中，如图29所示，不只是“着火车票”，也可以指定“火车票”作为错误范围。在该情况下，禁止词素追加部件121也可以将部分地包含作为错误范围指定的“火”的词素“着火(zhao3huo3)”作为禁止词素保存到禁止词素存储部件202中。
(实施例5)实施例5的语言处理系统与图1所示的语言处理系统的不同点在于如图30所示，CPU100e还包含读法输入部件122、对比抽出部件123和禁止词素追加部件121。在此，假设针对输入文本“主記憶上の空間が”，最优序列选择部件112错误地选择了“主(しゆ)記憶(きおく)上の空(うわのそら)間(かん)が”作为最优单词序列。在该情况下，读法输入部件122从系统使用者接受输入文本“主記憶上の空間が”的正确的读法“しゆきおくじようのくうかんが”的输入。对比抽出部件123将错误选择出的最优单词序列的读法与正确的读法进行对比，在错误选择出的最优单词序列的读法中抽出与正确的读法不同的差异部分“うわのそら”。禁止词素追加部件121将附加了差异部分“うわのそら”的读法的误读词素“上の空(うわのそら)”作为禁止词素保存到禁止词素存储部件202中。由于图30所示的语言处理系统的其他构成要素与图1一样，所以省略说明。
同样，如图31所示，假设针对中国语的输入文本“你看他拿着火车票”，最优序列选择部件112错误地选择了“你(ni3)”“看(kan4)”“他(ta1)”“拿(na2)”“着火(zhao2huo3)”“车票(che1piao4)”作为最优单词序列。在该情况下，读法输入部件122从系统使用者接受输入文本“你看他拿着火车票”的正确的读法“ni3 kan4 ta1 na2 zhe huo3che1 piao4”的输入。对比抽出部件123将错误选择出的最优单词序列的读法与正确的读法进行对比，在错误选择出的最优单词序列的读法中抽出与正确的读法不同的差异部分“zhe huo3 che1 piao4”。禁止词素追加部件121将附加了差异部分“zhe huo3 che1 piao4”的读法的误读词素“着火(zhao2huo3)”和“车票(che1piao4)”作为禁止词素保存到禁止词素存储部件202中。
另外，如图32所示，假设针对英语的输入文本“Drink muchmate”，最优序列选择部件112错误地选择了“drink(v)”“much(adv)”“mate(n)[matei])”作为最优单词序列。在该情况下，读法输入部件122从系统使用者接受输入文本“Drink much mate”的正确的读法“drink mats meit”的输入。对比抽出部件123将错误选择出的最优单词序列的读法与正确的读法进行对比，在错误选择出的最优单词序列的读法中抽出与正确的读法不同的差异部分“meit”。禁止词素追加部件121将附加了差异部分“meit”的读法的误读词素“mate(n)[meit]”作为禁止词素保存到禁止词素存储部件202中。
接着，使用图33所示的流程图说明实施例5的语言处理方法。
(a)与图28所示的步骤S400至步骤S403一样地实施图33所示的步骤S500至步骤S503，假设最优序列选择部件112错误地选择了“主(しゆ)記憶(きおく)上の空(うわのそら)間(かん)が”作为最优单词序列。然后，最优序列选择部件112将错误选择出的最优单词序列保存到最优序列存储部件204中，输出装置341输出错误选择出的最优单词序列。
(b)在步骤S504中，读法输入部件122经由输入装置340从系统使用者接受文本“主記憶上の空間が”的正确的读法“しゆきおくじようのくうかんが”的输入。读法输入部件122将正确的读法“しゆきおくじようのくうかんが”保存到读法存储部件205中。在步骤S405中，对比抽出部件123从最优序列存储部件204中读出错误选择出的最优单词序列“主(しゆ)記憶(きおく)上の空(うわのそら)間(かん)が”，从读法存储部件205中读出正确的读法“しゆきおくじようのくうかんが”。接着，对比抽出部件123将错误选择出的最优单词序列的读法与正确的读法进行对比，在错误选择出的最优单词序列的读法中抽出与正确的读法不同的差异部分“うわのそら”。
(c)在步骤S505中，对比抽出部件123将包含在错误选择出的最优单词序列中并附加了差异部分“うわのそら”的读法的误读词素“上の空(うわのそら)”转送到禁止词素追加部件121。禁止词素追加部件121将误读词素“上の空(うわのそら)”作为禁止词素保存到禁止词素存储部件202中，结束实施例5的语言处理方法。
以上，根据图30和图33所示的实施例5的语言处理系统和语言处理方法，下次以后，不会选择包含禁止词素“上の空(うわのそら)”的单词序列候选作为最优单词序列。另外，在实施例5中，表示了在图1所示的语言处理系统中进而包含读法输入部件122、对比抽出部件123、禁止词素追加部件121的例子，但当然也可以在图16或图22所示的语言处理系统中进而包含读法输入部件122、对比抽出部件123、禁止词素追加部件121。
(其他实施例)如上所述，说明了本发明的实施例，但作为该公开的一部分的论述和附图不应被理解为限定本发明的内容。很明显的是本技术领域的技术人员从该公开中可以得到各种替代实施形式、实施例和运用技术。例如说明了图30所示的读法输入部件122从系统使用者接受输入文本的正确读法的输入。与此相对，也可以是读法输入部件122从系统使用者接受在输入文本的一部分中附加了正确的读法的词素的输入。例如也可以在最优序列选择部件112错误地选择了“主(しゆ)記憶(きおく)上の空(うわのそら)間(かん)が”作为最优单词序列的情况下，读法输入部件122接受附加了正确的读法的词素“空間(くうかん)”的输入，对比抽出部件123抽出与词素“空間(くうかん)”不一致的词素“上の空(うわのそら)”和“間(かん)”。
同样，如图34所示，也可以在针对中国语的输入文本“你看他拿着火车票”，最优序列选择部件112错误地选择了“你(ni3)”“看(kan4)”“他(ta1)”“拿(na2)”“着火(zhao2huo3)”“车票(che1piao4)”作为最优单词序列的情况下，读法输入部件122接受附加了正确的读法的词素“火车票(huo3 che1 piao4)”的输入，对比抽出部件123抽出与词素“火车票(huo3 che1 piao4)”不一致的词素“着火(zhao2huo3)”和“车票(che1piao4)”。
同样，如图35所示，也可以在针对英语的输入文本“Drink muchmate”，最优序列选择部件112错误地选择了“drink(v)”“much(adv)”“mate(n)[matei])”作为最优单词序列的情况下，读法输入部件122接受附加了正确的读法的词素“mate(n)[meit]”的输入，对比抽出部件123抽出与词素“mate(n)[meit]”不一致的词素“mate(n)[matei]”。
另外，在实施例中，表示了声音文件生成部件116生成用于输出最优单词序列的读法的声音文件的例子。但是，不只是从最优单词序列直接生成声音文件，也可以是根据最优单词序列生成发音信息(发音记号)文件，进而从发音记号文件生成声音文件的系统。另外，在图1中，表示了将扬声器342与CPU100a连接的例子，但扬声器342并不必须与CPU100a连接，当然也可以在其他的计算机或音响系统中使用生成了的声音文件。
另外，上述的语言处理方法可以作为时序上连接的一连串的处理或操作来表现。因此，为了在图1所示的CPU100a中执行语言处理方法，可以通过产生CPU100a内的处理器等所产生的多个功能的计算机程序产品来实现图5所示的语言处理方法。在此，计算机程序产品就是能够向CPU100a进行输入输出的记录介质或记录装置等。作为记录介质，包含存储器装置、磁盘装置、光盘装置、其他能够记录程序的装置。这样，本发明当然还包含在此没有记载的各种实施例等。因此，从以上说明可知，只根据适当的权利要求的发明项目来确定本发明的技术范围。
权利要求
1.一种语言处理系统，其特征在于包括保存使用禁止词素的禁止词素存储部件；根据连续写的文本生成分别用多个词素隔开写了的多个单词序列候选的序列候选生成部件；从上述禁止词素存储部件中读出上述使用禁止词素，从上述多个单词序列候选中排除包含上述使用禁止词素的候选，在上述多个单词序列候选中选择上述多个词素之间连接的可能性最高的最优单词序列的最优序列选择部件。
2.一种语言处理系统，其特征在于包括保存使用禁止词素的禁止词素存储部件；读出保存在上述禁止词素存储部件中的上述使用禁止词素，禁止上述使用禁止词素的使用，根据连续写的文本生成分别用多个词素隔开写了的多个单词序列候选的序列候选生成部件；在上述多个单词序列候选中选择上述多个词素之间连接的可能性最高的最优单词序列的最优序列选择部件。
3.根据权利要求1或2所述的语言处理系统，其特征在于还包括接受上述最优单词序列中的被附加了与上述文本的正确读法不同的读法的误读词素的指定的错误范围指定部件。
4.根据权利要求1或2所述的语言处理系统，其特征在于还包括将上述最优单词序列的读法与上述文本的正确读法进行对比，从上述最优单词序列中抽出被附加了与上述正确读法不同的读法的误读词素的对比抽出部件。
5.根据权利要求3所述的语言处理系统，其特征在于还包括将上述误读词素作为上述禁止词素追加保存到上述禁止词素存储部件中的禁止词素追加部件。
6.根据权利要求4所述的语言处理系统，其特征在于还包括将上述误读词素作为上述禁止词素追加保存到上述禁止词素存储部件中的禁止词素追加部件。
全文摘要
本发明提供一种预先防止生成包含对于系统使用者来说不理想的单词的单词序列的语言处理系统。具备保存使用禁止词素的禁止词素存储部件(202)；根据连续写的文本生成分别用多个词素隔开写了的多个单词序列候选的序列候选生成部件(111)；从禁止词素存储部件(202)中读出使用禁止词素，从多个单词序列候选中排除包含使用禁止词素的候选，在多个单词序列候选中选择多个词素之间连接的可能性最高的最优单词序列的最优序列选择部件(112)。
文档编号G06F17/20GK1920812SQ20061012560
公开日2007年2月28日申请日期2006年8月24日优先权日2005年8月24日
发明者濑户重宣申请人:株式会社东芝

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：濑户重宣
技术所有人：株式会社东芝
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。