句子处理装置及其方法

文档序号:6416434阅读:183来源:国知局
专利名称:句子处理装置及其方法
技术领域
本发明涉及一种装置,它允许用户在句子中使用省略符来输入长单词,而不打搅思维的连续性。根据本发明的装置有利于增加使用键盘输入字符的速度和操作性。它还能够用于在使用手写字符识别或语音识别时增加输入速度,并且有利于增加操作性。
当使用字处理软件输入句子时经常体会到,那些与职业和爱好这些个人事物有关的单词,以及他或她自己的名字等经常要重复输入。特别是,在这些经常使用的字符串较长的情况下,重复输入同一长字符串对用户来说是一种负担。
当使用允许用户用笔和写字板输入单词的装置时,由于可能发生对用户输入的字符的识别错误,因此在他或她重复输入这些字符和长句子的情况下对用户是一种负担。
有这样一种装置,它允许用户部分省略一些字符或句子来进行输入,从而减少用户的负担。
例如,在日本专利申请特开号7-191986(1995)中公开了一种技术,当用户输入包括省略字符的单词的句子时,它通过参考存储了语法编码规则和单词使用样本的存储器,来预测想要的单词和内插省略的字符。在日本专利申请特开号5-28180(1993)中公开了一种技术,它准备一个存储象名词类动词类和动词类口语短语这样的相邻单词组合的表,并通过使用该表内插省略的字符和预测想要的单词。
正如上述常规技术所示,内插包括省略字符的句子需要相邻单词之间的单词到单词的关系信息。例如,在日本专利申请特开号7-191986(1995)中,m语法编码规则和单词使用样本被用做该信息,而在日本专利申请特开号5-28180(1993)中,相邻单词组合被用做该信息。
然而,这要求通过参考大量参考句子来准备这样一个单词到单词的关系信息,并且仅仅靠手工不容易准备该信息。
上面描述的常规技术假设句子中省略单一的单词或字符,而没有提到在一个省略多个单词和/或字符的句子中进行内插。
本发明的一个目的是提供一种用于内插一个句子的装置,在该句子中省略多个单词和/或字符。
本发明的另一个目的是提供一种用于自动提取单词一单词关系信息并制备一个词典的装置。
上述目的能够通过文件或句子处理装置实现,该装置具有用于输入字符的输入单元,用于显示输入字符的显示单元和用于转换和编辑输入字符的处理单元,其中处理单元包括一个候选单词提取装置,该候选单词提取装置通过参考存储单词及其使用频率的词汇词典,以及参考定义关于单词之间的转换和单词之间的转换概率信息的单词之间的转换的词典,并且通过在词汇词典中检索输入句子中省略的字符前后的字符,来提取省略了字符和/或省略了这些单词的句子的候选单词,以及一个确定装置,它通过参考单词间转换词典在提取的候选单词中选择一个单词。
上述目的能够通过下面的步骤实现,这些步骤包括用来将输入句子分解为单个单词并存储单个单词的协调对及其出现计数的步骤,用于检索单词详细类别(class of a particle)并储存单词间转换计数到转换词典中的步骤,用于通过聚焦包括在输入句子中的省略字符前后的字符来提取省略了字符和/或省略了这些单词的句子的候选单词并且对词汇词典进行检索的步骤,用于通过参考单词间转换的词典在提取的后选单词中选择单个单词的步骤,以及修正选择的单词的出现计数,和在词汇词典中发现选择的单词的情况下,根据单词之间转换信息修正转换词典的步骤。
为了举例以及使描述更加清楚,将参考下面的附图,其中

图1表示本发明的整个过程。
图2表示本发明的整个操作。
图3表示本发明中建立词典的流程图。
图4表示建立词典的规则。
图5表示词汇词典和转换词典的例子。
图6表示词汇词典和转换词典的例子。
图7表示省略句子的内插操作的流程图。
图8表示候选单词提取处理的流程图。
图9表示最优候选确定处理的流程图。
图10表示最优候选确定的方案。
图11表示词典建立处理的流程图。
图12表示学习词汇词典和转换词典的方案。
图13表示学习词汇词典和转换词典的方案。
图14表示词典学习单词的规则。
图15表示词典学习单词的规则。
图16表示构成内插句子的过程。
图17表示构成内插句子的流程图。
图18表示候选选择的方案。
图19表示省略符的定义。
图20表示本发明的一个应用例子。
图21表示本发明的一个应用例子。
图22表示词汇词典和转换词典。
图23表示本发明的整体结构。
在本实施例中,将解释省略句子的内插和识别装置,在输入包括省略字符和/或单词的句子的情况下,该装置提取省略的字符,并通过内插省略的单词来完成句子,并且产生用于单词内插的词典和学习用于词典的单词。
下面,通过参考附图描述本实施例的装置。
图23表示省略句子内插和识别装置的整体结构。元件2301是CPU,它读取存储在ROM2303中用来产生句子的程序并执行该程序。元件2302是RAM上用来存储处理的句子的存储区域。元件2304是输入单元,包括键盘,写字板,鼠标和象软盘驱动器这样的其它连接到手持数据存储装置的数据输入单元。元件2305是象CRT显示器和液晶显示器这样的显示单元。存储在ROM2303中的是一组文件产生程序,特别是在本发明中,用来在输入句子中内插省略的字符和/或单词并产生和编辑带有学习单词的词汇词典。此外,在输入单元2304是手写字符识别装置的情况下,提取和识别程序用于手写操作。元件2306是包括硬盘驱动器的外部数据存储装置,它包含了本发明所用的词汇词典。下面将描述本发明中用来在省略句子中内插省略的字符和/或单词的句子内插过程,句子内插过程中使用的词典和产生与编辑带有学习单词的词典的过程。
图1表示内插省略句子并产生和编辑带有学习单词的词典的整个过程。图2表示该过程操作的示意图。
该过程包括内插过程150,该过程在输入单词或句子中内插省略的字符和/或单词并且显示完整的单词或句子,还包括用来产生内插过程中使用的词典的词典产生过程160,以及用来为用户的方便而更新词典的词典学习过程170。内插过程150进一步包括候选单词提取过程151,它提取包括在包含省略字符和/或单词的单词或句子中的省略符,并提取候选的省略单词,内插过程150还包括最优候选确定装置152,用来从提取的候选单词中提取最优单词并完成内插的句子,以及显示控制过程153,用来控制内插句子的显示。
词典产生过程160包括一个用来将输入句子分解为独立的单词的词法分析过程161,用来根据独立地分开的单词分析句子结构的语法分析过程162,用来根据词法分析过程161的结果计算单词的出现次数的出现计数过程163,以及用来根据语法分析过程162的结果计算单词转换计数的转换计数过程164。
用于在内插过程150中内插句子的词汇词典131,转换词典132和确定最优单词的规则以及用于产生词典的规则133都被存储在存储装置2306中。
图2表示省略句子内插和识别装置的整个操作。在图2中,符号wij代表在后面指定并表示单独日本语字符。该符号表示该装置能够应用于日本语以外的句子,例如英语句子。下标ⅱ代表单独的字符而下标j代表单字。一组带同样数字ⅱ的符号w表示一个单词。这样,例如,在英语中单一数字j代表单独的字母字符,而单一数字ⅱ代表独立的单词。下面描述的图中的符号wij具有同等的连贯的意义。
现在,描述该装置的具体操作。首先,从输入单元输入省略句子「文~の開~」。符号「~」定义为代表省略字符和/或单词的字符。在候选单词提取过程151中,单词「開く·開發」作为「開~」的候选提取。接着,在最优候选确定过程152中,通过参考描述代表单词出现的出现计数的词汇词典131和描述代表单词之间出现的单词之间转换计数的单词之间转换的词典,从候选单词提取过程151提取的候选单词中考虑句子的上下文来确定最优单词。在显示单元上句子连同其按上述方法内插的省略字符和/或单词的显示操作由显示控制过程153控制。在内插句子与用户希望的不同的情况下,用户修改内插句子不需要的部分。在用户发现内插句子包含任何不需要的部分的情况下,用户使用输入单元2304通过输入操作指定不需要的单词。根据该用户的输入操作,开始词典学习过程170并且由显示控制过程153指定候选单词字符。为了候选字符,显示通过候选单词提取过程151得到的单词。用户从作为候选单词显示的单词中选择他或她需要的单词。根据由用户的输入操作选择的单词,在词典学习过程170中修改词汇词典中单词的使用频率和单词转换词典中的转换概率。
下面,描述单个的过程。
词典建立首先,描述建立词汇词典131和单词间转换词典132的建立过程160,这些词典用于在内插过程150中内插省略字符。
图3是建立词典的流程图及其例子。在该例子中,所描述的是这样一种情况,即用户使用用户事先定义的句子建立词典。首先,如果事先定义的句子存储在外部存储介质中,则从输入单元2304将其读出,如果存储在存储装置2306中,则从存储装置2306中读出(步骤401)。在该例子中,所描述的是这样一种情况,即句子是日本语「文字認識の開發は…」。接着,在词法分析过程161中,根据事先存储在存储装置2306的部分130中的规则,通过词法分析将读出的句子分解为各自独立分隔的单词,并且产生包含分隔的单个单词的句子,即,产生以单词为基础分隔的句子(步骤402)。在词法分析过程161中,输入句子「文字認識の開發は…」被转换为一组分隔的单独单词,「文字/認識/の/開發/は」,并且该句子中的每一个语音部分被解释为「文字(名词)/認識(Sa行不规则变换名词)/の(情形后置词)/開發(Sa行不规则变换名词)/は(补充后置词)」。
在语法分析过程162中,根据事先存储在存储装置2306中的规则分析从输入单元2304或存储装置2306读出的句子,并且产生包括复合名词这样的复合单词为基础的分隔的句子(步骤403)。对于输入句子「文字認識の開發は…」,「文字-認識」被认为是具有名词-名词结构的复合名词,并且得到以复合单词为基础的分隔句子「文字/認識/の/開發/は」。接着,在出现计数过程163和转换计数过程164中,通过参考以单词为基础的分隔句子以复合单词为基础的分隔句子,测定单词和复合名词的出现计数并存储在词汇词典131中(步骤404)。此外,测定单词间的转换计数和复合单词间的转换计数并存储在单词转换词典132中(步骤405)。后面将参考图16描述单词的出现计数和转换计数的确定方法。
通过学习上面描述的细粒的或逐个单词分隔的句子以及粗粒(根据复合单词)来建立词典,通过该方法,当用户使用词典来解释带有省略字符和/或单词的词典时,能够很灵活地使用该词典。
图4是用于根据复合单词来产生粗粒(coarse-grained)分隔句子的规则的例子。根据复合单词形成粗粒分隔句子结构的方法包括下面的步骤。
(1)通过下面的方法将一个句子转换为粗粒分隔句子结构,即名词的连续出现被解释为复合名词(例如,按「文字」(名词)和「認識」(名词)先后被解释为「文字認識」(复合名词),并且连续出现的Sa行不规则配对名词和「する」(Sa行不规则配对动词)被解释为复合动词(例如,按「認識」(Sa行不规则配对名词)和「する 」(Sa行不规则配对动词)先后被解释为「認識する」(Sa行不规则配对动词))。
(2)通过下面的方法将一个句子转换为粗粒分隔句子结构,即被后置词和助动词部分分隔的句子被认为是短语。
可以对应于用户的愿望定义单个分隔单元。在应用于日语和上面解释的语法规则之外的语法规则的情况下,通过适当地修改上面描述的规则就能够采用上述设计。
图5表示词汇词典11和单词转换词典132的结构,它们都是用图3所示的方法建立的。出现在句子中的单词(或它们的复合词)和它们的出现计数,以及所有单词的出现计数总数被存储在词汇词典131中。关于单词转换的信息和句子中实际出现的转换计数被存储在单词转换词典132中。为便于对词典的存取,要求以字符代码的顺序排列这些数据。图5表示在文字串「文字認識の開發は」中进行单词(和复合词)出现计数和单词(和复合词)间转换计数的结果。基本上,仅仅通过识别这些单词,单词出现计数(出现频率),单词间转换信息和转换计数(转换概率)就能够实现本发明。然而,允许用图6所示的索引形成词典以便于处理。
图6示出了索引词汇词典131和单词转换索引词典132的结构。与图5中的结构的主要区别是定义了一个索引(指针),以便参考词汇词典131中的单词信息和单词转换索引词典132中的单词间转换信息。单个单词中包含的字符被定义为词汇词典131的索引(指针),并以字符码的顺序排列。通过这样的结构,能够立刻发现具有特定字符(省略符号前后的字符)的单词。在图6的例子中,能够发现包含字符「文」的单词「文字」和「文字認識」。由于词汇词典131中的单个单词的信息具有用来参考包含该单词的单词间转换信息的索引(指针),所以在参考词汇词典131后,也容易参考单词转换词典132的单词间转换信息。在该例子中,可以看到单词「認識」跟在单词「文字」之后。
如上所述,能够建立本发明中使用的词汇词典131和单词转换词典132。
内插过程下面,是用于在包含省略字符和/或单词的句子中内插字符和/或单词的内插过程150。图7所示为内插过程150的操作流程图。
首先,用户通过输入单元2304的输入操作输入包括省略符的句子(步骤701)。接着,候选单词提取过程151通过参考词汇词典131得到包括省略符前后字符的多个单词(或单个单词)(候选单词)(步骤72)。接着,在最优候选确定过程152中,通过参考词汇词典131中描述的单词的出现计数(使用频率)以及单词转换词典132中描述的单词间转换计数(转换概率),来估计通过组合多个候选单词构成的句子的似然性(定义为出现概率等)。最后,在最优候选确定过程152中显示确定为最适当的(具有最高出现概率)的句子(该句子内插了省略字符和/或单词)(步骤704)。上面所述为基本方案。在这些过程中,候选单词摘取过程151和最优候选确定过程152将作详细描述。
图8是描述候选单词提取过程151及其操作的详细过程的流程图。
首先,检索输入句子中包括省略符的部分(步骤801)。在该步骤,符号「~」定义为省略符,提取「文」和「の」之间的符号「~」,和「開」之后的符号「~」。接着,产生包括省略符及其前后字符的一组字符(步骤802)。在该例中,「文」和「の」之间的符号「~」可以解释为单词「文~」的一部分或单词「~の」的一部分(并且进一步可以解释为「文~の」的一部分。通过参考词汇词典131为每一个产生的单词「文~」和「~の」提取单个候选单词(步骤803)。(如果字符串「文~の」形成单个单词,为「文~」提取的单词和「~の」提取的单词彼此相同。在这样的情况下,这些候选单词被作为一组对待,并且在后面估计单词的概率时它的概率增加。这将在后面参考图14详细描述。)通过如图6所示词汇词典131的结构中描述的方法,即词汇词典131中的单词由包含在单个单词中的单个字符来索引,参考词汇词典131能够立刻得到用来内插包含在「文~」「の~」「開~」中的省略符的候选单词(包含「文」「の」「開」的单词)。
图9是描述最优候选确定过程152的详细过程的流程图。
通过图8所示的处理,通过从词汇词典提取用于内插省略符的单词来得到用于内插省略符的候选单词。在该例中,得到「文字·文字認識」「の·ニの」和「開く·開發」作为候选单词,通过组合这些候选单词得到的句子数是2的3次方,即8,它们包括「文字の開く」「文字の開發」「文字ニの開く」「文字ニの開發」「文字認識の開」「文字認識の開發」「文字認識ニの開く」和「文字認識ニの開發」。在最优候选确定过程152中,对这些单个句子的似然性进行估计。至于衡量似然性,对句子的出现概率进行估计。表达式中通过单词的出现概率和单词的转换概率来表示包含一串单词w1,w2,…和wn(其中wi是第ⅰ个单词)的句子的出现概率。
出现概率(w1,w2…wn)=出现概率(w1)×转换概率(w2|w1)×转换概率(w3|w2)×…×转换概率(wn|wn-l)。通过词汇词典131中描述的出现计数和单词转换词典132中描述的单词转换计数能够得到单词的出现概率和单词的转换概率。例如,单词wi的出现概率以及单词wi与单词wi-l之间的转换概率能够表示为出现概率(wi)=出现计数(wi)/出现计数总数,以及转换概率(wn|wn-l)=转换计数(wn|wn-l)/转换计数(wn-l)。
图10表示字符串(句子)「文字認識の開發」的出现概率的估计,其中,通过词汇词典131和单词间转换词典132,通过下式得到的计算结果出现概率(文字認識の開發)=出现概率(文字認識)×转换概率(文字認識→の)×转换概率(の→開發)=(出现计数(文字認識)/出现计数总数)×(转换计数(文字認識→の)/出现计数(文字認識))×(转换计数(の→開發)/出现计数(の))=(8/37582)×(6/8)×(2/78)=1228×10-8。利用类似的方法,可以得到其它字符串(句子)的发生概率,并且具有最高出现概率的句子成为最优内插句子的判断结果(在该情况下,最优内插句子是「文字認識の開發」)。
如上所述,本发明的装置通过考虑包含省略符的句子的上下文来确定最优单词,并且通过显示控制过程104在显示单元2305上显示最优单词(作为第一候选)。也允许同时显示第二和第三候选单词。
至此,通过这样的方法,即用户不需要从多个候选单词中一个一个地选择想要的单词,他或她通过插入省略符用于代表长单词中的省略字符和/或单词部分输入句子,该系统就能自动选择用于内插省略句子的最优结果并显示完整的句子。由于该系统操作,用户能够连续输入输入字符串,而不必中断他或她的思考(由于反复要求用户指定候选单词和/或字符),因此,大大地提高了用户的操作性。
学习词典下面,所描述的是用于词典的自动学习机构,它能够使词典根据用户句子输入和他的或她的偏爱,来提供新单词及其定义并且修正已有单词及其定义。
图11是用于词典学习词典学习过程170的过程图。
首先,判断通过内插过程150得到的内插句子是否正确(步骤1101)。通过使用下面的方法或其组合来判断内插句子是否正确。第一方法是,在用户输入新句子的情况下,内插句子的输入被判断为正确。第二方法是,在一定的时间周期内没有检测到用户的输入的情况下,内插句子判断为正确。第三方法是,通过用户对内插句子的交互确认并且他或她输入的判断结果是提供给用户I的内插句子是正确的情况下,内插句子被判断为正确。例如,在第三方法中,在接收用户的确认判断的显示目标被通过显示器提供给用户,并且用户交互指示该显示目标的情况下,内插句子被判断为正确。如果内插句子被判断为正确,则通过使用该内插句子来进行词典学习(步骤1106)。确定完整的句子中出现的单词的出现计数和转换计数,并且增加词汇词典中定义的单词的出现计数和转换计数(在该情况下,不再需要词法分析,因为句子中单个单词的层次位置已经很清楚了)。
另一方面,在判断内插句子包含错误的情况下,提示用户使用笔,键盘或鼠标来指出他或她想要修改的内插句子部分,这时词典学习过程170根据用户的操作来显示候选单词(步骤1105)。如果在显示的候选单词中有想要的单词,则通过使用用户从候选单词中选择的单词来完成指定的句子(步骤1106)。在想要的单词不在词典学习过程170提供的候选单词中的情况下,提示用户使用笔或键盘来输入正确的单词(步骤1104)。这时,如果需要,学习该修改后完成的内插句子(步骤1106)。确定完成的句子中出现的单词的出现计数和转换计数,并增加词汇词典中定义的单词的出现计数和转换计数(在该情况下,不再需要词法分析,因为句子中单个单词的层次位置已经很清楚了)。至此,由于通过学习新单词及其定义不断地增强词典,在用户使用省略输入字符内插识别装置的同时,能够建立符合用户偏好的词典。
通过参考图12和图13,将详细描述词汇词典131和单词间转换词典132的学习步骤(步骤1106)。图12是通过词典学习过程170进行词典学习的情况,并且步骤1201是内插句子被判断为不正确,并通过选择显示的候选单词字符来构成正确内插句子的情况,步骤1202是内插句子被判断为不正确,并通过用户输入新字符来构成正确内插句子的情况,而步骤1203是判断内插句子正确的情况。现在,在词典学习过程170中制备了正确的内插句子,学习了用于词典的新单词及其定义。
在该实施例中,通过参考图13,描述了句子「文字認識ニの開發」作为内插句子的学习步骤。当输入句子「文字認識ニの開發」时,增加词汇词典131中定义的单词「文字認識」「ニの 」和「開發」的单个出现计数和单词出现计数总数。学习后出现计数被表示为(学习后出现计数)=(学习前出现计数)+α,及(学习后出现计数总数)=(学习前出现计数总数)+α×n,其中n是所学习的句子中包含的单词数。
类似地,增加单词间转换词典132中定义的单词「文字認識→ニの」和「ニの→開發」之间的转换计数。学习后的转换计数表示为(学习后的转换计数)=(学习前的转换计数)+α,其中α是一个学习步骤中增加的出现计数值,并能确定满足条件α>0。α值可以较大以便增加学习效率,或者较小以便较慢地学习。
有多种方法用来顺序地学习用户的输入句子。图14给出了学习词典的规则,其中当每一次学习时顺序标准化出现计数和转换计数。在该方法中,由于对整个数据顺序标准化出现计数和转换计数,所以即使学习关联增加,出现计数和转换计数的范围也不会超过存储装置的允许存储范围。学习后的出现计数和转换计数由下面表示。首先,将要学习的单词(出现在用户的输入句子中)的出现计数表示为(学习后的出现计数)=((学习前的出现计数)+α)×((S/(S+α)),以及(学习后的出现计数总数)=((学习前的出现计数总数)+α)×((S/(S+α))。不学习的单词(不出现在用户的输入句子中)的出现计数仅仅标准化并且这样表示如下(标准化后的出现计数)=(标准化前的出现计数)×((S/(S+α))。接着,将要学习的单词间的转换计数(出现在用户的输入句子中)仅仅标准化并且这样表示如下(学习后的转换计数)=((学习前的转换计数)+α)×((T/(T+α)),不学习的单词(不出现在用户的输入句子中)的转换计数仅仅标准化并且这样表示如下(标准化后的转换计数)=(标准化前的转换计数)×((T/(T+α))。在上述表达式中,α是一个单次学习步骤中增加的出现计数值,并能确定满足条件α>0。α值可以较大以便增加学习效率,或者较小以便较慢地学习。在上述表达式中,通过使S值低于能够存储的出现计数的最大值以及使T值低于能够存储的转换计数的最大值,能够使标准化操作在不超过存储范围的情况下进行(其中,顺序标准化的计算量变得较大)。
下面,将描述进行批处理标准化的词典学习方法。图15给出了该处理的规则。该方法是这样一种方法,即如果需要(当学习关联数超过允许存储数量时),则将标准化用于图14的基本学习规则。现在描述根据该方法的操作。首先,(1)在正常不要求标准化的情况下,即,发生计数和转换计数不超过它们的允许存储范围,以图13所示类似的方式给出下面的表达式(学习后的出现计数)=(学习前的出现计数)+α,以及(学习后的出现计数总数)=(学习前的出现计数总数)+α×n,其中n是所学习的句子包含的单词数。
(学习后的转换计数)=(学习前的转换计数)+α。在上述表达式中,α是一个单次学习步骤中增加的出现计数值,并能确定满足条件α>0。α值可以较大以便增加学习效率,或者较小以便较慢地学习。
接着,(2)在要求标准化的情况下,即发生计数和转换计数超过它们的最大允许存储范围,则将用于标准化的w值乘以已学习单词的出现计数和转换计数以及没有学习的单词的出现计数和转换计数,并接着标准化这些计数。因此,所学习单词(出现在用户输入的句子中的单词)的出现计数表示为(学习后的出现计数)=((学习前的出现计数)+α)×w,以及(学习后的出现计数总数)=((学习前的出现计数总数)+α×n)×w。没有学习的单词的出现计数表示为(标准化后的转换计数)=(标准化前的转换计数)×w。已学习单词的转换计数(出现在用户输入的句子中的单词间的转换)表示为(学习后的转换计数)=((学习前的转换计数)+α)×w。未学习单词的转换计数(没有出现在用户输入的句子中的单词间的转换)表示为(标准化后的转换计数)=((标准化前的转换计数)α×w,其中w是一个标准化常数,它定义为0<w<1。在该方法中,由于只有要求时(出现计数和转换计数超过它们的最大允许存储范围)才执行标准化处理,因此所执行的标准化操作数量尽可能地小。
根据上述实施例,省略句内插和识别装置能够这样构成,即该装置可以具有学习机构,当用户使用词典时,通过它能够根据用户的喜好更新用于内插省略句的词典(词汇词典131和单词间转换词典132)。
上面的实施例中描述了省略句内插和识别装置的基本过程。下面,将描述特殊情况下提取单词,确定最优候选单词和选择候选单词的功能。在后面,特殊情况表示用户输入中包括候选单词中的多个字符。图16用于下面描述的参考。
图16表示根据用户的输入「ぺ~イ~ス」建立内插句子的情况。
候选单词提取过程151与用户的输入相对应并产生字符串「ぺ~」「~イ~」「~ス」,每一个都包括省略符,并接着从词汇词典中提取对应于这些字符串的候选单词,假设为字符串「ぺ~」提取了单词「ぺン」「ぺン入力」,字符串「~イ~」提取了单词「インケ」「インタフエ一ス」,以及为字符串「~ス」提取了单词「ソ一ス」「インタフエ一ス」。
最优候选确定过程152根据提取的候选单词来确定最优候选单词。图17是最优候选确定过程152的流程图。当最优候选确定过程152从候选单词提取过程151接收省略句中的候选单词和建立的字符(「ぺ」「イ」「ス」)时,最优候选确定过程152计算包含在候选字中的建立的字符数(步骤1701)。例如,假设候选单词是「ぺン」,由于建立的字符「ぺ」包括在该单词中,所以建立的字符数是1。对于所有候选单词,用于「ぺン 」的建立字符数是1,用于「インケ」的是1,用于「インタフエ一ス」的是2,用于「ソ一ス」的是1。通过合并具有最大建立字符数的候选单词得到的字符串的确定性增加α(步骤1702)。在该例子中,具有最高建立字符数的候选单词是「インタフエ一ス」,通过合并该候选单词得到的字符串是「ぺン·インタフエ一ス」,「ぺン入力·インタフエ一ス」,并且接着,它们的确定性增加α。接着,使用词汇词典131中的单词出现计数和单词间转换词典132中的单词间转换计数,通过上面描述的方法,通过合并「ぺ~」 「~イ~」「ス」的候选单词得到的字符串「ぺン·インケ·ソ一ス」「ぺン·インケ·インタフエ一ス」和「ぺン入力·インタフエ一ス」的出现概率(确定性),并完全估计了出现概率和确定性的估计值(步骤1703)。具有最高估计值(出现概率)的字符串作为用于内插句子的候选。在该例子中,字符串「ぺン·インタフエ一ス」被选作用于内插句子的第一候选单词。
如上所述,通过参照用户的喜好和用户输入句子的上下文,该系统能够给出用于内插句子的最优单词。
图18是显示候选单词并在候选单词包括用户输入的多个字符的情况下提示用户选择其中一个的方法。在该例子中,假设输入部分是一个写字板并且用户用手写的方式输入字符。假设通过图17所示过程,得到对应于用户输入的「ぺ~イ~ス」的内插句子「ぺン·インタフエ一ス」。正如参考图17所进行的描述,得到对应于用户的输入「ぺ~イ~ス」的用于「~イ~」部分的候选单词「インケ」「インタフエ一ス」,用于「~ス」部分的候选单词「ソ一ス」「インタフエ一ス」和用于「~イ~ス」部分的候选单词「インタフエ一ス」。如果用户要求显示在内插句子中用于「インタフエ一ス」的候选单词,则显示用于「~イ~」部分的候选单词「インケ」「インタフエ一ス」,用于「~ス 」部分的候选单词「ソ一ス」「インタフエ一ス」和用于「~イ~ス」部分的候选单词「インタフエ一ス」(图18(2))。用户被提示选择所显示的候选单词中的一个。在图18(3)所示的例子中,为「~イ~」部分选择单词「インケ」并且为「~ス」部分选择单词「インタフエ一ス」。如图18(4)所示,结果显示「ぺン·インケ·インタフエ一ス」。(虽然在图中没有表示,假设用户要求显示内插句子中用于「インケ」的候选单词,则显示用于「~イ~」部分的候选单词「インケ」「インタフエ一ス」,用于「~ス」部分的候选单词「ソ一ス」「インタフエ一ス」和用于「~イ~ス」部分的候选单词「インタフエ一ス」,作为显示「インタフエ一ス」的候选单词的情况。
在上面的描述中省略符定义为「~」。然而,可以允许用户定制省略符的定义。在该方法中,用户能够定义他或她的句子中从不使用的符号来作为省略符。
图19表示定义省略符的情况下的输入例子。在该例子中,用户定义三个符号「~」,「-」和「…」作为省略符。(通过将「…」这样的特定字符串定义为省略符的方法,即使在输入所有字符的情况下,也能注册省略符。)下面,将描述应用省略句内插和识别过程的一些系统。
当输入句子或数据时经常重复输入一个特定的字符串。通过在选项板上显示经常使用的字符串的方法,用户能够方便地仅仅通过选择选项板上的字符串来输入句子。图20表示一个例子,其中用户使用包括经常使用单词的输入选择板来输入10字符长的字符串「每タぉ世话になります」。图20表示这样一种情况,即用户能够仅仅通过敲一个按扭来输入经常用作商务文件标题的字符串「每タぉ世话になります」。
在制备包括经常使用单词的字符串选择板的情况下,通过使用图5和6描述的词汇词典131和单词间转换词典132来得到系统要求的字符串和用户经常使用的字符串,并且以较高出现概率的顺序显示具有指定字符串长度(在该例子中,是10个字符)的字符串。
至此,所描述的是字符串的输入方法。下面,将描述包括图象,声音和电影的多媒体信息的输入方法。当创建文件和主页内容时,用户经常要使用和输入某个图象和声音。例如,假设他或她要输入一个令人愉快的图象或声音。在该例子中,假设这样一个系统,即仅仅输入代表多媒体原始资料的效果和目的的字符串的一部分,例如,「爽~」,用户就能够得到与输入字符串相符合的图象和声音的相应信息。图21给出通过该系统输入的一个例子,其中用户输入表示令人愉快的感觉的形容词「爽やか」的省略表达「爽~」,而这时相符的图象和音乐就被提供给用户。这样,允许用户简单地指定他或她想要的内容并接着输入多媒体信息。
图22表示实现上述系统所要求的词典结构(词汇和多媒体信息之间关系的信息词典)。该词典的结构与图6所描述的词汇词典131和单词转换词典132的结构类似。虽然在图6所示的例子中,词汇词典131中的单词和单词间转换词典132中的单词间转换是连接到一起的,但是单词(表示图象或声音效果或定义其名称的单词)却与包含图象和声音的多媒体数据库134和135相连接,而不是单词间转换词典132。
通过使用该词典,如果用户输入一个字符串,例如,「爽~」,通过参考词汇词典111的字符索引,能够得到包括字符「爽~」的单词「爽やか」。词汇词典111中的词条「爽やか」具有指向代表令人愉快的感觉或印象的图象和声音的指针,这样,能够参照词典立即找到提供令人愉快的图象和声音的多媒体信息。
当建立该词典时,图象和声音以及代表它们的效果的单词之间的适当的索引可以由用户定义,或者由能够识别单个图象的效果的系统自动确定。在获得WWW环境下的信息的情况下,由于包括在信息中的图象附近的单词和/或短语常常代表图象提供的效果,因此允许将图象附近的单词与图象放在一起。
如上所述,能够实现的是这样一个系统,即仅仅通过指定字符串的一部分,而不需要输入字符串的所有字符,就能够指定想要的包括字符串的多媒体信息,图象和声音。
通过用户仅仅以批处理的方式输入句子的方法(在输入句子的单个单词时不需要每一次都识别和选择单个候选单词),其中插入省略符来指定省略的字符和/或单词,该系统确定并提供用于内插省略部分的最优单词。这样,用户就能够以批处理方式输入句子,而不会干扰思维的连续性,并且大大提高了用户的操作性。由于能够不需要用户的干预自动建立用于内插省略字符的词典,并且词典通过学习会变得越来越智能化,因此用户能够轻松地操作该系统。
虽然上述实施例代表了本发明的优选形式,应该理解的是,在不脱离本发明的精神的情况下,是能够进行改变和修改的。
权利要求
1.一种句子处理装置包括用于输入字符的输入单元,用于显示所述输入字符的显示单元,和用于转换和编辑所述输入字符的处理单元,其中所述处理单元包括一个候选单词提取装置,它通过参考存储单词及其使用频率的词汇词典,以及参考定义关于单词之间的转换和单词之间的转换概率的信息的单词之间的转换词典,并且通过在词汇词典中检索输入句子中省略的字符前后的字符,来提取省略单词的候选单词,和一个确定装置,它通过参考所述单词间转换词典在所述提取的候选单词中选择一个单词。
2.根据权利要求1的句子处理装置,其中所述输入单元包括用于允许手写输入单词的写字板,和所述处理单元包括用于提取和识别通过手写输入的笔划信息的识别装置。
3.根据权利要求1的句子处理装置,其中所述处理单元包括词典建立装置,用来将输入句子分解为单个单词,并将所述句子中的所述单个单词的出现计数和所述单个单词存储到所述词汇词典中。
4,根据权利要求1的句子处理装置,其中所述处理装置包括单词转换词典建立装置,它将输入句子分解为单个单词,并将所述句子中的所述单个单词之间的转换计数和所述单个单词存储到所述单词间转换词典中。
5.一种句子处理方法包括用来将输入句子分解为单个单词,并将所述句子中的所述单个单词的出现计数和所述单个单词存储到所述词汇词典中的步骤,用来存储所述单个单词间的转换计数并检索所述单个分解单词的详细类别的步骤,用于根据包括的输入句子中的省略字符前后的字符通过参考所述词汇词典来提取省略单词的候选单词的步骤,和在根据所述单词间转换词典提取的所述候选单词确定单个单词的步骤。
6.一种句子处理方法包括用来将输入句子分解为单个单词,并将所述句子中的所述单个单词的出现计数和所述单个单词存储到所述词汇词典中的步骤,存储所述单个单词之间的转换计数并检索所述单个分解单词的详细类别的步骤,用于根据包括的输入句子中的省略字符前后的字符通过参考所述词汇词典来提取省略单词的候选单词的步骤,和在根据所述单词间转换词典提取的所述候选单词确定单个单词的步骤,其由在所述词汇词典中发现所述确定的单词的情况下,根据单词之间的转换信息,修正所述确定单词的出现计数和修正所述单词间转换词典的步骤。
全文摘要
一种文件或句子处理装置,该装置具有用于输入字符的输入单元,用于显示输入字符的显示单元和用于转换和编辑输入字符的处理单元,其中处理单元包括一个候选单词提取装置,该候选单词提取装置通过参考存储单词及其使用频率的词汇词典,以及参考定义关于单词之间的转换和单字之间的转换概率的信息的单词之间的转换词典,并且通过在词汇词典中检索输入句子中省略的字符前后的字符,来提取省略了字符和/或省略了这些单词的句子的候选单词,以及一个确定装置,它通过参考单词转换词典在提取的候选单词中选择一个单词。
文档编号G06F17/21GK1232226SQ99105930
公开日1999年10月20日 申请日期1999年3月30日 优先权日1998年3月30日
发明者安部圭子, 葛贯壮四郎, 桂晃洋, 横田登志美, 三浦雅树 申请人:株式会社日立制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1