分配词类信息的方法

文档序号:6422501阅读:139来源:国知局
专利名称:分配词类信息的方法
技术领域
本发明涉及分配设备,其具有分配设备,用于为文本信息中的一个或多个词分配附加信息。
本发明进一步涉及一种分配方法,其为文本信息的一个或多个词分配附加信息。
本发明进一步涉及一种计算机程序产品,其可以直接装载到数字计算机的内部存储器中,并且该计算机程序产品包括软件代码部分。
这类分配设备、这类分配方法和这类计算机程序产品可以从文件US 6434524中获知。该文件公开了一种与麦克风相连并实施语音识别软件的计算机。该已知计算机的用户可以向麦克风说出一条语音信息(其可以包含文本信息或命令信息的词),因此计算机建立一个被识别的文本信息。计算机的分配设备在被识别的文本信息中搜索一定的词,并选择相关的命令内容,以便识别在所识别的文本信息中的命令信息。
例如用户可以向麦克风说出语音信息“现在几点了”,以便从计算机获取当前时间信息。如果计算机的语音识别软件操作正确,则计算机首先识别该所被识别的文本信息“现在几点了”。分配设备将被识别的文本信息中的词与存储在命令内容存储器中的关键词进行比较,并且将所识别的文本信息分配给命令内容“时间”,这是因为在所识别的文本信息中发现关键词“时间”。
命令内容“时间”规定在所识别的文本信息中将被发现的词序列“时间几点”,以便识别用于询问关于当前时间的命令信息。一旦在命令信息中识别一定的词序列,已知计算机的动作装置就启动建立当前时间的动作,并且借助“文本到语音”的装置说出当前时间,使得用户在听觉上可听见。
在已知的分配设备和已知的分配方法的情况下,不利之处在于用户必须以正确的顺序准确地说出正确的词才能使计算机实施所需的动作。
本发明的一个目标是创建在第一段中指定类型的分配设备、在第二段中指定类型的分配方法以及在第三段中指定类型的计算机程序产品,其中可避免上述缺点。为获得上述目标,在该类分配设备中,该分配设备被设计成这样的形式分配词类信息给文本信息的一个或多个词,并传递包含所分配的词类信息的词类序列信息,并且提供链接装置,该链接装置被设计成这样的形式检测词类序列信息中的词类信息的至少两个特殊项的存在并传递相应的链接信息,以及提供动作装置,其被设计成这样的形式当特定链接信息或链接信息的特定组合被链接装置传递时,启动动作。
为实现上述目的,在该类分配方法中提供下面的程序步骤分配词类信息到文本信息的一个或多个词;传递包含所分配的词类信息的词类序列信息;检测词类序列信息中词类信息的至少两个特定项的存在;传递识别所检测的词类信息的链接信息;当特定的链接信息或链接信息的特定组合被传递时,启动动作。
为获得上述目的,在该类计算机程序产品中,当该产品在计算机中运行时,根据本发明的分配方法的步骤已经利用计算机实施。
作为根据本发明的特性的结果,实现了分配设备为词类信息分配所识别的文本信息中的单个、多个或者所有词,并将该词插入到词类序列信息中。词类信息识别将被分配的特定词或特定词序列的词类。例如,药物名称(例如“阿司匹林(Aspirin)”、“青霉素V(Ospen)”和“Sanos tol”)可以被分配到词类“药物”。
现在链接装置在词类序列信息中搜索特定词类信息的存在,并且如果在词类序列信息中已发现词类信息的特定项的特定组合,则传递链接信息。动作装置直接在传递文本信息的链接信息的单个或多个或者全部项目之后、或者在任何连续瞬间,检验是否传递了特定链接信息或者链接信息的特定组合。如果该类链接信息或者链接信息组合被动作装置检测到,则动作装置将启动为该目的定义的动作。
这就提供了优势,通过词类特定组合的存在,可以对关系到文本信息的内容做出陈述,而且相应地特定动作可以被自动初始化。例如,在药物报告中存在词类“药物”(本文信息中的词阿司匹林)和词类“过敏”(文本信息中的词青霉素过敏)的情况下,链接装置可以输出相应的链接信息,该链接信息被用来启动下面的动作。计算机从背景字典中建立药物的成分,并检查病人是否对药物的一个成分过敏。如果可行,则可以向医生提供警告注意。
如权利要求2和10中所述的措施给出了这样的优点,即仅仅检查在最大词类距离(例如三个词,一个句子或者文本信息的一段;词类序列信息中词类信息的5个相邻项…)内的特定词类信息的存在。结果,与文本信息的内容有关的更含糊的陈述也是可能的。因而动作更可能被成功执行。
如权利要求3中所述的措施给出了这样的优点,即实际上能够特别容易实现分配设备。
如权利要求4和11中所述的措施给出了这样的优点,即文本信息的词可以被分配给词类信息,甚至在通过语音识别设备实施语音识别方法的过程中文本信息的词仍然被分配给词类信息。在实施语音识别方法期间可以获得的信息可因此通过分配装置被用于分配词类信息,这使得词类序列信息、链接信息以及由此衍生的相应动作的可靠性增加。
如权利要求5和12中所述的措施给出了这样的优点,即用户的注意力通过动作装置被吸引到特定的情形。
如权利要求6中所述的措施给出了这样的优点,即作为用户定义的词类序列信息中的词类信息的序列发生的结果,用户可以手动设置动作装置,以便具有他期望执行的动作。
如权利要求7和14中所述的措施给出了这样的优点,即动作装置为特定词类(例如,药物)的词从背景字典中自动建立背景信息(例如,指令文本)。该背景信息可以在命令期间或者任何后来的瞬间中相对这些词而被显示。
本发明将参照附图中示出的实施例的实例进一步得到阐述,然而,本发明不限于该实施例。


图1示出用于分配词类信息和用于执行动作的分配设备的电路框图。
图1示出了用于为文本信息TI的词信息WI分配词类信息WKI和用于执行动作A的分配设备1的电路框图。麦克风2与语音识别设备3相连并被设计来传递第一听觉信息AI1到语音识别设备3。语音识别设备3表现为计算机的形式,该计算机实施语音识别软件(如飞利浦语音识别软件FreeSpeechTM)。用户可以对着麦克风2说出一段话,而语音识别设备3实施语音识别方法,并且随后,传递所识别的文本信息ETI和附加文本信息TZI到分配设备1。分配设备1也由此表现为计算机的形式,该计算机根据分配方法实施分配软件。如果计算机同时实施语音识别软件和分配软件,则这将是极为有优势的。
附加文本信息TZI是在实施语音识别方法期间语音识别设备3建立用于识别所识别的文本信息ETI的信息。例如,附加文本信息TZI可以包括所识别的文本信息ETI应该被分配到放射学的专用领域的信息,或者包括专家法定技术名词。附加文本信息TZI还可以进一步将所识别的文本信息ETI的多个相继的词识别为典型的短语(例如美国)。
分配设备1配备有分配装置4,该分配装置4被设计成这样的形式将词类信息WKI作为附加信息分配给所识别的文本信息ETI的一个或多个词。为此,分配装置4被设计来在词典存储器5中为所识别的文本信息ETI搜索词信息WI。对于词典存储器5中存储的词的每个词信息WI,分配给这个词信息WI的词类信息WKI的一项在分配中被存储。表1示出了存储在词典存储器5中的词信息WI的一小部分,以及所分配的词类信息WKI。任何其他形式的被分配的存储也是可能的。
表1分配装置4被设计来评价附加文本信息TZI,以使词类信息WKI获得更好的分配,或者能够更快的搜索相关的词类信息WKI。例如,基于附加文本信息TZI,所识别的文本信息ETI是放射学专用领域的文本,分配装置4可以在词典存储器5的部分中(其中专用放射学技术名词存储在此)启动对所识别的文本信息ETI的搜索。类似地,词“大运河”要被识别成词序列,仅一个词类信息WKI被分配给该词序列。
当分配装置4已经在词典存储器5中发现词或者词序列时,分配装置4读取所分配的词类信息WKI并将其存储在分配设备1的序列存储器6中。分配装置4由此分配给所识别的文本信息ETI的词序列一个相关词类信息WKI的序列,其作为词类序列信息WK-AI存储在序列存储器6中。
分配设备1进一步被配备链接装置7,该链接装置7被设计来检测词类序列信息WK-AI中的词类信息WKI的至少两个特定项的存在,并传递相应的链接信息VI。特别是,链接装置7被设计来只有当最大词类距离WEE内检测到词类信息WKI的至少两项存在时才传递相应链接信息VI。为此,链接装置7比较包含在词类序列信息WK-AI中在最大词类距离WEE内的词类信息WKI与链接词典存储器8中存储的词类信息WKI的组合。
表2表2示出了链接词典存储器8中存储的词类信息WKI组合的一小部分,其中链接信息VI被存储在每个这样组合的分配中。
例如,WEE=5可以被规定为最大词类距离,而词类序列信息WK-AI=…WKI-3/WKI-36/WKI-1/WKI-5/WKI-6/WKI-17/WKI-49…可以被存储在序列存储器6中用于文本信息ETI的识别项。在这种情况下,链接装置7可以关于存储在链接词典存储器8中的组合是否被检测来检查包含在词类序列信息WK-AI中的词类信息WKI的每一项前后的五项词类信息WKI。链接装置7由此可以在特定词类距离WEE内检测词类信息WKI-1和WKI-17的组合,并传递链接信息VI-1。词类序列信息WK-AI中的词类信息WKI的出现顺序并不是太重要。因此,是否是WK-AI=…WKI-1/…/WKI-A17/…或是WKI-AI=WKI-17/…/WKI-A1开没有什么区别。然而利用词类信息WKI的项的一些组合,在链接词典存储器8中可以规定特定的顺序。
最大词类距离WEE的规定具有这样的优点,即内容的各项中存在一定的联系。因此,链接信息VI只有当直接相邻领域内的词被分配到相应的词类信息WKI时才被传递。该优点在下面参照两个应用实例将予以更为详细的解释。在将被寻找的存储在链接词典存储器8中的词类信息WKI的组合附近、在将被检查的特定词类信息WKI周围,词类距离WEE还可以识别所识别的文本信息ETI中词的数目、句子的数目或段的数目。
链接装置7被设计成这样的形式将所建立的链接信息VI存储到链接存储器9中。分配设备1被进一步配备有动作装置10,该动作装置10被设计成这样的形式在链接信息VI的特定项或者链接信息VI的特定序列被链接装置7传递和被存储在链接存储器9中时,启动动作。为此,动作装置10读取存储在链接存储器9中的链接信息VI作为链接序列信息V-AI,并在动作存储器11中搜索链接信息VI或者包含在链接序列信息V-AI中的链接信息VI的特定序列。如果链接信息VI或者所要寻找的链接信息VI的特定序列在动作存储器11中被发现,则动作装置10从动作存储器11中读取相关的被存储的动作信息A。读取动作信息A然后被执行,或者至少被动作装置10启动。
表3表3示出了存储在动作存储器11中的链接信息VI的一小部分和相关存储的动作信息A。例如,如果链接信息VI-3被包含在链接序列信息V-AI中,则可以执行动作A-3。例如动作A-3可以采用从背景存储器12中搜索涉及特定词(该特定词已经被分配有词类信息WKI-4+WKI-7,并且最后被分配有链接信息VI-3)的背景信息HI的形式。读取背景信息HI可以由动作装置10处理并在监视器13上可视地再现为显示信息DI。类似地,读取背景信息HI可以作为第二听觉信息AI2被传递到音频处理装置14,并从扬声器15以听觉方式再现。
下面,分配设备1的第一实施例将得到详述,其中假定医生正在向麦克风2口述医学报告。医生口述“…对奶制品敏感…病人报告青霉素过敏,这必须核查。病人…开取青霉素V,每日3次…开取阿司匹林,以防疼痛需要”。
语音识别设备3识别与该口述相对应的被识别的文本信息ETI,并传递给分配装置4,与之一起传递的还有要分配到药物领域的被识别的文本信息ETI的附加文本信息。分配装置4在词典存储器5中搜索包含在所识别的文本信息ETI中的词信息WI,并将下面的词类序列信息WK-AI存储在序列存储器6中。为便于理解,在每种情况下给出包含在所识别的文本信息ETI中的词/存储在词典存储器5中的词和相关词类信息WKIWKI-AI=“…敏感→过敏→WKI-28/奶制品→活化剂组→WKI-322/../→患者→患者→WKI-27/青霉素→活化剂→WKI-444/过敏→过敏→WKI-28/…/青霉素V→药物→WKI-342/开处方→处方→WKI-99/3次→数量→WKI-77/每天→周期→WKI-88/…/阿司匹林→药物→WKI→342/开处方→处方→WKI-99/患者→患者→WKI-27/需要→周期→WKI-88…”分配装置4被有利地设计成这样的形式在从词典存储器5搜索词信息WI之前从所识别的文本信息ETI的每个词中建立特定的词干,并在词典存储器5中搜索该词干。分配装置4由此已经针对所识别的文本信息ETI中的词“奶制品(milk products)”建立了词干形式“奶制品(milk product)”,并在词典存储器5中搜索该单数形式。结果,将存储在词典存储器5中的词的数量可以大为减少,这意味着可以节省存储空间。
根据应用实例,假定词类距离WEE=4。链接装置7然后检查,所存储的词类序列信息WK-AI中、围绕第一词类信息WKI-28周围的四项词类信息WKI-322/WKI-27/WKI-444/WKI-28内所包含的是否是作为链接词典存储器8中的组合而存储的一项词类信息WKI。
根据应用实例,假定链接词典存储器8中存储如下WKI-28(过敏)+WKI-322(活化剂组)→VI-17。进一步假设以下列顺序存储在动作存储器11中VI-17→A-55(可视化警告)。动作装置10传递给监视器13文本信息TI=“警告对奶制品((milk products))过敏”作为显示信息DI。该警告可以在监视器13上、与所识别的文本相邻的其自身窗口内显示。这产生这样的优点,即医生或者任何其他需要处理药物报告的人在没有仔细阅读药物报告情况下从其接收重要信息。
根据应用实例,进一步假设以下列顺序存储在链接词典存储器8中WKI-444(活化剂)+WKI-28(过敏)→VI-18。进一步假设以下列顺序存储在动作存储器11中VI-18→A-54(针对活化剂建立的活化剂组)+A-55(可视化警告)。动作装置10然后从背景存储器12建立活化剂“青霉素”属于哪一个活化剂组,并向监视器13传递文本信息TI=“警告;青霉素类活化剂过敏”作为显示信息DI。这产生这样的优点,即医生不需在药物词典中搜寻患者过敏的活化剂组,而且,医生接收恰当的警告。
需要提及的是,作为动作A-54为活化剂建立活化剂组的实施结果,链接信息VI-17(WKI-28(过敏)+WKI-322(活化剂组)可以相对活化挤被插入到链接序列信息V-AI中。链接信息VI-17可以利用链接序列信息V-AI中的随后的链接信息VI进而引起进一步的动作A。这产生这样的优点,即链接序列信息V-AI是动态扩展和调整的,以改善结果。
根据应用实例,进一步假设以下列顺序存储在链接词典存储器8中WKI-342(药物)+WKI-99(处方)→VI-42。进一步假设动作存储器11中存储如下VI-42→A-66(处方打印输出)+A-78(检查过敏和药物活化剂之间是否有冲突)。为实施动作A-66,动作装置将药物“青霉素V”和后续的药物“阿司匹林”存储在缓冲存储器中,以便在所有与所识别的文本信息ETI相关的动作A实施的结尾,为患者打印处方,利用该处方他可以去药房买药。为实施动作A-78,动作装置10通过与图1中未示出的中央药物数据库连接的因特网建立药物青霉素和阿司匹林中的活化剂,并与患者的过敏物相比较。从这检查中建立了这些药物的活化剂(Anoxicllin)可分配为“青霉素类”活化剂组。可视化警告然后在监视器13上显示,因为这个风险,还通过扬声器15发出听觉警告。这产生巨大的优势,即分配设备1减轻了医生大量的工作,它们就象医生的助手一样,使他注意危险的活化剂组合。
动作A-103也可以被分配给链接信息VI-42,然后动作装置10从背景存储器12搜索与处方可比较的、但是便宜很多的药物。这在药物领域也节省大量开支。
需要提及的是,用户可以根据他的需要在线连续调节分配设备1。用户可以向词典存储器5添加新的词信息项目和词类信息项目WKI,也可以向链接词典存储器添加新的词类信息WKI和链接信息VI的新组合,和向动作存储器11添加新的链接信息VI以及相关的动作A。已经存储的信息根据用户意愿也可以被修改。这为分配设备1提供了进一步的优势,使其可以由用户更好地调节,并因此可以为用户减轻很多工作。
值得提及的是,由动作装置10建立的警告或者附加信息也可以以下面的方式从相关的所识别的文本ETI的词的形式显示。所识别的文本信息ETI(该所识别的文本信息ETI已经被分配有附加信息)的每个词在监视器13上特定标记地示出。例如,这些词可以被下划线或者小写字母“i”可以在特定词的末端显示。为检索附加信息,用户利用计算机鼠标或者指针启动词或者“i”,这样,与该词有关的附加信息在小窗口内显示。
根据第二实施例,假定计算机(在其上正在实施商业上可获得的词处理程序)用户正在写出下面的信“亲爱的桑德拉,我今天乘火车到威尼斯旅行,明天在大运河见”,分配装置4在序列存储器6中存储下列词类序列信息WK-AIWKI-AI=“…桑德拉→姓名→WKI-90/旅行-→旅程→WKI-777/今天→计时→WKI-32/火车→交通→WKI-80/到→目的地→WKI-65/威尼斯→城市→WKI-767/明天→计时→WKI-32/大运河→观光→WKI-2”。
根据第二个应用实例,进一步假设链接词典存储器8中存储如下WKI-777(旅程)+WKI-32(计时)+WKI-80(交通)+WKI-767(城市=目的地)→VI-64。进一步假设动作存储器11中存储如下VI-64→A-60(在www.fahrplan.com搜索)。为实施动作60,动作装置10以图1中未示出的方式与具有地址www.fahrplan.com的因特网服务器连接,为用户建立可能的火车连接并在监视器13上显示这些信息。已存储的与词类信息WKI-2(观光)相对的是链接信息VI-55,并且与动作A-70(所建立的关于观光的背景信息)相对。为实施动作A-70,动作装置10在背景词典12和www.sehenswuerdigkeiten.com下搜索关于大运河的背景信息HI,并且在监视器13上显示这些信息或者通过扬声器15以听觉上的方式宣告该信息。
这提供了进一步的优势,使得分配设备借助用户帮助在背景中连续启动,并向文本信息TI的内容加入适当的信息和警告。
值得提及的是,词类信息WKI的多个项目可以被分配给词典存储器5中的一个词。例如,词类信息WKI-767(城市)和词类信息WKI-2(观光)可以被分配给词“威尼斯”。根据存储在链接词典存储器8中的词类信息项目WKI的组合,城市威尼斯可以被评定为目的地,或者建立与威尼斯观光相关的背景信息HI。
值得提及的是,根据本发明的分配设备可以与多种不同的词处理计算机程序结合使用。例如,分配设备可以分析由电子邮件程序接收的所有邮件,在用户读取之前进行初步处理。当用户读取他的邮件时,用户已经获得分配设备建立的大量的附加信息。
值得提及的是,在分配设备分配之前,在所识别的文本信息的文本(例如,句子,段落)的部分可以执行聚类分析,以便实施更高优先级的特定词类的分配。由此发生链接信息的某种加权。
权利要求
1.一种分配设备(1),其具有分配设备(4),用于分配附加信息给文本信息(BTI)的一个或多个词,其特征在于该分配设备(4)被设计成这样的形式分配词类信息(WKI)给文本信息(ETI)的一个或多个词,并传递包含所分配的词类信息(WKI)的词类序列信息(WK-AI),并且提供链接装置(7),该链接装置(7)被设计成这样的形式检测词类序列信息(WK-AI)中的词类信息(WKI)的至少两个特殊项的存在并传递相应的链接信息(VI),以及提供动作装置(10),其被设计成这样的形式当特定链接信息(VI)或链接信息(VI)的特定组合被链接装置(7)传递时,启动动作(A)。
2.根据权利要求1所述的分配设备(1),其特征在于,链接装置(7)被设计成这样的形式只有当词类信息(WKI)的至少两项在最大词类距离内被检测到存在时才传递链接信息(VI)。
3.根据权利要求1所述的分配设备(1),其特征在于,提供词存储器装置(5),利用该词存储器装置(5)存储了词和相关词类信息(WKI),并且分配设备(4)被设计成这样的形式建立将被分配给从词存储器装置(5)中读取的一个词的词类信息(WKI)。
4.根据权利要求1所述的分配设备(1),其特征在于,分配设备(4)是语音识别设备(3)的一部分,并被设计成这样的形式为被语音识别设备(3)识别的文本信息(ETI)的一个或多个词分配词类信息(WKI)。
5.根据权利要求1所述的分配设备(1),其特征在于,动作装置(10)被设计来启动听觉和/或视觉通知(AI2,DI)作为动作(A)。
6.根据权利要求1所述的分配设备(1),其特征在于,词类序列信息(WK-AI)中的将被链接装置(7)检测到的特定词类信息(WKI)和将被动作装置(10)启动的动作(A)都可以被手动调整。
7.根据权利要求1所述的分配设备(1),其特征在于,动作装置(10)被设计成这样的形式如果分配给文本信息(ETI)的特定词的特定链接信息(VI)存在,则建立和传递作为分配给文本信息(ETI)的附加信息的背景信息(HI),其中分配有附加信息的词可以利用特定标记显示。
8.根据权利要求1所述的分配设备(1),其特征在于,为了分配词类信息(WKI),分配设备(4)首先建立与文本信息(ETI)的单个词或多个词相关联的词干。
9.一种为文本信息(ETI)的一个或多个词分配附加信息的分配方法,其中实施下面的步骤为文本信息(ETI)的一个或多个词分配词类信息(WKI);传递包含所分配的词类信息(WKI)的词类序列信息(WK-AI);检测词类序列信息(WK-AI)中词类信息(WKI)的至少两个特定项的存在;传递识别所检测到的词类信息(WKI)的链接信息(VI);当特定链接信息(VI)或链接信息(VI)的特定组合被传递时,启动动作(A)。
10.根据权利要求9所述的分配方法,其特征在于,只有当词类信息(WKI)的至少两项在最大词类距离内被检测到存在时,才传递链接信息(VI)。
11.根据权利要求9所述的分配方法,其特征在于,将分配方法应用于使用语音识别方法识别的文本信息(ETI)的一项,其中在分配方法中使用了利用语音识别方法所建立的、并且涉及所识别的文本信息(ETI)的附加文本信息(TZI)。
12.根据权利要求9所述的分配方法,其特征在于,听觉和/或视觉通知(AI2,DI)作为动作被传递。
13.根据权利要求9所述的分配方法,其特征在于,如果分配给文本信息(ETI)的特定词的特定链接信息(VI)存在,则建立从背景词典(12)中读取的与这些词有关的背景信息(HI)并作为附加信息而被传递,其中被分配有附加信息的词利用特殊标记显示。
14.一种计算机程序产品,其可以直接装载到数字计算机的内部存储器中,并且该计算机程序产品包括软件代码部分,其中当所述产品在计算机上运行时,根据权利要求8所述的分配方法的步骤被该计算机执行。
15.权利要求14所述的计算机程序产品,其中该计算机程序产品被存储在计算机可读介质上。
全文摘要
一种分配设备(1)为文本信息(ETI)的一个或多个词分配词类信息(WKI)。基于从该分配的词类信息(WKI)中形成的词类序列信息(WK-AI),执行动作(A),以便通知用户存在冲突或者为用户提供与文本信息(TI)中的词有关的背景信息(HI)。
文档编号G06F17/27GK1717679SQ200380104330
公开日2006年1月4日 申请日期2003年10月31日 优先权日2002年11月28日
发明者M·赫勒茨格鲁伯, K·拉吉克 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1