基于事件阶层表示法的多模式对话系统的制作方法

文档序号:6438727阅读:147来源:国知局
专利名称:基于事件阶层表示法的多模式对话系统的制作方法
技术领域
本发明是关于一种多模式对话系统,尤指一种基于事件阶层表示法的多模式对话系统。
背景技术
按,已知的对话管理技术,大多是以表单式的对话模型为主,并根据业界标准以使用容易建置及管理的语音可延伸性标记语言来(voiceextensible markup language,VXML)撰写语音对话流程,而形成一表单式对话模型。以语音订票系统为例,当使用者欲订购车票时,必须在连线至语音订票系统后,根据其既定流程的引导来使用电话按键或语音输入后,方可完成订票程序。
然而,如此一来将令使用者的对话行为受到很大的限制,且系统反应呆板,仅能根据既定流程加以作业,因而缺乏实用性及应用弹性;又,已知语音对话系统通常仅支援单一模式的语音输入,而不能整合例如文字输入或图形介面等输入格式,无法满足使用者多元化的使用需求;且已知语音对话系统并不支援多主题切换,例如使用者一开始询问“台北”到“台南”的火车票价,之后当确认要进行订票时,系统将重新询问使用者欲订购车票的起迄地点,徒增困扰、并延长作业时间。此外,已知的计昼式对话系统是使用人工智慧程序语言来进行逻辑推论运算,这种方式不易表达对话目标中的物件资料结构,也不易处理程序性的运算,并非十分理想。由此可知,已知的对话管理系统仍存在有诸多缺点而有予以改进的必要。

发明内容
本发明的主要目的是在提供一种基于事件阶层表示法的多模式对话系统,是使用事件阶层表示法以透过逻辑关是和物件来描述对话管理,以便能轻易表达计划式的对话流程。
本发明的另一目的是在提供一种基于事件阶层表示法的多模式对话系统,是使用描述语言以表示物件资料结构,以及进行程序性运算,以便利于计划式的对话管理。
本发明的再一目的是在提供一种基于事件阶层表示法的多模式对话系统,是能进行跨主题的资料继承,并处理多主题切换问题,以便以呈现出智慧性的对话行为。
本发明的又一目的是在提供一种基于事件阶层表示法的多模式对话系统,以便能接受语音、文字、及表单按钮等图形化介面的输入模式,以形成友善的多模式使用者介面。
为达成上述的目的,本发明所提出的基于事件阶层表示法的多模式对话系统,主要包括一介面模组、一解译模组、以及一对话管理模组。其中,介面模组是用以与使用者进行沟通互动,其包括有一用以接收一输入信息,的输入单元、及一输出单元;解译模组是辨识输入信息,并将其转换为一语意讯框,此语意讯框中具有关键词(key)、数值(value)、与信心值(confidence);对话管理模组则包括有一主题描述XML文件、及一处理器,其主题描述XML文件是储存复数个对话主题及其对应的互动程序,并以及或图(and-or graph)来表达各个对话流程间的逻辑关系,每一互动程序是具有至少一动作指令,此动作指令是选自下列其中之一用以询问关键资讯、用以确认关键资讯、及用以更新关键资讯,处理器则可撷取语意讯框,并使用一程序语言以根据语意讯框的关键词自主题描述XML文件中找出对应的对话主题,并将对应于此对话主题的互动程序所具有的每一动作指令依序转换为一行动策略以输出至输出单元,以便和使用者进行互动。
其中,该对话管理模组是包括有一历史资料库,用以储存该使用者于先前输入信息所转换咸的先前语意讯框中的关键词。
其中,该处理器是根据目前语意讯框的关键词自该主题描述XML文件中找出对应的一对话主题,并自该历史资料库中找出该先前语意讯框的关键词以继承至目前语意讯框中。
其是使用可延伸性标记语言以描述该等对话主题。
其中,该程序语言是为JavaScript语言。
其中,该输入单元是为一语音装置,该输入信息是为一语音资料,且该解译模组是具有一语音辨识单元,用以辨识该语音资料,再使用自然语言理解技术以将该语音资料转换为一语意讯框。
其中,该输入信息是为一文字资料,该解译模组是使用自然语言理解技术以将该文字资料转换为一语意讯框。
其中,该输入单元是为一图形介面,该图形介面是包括有至少一选项以供使用者点选,该解译模组是撷取该使用者所点选的选项形成的输入信息以转换为一语意讯框。
其中,该输出单元是输出一文字资料。
其中,该输出单元是输出一语音资料。
其中,该输出单元是输出一图表选单。


为进一步说明本发明的技术内容,以下结合实施例及附图对本发明作一详细的描述,其中图1是本发明实施例的功能方块图。
图2是本发明实施例介面模组的示意图。
图3是本发明中XML标记语言描述的及或图。
图4是本发明第一实施例订票主题的互动程序的示意图。
图5是本发明第二实施例更新订票主题的互动程序的示意图。
图6是本发明第三实施例切换对话主题的示意图。
具体实施例方式
有关本发明的较佳实施例,请先参阅图1,显示本实施例的多模式对话系统是由介面模组1、解译模组2、及对话管理模组3所组成。其中,介面模组1是用以与使用者进行沟通互动,其具有多模式的输入单元11用以接收由使用者所输入的输入信息,例如由声讯介面111及电脑电话介面112所输入的语音信息、由文字介面113所输入的文字信息、点选图形介面114所提供表单的输入信息、以及由摄影机115所输入的影像信息…等;介面模组1并具有多模式输出单元12用以输出图表及选单121、文字122、人脸及语音合成123所形成的动昼及语音…等。因此,当使用者使用本实施例的多模式对话系统时,将会与如图2所示的介面模组1进行互动,其是以火车订票系统为例,由于系统整合了人脸侦测技术,因此摄影机115可侦测到有人接近而开始对话,当然使用者亦可使用自然口语对话方式以透过声讯介面111来订火车票,使用触控萤幕的图形介面114和系统互动,或是使用文字介面113来输入欲查询票价的请求;且藉由人脸合成及语音合成输出单元123的设计而形成一交通资讯服务代理人的影像,可让使用者感觉在与真人对话。
解译模组12则可将多模式的输入信息加以辨识解译后,转换为共同表达方式的语意讯框,此语意讯框中具有“关键词(key)”、“数值(value)”、与“信心值(confidence)”,以作为后绩对话管理模组的输入;例如“关键词”为明天,若今天为91/12/17,则“数值”便会对应的计算为91/12/18“信心值”则根据不同输入模式有个别的值,例如语音辨识的信心值若为90则表示辨识准确度较高,若为50则表示辨识准确度较低,而文字或图形介面的输入通常较为可靠,因此信心值为100。不同的输入模式,有个别的前处理程序,例如若输入信息为语音信息,则需透过语音辨识单元21分析出语音信息中的资讯,再透过自然语言理解单元22加以解析,以形成语意讯框若输入信息为文字信息,将可直接使用自然语言理解单元22分析后转换为语意讯框;若输入信息是由图形介面114或摄影机115所提供,则需透过信息解译单元23来加以分析后转换为语意讯框。由于上述语音辨识单元21、自然语言理解单元22、及信息解译单元23的功能是可由已知技术达成,故不在此赘述上述各单元的详细动作流程。此外,解译模组12尚包括有一信息派遣单元24、一语言产生单元25、及一语音合成单元26,则是用以产生多媒体输出信息以传送至输出单元12。
对话管理模组3是以对话管理机制来更新对话状态,进行主题推论,并连结后端的主题描述XML文件32及历史资料库33,以产生使用者所需的互动程序来加以动作。其中,主题描述XML文件32储存有复数个对话主题,例如订票主题、日期主题、票价主题、及天气主题等,并使用可延伸性标记语言(XML)的逻辑关系和物件来描述事件阶层,且每一对话主题皆定义有一互动程序,其中具有至少一动作指令可用以询问、确认、或更新关键资讯,例如订票主题就必须对“搭车日期”、“起迄站”、“车种车次”、及“票种张数”等关键资讯进行上述动作;事件阶层是达到不同的对话目标的逻辑结构,可用及或图(and-or graph)的方式表达,请参阅图3;本发明中是以XML标记语言描述及或图的结构,包含“或(or)标记”、“及(and)标记”、“行动(action)标记”、“条件(cond)标记”、“辅助(help)标记”与“描述程序(script)标记”等;例如订票主题、日期主题、票价主题、及天气主题等各个主题之间是或(or)的关系,也就是只要有一个主题被选择,即可进行后续的对话流程;而订票主题下的“搭车日期”、“起迄站”、“车种车次”、及“票种张数”则是及(and)的关系,表示这些关键资讯都必须得知后才能完成订票的主题;“行动标记”描述各个子节点所对应执行的行动,例如询问关键资讯;“条件标记“则用以判断各个子节点是否已达到目标,例如订票的起迄站是否都已得知,若条件未达成,则执行“行动标记”所定义的程序;本实施例对话管理模组3的处理器31是使用JavaScript语言来表示物件资料结构、以对于语意讯框中的关键词来进行主题推论运算,例如当语意讯框中具有一关键词“票价”时,处理器31将可自主题描述XML文件32中找出票价主题并执行对应的互动程序;而历史资料库33则可储存使用者于先前输入信息所转换咸的先前语意讯框中的关键词,其具体功能将于后文中详述。
以下是举三个实施例来说明多模式对话系统在不同情况下与使用者所产生的互动情形。
第一实施例用以解析并执行对话主题使用者是透过电脑电话介面112输入“我明天要到高雄”的语音信息,因此透过语音辨识单元21及自然语言理解单元22的分析,将把输入信息转换为包括有关键词“高雄”的语意讯框,再经由对话管理模组3的处理器31来计算推测出此语意讯框是对应于订票主题。请参阅图4订票主题321的互动程序,本实施例的订票主题321定义有五个动作指令以依序转换为行动策略以输出至输出单元12来与使用者进行互动,即询问、确认、及更新“选择起迄站”、“选择日期”、“选择车班”、“票种张数”、及“确认”等关键资讯,待最后确认无误之后则可完成订票程序。由于根据输入信息所转换出的语意讯框包括有“高雄”的关键词及语音辨识的信心分数若信心分数大于一预设的门栏值,则此关键词可直接取代为关键资讯,于本例中,“高雄”即取代为“迄站”的关键资讯,如此一来,系统只要再询问“起站”资讯即可,不必再重复询问一次“迄站”资讯。
需注意的是,由于输入单元11可接收多模式的输入信息,因此本实施例的对话管理系统可针对不同模式的输入,使用不同的确认及更正机制来计算关键词及关键资讯的信心分数。例如使用图形介面114所形成的表单来进行输入时,由于使用者是点选既定选单上的选钮,因此信心分数为满分;或使用文字介面113所输入的文字资讯,同样具有极高的信心分数;通常以声讯介面111或电脑电话介面112所输入的语音信息的信心分数较低,当然若具有较高信心分数时,系统亦可自动采用此关键词作为关键资讯,而不需询问使用者以取得关键资讯。
第二实施例用以更新对话讯框的互动程序请参阅图5,亦以订票主题321为主,其互动流程皆与第一实施例相同,惟当起迄站、日期、车班、票种张数都已询问完成后,在进行票种张数确认时,使用者修改了日期,因此必须重新执行一次订票主题321的互动程序。由于先前向使用者所询问确认后的关键资讯储存于历史资料库33中,故当重新进行互动程序时,系统将撷取出已确认的关键资讯而不需重新询问使用者,即“起迄站”及“票种张数”,而“日期”及与其相关的“车班”则必须重新选取,而形成如订票主题321’所示的动作指令。其中,历史资料库33所储存的关键资讯将随着各个对话主题的最新对话状态及悬置主题而不断更新。
第三实施例用以切换对话主题请参阅图6,也是以订票主题321加以说明,当使用者在进行订票主题321的互动程序时,例如在进行到选择日期的互动程序时,使用者可能先询问系统今天日期,因此系统将自动切换到日期主题322来回答使用者的问题,且当此互动程序完成后,系统会适时地自动切换回原先的订票主题321以继续询问使用者欲搭乘的卓班资讯。且在选择车班的互动程序中,使用者询问了票价资讯,故系统又将切换至票价主题323,且在主动切换回订票主题321后,使用者又询问了天气状况,因此系统同样将会进行天气主题324的互动程序以告知使用者相关的天气状况,再切换回订票主题321。上述的各个主题切换,都是和订票较为相关的主题,因此系统会无条件切回原订票主题。若是其他跟订票较不相关的主题如路况查询、航班查询时,系统则会先确认后再切回原订票主题。
上述第三实施例中,使用者与系统的互动程序可使用以下的自然对话情境加以模拟,其中,系统端即为本实施例的多模式对话系统1.系统端欢迎光临,请问您要什么服务?2.使用者我要台北到高雄的自强号。
3.系统端您要哪一天出发?4.使用者明天是星期几?5.系统端明天是星期六。
6.使用者嗯…7.系统端请问您要明天什么时候出发?8.使用者票价是多少?9.系统端台北到高雄的自强号车票是845元。
10.使用者莒光号呢?11.系统端台北到高雄的自强号车票是651元。
12.使用者嗯…13.系统端您要订莒光号吗?14.(使用者按下“正确”的按钮)15.系统端请选择您要的车次。
16.使用者我想查高雄的天气。
17.系统端明天高雄的天气阴时多云雷阵雨,最高温32度,最低温27度。
18.使用者那台北呢?19.系统端明天台北的天气多云午后雷阵雨,最高温34度,最低温26度。
20.使用者嗯…21.系统端请选择您要的车次。
22.(使用者点选表单中莒光号17车次,台北到高雄)23.系统端您要订哪一种票几张?24.使用者我要成人票两张。
25.系统端您要购买的是明天从台北到高雄的苫光号17列车成人票两张,一共是1302元。如果确定,请刷您的信用卡。
26.(使用者按下“确定”按钮)27.系统端请取出您的车票,谢谢您,并欢迎您再次惠顾。
其中,第4行、第8行、及第16行的对话表示使用者分别由订票主题321切换至日期主题322、票价主题323、及天气主题324;而第7行、第13行、及第21行的对话则表示系统端适时主动切回原先订票主题321的程序。
根据上述的说明,显示本发明所提出的基于事件阶层表示法的多模式对话系统是可智慧地处理多主题切换问题,以呈现出智慧的对话行为且多模式的使用者介面包括了语音、文字、及表单按钮等图形化的介面,有助于使用者以最自然、便利的方式,和系统进行互动;此外,本发明对话管理的描述是以逻辑关是和物件为基础,其使用延伸标记语言来定义对话目标与物件问的逻辑关是,并以描述语言(script language)来表示物件资料结构和进行程序性运算,易于移植到不同的语言,具有高度应用弹性,实为一大进步。
上述实施例仅是为了方便说明而举例而已,本发明所主张的权利范围自应以申请专利范围所述为准,而非仅限于上述实施例。
权利要求
1.一种基于事件阶层表示法的多模式对话系统,其特征在于,主要包括一介面模组,用以与使用者进行沟通互动,其包括有一用以接收一输入信息的输入单元、及一输出单元;一解译模组,是辨识该输入信息并将其转换为一语意讯框,该语意讯框是具有关键词、数值、与信心值;以及一对话管理模组,其包括有一主题描述XML文件,是储存复数个对话主题及其对应的互动程序,每一互动程序是具有至少一动作指令,该动作指令是选自下列其中之一用以询问关键资讯、用以确认关键资讯、及用以更新关键资讯;及一处理器,是撷取该语意讯框,并使用一程序语言以根据该语意讯框的关键词自该主题描述XML文件中找出对应的一对话主题,并将对应于该对话主题的互动程序所具有的每一动作指令依序转换为一行动策略以输出至该输出单元,以便和使用者进行互动。
2.如权利要求1所述的基于事件阶层表示法的多模式对话系统,其特征在于,其中,该对话管理模组是包括有一历史资料库,用以储存该使用者于先前输入信息所转换咸的先前语意讯框中的关键词。
3.如权利要求2所述的基于事件阶层表示法的多模式对话系统,其特征在于,其中,该处理器是根据目前语意讯框的关键词自该主题描述XML文件中找出对应的一对话主题,并自该历史资料库中找出该先前语意讯框的关键词以继承至目前语意讯框中。
4.如权利要求1所述的基于事件阶层表示法的多模式对话系统,其特征在于,其是使用可延伸性标记语言以描述该等对话主题。
5.如权利要求1所述的基于事件阶层表示法的多模式对话系统,其特征在于,其中,该程序语言是为JavaScript语言。
6.如权利要求1所述的基于事件阶层表示法的多模式对话系统,其特征在于,其中,该输入单元是为一语音装置,该输入信息是为一语音资料,且该解译模组是具有一语音辨识单元,用以辨识该语音资料,再使用自然语言理解技术以将该语音资料转换为一语意讯框。
7.如权利要求1所述的基于事件阶层表示法的多模式对话系统,其特征在于,其中,该输入信息是为一文字资料,该解译模组是使用自然语言理解技术以将该文字资料转换为一语意讯框。
8.如权利要求1所述的基于事件阶层表示法的多模式对话系统,其特征在于,其中,该输入单元是为一图形介面,该图形介面是包括有至少一选项以供使用者点选,该解译模组是撷取该使用者所点选的选项形成的输入信息以转换为一语意讯框。
9.如权利要求1所述的基于事件阶层表示法的多模式对话系统,其特征在于,其中,该输出单元是输出一文字资料。
10.如权利要求1所述的基于事件阶层表示法的多模式对话系统,其特征在于,其中,该输出单元是输出一语音资料。
11.如权利要求1所述的基于事件阶层表示法的多模式对话系统,其特征在于,其中,该输出单元是输出一图表选单。
全文摘要
本发明是有关于一种基于事件阶层表示法的多模式对话系统,是由一具有多模式输入及输出功能的介面模组、一解译模组、及一对话管理模组所组成。当系统自输入单元接收到一多模式的输入信息后,是经由解译模组进行辨识解译,以将输入信息转换为一具有共同格式的语意讯框接着透过对话管理模组来更新对话状态,并进行主题推论,并连结后端的资料库、网路资源、知识处理或资讯检索等伺服器,来取得使用者所需的相关资讯;最后透过解译模组的信息派遣单元、语言产生单元、及语音合成单元来产生多媒体的输出以与使用者进行互动。
文档编号G06F3/00GK1517901SQ0310167
公开日2004年8月4日 申请日期2003年1月14日 优先权日2003年1月14日
发明者许天明, 林伯慎 申请人:财团法人资讯工业策进会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1