语义解析方法和装置的制造方法

文档序号:9375574阅读:191来源:国知局
语义解析方法和装置的制造方法
【技术领域】
[0001]本发明涉及计算机技术领域,尤其涉及一种语义解析方法和装置。
【背景技术】
[0002]口语语义解析是语音交互中必不可少的一个环节,主要通过分析用户输入的意图,提取能够表达该意图的知识,并转换成机器能够理解的结构化数据格式。
[0003]目前,主要使用预设的规则串与语音转换后的文本串进行字符串匹配的方法来对语义进行解析。具体地,可将关键词组合编译成正则表达式,将提取出的功能参数表示成通配符,并将该正则表达式与相应的服务建立映射关系,从而实现语义的解析。例如,关键词组合为“(给)(.+)(发/回)(信息/短信)”,功能参数设置为第二个关键词。当用户输入的文本为“给刘德华发短信”时,则经过匹配可得知功能参数为“刘德华”,对应的服务为“发短信”。
[0004]但是,使用通配符的方式提取功能参数,容易误纳噪音,例如:“给我亲爱的刘德华发信息”,正确的功能参数应该为“刘德华”,而提取的功能参数为“我亲爱的刘德华”,则会对给后续处理造成影响,进而影响整体的解析效果。另外,当输入的文本含有多个功能参数时,无法解析出每个参数代表的意思,例如“查询某天某地的天气”,该文本会被转换为“(查询)(.+)(的)?(.+)(天气)”,这样很难分辨出哪个参数表示的是时间,哪个参数表示的是地名,导致解析成功率低。

【发明内容】

[0005]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种语义解析方法,可降低噪声对语义解析的影响,准确地获取文本数据中的实体信息及其对应的实体类型标签,从而提高解析准确率。
[0006]此外,本发明还需要提供一种语义解析装置。
[0007]为了实现上述目的,本发明第一方面实施例提出了一种语义解析方法,包括:S1、获取输入的语音数据,并对所述语音数据进行文本转换以生成文本数据;S2、对所述文本数据进行实体识别以获取所述文本数据中的实体类型标签;S3、根据所述文本数据中的实体信息及对应的实体类型标签将所述文本数据转换为具有实体类型标签的文本数据;以及
S4、根据所述具有实体类型标签的文本数据与数据库进行匹配,以生成语义解析结果。
[0008]本发明实施例的语义解析方法,通过获取输入的语音数据,并对语音数据进行文本转换以生成文本数据,并对文本数据进行实体识别以获取文本数据中的实体类型标签,以及根据文本数据中的实体信息及对应的实体类型标签将文本数据转换为具有实体类型标签的文本数据,并根据具有实体类型标签的文本数据与数据库进行匹配,以生成语义解析结果,可降低噪声对语义解析的影响,准确地获取文本数据中的实体信息及其对应的实体类型标签,从而提高解析准确率。
[0009]本发明第二方面实施例提供了一种语义解析装置,包括:第一转换模块,用于获取输入的语音数据,并对所述语音数据进行文本转换以生成文本数据;识别模块,用于对所述文本数据进行实体识别以获取所述文本数据中的实体类型标签;第二转换模块,用于根据所述文本数据中的实体信息及对应的实体类型标签将所述文本数据转换为具有实体类型标签的文本数据;以及匹配模块,用于根据所述具有实体类型标签的文本数据与数据库进行匹配,以生成语义解析结果。
[0010]本发明实施例的语义解析装置,通过获取输入的语音数据,并对语音数据进行文本转换以生成文本数据,并对文本数据进行实体识别以获取文本数据中的实体类型标签,以及根据文本数据中的实体信息及对应的实体类型标签将文本数据转换为具有实体类型标签的文本数据,并根据具有实体类型标签的文本数据与数据库进行匹配,以生成语义解析结果,可降低噪声对语义解析的影响,准确地获取文本数据中的实体信息及其对应的实体类型标签,从而提高解析准确率。
[0011]本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0012]图1是根据本发明一个实施例的语义解析方法的流程图。
[0013]图2是根据本发明一个具体实施例的语义解析方法的流程图。
[0014]图3是根据本发明一个实施例的语义解析装置的结构示意图。
【具体实施方式】
[0015]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0016]下面参考附图描述本发明实施例的语义解析方法和装置。
[0017]图1是根据本发明一个实施例的语义解析方法的流程图,如图1所示,该方法包括:
[0018]S1、获取输入的语音数据,并对语音数据进行文本转换以生成文本数据。
[0019]举例来说,输入的语音数据为“查询一下北京明天的天气”,则可将该语音数据转换成对应的文本数据。
[0020]S2、对文本数据进行实体识别以获取文本数据中的实体类型标签。
[0021]其中,可通过条件随机场CRF模型获取文本数据中的实体类型标签,例如时间、人名、地点等。举例来说,文本数据为“查询一下北京明天的天气”,实体信息“北京”对应的实体类型标签为“city”,实体信息“明天”对应的实体类型标签为“time”。
[0022]S3、根据文本数据中的实体信息及对应的实体类型标签将文本数据转换为具有实体类型标签的文本数据。
[0023]举例来说,文本数据为“查询一下北京明天的天气”,其中,实体信息包括“北京”和“明天”,而实体信息“北京”对应的实体类型标签为“city”,实体信息“明天”对应的实体类型标签为“time”,则具有实体类型标签的文本数据为“查询一下北京(city)明天(time)的天气”。
[0024]S4、根据具有实体类型标签的文本数据与数据库进行匹配,以生成语义解析结果。
[0025]具体地,可根据具有实体类型标签的文本数据与数据库进行匹配以获取对应的正则表达式。更具体地,可提取文本数据中动词和名词及对应的位置关系,并根据文本数据中的名词确定所属的领域,然后根据文本数据中动词和名词及对应的位置关系,以及所属的领域获取对应的正则表达式。
[0026]举例来说,文本数据为“查询一下北京明天的天气”,可得知“查询”为动词,“北京”、“明天”、“天气”为名词,还可得知它们对应的位置关系。然后可确定所属的领域为天气领域。此外,还可通过“(.*) ? ”对噪声进行容错,最终获取的对应的正则表达式为(查询)(.*) ? (time)(的)?(.*) ? (city)(天气)。
[0027]在获取对应的正则表达式之后,可根据正则表达式从文本数据中提取对应的实体信息,并根据实体信息生成语义解析结果。
[0028]继续上述例子,获取的对应的正则表达式为(查询)(.*)? (time)(的)?(.*) ?(city)(天气),则对应的实体信息为“北京”、“明天”,由此可生成语义解析结果,得知用户的意图为查询北京明天的天气情况。
[0029]本发明实施例的语义解析方法,通过获取输入的语音数据,并对语音数据进行文本转换以生成文本数据,并对文本数据进行实体识别以获取文本数据中的实体类型标签,以及根据文本数据中的实体信息及对应的实体类型标签将文本数据转换为具有实体类型标签的文本数据,并根据具有实体类型标签的文本数据与数据库进行匹配,以生成语义解析结果,可降低噪声对语义解析的影响,准确地获取文本数据中的实体信息及其对应的实体类型标签,从而提高解析准确率。
[0030]图2是根据本发明一个具体实施例的语义解析方法的流程图,如图2所示,该方法包括:
[0031 ] S201、获取输入的语音数据,并将其转换成文本数据。
[0032]例如,用户输入语音数据“查询一下那个北京明天的天气”,则可将其转换成对应的文本数据“查询一下那个北京明天的天气”。
[0033]S202、对文本数据进行解析以获取文本数据中的实体类型标签。
[0034]具体地,可通过CRF模型获取文本数据中的实体类型标签。例如,天气领域主要具有两个实体信息时间和城市,则时间的实体类型标签为“time”,城市的实体类型标签为“city,,。
[0035]S203、根据文本数据和实体类型标签,将文本数据转换为具有实体类型标签的文本数据。
[0036]例如,可将文本数据“查询一下那个北京明天的天气”,转换为“查询一下明天(time)北京(city)的天气”。
[0037]S204、将具有实体类型标签的文本数据与数据库进行匹配,以生成语义解析结果。
[0038]例如,将具有实体类型标签的文本数据“查询一下明天(time)北京(city)的天气”与数据库中的正则表达式“(查询)(.*)? (time)(的)?(.*) ? (city)(天气)”进行匹配,可提取出“time =明天,城市=北京”。由此可生成语义解析结果,得知用户的意图为查询北京明天的天气情况。
[0039]本发明实施例的语义解析方法,通过获取输入的语音数据,并对语音数据进行文本转换以生成文本数据,并对文本数据进行实体识别以获取文本数据中的实体类型标签,以及根据文本数据中的实体信息及对应的实体类型标签将文本数据转换为具有实体类型标签的文本数据,并根据具有实体类型标签的文本数据与数据库进行匹配,以生成语义解析结果,可降低噪声对语义解析的影响,准确地获取文本数据中的实体信息及其对应的实体类型标签,从而提高解析准确率。
[0040]为了实现上述实施例,本发明还提出一种语义解析装置。
[0041]图3是根据本发明一个实施例的语义解析装置的结构示意图。
[0042]如图3所示,该语义解析装置可包括:第一转换模块110、识别模块120、第二转换模块130和匹配模块140。
[0043]其中,第一转换模块110用于获取输入的语音数据,并对语音数据进行文本转换以生成文本数据。
[0044]举例来说,输入的语音数据为“查询一下北京明天的天气”,则可将该语音数据转换成对应的文本
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1