语义分析方法和装置的制造方法

文档序号:9371986阅读:349来源:国知局
语义分析方法和装置的制造方法
【技术领域】
[0001] 本发明涉及自然语言处理技术,尤其涉及一种语义分析方法和装置。
【背景技术】
[0002] 近年来,语音识别技术的发展较大程度的提高了人机交互水平,而语义分析技术 作为理解自然语言的关键部分,对于人机交互的智能化程度起到了决定性作用。
[0003] 现有的语义分析方法包括:对句子进行分词,得到M个词语;分别对M个词语进行 语义角色标注,寻找并定位该句子中的谓语;对该谓语的施与者和接受者进行标注,得到句 子的语义。
[0004] 然而,当句子中包含多个信息时,由于仅对谓语的施与者和接受者进行标注以确 定句子的语义,使得无法标注句子中的其他重要信息,易造成信息丢失。此外,当句子为口 语化语句时,语义分析过程中可能无法寻找到句子中的谓语,进而难以实现语义分析。

【发明内容】

[0005] 本发明的实施例提供一种语义分析方法和装置,能够分析句子包含的多个信息。
[0006] 为达到上述目的,本发明的实施例采用如下技术方案:
[0007] -种语义分析方法,包括:对用户输入语音对应的文本进行分词,得到L个词语, 所述1 ;分别获取所述L个词语的特性;根据所述特性分别确定所述L个词语包含的信 息量,并从所述L个词语中选取包含信息量多的至少一个词语作为中心词语;分别以所述 中心词语为中心做窗口,确定所述中心词语的上下文词语;将所述上下文词语与预先训练 得到的语义模型进行匹配,得到匹配结果;根据所述匹配结果分析语义。
[0008] 一种语义分析装置,包括:
[0009] 第一分词模块,用于对用户输入语音对应的文本进行分词,得到L个词语,所述 L^l;
[0010] 第一标注模块,与所述第一分词模块相连,用于分别获取所述第一分词模块得到 的L个词语的特性;
[0011] 第一中心词语选取模块,与所述第一分词模块和所述第一标注模块相连,用于根 据所述第一标注模块标注的特性分别确定所述L个词语包含的信息量,并从所述L个词语 中选取包含信息量多的至少一个词语作为中心词语;
[0012] 第一上下文获取模块,与所述第一中心词语选取模块相连,用于分别以所述第一 中心词语选取模块选取的中心词语为中心做窗口,确定所述中心词语的上下文词语;
[0013] 模型匹配模块,与所述第一上下文获取模块相连,用于将所述第一上下文获取模 块得到的上下文词语与预先训练得到的语义模型进行匹配,得到匹配结果;
[0014] 语义分析模块,与所述模型匹配模块相连,用于根据所述模型匹配模块得到的匹 配结果分析语义。
[0015] 本发明实施例提供的语义分析方法和装置,由于将包含信息量多的至少一个词语 作为中心词语,并做窗口分别确定中心词语的上下文词语,使得该方案能够标注句子中信 息量较大的信息,从而实现重要信息的语义分析;该方案解决了现有技术中当句子中包含 多个信息时,由于仅对谓语的施与者和接受者进行标注以确定句子的语义,使得无法标注 句子中的其他重要信息,易造成信息丢失的问题。此外,由于根据中心词语进行语义分析, 无需考虑句子的句法,使得本发明实施例提供的方案能够实现没有谓语的口语化语句的语 义分析;解决了现有技术中当句子为口语化语句时,语义分析过程中可能无法寻找到句子 中的谓语,进而难以实现语义分析的问题。
【附图说明】
[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0017] 图1为本发明实施例一提供的语义分析方法的流程图;
[0018] 图2为本发明实施例二提供的语义分析方法的流程图一;
[0019] 图3为本发明实施例二提供的语义分析方法的流程图二;
[0020] 图4为本发明实施例三提供的语义分析装置的结构示意图一;
[0021] 图5为本发明实施例三提供的语义分析装置的结构示意图二;
[0022] 图6为本发明实施例三提供的语义分析装置的结构示意图三;
[0023] 图7为图6所示的语义分析装置中概率统计模块的结构示意图;
[0024] 图8为图4所示的语义分析装置中第一上下文获取模块的结构示意图一;
[0025] 图9为图4所示的语义分析装置中第一上下文获取模块的结构示意图二。
【具体实施方式】
[0026] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其 他实施例,都属于本发明保护的范围。
[0027] 为解决现有技术易造成信息丢失的问题,本发明提供一种语义分析方法和装置。
[0028] 实施例一:
[0029] 如图1所示,本发明实施例提供的语义分析方法,包括:
[0030] 步骤101,对用户输入语音对应的文本进行分词,得到L个词语。
[0031 ] 在本实施例中,可以首先对用户输入语音进行语音识别,将用户输入语音转换为 文本。其中,可以采用HTK/ATK工具对用户输入语音进行语音识别;也可以采用非特定人语 音识别方式对用户输入语音进行语音识别,在此不作限制。通过上述方式对用户输入语音 进行语音识别后,可以输出多候选的识别结果,并且可以确定每个识别结果对应的置信度。 其中,通过步骤101分词得到的L个词语,该L > 1。
[0032] 在本实施例中,用户输入语音为汉语时,可以采用汉语分词系统,如ICTCLAS等对 用户输入语音对应的文本进行分词;用户输入语音为其他语言时,可以采用该语言对应的 分词系统进行分词,在此不再一一赘述。
[0033] 步骤102,分别获取该L个词语的特性。
[0034] 在本实施例中,可以通过预设的标注规则对该L个词语进行标注,从而获取该L 个词语的特性。该预设的标注规则可以根据需要进行在全领域范围内设置;预设的标注规 则也可以与用户输入语音所属的使用领域对应,可以根据需要预先设置。以使用领域为订 票系统为例,标注规则可以包括:人名、地名、航空公司、舱位、时间/日期、数字、形容词、副 词、语气词、助词、连词等;对于其他使用领域,标注规则可以根据该使用领域相应的情况制 定,在此不再一一赘述。
[0035] 在本实施例中,也可以通过其他方式获取该L个词语的特性。该特性可以反应词 语特有的的词性、代表意义等命名实体特征。
[0036] 步骤103,根据该特性分别确定该L个词语包含的信息量,并从L个词语中选取包 含信息量多的至少一个词语作为中心词语。
[0037] 在本实施例中,不同特性的词语包含的信息多少不同,为了便于衡量,可以预设每 种特性对应的信息量;从而当通过步骤102获取L个词语的特性后,可以直接根据特性分别 确定L个词语包含的信息量。以使用领域为订票系统为例,信息量大的词语可以为名词和 副词;如"从北京到上海最便宜的机票是什么时间",这类问话中往往谓语只是一些系动词 ("是","有"),代表意思仅仅希望获取信息,而名词"北京"、"上海",以及程度副词短语"最 便宜"才是系统需要识别理解的。
[0038] 在本实施例中,可以设置信息量门限,把包含
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1