一种情感与非情感问题的分类方法及系统的制作方法

文档序号:9453044阅读:306来源:国知局
一种情感与非情感问题的分类方法及系统的制作方法
【技术领域】
[0001] 本发明涉及自然语言分类处理技术领域,特别是涉及一种情感与非情感问题的分 类方法及系统。
【背景技术】
[0002] 通常地,利用传统的搜索引擎,可以从互联网上浏览和检索到我们所需要的信息, 为我们的生活带来很大的便利。但是,由于它们查询的基础是关键词,并非我们常用的自然 语言,搜索引擎仅仅缩小了用户的查找范围,却很少能直接给出用户想要的答案,用户必须 自己从海量相关信息中寻找答案。伴随着语音信息处理技术不断发展和优化,自动问答系 统应运而生,此类系统能够获得比信息检索更精确的信息。
[0003] 自动问答系统是通过理解用户以自然语言方式提出的问题,经过信息检索后,返 回给用户一个准确、简洁的答案的系统。自动问答系统主要分为三个模块:问题分析模块, 信息检索模块和答案抽取模块。其中,问题分析模块中最主要的任务就是问题分类,问题分 类对答案抽取的具体策略起到决定性作用,其目的在于根据问答的问题类型给问题贴上标 签,从而可以有效、快速地抽取出准确的答案。
[0004] 传统的问题分类方法中,基本都是针对问题的主题相关提问类型(例如:"why", "what"等类型)进行分类。然而,实际应用中,用户的提问有各种各样的类型,用户会提出 许多情感相关的问题,因此还要考虑问题本身是否包含情感词、包含什么样的情感词,这样 才能更好地帮助选择答案抽取的策略。例如,考虑以下四个问题语料:
[0005] 例1、怎么修理台灯?
[0006] 例2、白酒泡鸡蛋可以美白,鸡蛋需要去壳浸泡吗?
[0007] 例3、御宝珍羊牌奶粉质量好不好?
[0008] 例4、毛毯什么牌子好啊?
[0009] 上述四个例子中,例1和例2都是传统的主题问题,回答此类问题可以利用信息检 索技术搜索句子中的主题词进行自动答案回复。然而,例3、例4是典型的情感问题,回答 此类问题仅仅检索句中的主题词还远远不够,还需要对这些主题词的评论文本进行情感分 析,结合情感分析技术才能更好、更准确地实现自动问题回答。
[0010] 基于此,亟需一种能够对自动问答系统中问题语料的情感与非情感问题进行分类 的方法,以更好、更准确地对问题进行回答。

【发明内容】

[0011] 有鉴于此,本发明提供了一种情感与非情感问题的分类方法及系统,以达到使自 动问答系统能够更好、更准确地对问题进行回答的目的。
[0012] 为解决上述技术问题,本发明提供一种情感与非情感问题的分类方法,包括:
[0013] 抓取作为训练样本的问题语料;
[0014] 参考预设的情感类问题分类规则,对所述作为训练样本的问题语料进行类别标签 标注;
[0015] 利用标注后的作为训练样本的问题语料,构建情感问题分类器;
[0016] 向构建得到的情感问题分类器输入作为测试样本的问题语料,并利用所述情感问 题分类器输出的类别标签,确认所述作为测试样本的问题语料的情感类别;
[0017] 其中,所述类别标签包括情感类标签或非情感类标签。
[0018] 优选的,利用标注后的作为训练样本的问题语料,构建基于字特征和/或词特征 的情感问题分类器。
[0019] 优选的,利用爬虫程序在网络中抓取所述作为训练样本的问题语料。
[0020] 优选的,利用SVM算法构建所述情感问题分类器。
[0021] 优选的,在对所述作为训练样本的问题语料进行类别标签标注之后,还包括:
[0022] 对标注后的作为训练样本的问题语料进行一致性分析。
[0023] 本发明还提供了一种情感与非情感问题的分类系统,包括:
[0024] 语料获取单元,用于抓取作为训练样本的问题语料;
[0025] 标注单元,用于参考预设的情感类问题分类规则,对所述作为训练样本的问题语 料进行类别标签标注;
[0026] 分类器构建单元,用于利用标注后的作为训练样本的问题语料,构建情感问题分 类器;
[0027] 情感分类单元,用于向构建得到的情感问题分类器输入作为测试样本的问题语 料,并利用所述情感问题分类器输出的类别标签,确认所述作为测试样本的问题语料的情 感类别;
[0028] 其中,所述类别标签包括情感类标签或非情感类标签。
[0029] 以上本发明提供的情感与非情感问题的分类方法及系统中,对抓取到的作为训 练样本的问题语料进行类别标签标注,这样,标注后的作为训练样本的问题语料的情感类 型是已知的,可以利用标注后的作为训练样本的问题语料,训练分类器,构建情感问题分类 器;向构建得到的情感问题分类器输入作为测试样本的问题语料,当情感问题分类器输出 的类别标签为情感类标签时,认为测试样本为情感类问题,当输出的类别标签为非情感类 标签时,认为测试样本为非情感类问题。以上技术方案能够对自动问答系统中问题语料的 情感与非情感问题进行分类,达到了自动问答系统能够更好、更准确地对问题进行回答的 目的。
【附图说明】
[0030] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。
[0031] 图1为本发明一种情感与非情感问题的分类方法实施例1的流程图;
[0032] 图2为本发明一种情感与非情感问题的分类系统实施例1的结构框图示意图。
【具体实施方式】
[0033] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0034] 本发明的核心是提供一种情感与非情感问题的分类方法及系统,以达到使自动问 答系统能够更好、更准确地对问题进行回答的目的。
[0035] 为了便于叙述,先将本发明涉及的常用的术语与标记介绍如下:
[0036] 定义1 :问答系统(Q&ASystem):当下比较热门的系统,用户提出问题,能够很快 得到相关的答案。
[0037] 定义2 :词特征(wordfeature):-元词特征,例如"秦羊奶粉怎么认真假"分词 成:"秦"、"羊"、"奶粉"、"怎么"、"认"、"真假"。
[0038] 定义3 :字特征(characterfeature):-元字特征,例如:"白色情人节男生要什 么礼物? "分成:"白"、"色"、"情"、"人"、"节"、"男"、"生"、"要"、"什"、"么"、"礼"、"物"、"?"。
[0039] 定义 4 :机器学习分类方法(ClassificationMethodsBasedonMachine Learning):用于构建分类器的统计学习方法,输入是表示样本的向量,输出是样本的类别 标签。根据学习算法的不同,常见的分类方法有朴素贝叶斯、最大熵分类方法、支持向量机 等分类方法,本发明采用支持向量机。
[0040] 为了使本技术领域的人员更好地理解本发明方案,下面结合附图和【具体实施方式】 对本发明作进一步的详细说明。
[0041] 参考图1,示出了本发明一种情感与非情感问题的分类方法实施例1的流程图,该 方法具体可以包括如下步骤:
[0042] 步骤S100、抓取作为训练样本的问题语料;
[0043] 具体地,可以利用爬虫程序在网络中抓取一定数量的问题语料,然后将其作为训 练样本。比如,从通过网络爬虫程序抓取百度知道生活类别中高悬赏问题。
[0044] 本发明中,先从网络中抓取适量的问题语料,将这些问题语料中的一部分作为训 练语料,剩下的部分作为测试样本。
[0045] 步骤S101、参考预设的情感类问题分类规则,对所述作为训练样本的问题语料进 行类别标签标注;
[0046] 实际应用中,普通的文本情感分类主要是正负极性的分类,是针对文本中的关键 词进行分类;而问题分类需要考虑用户的提问方式,用户的提问有各种各样的类型,给我们 问题分类带来许多不便,因此还要考虑句子是否包含情感词、包含什么样的情感词,这样才 能更好的帮助选择答案抽取的策略。
[0047] 本发明中,所述类别标签包括情感类标签或非情感类标签。对于情感类问题分类 规则,大致将情感类问题定位为可以用"这样(做)很好,那样(做)不好"的句式来回答的 问题,可以参照以下表1中的内容,比如,当问题语料中需要评价一个人或者一件事或者物 的好坏、优缺点(Howabout……?)时,就将该问题语料的类别标签标注为情感类。当然, 表1中的内容仅仅是举个例子,本领域技术人员可根据实际需求进行设定。
[0048] 表1情感类问题分类规则
[0049]
[0051] 本发明中,由于对于问题的情感分类本身就是很主观的动作,因此,对于最初问题 语料的情感标签标注,我们最好是采用人工标注的方式,具体地,参照上述表1中的情感类 问题分类规则(也称标注规则),邀请两位标注者利用我们提出的标注规则进行中文语料 标注,进一步地,在对所述作为训练样本的问题语料进行类别标签标注之后,还可以对标注 后的作为训练样本的问题语料进行一致性分析(在后文叙述)。以下表2中示出了标注者 标注好的四个例子:
[0052] 表 2
[0053]
[0054] 本发明中,先从网络中抓取适量的问题语料,按照上述内容将这些问题语料都标 注好,然后将这些标注好的问题语料中的一部分作为训练语料,另一部分部分作为测试样 本。进一步地,为避免每次都要进行标注,可以将这些标注好的问题语料组织形成一定规模 的情感问题语料库,需要的时候从这个情感问题语料库中提取即可。
[0055] 具体地,比如,首先要标注好样本(包括训练样本和测试样本),情感和非情感问 题各1000条作为实验数据,选取前1600的样本作为训练样本(情感与非情感各800),后 400个样本作为测试样本(情感与非情感各200个)。
[0056] 步骤S102、利用标注后的作为训练样本的问题语料,构建情感问题分类器;
[0057] 具体地,本发明采用TF向量表示法,即文档向量的分量为相应的单词在该文档中 出现的频度。文本的向量作为机器学习分类方法实现的分类器的输入。具体地,可以利用 SVM算法构建所述情感问题分类器。支持向量机分类方法(SVM)是在统计理论
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1