一种问答系统中基于语义的相似度分析方法、系统及应用

文档序号:8258492阅读:228来源:国知局
一种问答系统中基于语义的相似度分析方法、系统及应用
【技术领域】
[0001] 本发明属于语义相似度计算领域,尤其涉及一种问答系统中基于语义的相似度分 析方法、系统及应用。
【背景技术】
[0002] 近年来CQA系统在互联网上兴起,这类系统以网友提问网友回答的形式出现,又 叫网友问答系统,比如:百度的"知道",新浪的"知识人",搜狗的"问问"等。这些系统利用 广大网友的智慧,解决了大量的问题,并积累了数量庞大的(问句,答案)数据库。在这些 问答库中寻找相似的问句,需要一套快速准确的问句相似度分析方法。
[0003] 针对每一个待比较的问句都需要进行问句语义分析和语义计算,效率低,主要用 于小规模数据的FAQ系统,不适用于海量数据的CQA系统。

【发明内容】

[0004] 本发明的目的在于提供一种问答系统中基于语义的相似度分析方法,旨在解决上 述的技术问题。
[0005] 本发明是这样实现的,一种问答系统中基于语义的相似度分析方法,所述相似度 分析方法包括以下步骤:
[0006] A、QICA对输入的问句进行信息分类;
[0007] B、QICA对输入的问句进行信息分类标注;
[0008] C、对输入的问句语义相似度进行分析计算,公式:
[0009] SimSemantic (A,B) = Sim(b (A),b (B)) *a+(l_a) *SimT (W(B),W(A)),其中,W(X)表 示问句X的类型;SimTh,t2)表示两个问句类型的相似度,其公式:
[0010]
【主权项】
1. 一种问答系统中基于语义的相似度分析方法,其特征在于,所述相似度分析方法包 括以下步骤: A、QICA对输入的问句进行信息分类; B、QICA对输入的问句进行信息分类标注; C、 对输入的问句语义相似度进行分析计算,公式: 5;[111361]1&111:;[(3(六,13)=3;[111〇3(六),13(13))*&+(1-&)*3;[1111'〇¥(13),¥(六)),其中,¥(父)表不问 句X的类型;SimTUi,t2)表示两个问句类型的相似度,其公式:
其中,C(tj)表示在一个问句集中,CSimh, tp表示具有相同语义且类型分别属于&和、_的问句对的个数,a是一个比重参 数,其sinKSpS2)-> [0,1]中的SpS2是经过分词并带有词性标记的序列,其公式:
CSimW^,S2)表示两个序列包含相同词的个数,CSimP^,S2)表示相同词性的个数,L(S)表示序列长度。
2. 根据权利要求1所述的相似度分析方法,其特征在于,QICA利用抽取问句中的关键 词来对问句的语义相似度分析。
3. 根据权利要求1或2所述的相似度分析方法,其特征在于,在步骤A中所述信息分类 包括问句主题、主题焦点、疑问信息、限制信息及其它信息共五类。
4. 根据权利要求3所述的相似度分析方法,其特征在于,所述步骤B中的信息分类标注 将一个问句从简单的文字空间映射到一个结构化的语义空间实现问句的语义分析。
5. -种问答系统中基于语义的相似度分析系统,其特征在于,所述相似度系统包括: 信息分类模块,用于QICA对输入的问句进行信息分类; 标注模块,用于QICA对输入的问句进行信息分类标注; 相似度分析模块,用于对输入的问句语义相似度进行分析计算,公式: 5;[111361]1&111:;[(3(六,13)=3;[111〇3(六),13(13))*&+(1-&)*3;[1111'〇¥(13),¥(六)),其中,¥(父)表不问 句X的类型;SimTUi,t2)表示两个问句类型的相似度,其公式:
其中,C(tj)表示在一个问句集中,CSimh, tp表示具有相同语义且类型分别属于&和、_的问句对的个数,a是一个比重参 数,其sinKSpS2)-> [0,1]中的SpS2是经过分词并带有词性标记的序列,其公式:
CSimW^,S2)表示两个序列包含相同词的个数,CSimP^,S2)表示相同词性的个数, L(S)表示序列长度。
6. 根据权利要求5所述的相似度分析系统,其特征在于,QICA利用抽取问句中的关键 词来对问句的语义相似度分析。
7. 根据权利要求5或6所述的相似度分析系统,其特征在于,在信息分类模块中所述信 息分类包括问句主题、主题焦点、疑问信息、限制信息及其它信息共五类。
8. 根据权利要求7所述的相似度分析系统,其特征在于,所述标注模块中的信息分类 标注将一个问句从简单的文字空间映射到一个结构化的语义空间实现问句的语义分析。
9. 一种如权利要求1-4任一项所述相似度分析方法的应用,其特征在于,将权利要求 1-4任一项所述的相似度分析方法应用于搜索引擎。
【专利摘要】本发明适用于问答系统中语义相似度计算领域,提供了一种问答系统中基于语义的相似度分析方法,所述相似度分析方法包括以下步骤:A、QICA对输入的问句进行信息分类;B、QICA对输入的问句进行信息分类标注;C、对输入的问句语义相似度进行分析计算。通过抽取问句的语义关键词实现问句的语义分析和相似度分析,提高了语义分析的效率,适于海量数据的CQA系统,检索结果的准确率高。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104572618
【申请号】CN201410849923
【发明人】范士喜, 陈丽丹, 韩喜双
【申请人】哈尔滨工业大学深圳研究生院
【公开日】2015年4月29日
【申请日】2014年12月31日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1