信息搜索的方法及装置、人工座席服务方法及系统的制作方法_2

文档序号:9887677阅读:来源:国知局
个特定时间结构“2013年I月I日10点45分”,则与分词具有相同或相似结构的实体可为一个日期语义表达式“ΧΧΧΧ年XX月XX日XX点XX分”等。该等类似的特殊语义表达式还可包括人名、地址、电话号码等。
[0066]步骤S103,提供知识库,所述知识库至少包括多组问题和与每组问题对应的答案信息。所述知识库随着搜索的次数增多,具有自学习完善的功能,同时也接受专家监督。
[0067]所述知识库还可以包括文档数据,所述文档数据可以包括业务数据、操作方法等等内容,故所述知识库不仅限于交互的功能,还可提供更多的功能。
[0068]进一步的,每组问题包括一个或多个语义匹配结构;优选地,一个语义匹配结构也可为肯定式语义匹配结构或否定式语义匹配结构;一组问题所表达的语义相近。
[0069]其中,一个语义匹配结构可表现为一个语义表达式。优选地,该语义匹配结构包括但不限于以下至少一项:
[0070]a)多个词汇以及该多个词汇中至少一个词汇的语义信息,其中,一个词汇的语义信息与一个分词的语义信息相类似,在此不再赘述;
[0071]b)所述多个词汇之间的逻辑关系,如该多个词汇之间的先后顺序关系、限定关系(如一个词汇为另一个词汇的修饰词)等。
[0072]例如,一组语义匹配信息包括以下三个语义匹配结构“[日期相关?][雨种类][对于][天气地区名][有没有][影响]”、“[天气地区名][天气相关][还是][雨种类]”和“[查询?][天气地区名][日期相关|@时间?][是否?][需要I可以?][带伞]”。其中,T表示逻辑或,每个“[]”中的内容表示一个词汇和/或该词汇的语义信息,如“带伞”为一个词汇,“天气地区名”指代地区类词汇的特殊表达式等。
[0073]步骤S104,将所述语义信息与所述知识库的多组问题进行匹配查询,若匹配上,则将匹配上的一组问题所对应的答案信息作为搜索结果;否则,则通过全文检索的方式在所述知识库中进行查询以得到与所述语义信息对应的搜索结果。
[0074]具体的,在本步骤中,将待搜索的文本的语义信息先与知识库中的问题进行匹配查询,通过拟人化的机制对待搜索的文本进行精准定位,从而优先提供更准确更快速的搜索结果,体现出较高的检索效率。例如,在步骤SlOI中待搜索内容的文本为“10元本地流量包怎么样”,对该文本进行分词得到的结果是:分词“10元本地流量包”和“怎么样”,在步骤S102中对分词“10元本地流量包”和“怎么样”进行语义解析得到两者分别对应的语义信息,在步骤S104中将两者的语义信息与步骤S103中提供的知识库中的多组问题进行匹配,并确定两者的语义信息与三个问题“10元本地流量包提供的服务是什么”、“我想问一下,你知道10元本地流量包吗”、“10元本地流量包能给我什么服务”构成的一组问题相匹配,则该组对应的答案信息“10元本地流量包是针对XX用户推出的流量优惠活动,您只需支付10元月费,即可享受……”即可作为与分词“10元本地流量包”以及“怎么样”的语义信息对应的答案信息。
[0075]在本实施例的步骤S104中,若将所述语义信息与所述知识库的多组问题进行匹配查询,若未匹配上,则通过全文检索的方式在所述知识库中进行查询以得到所述语义信息对应的检索结果,在这种情况下还需要用到所述知识库中还包括的文档数据;所述文档数据的类型包括:操作方法和/或业务数据等。所述问题包括:标准问。该文档数据以特有的原子化、细颗粒化得方式存储,将非结构化的业务文档进行分解,通过业务模板的方式把用户抽象出的问题与多维度答案以及多类型素材方式(比如:多媒体等附件)关联出来的结构数据进行模板套用,达到多篇非结构化文档转换成高复用原子化支持多渠道多平台的细知识点。
[0076]本发明实施例通过全文检索的方式可以保证必然会提供搜索结果,避免了仅与知识库中的问题进行匹配查询时可能会没有搜索结果的情况。
[0077]更进一步的,通过全文检索的方式在所述知识库中进行查询以得到所述语义信息对应的检索结果,包括:
[0078]基于所述语义信息在所述知识库的文档数据、标准问和答案信息中进行全文检索,逐条显示出所述语义信息对应的检索结果。
[0079]进一步的,全文检索时采用以结构化中的问题为最小单位,将文档数据目录内容以及存储的问题、答案、以及相关素材文件在全文搜索中一次性搜索完成展现。展现结果中包含:与待搜索文本的语义信息相关的文档数据目录的汇总、语义精准定位的答案、语义推荐相关问题、以及底层算法推荐的协同数据,支持其中的多媒体素材直接预览展现。
[0080]进一步的,逐条显示出所述语义信息对应的检索结果,包括:
[0081]按照所述语义信息与所述待搜索内容的语义相似度从高到底依次显示出所述语义信息对应的检索结果;
[0082]对于语义相似度相同的情况,则:按照文档数据的创建时间从晚到早的顺序依次显示出所述语义信息对应的检索结果,或者,按照文档数据的修改时间从晚到早的顺序依次显示出所述语义信息对应的检索结果,或者,按照文档数据的点击量从多到少的顺序依次显示出所述语义信息对应的检索结果。下面举一个最后通过全文检索找到检索结果的例子:
[0083]若输入“信用卡”,则信用卡分词得到:信用卡、信用、卡、信、用;
[0084]经过语义解析后还可以获得与信用卡语义非常相近的:银行卡、银行、卡、银。
[0085]经过语义解析之后,除了“信用卡”本身的分词之外,还得到了含义相关的其他词语,因此,本发明通过对输入的待搜索文本进行更好的语义理解,能够在后续提供更准确的答案信息。
[0086]全文检索时,在知识库的文档数据以及问题和问题对应的答案中分别检索上面八个词语并返回搜索结果,基于文档数据检索到的结果包括:信用卡带宽排行榜、信用卡怎么申请、信用卡论坛、信用卡套现等相关业务数据或者操作数据,基于问题和问题对应的答案检索到的结果包括:如何申请信用卡及其对应的答案、如何识别信用卡诈骗及其对应的答复等。由于本发明实施例在进行全文检索时,不仅对待搜索内容进行检索,而且对待搜索内容的语义信息进行检索,从而进一步提高了搜索的准确性,另一方面由于检索的资源一知识库中所包含的内容,相比于现有技术中仅包含文档数据的数据库来说较为全面,也最大限度降低了搜索结果对于业务知识熟悉程度的依赖。
[0087]本发明第二实施例,一种信息搜索的方法,本实施例所述方法与第一实施例大致相同,区别在于,本实施例的所述方法,还包括以下具体步骤:
[0088]在对分词的结果进行语义解析之前,对所述分词的结果进行过滤纠错,以过滤掉在以下方面有错误的分词:拼写,和/或,语法。
[0089]本实施例先对分词的结果进行过滤纠错再进行语义解析,可以使语义解析的结果更加准确,从而提升搜索结果的准确性。
[0090]本发明第三实施例,与第一实施例对应介绍一种信息搜索的装置,如图2所示,包括以下组成部分:
[0091]I)分词模块201,用于对输入的待搜索内容的文本进行分词;
[0092]2)语义解析模块202,用于对分词的结果进行语义解析得到各分词的语义信息;
[0093]具体的,所述语义信息包括以下至少一项:
[0094]1.分词的同义词和/或同义词组合;
[0095 ] 2.分词的同类词和/或同类词组合;
[0096]3.与分词具有相同或相似结构的实体。
[0097]3)匹配查询模块203,用于将所述语义信息与所述知识库的多组问题进行匹配查询,若匹配上,则将匹配上的一组问题所对应的答案信息作为搜索结果;否则,则通过全文检索的方式在所述知识库中进行查询以得到与所述语义信息对应的搜索结果;所述知识库至少包括多组问题和与每组问题对应的答案信息。
[0098]具体的,每组问题包括一
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1