一种匹配用户问题的方法、装置、非暂态计算机可读存储介质及电子设备与流程

文档序号:12906154阅读:194来源:国知局
一种匹配用户问题的方法、装置、非暂态计算机可读存储介质及电子设备与流程

本发明涉及计算机技术领域,尤其涉及一种匹配用户问题的方法、装置、非暂态计算机可读存储介质及电子设备。



背景技术:

随着各大厂商对用户体验的重视的不断提高,绝大部分厂商都提供了专门的问题反馈系统用于为用户或供销商解决产品及相关的问题。一般,用户通过问题反馈系统向厂商提出自己遇到的问题或者建议,为了提高用户的体验,需要及时准确地回复用户反馈的问题。

目前多为利用现有问题数据库,通过筛选以发现用户的问题并快速回复,能够采用的具体方法主要有:一、客服人员通过关键词筛选,找到相似问题,批量回复,这种方法的缺点是人工工作量大,人力资源成本较高。二、计算用户反馈问题与常见问题的余弦相似度,通过余弦相似度筛选同类问题或相似问题。但是本方法受限于计算量,这种方案在数据量大的情况下,几乎不可能做到及时响应,匹配效率低。三、计算用户反馈问题与常见问题的simhash值(相似哈希值),从而得到汉明距离,根据汉明距离筛选同类问题或相似问题,这种方法匹配效率高,但是针对于用户反馈的短文本,其准确性并不理想。

发明人在实现发明的过程中发现,现有技术中存在着无法兼顾匹配效率和准确性的问题。



技术实现要素:

本发明提供一种匹配用户问题的方法、装置、非暂态计算机可读存储介质及电子设备,用以提高匹配效率及准确性。

本发明实施例提供一种匹配用户问题的方法,包括:

获取用户的反馈问题;

分别计算反馈问题和各样本问题的第一距离;

当第一距离中的最小第一距离不小于第一阈值且小于第二阈值时,对反馈问题进行扩展,获得扩展问题;

计算扩展问题和各样本问题的第二距离;

当第二距离中的最小第二距离小于第三阈值,则返回最小第二距离对应的样本问题的答复。

本发明实施例提供一种匹配用户问题的装置,包括:

接收模块,用于获取用户的反馈问题;

计算模块,用于分别计算反馈问题和各样本问题的第一距离;

扩展模块,用于当第一距离中的最小第一距离不小于第一阈值且小于第二阈值时,对反馈问题进行扩展,获得扩展问题;

计算模块,还用于计算扩展问题和各样本问题的第二距离;

返回模块,用于当第二距离中的最小第二距离小于第三阈值时,则返回最小第二距离对应的样本问题的答复。

本发明实施例提供一种匹配用户问题的方法、装置、非暂态计算机可读存储介质及电子设备,包括:获取用户的反馈问题;分别计算反馈问题和各样本问题的第一距离;从第一距离中确定最小第一距离;若最小第一距离不小于第一阈值且小于第二阈值时,对反馈问题进行扩展,获得扩展问题;计算扩展问题和各样本问题的第二距离;从第二距离中确定最小第二距离;若最小第二距离小于第三阈值,则返回最小第二距离对应的样本问题的答复。本发明实施例所提供的方法采用了第一距离和第二距离两个判断指标,这两个指标相对应于两种不同的匹配方法,在具体实施时,第一距离采用计算效率较高的计算方法,能够提高对大部分问题的回复效率,同时,引入第二距离以解决第一距离由于计算过快而带来的准确性不高的问题,从而使本技术方案在提高问题匹配效率的同时,又保证了问题匹配的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种匹配用户问题的方法流程示意图;

图2为本发明实施例提供的一种用户问题匹配流程图;

图3为本发明实施例提供的另一种扩展问题和样本问题的匹配方式示意图;

图4为本发明实施例提供的一种匹配用户问题的装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

图1为本发明实施例提供的一种匹配用户问题的方法流程示意图,如图1所示,包括如下步骤:

s101:获取用户的反馈问题;

s102:分别计算反馈问题和各样本问题的第一距离;

s103:当第一距离中的最小第一距离不小于第一阈值且小于第二阈值时,对反馈问题进行扩展,获得扩展问题;

s104:计算扩展问题和各样本问题的第二距离;

s105:当第二距离中的最小第二距离小于第三阈值,则返回最小第二距离对应的样本问题的答复。

具体实施过程中,样本问题为存储于数据库中的已有问题,每一个样本都对应着一个答复,对用户的反馈问题的匹配即是为用户的反馈问题匹配到一个相似度足够高的样本问题并将该样本问题的答复作为对用户的反馈问题的答复返回给用户。

在s101的具体实施过程中,用户的反馈问题并不仅仅只是消费者对于产品的反馈问题,也包括了潜在消费者对产品的咨询问题、销售商对产品的销售问题等多种问题类型。对反馈问题的获取可以通过互联网网站的形式获取,即获取用户在产品官网或其它渠道输入反馈问题,也可以通过官方电话的形式获取,即获取用户通过电话提出的反馈问题等多种获取方式。由于用户的反馈问题存在多种格式,一些格式并不会被识别,如反馈问题中存在繁体字,用一些数字表示中文,存在特殊字符等等,因此,可选的,获取反馈问题后,还需对反馈问题文本进行标准化,例如,将反馈问题中的数字转为中文,繁体转为简体,去掉其中的特殊字符等。

在s102的具体实施过程中,第一距离应为如汉明距离之类的计算效率较高的判断指标。分别计算反馈问题和各样本问题的第一距离,例如,若有n个样本问题,则需分别计算反馈问题和这n个样本问题中每一个样本问题之间的第一距离从而获得n个第一距离。

在s103的具体实施过程中,由于样本问题具有多个,因此也会获得多个第一距离,如上述s102中共获得n个第一距离。从多个第一距离中确定最小第一距离,则最小第一距离所对应的样本问题可以认为是现有的多个样本问题中,与反馈问题最为相似的样本问题。最小第一距离对应的样本问题指的是用来与反馈问题通过计算获取该最小第一距离的样本问题,以下所述的样本问题与各种距离的对应关系与此相同。

若获得的最小第一距离不小于第一阈值且小于第二阈值的情况下,对反馈问题进行扩展,获得扩展问题。第一阈值是以第一距离为判断指标时,不满足第一距离的相似度匹配要求的最小门限值,第一距离不小于第一阈值的样本问题无法与样本问题匹配。但是,由于第一距离的计算效率过高,其在准确性上存在不足,因此当最小第一距离不小于第一阈值时,进一步判断最小第一距离是否小于第二阈值,第二阈值是对于有可能匹配反馈问题的样本问题,其第一距离不能超过的最大门限值。第一距离位于第一阈值和第二阈值之间的样本问题,其与反馈问题较为接近,说明反馈问题有可能实质上存在能够与之匹配的样本问题,但由于第一距离的准确性不高,而导致第一距离超过了第一阈值。

可选的,在最小第一距离小于第一阈值的情况下,返回最小第一距离对应的样本问题的答复。最小第一距离小于第一阈值,说明最小第一距离对应的样本问题与反馈问题足够类似,此时便可以将样本问题的答复作为反馈问题的答复返回给用户。

需要指出的是,第一距离与第一阈值的比较和第一距离与第二阈值的比较并无严格的先后顺序,既可以先将第一距离与第一阈值比较,当第一距离不小于第一阈值时,在将第一距离与第二阈值比较;也可以先将第一距离与第二阈值比较,当第一距离小于第二阈值时,再将第一距离与第一阈值比较,顺序的改变并不影响最终处理结果。可选的,第一阈值和第二阈值可以根据经验设定,也可以根据多次匹配测试确定。

在s104的具体实施过程中,由于经过以第一距离为判断指标的两次筛选之后,大部分的反馈问题都会被处理,仅剩下小部分反馈问题,因此可以对这小部分反馈问题进行更为精细但计算量大的处理。具体为,采用近义词替换及语句变形等多种方式对反馈问题进行扩展,获取扩展问题,之后,计算扩展问题和各样本问题的第二距离,第二距离的计算量大但更为精细。可选的,采用word2vec计算的近义词作为扩展词汇对反馈问题进行扩展,获取扩展问题。可选的,因为需要计算第二距离的反馈问题的数量并不多,因此第二距离可以包括多种类型的判断指标,但第二距离必须包含至少一种精确度高的判断指标,例如第二距离可以是汉明距离、编辑距离、余弦相似度等指标的任意组合,但其中必须包含如编辑距离或余弦相似度这类精确度高的判断指标。可选的,第二距离为汉明距离或编辑距离,作为第二距离的汉明距离对应的判断阈值应不小于上述第一距离,第二距离中即包含汉明距离,又包含编辑距离时,即能够提高计算效率又能保证计算精度。

可选的,在最小第一距离不小于第二阈值的情况下,对反馈问题进行人工处理。人工处理包括了人工答复反馈问题,更加优选的,进一步判断该反馈问题是否有必要加入存储样本问题的数据库中,若有,则将反馈问题作为新的样本问题加入数据库,并作相应的一系列处理,若无,则将反馈问题丢入垃圾池。

在s105的具体实施过程中,在s104中获得了多个第二距离,这些第二距离代表了扩展问题与样本问题的相似程度,从这些第二距离中确定的最小第二距离对应着与扩展问题最相近的样本问题。由于第二距离可以包含多个判断指标,相应的,最小第二距离也会存在多个。

第三阈值是匹配度满足要求的样本问题的第二距离不能超过的最大门限值,在最小第二距离小于第三阈值的情况下,说明扩展问题与最小第二距离对应的样本问题的相似度足够高,因此,扩展问题可以与最小第二距离对应的样本问题相匹配,将最小第二距离对应的样本问题的答复作为反馈问题的答复返回给用户。可选的,当第二距离包含多个判断指标时,第三阈值也包含相应的多个判断阈值。可选的,当第二距离包含多个判断指标时,最小第二距离中任意一个判断指标满足第三阈值中与该判断指标对应的判断阈值时,即认为该最小第二距离对应的样本问题与反馈问题相匹配,可将该最小阈值对应的样本问题的答复返回给用户。

可选的,在第二距离不小于第三阈值的情况下,对反馈问题进行人工处理。

综上所述,本发明实施例所提供的方法采用了第一距离和第二距离两个判断指标,这两个指标相对应于两种不同的匹配方法,在具体实施时,第一距离采用计算效率较高的计算方法,能够提高对大部分问题的回复效率,同时,引入第二距离以解决第一距离由于计算过快而带来的准确性不高的问题,从而使本技术方案在提高问题匹配效率的同时,又保证了问题匹配的准确性。

为了进一步说明本发明实施例所提出的一种匹配用户问题的方法,以第一距离为汉明距离,第二距离为汉明距离和编辑距离提出以下具体实施例,需要指出的是,以下具体实施例仅是为了说明本发明实施例所提出的一种匹配用户问题的方法,并不代表本发明实施例所提出的技术方案仅适用于以下具体实施例。

图2为本发明实施例提供的一种用户问题匹配流程图,如图2所示,包括以下步骤:

s201:获取用户反馈问题;

s202:计算反馈问题和各样本问题的汉明距离;

s203:提取s202中计算的汉明距离中的最小汉明距离;

s204:判断最小汉明距离是否小于第一阈值;若是,则执行s211;若否,则执行s205;

s205:判断最小汉明距离是否小于第二阈值;若是,则执行s206;若否,则执行s212;

s206:对反馈问题进行扩展,获得扩展问题;

s207:计算扩展问题和各样本问题的汉明距离及编辑距离;

s208:提取s207中计算的最小编辑距离和最小第二汉明距离;

s209:判断最小编辑距离或最小第二汉明距离是否小于第三阈值中分别对应的判断阈值;若是,则执行s210;若否,则执行s213;

s210:匹配最小第二汉明距离或最小编辑距离对应的样本问题,将该样本问题的答复作为反馈问题的答复;

s211:返回反馈问题的答复;

s212:匹配最小汉明距离对应的样本问题,将该样本问题的答复作为反馈问题的答复;

s213:对反馈问题进行人工处理。

在s202的具体实施过程中,本发明实施例提供一种计算汉明距离的具体实施例:

对反馈问题进行标准化处理,对标准化处理后的反馈问题进行分词,从各分词中确定所述反馈问题的关键词,根据反馈问题的关键词计算第一simhash;对反馈问题进行标准化处理之后,还需对对反馈问题进行分词处理,这是因为对于如汉明距离、编辑距离等文本处理过程都是以词语为处理单元,对反馈问题进行分词处理并提取其中的关键词,例如反馈问题为“我的手机发烫”,进行分词后获得“我的”“手机”“发烫”三个词,之后从这三个词中提取关键词“发烫”,对于关键词的提取,需要综合考虑词语的词频(termfrequency,tf频率)和逆文档频率(inversedocumentfrequency,idf频率)决定。

获取每个样本问题的第二simhash;第二simhash为预先计算的样本问题的simhash;对于样本问题的第二simhash计算与上述反馈问题的simhash的计算过程相同,预先计算好样本问题的第二simhash可以节省匹配反馈问题用时,加快处理速度,当然,若根据反馈问题的具体形式对样本问题的第二simhash进行灵活处理的情况也包含于本发明实施例中。

在获取反馈问题的第一simhash和样本问题的第二simhash之后,便可以根据第一simhash和第二simhash,得到汉明距离。

在s208和s209的具体实施过程中,有可能会出现最小编辑距离和最小第二汉明距离对应着不同样本问题的情况,若最小编辑距离和最小第二汉明距离都小于对应的判断阈值,则以精度更高的最小编辑距离所对应的样本问题为准。

当然,对于扩展问题和样本问题的匹配还可以采用以下方式,如图3所示,为本发明实施例提供的另一种扩展问题和样本问题的匹配方式示意图,包括以下步骤:

s301:从数据库中提取一个未计算过的样本问题;

s302:计算扩展问题和样本问题的编辑距离和第二汉明距离;

s303:判断编辑距离或第二汉明距离是否小于第三阈值;若是,则执行s304;若否,则执行s305;

s304:将样本问题和反馈问题匹配;

s305:判断是否还有样本问题未计算过;若是,则返回s301;若否,则执行s213。

综上所述,本发明实施例提供一种匹配用户问题的方法,包括:获取用户的反馈问题;分别计算反馈问题和各样本问题的第一距离;从第一距离中确定最小第一距离;若最小第一距离不小于第一阈值且小于第二阈值时,对反馈问题进行扩展,获得扩展问题;计算扩展问题和各样本问题的第二距离;从第二距离中确定最小第二距离;若最小第二距离小于第三阈值,则返回最小第二距离对应的样本问题的答复。本发明实施例所提供的方法采用了第一距离和第二距离两个判断指标,这两个指标相对应于两种不同的匹配方法,在具体实施时,第一距离采用计算效率较高的计算方法,能够提高对大部分问题的回复效率,同时,引入第二距离以解决第一距离由于计算过快而带来的准确性不高的问题,从而使本技术方案在提高问题匹配效率的同时,又保证了问题匹配的准确性。

基于相同的技术构思,本发明实施例还提供一种匹配用户问题的装置,该装置可执行上述方法实施例,发明实施例中可以通过硬件处理器(hardwareprocessor)来实现相关功能模块。图4为本发明实施例提供的一种匹配用户问题的装置结构示意图,如图4所示,装置400包括以下部分:

接收模块401,用于获取用户的反馈问题;

计算模块402,用于分别计算反馈问题和各样本问题的第一距离;

选择模块403,用于从第一距离中确定最小第一距离;

扩展模块404,用于当最小第一距离不小于第一阈值且小于第二阈值时,对反馈问题进行扩展,获得扩展问题;

计算模块402,还用于计算扩展问题和各样本问题的第二距离;

选择模块403,还用于从第二距离中确定最小第二距离;

返回模块405,用于当最小第二距离小于第三阈值时,则返回最小第二距离对应的样本问题的答复。

可选的,第一距离为汉明距离;

第二距离为汉明距离或编辑距离。

可选的,返回模块405,还用于当最小第一距离小于第一阈值时,返回最小第一距离对应的样本问题的答复。

可选的,还包括:

人工模块406,用于当最小第一距离不小于第二阈值时,对反馈问题进行人工处理;或

当第二距离不小于第三阈值时,对反馈问题进行人工处理。

可选的,计算模块402,具体用于:

对反馈问题进行标准化处理,对标准化处理后的反馈问题进行分词,从各分词中确定反馈问题的关键词,根据反馈问题的关键词计算第一simhash;

获取每个样本问题的第二simhash;第二simhash为预先计算的样本问题的simhash;

根据第一simhash和第二simhash,得到第一距离。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

基于相同的技术构思,本发明实施例还提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行上述任意实施例所公开的方法。

基于相同的技术构思,本发明实施例还提供一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述任意实施例所公开的方法。

综上所述,本发明实施例提供一种匹配用户问题的方法、装置、非暂态计算机可读存储介质及电子设备,包括:获取用户的反馈问题;分别计算反馈问题和各样本问题的第一距离;从第一距离中确定最小第一距离;若最小第一距离不小于第一阈值且小于第二阈值时,对反馈问题进行扩展,获得扩展问题;计算扩展问题和各样本问题的第二距离;从第二距离中确定最小第二距离;若最小第二距离小于第三阈值,则返回最小第二距离对应的样本问题的答复。本发明实施例所提供的方法采用了第一距离和第二距离两个判断指标,这两个指标相对应于两种不同的匹配方法,在具体实施时,第一距离采用计算效率较高的计算方法,能够提高对大部分问题的回复效率,同时,引入第二距离以解决第一距离由于计算过快而带来的准确性不高的问题,从而使本技术方案在提高问题匹配效率的同时,又保证了问题匹配的准确性。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1