一种基于交易平台的结构化信息搜索方法和装置与流程

文档序号:11732679阅读:218来源:国知局
一种基于交易平台的结构化信息搜索方法和装置与流程
本申请涉及交易平台数据处理的技术领域,特别是涉及一种基于交易平台的结构化信息搜索方法和一种基于交易平台的结构化信息搜索装置。

背景技术:
在因特网开放的网络环境下,基于网络通讯技术,买卖双方可不谋面地通过交易平台进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付,以及各种商务活动、交易活动、金融活动和相关的综合服务活动。目前,交易平台一般可分为企业对企业(Business-to-Business,B2B)、企业对消费者(Business-to-Customer,B2C)、消费者对消费者(Customer-to-Customer,C2C)等模式。近几年来,国内交易平台迅速发展,各种B2B、C2C、B2C模式的交易平台(俗称购物网站),如淘宝网、当当网、卓越亚马逊、拍拍网、京东商城等,已被用户认可和接受。供应商在交易平台发布所供应的产品信息,形成产品信息集合,如果发布的产品信息较多,供应商可以进一步按照一定的规则对产品信息进行分组。还可以设置相应产品的橱窗信息以供买家浏览。买家在采购产品时,可以在交易平台搜索和筛选满意的供应商以进行交易。采用现有技术,买家可以在预先知道供应商ID的情况下,在搜索栏内基于供应商ID进行搜索,获得对应供应商所经营产品的相关信息。然而在大多数情况下,买家只能使用自定义的查询词在交易平台搜索自己关心或欲购买的产品,再通过产品信息找到对应供应商的信息,获得该供应商所经营产品的相关信息。并且,采用此种方式获得的供应商往往不是最佳的供应商,还需要买家进一步进行人工筛选。因此,目前需要本领域技术人员迫切解决的一个技术问题就是:提出一种全新的基于交易平台的结构化信息搜索机制,用以提供买家个性化搜索的功能,使买家能快速、简单地搜索到其所需的最佳供应商。

技术实现要素:
本申请的目的是提供一种基于交易平台的结构化信息搜索方法和装置,用以提供买家个性化搜索的功能,使买家能快速、简单地搜索到其所需的最佳供应商。为了解决上述问题,本申请公开了一种基于交易平台的结构化信息搜索方法,包括:接收搜索需求信息;对所述搜索需求信息进行分词,获得关键词字段;在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;采用所述关键词字段在所述候选结构化信息中计算文本相似度,以及,获取所述候选结构化信息的特征属性参数;根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;根据所述候选结构化信息的分值进行排序。优选的,所述搜索需求信息包括产品信息关键词,所述产品信息关键词包括:用户提交的产品信息关键词;或者,用户提交的产品信息关键词和后台生成的产品信息关键词。优选的,所述分词后获得的关键词字段包括:关键词短语字段和关键词单词字段。优选的,所述预置的结构化信息库中包括多个结构化信息索引文件,所述在预置的结构化信息库中查找与关键词字段匹配的候选结构化信息的步骤包括:采用所述关键词短语字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值;若采用所述关键词短语字段查询结构化信息索引文件返回的结构化信息为L个,且所述L<K,则进一步采用关键词单词字段查询索引文件,提取最相似的K-L个结构化信息,所述L个结构化信息以及K-L个结构化信息组成候选结构化信息。优选的,所述分词后获得的关键词字段仅包括关键词单词字段,所述预置的结构化信息库包括多个结构化信息索引文件;所述在预置的结构化信息库中查找与关键词字段匹配的候选结构化信息的步骤包括:采用所述关键词单词字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值。优选的,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词,所述采用关键词字段在所述候选结构化信息中计算文本相似度的步骤包括:计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;根据所述第一文本相似度和第二文本相似度生成相应候选供应商的产品分组信息的文本相似度。优选的,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词和供应商分组的辅助关键词,所述采用关键词字段在所述候选结构化信息中计算文本相似度的步骤包括:计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;计算第三文本相似度,所述第三文本相似度为所述关键词单词字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;计算第四文本相似度,所述第四文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;根据所述第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度。优选的,采用以下公式计算第一文本相似度:其中,weight(Wi)表示关键词单词字段的属性所对应的权重;percent(Wi)表示关键词单词字段在供应商的产品分组信息中所占的百分比;NameOrComment(Wi)表示与供应商分组的主要关键词匹配的关键词单词字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词单词字段属于用户提交的产品信息关键词的权重Name(Wi),或者,与供应商分组的主要关键词匹配的关键词单词字段属于后台生成的产品信息关键词的权重Comment(Wi);和/或,采用以下公式计算第二文本相似度:其中,weight(PHi)表示关键词短语字段的属性所对应的权重;percent(PHi)表示关键词短语字段所占供应商的产品分组信息的百分比;NameOrComment(PHi)表示与供应商分组的主要关键词匹配的关键词短语字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词短语字段属于用户提交的产品信息关键词的权重Name(PHi),或者,与供应商分组的主要关键词匹配的关键词短语字段属于后台生成的产品信息关键词的权重Comment(PHi);和/或,采用以下公式计算第三文本相似度:KeywordsSimilarity=ProductServiceWordSimilarity*Wp+(1-Wp)*Similarity其中,Wp是供应商分组的辅助关键词的配置权重,Similarity为第一文本相似度;和/或,采用以下公式计算第四文本相似度:PhrasesSimilarity=ProductServicePhraseSimilarity*Wp+(1-Wp)*Similarity其中,Wp是供应商分组的辅助关键词的配置权重,Similarity为第二文本相似度。优选的,采用以下公式根据第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度:TextSimilarity=KeywordsSimilarity*W1+PhrasesSimilarity*W2其中,W1和W2分别为配置的权重。优选的,所述特征属性参数包括主营系数,所述主营系数为各供应商的产品分组信息主营程度的得分;所述根据文本相似度和特征属性参数计算所述候选结构化信息的分值的步骤采用如下公式进行计算:Similarity=TextSimilarity*(1-Wm)+主营系数*Wm其中,Wm是主营系数的权重。优选的,所述特征属性参数还包括所述候选结构化信息的公共指标得分;所述公共指标得分采用如下公式进行计算:Scorepublic=∑iPi*Wi,i=1,2其中,P1为供应商的活跃度,P2为供应商的报价响应度,W1、W2为各自所占的权重。优选的,所述搜索需求信息还包括:供应商类型的用户要求信息,供应商规模的用户要求信息,供应商的主要市场的用户要求信息,产品类目的用户要求信息,和/或,供应商最小起定量的用户要求信息;所述特征属性参数还包括所述候选结构化信息的个性化指标得分;所述个性化指标得分通过如下公式进行计算:Scorepersonalized=∑iScorei其中,所述Scorei包括供应商类型与相应用户要求信息的匹配度,供应商规模与相应用户要求信息的匹配度,供应商的主要市场与相应用户要求信息的匹配度,供应商的产品类目与相应用户要求信息的匹配度,和/或,供应商的最小起定量与相应用户要求信息的匹配度。优选的,所述根据文本相似度和特征属性参数计算所述候选结构化信息的分值的步骤进一步包括:对根据文本相似度和主营系数计算的分值Similarity=TextSimilarity*(1-Wm)+主营系数*Wm,进行归一化处理为Score’match;对特征属性参数Scorecustom进行归一化处理为Score’custom,其中,Scorecustom=Scorepublic+Scorepersonalized,Scorepublic为公共指标得分,Scorepersonalized为个性化指标得分;针对所述归一化处理后的文本相似度和特征属性参数,采用如下公式计算最终的候选结构化信息的分值:Scoretotal=λScore’custom+(1-λ)Score’match,其中,λ是配置的参数。优选的,所述归一化处理采用如下公式进行:其中,X′为X归一化处理后的结果。优选的,所述关键词单词字段的属性包括核心词属性和产品词属性,所述根据候选结构化信息的分值进行排序的步骤包括:(1)提取分值最高的前M个候选结构化信息,将位于前N位中满足自动推荐条件的置于最优先,后面的M-N位全部置为不自动推荐;所述M,N为正整数;其中,所述自动推荐条件为:如果匹配的关键词字段中含有短语,将主营系数大于第一阈值的候选结构化信息设为自动推荐;如果匹配的关键词字段中只有单词,那么将具有核心词属性,并且,作为产品词属性在供应商的产品分组信息中的占比大于第二阈值,并且,主营系数大于第一阈值的候选结构化信息设为自动推荐;对前N位和后M-N位分别按照如下规则进行排序:(2)如果匹配的关键词字段含有单词和短语,则进入(3),如果不含有短语,则进入(8);(3)在(2)相同的情况下,含有短语个数多的优先;(4)在(3)相同的情况下,短语最长长度优先;(5)在(4)相同的情况下,含有单词个数多的优先;(6)在(5)相同的情况下,分值高的优先;(7)在(6)相同的情况下,字母序优先,进入(11);(8)在(2)相同的情况下,含有单词个数多的优先;(9)在(8)相同的情况下,分值高的优先;(10)在(9)相同的情况下,字母序优先。16、根据权利要求1所述的方法,其特征在于,还包括:将所述候选结构化信息按排序展现给用户。本申请实施例还公开了一种基于交易平台的结构化信息搜索装置,包括:需求接收模块,用于接收搜索需求信息;分词模块,用于对所述搜索需求信息进行分词,获得关键词字段;候选结构化信息查找模块,用于在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;相似度计算模块,用于采用所述关键词字段在所述候选结构化信息中计算文本相似度;特征属性参数获取模块,用于获取所述候选结构化信息的特征属性参数;分值计算模块,用于根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;排序模块,用于根据所述候选结构化信息的分值进行排序。优选的,所述搜索需求信息包括产品信息关键词,所述产品信息关键词包括:用户提交的产品信息关键词;或者,用户提交的产品信息关键词和后台生成的产品信息关键词。优选的,所述分词后获得的关键词字段包括:关键词短语字段和关键词单词字段。优选的,所述预置的结构化信息库中包括多个结构化信息索引文件,所述候选结构化信息查找模块包括:短语查找子模块,用于采用所述关键词短语字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值;单词查找子模块,用于在采用所述关键词短语字段查询结构化信息索引文件返回的结构化信息为L个,且所述L<K时,进一步采用关键词单词字段查询索引文件,提取最相似的K-L个结构化信息,所述L个结构化信息以及K-L个结构化信息组成候选结构化信息。优选的,所述分词后获得的关键词字段仅包括关键词单词字段,所述预置的结构化信息库包括多个结构化信息索引文件;所述候选结构化信息查找模块包括:单词匹配子模块,采用所述关键词单词字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值。优选的,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词,所述相似度计算模块包括:第一文本相似度计算子模块,用于计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;第二文本相似度计算子模块,用于计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;第一综合子模块,用于根据所述第一文本相似度和第二文本相似度生成相应候选供应商的产品分组信息的文本相似度。优选的,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词和供应商分组的辅助关键词,所述相似度计算模块包括:第一文本相似度计算子模块,用于计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;第二文本相似度计算子模块,用于计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;第三文本相似度计算子模块,用于计算第三文本相似度,所述第三文本相似度为所述关键词单词字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;第四文本相似度计算子模块,用于计算第四文本相似度,所述第四文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;第二综合子模块,用于根据所述第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度。优选的,所述特征属性参数包括主营系数,所述主营系数为各供应商的产品分组信息主营程度的得分。优选的,所述特征属性参数还包括所述候选结构化信息的公共指标得分和个性化指标得分。优选的,所述的装置,还包括:展现模块,用于将所述候选结构化信息按排序展现给用户。与现有技术相比,本申请包括以下优点:本申请通通过接收用户提供的比一般搜索更丰富的搜索需求信息(RFQ,RequestForQuotation,买家在电子商务网站上填写的有关买家欲购买的产品信息,包括产品信息关键字、个性化指标等),计算用户的搜索需求信息与供应商信息相似度的综合得分并进行排序,在后台为买家计算出一批满足买家需求的最佳供应商,从而实现了买家个性化搜索的功能,使买家能快速、简单地搜索到其所需的最佳供应商。附图说明图1是本申请的一种基于交易平台的结构化信息搜索方法实施例的步骤流程图;图2是本申请的一种基于交易平台的结构化信息搜索装置实施例的结构框图。具体实施方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。本申请实施例的核心构思之一在于,通过接收用户提供的比一般搜索更丰富的搜索需求信息(RFQ,RequestForQuotation,买家在电子商务网站上填写的有关买家欲购买的产品信息,包括产品信息关键字、个性化指标等),计算用户的搜索需求信息与供应商信息相似度的综合得分并进行排序,在后台为买家计算出一批满足买家需求的最佳供应商。参照图1,示出了本申请的一种基于交易平台的结构化信息搜索方法实施例的步骤流程图,具体可以包括如下步骤:步骤101、接收搜索需求信息;在具体实现中,用户(买家)可以在前台提交欲购买的产品信息(RequestForQuotation,RFQ),包括产品信息关键词、个性化指标等。在本申请的一种优选实施例中,所述搜索需求信息可以包括产品信息关键词,所述产品信息关键词可以包括:用户提交的产品信息关键词;或者,用户提交的产品信息关键词和后台生成的产品信息关键词。作为本申请实施例在交易平台的一种具体应用的示例,所述搜索需求信息可以包括如下表所示的RFQ字段的内容:在本申请实施例中,用户可以仅提交基本的产品信息关键词作为搜索需求信息,根据用户提交的产品信息关键词,后台可以按一些规则处理为更为标准的产品信息关键词,之后再将这两类产品信息关键词一并处理。用户还可以如上例中提交更多的个性化指标作为搜索需求信息,在后续的搜索处理中,会将这些个性化指标作为供应商进一步筛选的条件。步骤102、对所述搜索需求信息进行分词,获得关键词字段;众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子Iamastudent,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。例如,我是一个学生,分词的结果是:我是一个学生。下面介绍一些常用的分词方法:1、基于字符串匹配的分词方法:是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。2、基于特征扫描或标志切分的分词方法:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确率。3、基于理解的分词方法:是指通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典。在本申请实施例中,可以根据前台输入的RFQ信息中的关键字段进行分词。如果RFQ中指明的类目信息含有化学类目或医疗类目,则在分词处理中进行特殊处理,与其他行业分开进行分词处理,主要是利用化学词典进行分词;如果RFQ中类目信息为空,默认买家对类目没有任何要求。分词的结果有一系列的单词和一系列的词组,即所述分词后获得的关键词字段可以包括:关键词短语字段和关键词单词字段。当然,在实际中,所述分词后获得的关键词字段也可以仅包括关键词单词字段。步骤103、在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;在具体实现中,供应商在交易平台发布所供应的产品信息,形成产品信息集合,如果发布的产品信息较多,供应商可以进一步按照一定的规则对产品信息进行分组,即形成供应商的产品分组信息,一般而言,一个供应商有多个产品分组信息。这种供应商的产品分组信息是一种结构化信息,不同于通用检索的数据源(如google、baidu等搜索引擎采用的通用数据源)。供应商的产品分组信息是对供应商及其要卖的产品的描述,通常主要需要用到:供应商分组的主要关键词、供应商类型、供应商规模、供应商提供产品的类目、供应商提供的产品关键词等多个域的信息。所述预置的结构化信息库中可以包括多个结构化信息索引文件,所述索引文件可以采用倒排索引生成。公知的是,倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。在交易平台的具体应用中,采用倒排索引可以供应商的产品分组信息(结构化信息)以lucence形式进行存储。在本申请的一种优选实施例中,在所述分词后获得的关键词字段包括关键词短语字段和关键词单词字段时,所述步骤103具体可以包括如下子步骤:子步骤S11、采用所述关键词短语字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值;子步骤S12、若采用所述关键词短语字段查询结构化信息索引文件返回的结构化信息为L个,且所述L<K,则进一步采用关键词单词字段查询索引文件,提取最相似的K-L个结构化信息,所述L个结构化信息以及K-L个结构化信息组成候选结构化信息。例如,根据分词的结果查询供应商信息文件得到一批供应商的产品分组信息。其中供应商信息是以分组单位的,每个产品分组都含有一些文本信息,供应商信息以lucence形式存储在磁盘中。应用本实施例,查询过程可以分两步:1)先根据输入关键字短语字段查询索引文件,返回最相似的TOP-K个供应商的产品分组信息,其中TOP-K为额定的阈值;2)如果关键词短语字段查询的供应商数不足TOP-K个,再用关键词单词字段查询索引文件,最终返回最相似的TOP-K个供应商的产品分组信息(包括步骤1中的供应商的产品分组信息)。经过此步查询后,不论结果满不满足TOP-K个都终止查询。作为本申请的另一种优选实施例,若所述分词后获得的关键词字段仅包括关键词单词字段,则所述步骤103可以包括如下子步骤:子步骤S13、采用所述关键词单词字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值。当然,上述预置的结构化信息库中存储结构化信息的形式,以及,相应的查找与关键词字段匹配的候选结构化信息的方式均仅仅用作示例,本领域技术人员根据实际情况任意选用即可,本申请对此无需加以限制。步骤104、采用所述关键词字段在所述候选结构化信息中计算文本相似度;在本申请的一种优选实施例中,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词,所述步骤104可以包括如下子步骤:子步骤S21、计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;子步骤S22、计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;子步骤S22、根据所述第一文本相似度和第二文本相似度生成相应候选供应商的产品分组信息的文本相似度。在本申请的另一种优选实施例中,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中可以包括供应商分组的主要关键词和供应商分组的辅助关键词,所述步骤104具体可以包括如下子步骤:子步骤S31、计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;子步骤S32、计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;子步骤S33、计算第三文本相似度,所述第三文本相似度为所述关键词单词字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;子步骤S34、计算第四文本相似度,所述第四文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;子步骤S35、根据所述第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度。作为本申请实施例一种具体应用的示例,可以采用如下计算方法进行文本相似度的计算:首先,RFQ中含有的RFQ_Name和RFQ_Comment是先经过分词以及复数变单数变换处理的,可以得到一系列的单词字段和短语字段,那么文本相似度分为两部分,分别为关键词单词字段相似度和关键词短语字段相似度。下面分别介绍这两部分的相似度计算方法。(一)关键词单词字段相似度:关键词的相似度主要包括两部分:一部分为供应商分组的主要关键词(单词字段)和RFQ的相似度,另一部分是供应商分组的辅助关键词(单词字段,如供应商的product/service(产品/服务信息)的关键词)与RFQ的相似度。1)供应商分组的主要关键词和RFQ的相似度(第一文本相似度):计算公式如下:其中,weight(Wi)表示关键词单词字段的属性所对应的权重;percent(Wi)表示关键词单词字段在供应商的产品分组信息中所占的百分比;NameOrComment(Wi)表示与供应商分组的主要关键词匹配的关键词单词字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词单词字段属于用户提交的产品信息关键词的权重Name(Wi),或者,与供应商分组的主要关键词匹配的关键词单词字段属于后台生成的产品信息关键词的权重Comment(Wi);Name表示RFQ的标题subject的权重,comment表示是运营人员手工添加的字段的权重,这里可以根据这两种不同情况配置不同的权重。2)供应商分组的辅助关键词product/service的相似度加权(第三文本相似度):如果供应商提供了辅助关键词,如product/service信息,则可以考虑使用product/service信息作为供应商分组的主要关键词和RFQ的相似度的修正信息,即计算product/service与RFQ_Name和RFQ_Comment的关键词单词字段相似度,记为ProductServiceWordSimilarity,方法与计算供应商分组的主要关键词和RFQ的相似度一样;计算公式如下:KeywordsSimilarity=ProductServiceWordSimilarity*Wp+(1-Wp)*Similarity其中,Wp是productService的配置权重,可在配置文件中更改,Similarity为第一文本相似度;当遇到化学和医疗行业时,默认product/service关键字信息匹配的相似度可以设置为0。至此,经过如上计算得到的KeywordsSimilarity就是RFQ与当前供应商的当前产品分组的关键词单词字段相似度得分。(二)关键词短语字段相似度关键词短语字段相似度与关键词单词字段相似度一样,主要包括两部分:一部分为供应商分组的主要关键词组(短语字段)和RFQ的相似度,另一部分是供应商的辅助关键词组(短语字段,如product/service关键词组)与RFQ的相似度。(3)供应商分组的主要关键词组和RFQ的相似度(第二文本相似度):计算公式如下:其中,weight(PHi)表示关键词短语字段的属性所对应的权重;percent(PHi)表示关键词短语字段所占供应商的产品分组信息的百分比;NameOrComment(PHi)表示与供应商分组的主要关键词匹配的关键词短语字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词短语字段属于用户提交的产品信息关键词的权重Name(PHi),或者,与供应商分组的主要关键词匹配的关键词短语字段属于后台生成的产品信息关键词的权重Comment(PHi),Name表示RFQ的标题subject的权重,comment表示是运营人员手工添加的字段的权重,这里可以根据这两种不同情况配置不同的权重。4)供应商分组的辅助关键词product/service的相似度加权(第四文本相似度):如果供应商提供了product/service信息,则可以使用product/service信息作为供应商分组的主要关键词组和RFQ的相似度的修正信息,即计算product/service与RFQ_Name和RFQ_Comment的关键词短语字段相似度,记为ProductServicePhraseSimilarity,方法与计算供应商词组和RFQ的相似度一样;计算公式如下:PhrasesSimilarity=ProductServicePhraseSimilarity*Wp+(1-Wp)*Similarity其中,Wp是product/service的配置权重,可在配置文件中更改,Similarity为第二文本相似度。当遇到化学和医疗行业时,默认product/service短语信息匹配的相似度为0。至此,经过如上计算得到的PhraseSimilarity就是RFQ与当前供应商的当前产品分组的关键词短语字段相似度得分。综上所述,总的文本相似度为:TextSimilarity=KeywordsSimilarity*W1+PhrasesSimilarity*W2其中,W1和W2分别为配置的权重。当然,上述文本相似度的计算方式仅仅用作示例,本领域技术人员根据实际情况采用任一种计算方法均是可行的,本申请对此无需加以限制。步骤105、获取所述候选结构化信息的特征属性参数;在本申请的一种优选实施例中,所述特征属性参数可以包括主营系数,所述主营系数为各供应商的产品分组信息主营程度的得分。本申请实施例的相似度算法主要包括两个维度:文本相似度与主营系数,相似度分数是两者综合考察结果;其中,前面所述的文本相似度是从匹配的关键词类型的维度来划分的,可以包括关键词单词字段的文本相似度与关键词短语字段的文本相似度;从文本来源的维度来划分,可以分为供应商分组的主要关键词匹配与供应商分组的辅助关键词(product/service文本信息)匹配。本步骤中的主营系数是分组产品占比与分组在橱窗中的占比的一个综合指标,在实际中,主营系数可以从供应商信息文件中提取获得。步骤106、根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;在具体实现中,每个供应商的每个产品分组都有一个主营系数作为特征属性参数,表示的是该产品分组主营程度的得分,在这种情况下,可以采用如下公式计算候选结构化信息的分值:Similarity=TextSimilarity*(1-Wm)+主营系数*Wm其中,Wm是配置的主营系数的权重,TextSimilarity是步骤104的示例中的文本相似度得分。在本申请的一种优选实施例中,所述特征属性参数还可以包括所述候选结构化信息的公共指标得分和个性化指标得分。具体而言,所述公共指标得分可以采用如下公式进行计算:Scorepublic=∑iPi*Wi,i=1,2其中,P1为供应商的活跃度,P2为供应商的报价响应度,W1、W2为各自所占的权重。所述个性化指标得分可以通过如下公式进行计算:Scorepersonalized=∑iScorei在实际中,所述搜索需求信息还可以包括:供应商类型的用户要求信息,供应商规模的用户要求信息,供应商的主要市场的用户要求信息,产品类目的用户要求信息,和/或,供应商最小起定量的用户要求信息;在这种情况下,所述Scorei则可以包括供应商类型与相应用户要求信息的匹配度,供应商规模与相应用户要求信息的匹配度,供应商的主要市场与相应用户要求信息的匹配度,供应商的产品类目与相应用户要求信息的匹配度,和/或,供应商的最小起定量与相应用户要求信息的匹配度。在本申请的一种优选实施例中,所述步骤106可以进一步包括如下子步骤:子步骤S41、对根据文本相似度和主营系数计算的分值Similarity=TextSimilarity*(1-Wm)+主营系数*Wm,进行归一化处理为Score’match;在具体实现中,所述归一化处理可以采用如下公式进行:其中,X′为X归一化处理后的结果。子步骤S42、对特征属性参数Scorecustom进行归一化处理为Score’custom,其中,Scorecustom=Scorepublic+Scorepersonalized,Scorepublic为公共指标得分,Scorepersonalized为个性化指标得分;子步骤S43、针对所述归一化处理后的文本相似度和特征属性参数,采用如下公式计算最终的候选结构化信息的分值:Scoretotal=λScore’custom+(1-λ)Score’match,其中,λ是配置的参数。在本步骤中,可以对候选供应商的产品分组信息分别计算个性化指标得分。个性化指标可以设置为供应商的活跃度,报价响应度,供应商类型,供应商规模等,计算得分策略为对满足买家相应维度要求的供应商分组进行加分。在本实施例中,个性化指标可以分为两部分,分别为公共部分和个性化部分,其中,公共部分为供应商活跃度和报价响应度,个性化部分为供应商类型、供应商规模等。依次计算公共部分得分Scorepublic、三个个性化部分得分Scorepersonalized,那么个性化指标排序的得分Scorecustom=Scorepublic+Scorepersonalized。个性化指标得分具体的计算方法如下:1)公共部分其中,公共指标有两个指标,分别是供应商活跃度和供应商报价响应度。计算方法如下:假设供应商A的供应商活跃度为P1,报价响应度为P2,那个供应商A在公共指标部分的得分就是:Scorepublic=∑1P1*W1,其中,W1、W2为各自所占的权重,是可配置调整的。2)个性化部分这部分的指标主要包括供应商类型,供应商规模等。满足买家相应维度要求对供应商加分即可,所以Scorepersonalizde=∑iScorei3)综合前面的几个步骤的结果计算总得分并排序。最终的计算的总得分是相似度与个性化指标的综合考察,每个供应商取此一系列供应商的产品分组中得分最高的那个分组代表此供应商。假设计算出的文本相似度为Scorematch,对Scorematch进行归一化处理以后的结果为Score’match。那么总分的计算过程为:先对Scorecustom和Scorematch进行归一化处理以后的结果为Score’custom和Score’match,则最终的得分Scoretotal=λScore’custom+(1-λ)Score’match,其中λ是可以通过配置文件可配置的。当然,上述特征属性参数的设置,以及,计算所述候选结构化信息的分值均仅仅用作示例,本领域技术人员设置其它特征属性参数,以及,采用其它候选结构化信息分值的计算方法均是可行的,本申请对此无需加以限制。步骤107、根据所述候选结构化信息的分值进行排序。在具体实现中,可以针对关键词单词字段和关键词短语字段配置属性,例如,所述关键词单词字段的属性可以包括核心词属性和产品词属性,在这种情况下,所述步骤107具体可以按如下规则进行排序:(1)提取分值最高的前M个候选结构化信息,将位于前N位中满足自动推荐条件的置于最优先,后面的M-N位全部置为不自动推荐;所述M,N为正整数;其中,所述自动推荐条件为:如果匹配的关键词字段中含有短语,将主营系数大于第一阈值的候选结构化信息设为自动推荐;如果匹配的关键词字段中只有单词,那么将具有核心词属性,并且,作为产品词属性在供应商的产品分组信息中的占比大于第二阈值,并且,主营系数大于第一阈值的候选结构化信息设为自动推荐;例如,所述M为200,N为50,第一阈值为0.1。对前N位和后M-N位分别按照如下规则进行排序:(2)如果匹配的关键词字段含有单词和短语,则进入(3),如果不含有短语,则进入(8);(3)在(2)相同的情况下,含有短语个数多的优先;(4)在(3)相同的情况下,短语最长长度优先;(5)在(4)相同的情况下,含有单词个数多的优先;(6)在(5)相同的情况下,分值高的优先;(7)在(6)相同的情况下,字母序优先,进入(11);(8)在(2)相同的情况下,含有单词个数多的优先;(9)在(8)相同的情况下,分值高的优先;(10)在(9)相同的情况下,字母序优先。当然,上述排序方法仅仅用作示例,本领域技术人员根据实际情况采用任一种排序方法均是可行的,本申请对此无需加以限制。在具体实现中,本申请实施例还可以包括如下步骤:步骤108、将所述候选结构化信息按排序展现给用户。需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。参照图2,示出了本申请的一种基于交易平台的结构化信息搜索装置实施例的结构框图,具体可以包括如下模块:需求接收模块201,用于接收搜索需求信息;分词模块202,用于对所述搜索需求信息进行分词,获得关键词字段;候选结构化信息查找模块203,用于在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;相似度计算模块204,用于采用所述关键词字段在所述候选结构化信息中计算文本相似度;特征属性参数获取模块205,用于获取所述候选结构化信息的特征属性参数;分值计算模块206,用于根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;排序模块207,用于根据所述候选结构化信息的分值进行排序。在具体实现中,在本申请实施例还可以包括如下模块:展现模块208,用于将所述候选结构化信息按排序展现给用户。在本申请的一种优选实施例中,所述搜索需求信息可以包括产品信息关键词,所述产品信息关键词包括:用户提交的产品信息关键词;或者,用户提交的产品信息关键词和后台生成的产品信息关键词。在具体实现中,所述分词后获得的关键词字段可以包括:关键词短语字段和关键词单词字段。在这种情况下,所述预置的结构化信息库中包括多个结构化信息索引文件,所述候选结构化信息查找模块203可以包括如下子模块:短语查找子模块,用于采用所述关键词短语字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值;单词查找子模块,用于在采用所述关键词短语字段查询结构化信息索引文件返回的结构化信息为L个,且所述L<K时,进一步采用关键词单词字段查询索引文件,提取最相似的K-L个结构化信息,所述L个结构化信息以及K-L个结构化信息组成候选结构化信息。在本申请的另一种优选实施例中,所述分词后获得的关键词字段仅包括关键词单词字段,所述预置的结构化信息库包括多个结构化信息索引文件;在这种情况下,所述候选结构化信息查找模块203可以包括如下子模块:单词匹配子模块,采用所述关键词单词字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值。在交易平台的具体应用中,所述结构化信息可以为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词,所述相似度计算模块204具体可以包括如下子模块:第一文本相似度计算子模块,用于计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;第二文本相似度计算子模块,用于计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;第一综合子模块,用于根据所述第一文本相似度和第二文本相似度生成相应候选供应商的产品分组信息的文本相似度。在本申请的另一种优选实施例中,所述结构化信息可以为供应商的产品分组信息,所述供应商的产品分组信息中可以包括供应商分组的主要关键词和供应商分组的辅助关键词,在这种情况下,所述相似度计算模块204具体可以包括如下子模块:第一文本相似度计算子模块,用于计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;第二文本相似度计算子模块,用于计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;第三文本相似度计算子模块,用于计算第三文本相似度,所述第三文本相似度为所述关键词单词字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;第四文本相似度计算子模块,用于计算第四文本相似度,所述第四文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;第二综合子模块,用于根据所述第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度。作为本申请实施例具体应用的一种示例,可以采用以下公式计算第一文本相似度:其中,weight(Wi)表示关键词单词字段的属性所对应的权重;percent(Wi)表示关键词单词字段在供应商的产品分组信息中所占的百分比;NameOrComment(Wi)表示与供应商分组的主要关键词匹配的关键词单词字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词单词字段属于用户提交的产品信息关键词的权重Name(Wi),或者,与供应商分组的主要关键词匹配的关键词单词字段属于后台生成的产品信息关键词的权重Comment(Wi);和/或,可以采用以下公式计算第二文本相似度:其中,weight(PHi)表示关键词短语字段的属性所对应的权重;Percent(PHi)表示关键词短语字段所占供应商的产品分组信息的百分比;NameOrComment(PHi)表示与供应商分组的主要关键词匹配的关键词短语字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词短语字段属于用户提交的产品信息关键词的权重Name(PHi),或者,与供应商分组的主要关键词匹配的关键词短语字段属于后台生成的产品信息关键词的权重Comment(PHi);和/或,可以采用以下公式计算第三文本相似度:KeywordsSimilarity=ProductServiceWordSimilarity*Wp+(1-Wp)*Similarity其中,Wp是供应商分组的辅助关键词的配置权重,Similarity为第一文本相似度;和/或,可以采用以下公式计算第四文本相似度:PhrasesSimilarity=ProductServicePhraseSimilarity*Wp+(1-Wp)*Similarity其中,Wp是供应商分组的辅助关键词的配置权重,Simliarity为第二文本相似度。还可以采用以下公式根据第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度:TextSimilarity=KeywordsSimilarity*W1+PhrasesSimilarity*W2其中,W1和W2分别为配置的权重。作为本申请实施例具体应用的一种示例,所述特征属性参数可以包括主营系数,所述主营系数为各供应商的产品分组信息主营程度的得分;在这种情况下,可以采用如下公式根据文本相似度和特征属性参数计算所述候选结构化信息的分值:Similarity=TextSimilarrity*(1-Wm)+主营系数*Wm其中,Wm是主营系数的权重。更为优选的是,所述特征属性参数还可以包括所述候选结构化信息的公共指标得分和个性化指标得分。所述公共指标得分可以采用如下公式进行计算:Scorepublic=∑iPi*Wi,i=1,2其中,P1为供应商的活跃度,P2为供应商的报价响应度,W1、W2为各自所占的权重。所述个性化指标得分可以通过如下公式进行计算:Scorepersonalized=∑iScorei例如,所述搜索需求信息还可以包括:供应商类型的用户要求信息,供应商规模的用户要求信息,供应商的主要市场的用户要求信息,和/或,产品类目的用户要求信息;在这种情况下,则所述Scorei可以包括供应商类型与相应用户要求信息的匹配度,供应商规模与相应用户要求信息的匹配度,供应商的主要市场与相应用户要求信息的匹配度,和/或,供应商的产品类目与相应用户要求信息的匹配度。在本申请实施例中,还可以采用以下方式根据文本相似度和特征属性参数计算所述候选结构化信息的分值:对根据文本相似度和主营系数计算的分值Similarity=TextSimilarity*(1-Wm)+主营系数*Wm,进行归一化处理为Score’match;其中,所述归一化处理可以采用如下公式进行:其中,X′为X归一化处理后的结果。对特征属性参数Scorecustom进行归一化处理为Score’custom,其中,Scorecustom=Scorepublic+Scorepersonalized,Scorepublic为公共指标得分,Scorepersonalized为个性化指标得分;针对所述归一化处理后的文本相似度和特征属性参数,采用如下公式计算最终的候选结构化信息的分值:Scoretotal=λScore’custom+(1-λ)Score’match,其中,λ是配置的参数。在具体实现中,所述关键词单词字段的属性可以包括核心词属性和产品词属性,所述根据候选结构化信息的分值进行的排序可以按如下规则进行:(1)提取分值最高的前M个候选结构化信息,将位于前N位中满足自动推荐条件的置于最优先,后面的M-N位全部置为不自动推荐;所述M,N为正整数;其中,所述自动推荐条件为:如果匹配的关键词字段中含有短语,将主营系数大于第一阈值的候选结构化信息设为自动推荐;如果匹配的关键词字段中只有单词,那么将具有核心词属性,并且,作为产品词属性在供应商的产品分组信息中的占比大于第二阈值,并且,主营系数大于第一阈值的候选结构化信息设为自动推荐;对前N位和后M-N位分别按照如下规则进行排序:(2)如果匹配的关键词字段含有单词和短语,则进入(3),如果不含有短语,则进入(8);(3)在(2)相同的情况下,含有短语个数多的优先;(4)在(3)相同的情况下,短语最长长度优先;(5)在(4)相同的情况下,含有单词个数多的优先;(6)在(5)相同的情况下,分值高的优先;(7)在(6)相同的情况下,字母序优先,进入(11);(8)在(2)相同的情况下,含有单词个数多的优先;(9)在(8)相同的情况下,分值高的优先;(10)在(9)相同的情况下,字母序优先。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上对本申请所提供的一种基于交易平台的结构化信息搜索方法和一种基于交易平台的结构化信息搜索装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1