一种基于用户行为分析的动态词库更新方法与流程

文档序号:20684361发布日期:2020-05-08 18:42阅读:250来源:国知局
一种基于用户行为分析的动态词库更新方法与流程

本发明涉及一种基于用户行为分析的动态词库更新方法,属于数据处理技术领域。



背景技术:

人工智能在计算机模式识别和信息提取等场景中的应用越来越广泛,应用的广度和深度也在不断扩大。自然语言处理技术可以利用计算机软件,从语义有效性和一致性等方面便捷地模拟和解析现实世界人、物、事件、规则在应用模式中的关联。将人工智能技术和自然语言处理技术结合,应用于特定的专业领域的数据处理,如实时查询服务、分词更新与协同服务、实时分析统计服务等,将会在专业领域产生特定的新规则,促进专业领域的应用研究和工程实践的进一步变革。

特别是在专业应用领域包含大量的专业词汇的应用场景下,现有的中文分词处理与查询应用环境中,并没有一种有效的针对专业应用的扩展词库及其动态更新方法,更多地依赖常规的中文分词工具生成基础词库或普通词库进行查询处理,不能适应各类专业领域快速准确查询的需要,容易发生专业词汇找不准、准确度不高、性能较差等问题。



技术实现要素:

本发明的目的在于解决现有技术的不足,并提供一种专业词汇查询准确,词库更新效率高的基于用户行为分析的动态词库更新方法。

实现本发明目的所采用的技术方案是:该基于用户行为分析的动态词库更新方法,其特征在于具体包括以下步骤:

(1)输入待查询的专业应用领域的中文词条;

(2)分词器分词处理,对输入的中文词条进行分词处理,即加载相关领域内的基础词库以及扩展词库中的词语,以这些词语为语料,对输入的中文词条进行分词处理,初步形成符合中文检索习惯和语义规范的待检索分词结果集;

(3)用户行为分析器分析,搜索引擎按照基础词库与扩展词库进行分析,生成文档索引库,根据分词结果与索引库,快速检索出文档,并将要输出的结果按照关联度从大到小进行排序,并以分页的方式返回给用户,用户得到搜索返回结果后,对搜索返回结果进行操作处理;将用户对搜索结果的操作处理行为作为维度数据发送给行为分析处理器,行为分析处理器以用户行为的维度数据为指标按照分词检索满意度分值计算公式,计算出当前分词检索满意度分值,然后根据该分词检索满意度分值确定词库的更新策略;

分词检索满意度分值计算公式表示如下:

式中:f为分词检索满意度分值,t为用户查看查询返回结果中每个文档的时间,n为用户点击查看文档总数,p为每个查看文档在整个查询返回结果中的排列位置,m为用户分页查询次数,q为每个分页上查看的文档个数;

(4)动态更新扩展词库,当步骤3计算所得的分词检索满意度分值高于设计的分值时,系统将当前分词在基础词库以及扩展词库中进行查找匹配,当在基础词库以及扩展词库中未查找匹配到该分词时,则将该分词添加到扩展词库中;当步骤3计算所得的分词检索满意度分值低于设计的分值时,说明分词查询结果与用户查询需求期望之间的相差比较小,当前分词检索满意度分值与期望分值之间越接近,查询结果越符合用户的查询需求。

步骤(1)所述的中文词条是专业词汇、句式完整的语句或整个段落中的一种或几种。

步骤(2)所述的分词结果集是指根据输入查询的中文词条的长度、词频、词性和词的位置,并去掉关系不大的语气词和标点符号后,形成的一个中文词条分词后的结果集合。

步骤(3)所述的分页的方式是在分页查询的存储过程将清单进行分页,并将与查询相关的文档清单通过单页方式返回,每个分页上文档的个数可以通过自定义方式确定。

步骤(3)所述的用户对搜索返回结果的操作处理是指用户查看返回结果中每个文档的时间、用户查看文档总数、每个查看文档在整个查询返回结果中的排列位置、用户分页查询次数和每个分页上查看的文档个数。

由上述技术方案可知,本发明提供的基于用户行为分析的动态词库更新方法,具体包括如下步骤:输入待查询的中文词条,分词器分词处理,用户行为分析器分析和动态更新扩展词库;其中,行为分析处理器对用户行为指标按照分词检索满意度分值计算公式计算出当前分词检索满意度分值,然后根据该分词检索满意度分值确定词库的更新策略,能够充分发挥用户的主动性,满足用户的需求;当计算所得的分词检索满意度分值高于设计的分值时,系统将当前分词在基础词库以及扩展词库中进行查找匹配,如果在基础词库以及扩展词库中未查找匹配到该分词,则将该分词添加到扩展词库中,经过循环往复迭代,系统不断将高于设计分值的分词添加到扩展词库中,实现了词库的动态更新、实时性高,保证用户下次能够检索出满意的文档;系统自动累积增加更多的专业词汇存储在扩展词库中,词库数量和内容得到不断更新,能够满足各类专业领域快速查询的需要,专业词汇查询准确,词库更新效率高。

综上,本发明技术方案所具有的有益效果在于:

(1)根据用户行为为指标计算出分词检索满意度分值,确定词库的更新策略,能够充分发挥用户的主动性,满足用户的需求。

(2)经过循环往复迭代,系统不断将高于设计分值的分词添加到扩展词库中,实现了词库的动态更新、实时性高。

(3)系统自动累积增加更多的专业词汇存储在扩展词库中,词库数量和内容得到不断更新,能够满足各类专业领域快速查询的需要,专业词汇查询准确,词库更新效率高。

附图说明

图1为本发明提供的基于用户行为分析的动态词库更新方法的流程图;

图2为本发明提供的基于用户行为的分值曲线图;

图3为本发明提供的基于用户行为分析的分词添加流程图。

具体实施方式

结合附图和实施例对本发明作进一步说明。

图1为本发明实施例提供的基于用户行为分析的动态词库更新方法的流程图。参照图1,该基于用户行为分析的动态词库更新方法,具体包括以下步骤:

步骤1,输入待查询的中文词条,即用户输入待查询的专业应用领域的中文词条。专业应用领域是指信息查询覆盖的各个行业应用领域,如国土、林业、气象、石油或公安等。中文词条是专业词汇、句式完整的语句或整个段落中的一种或几种。

步骤2,分词器分词处理,采用中文分词工具对输入的中文词条进行分词处理,即加载相关领域内的基础词库以及扩展词库中的词语,以这些词语为语料,对输入的中文词条进行分词处理,初步形成符合中文检索习惯和语义规范的待检索分词结果集。

所述中文分词是指将一个汉字序列词语、句子或段落切分成一个一个单独的词的操作,所述分词操作就是将连续的句子按照一定的规范重新组合成词序列的过程。所述中文分词工具是指当前云环境中适用于中文检索环境下的分词算法模型及软件,如盘古分词、ikanalyzer、jieba、snownlp、thulac、nlpir等。

所述基础词库是分词软件默认提供的分词词库,扩展词库是指与专业相关的词库,基础词库及扩展词库中的词语,可以作为分词元素,去匹配和剖分需要查询的段落或语句。

所述分词结果集是指对步骤1中输入的中文词条内容进行分词后的结果,它根据中文词条的长度、词频、词性、词的位置等基础属性进行处理,同时去掉关系不大的语气词和标点符号等句子元素,形成一个集合。分词结果的质量和效率与输入的专业词汇的复杂度有关。复杂度高的分词结果集可能需要人工干预处理;复杂度一般的分词,其分词结果集可能在基础词库中已经存在。

步骤3,用户行为分析器分析,搜索引擎按照基础词库与扩展词库进行分析,生成文档索引库,在进行查询的时候,根据分词结果与索引库,快速检索出文档,并将要输出的结果按照关联度从大到小进行排序,并以分页的方式返回给用户,用户得到搜索返回结果后,对搜索返回结果进行操作处理。此时,将用户对搜索结果的操作行为进行记录,并将其作为维度数据发送给后台行为分析处理器,行为分析处理器对传过来的维度数据进行分析处理,以用户行为的维度数据为指标按照如下公式计算出当前分词检索满意度分值,然后根据该分词检索满意度分值确定词库的更新策略。

分词检索满意度分值计算公式表示如下:

式中:f为分词检索满意度分值,t为用户查看查询返回结果中每个文档的时间,n为用户点击查看文档总数,p为每个查看文档在整个查询返回结果中的排列位置,m为用户分页查询次数,q为每个分页上查看的文档个数。

为了避免计算值出现满意度为负数的情况,这里在公式计算时将每个查看文档在整个查询返回结果中的排列位置与用户查看返回结果中每个文档的时间的比率值向左移一个单位后再进行自然对数计算处理,对分页上查看的文档个数,计算分页个数与总数的百分比,并将其区间从(0~1)拉升到(0~π),然后对其余弦计算后再进行绝对值算法处理。

所述分页的方式是指在分页查询的存储过程将清单进行分页,并将与查询相关的文档清单通过单页方式返回,每个分页上文档的个数可以通过自定义方式确定。一般地,设置为10个、20个、30个或50个等多个级别。

所述用户对搜索返回结果的操作处理是指用户查看返回结果中每个文档的时间、用户查看文档总数、每个查看文档在整个查询返回结果中的排列位置、用户分页查询总次数和每个分页上查看的文档个数。

如果在返回的文档结果清单中,用户一个文档也没有查看,即每个查看文档在整个查询返回结果中的排列位置p=0,这说明当前的查询结果完全不符合用户期待的搜索结果,需要根据搜索中文词条及分词结果集,对扩展词库进行更新操作。

如果在返回的文档结果清单中,用户所查看文档的位置越靠前,说明当前返回的结果越符合用户期待的搜索结果,即p>0的条件下,p值越小,越容易理解为符合用户查询满意度;相对用户查看返回结果中每个文档的时间而言,若查看时间相当短,即可说明用户直接看出该文档不是自己想要的文档,对该文档的满意度较低;若查看时间较长,则说明用户对文档进行了长时间的审查,对当前文档较为满意。上述对分页上文档查看位置与时间的计算的比率值向左移一个单位后再进行自然对数计算处理,有效的避免分值出现负数,这样同时说明所述计算公式是符合用户行为分析结果的。因此通过算式计算出每个查看文档在整个查询返回结果中的排列位置p与用户查看查询结果的整体时间t在自然对数收敛计算后的满意分值。

对于分页查询维度而言,首先,搜索中心将整个查询返回结果以分页的形式提交给用户,如果用户查询查看的分页数过多,则从整体上可以反映出用户对当前查询结果不满意。而对于每个文档而言,如果用户在每个分页上点击查看的次数过多,说明用户对比了很多文档,对当前文档的结果均不满意,反之,用户一个文档都不查看或者查看的文档比较少的话,说明用户明显地看出当前分页结果不满足用户的查询需求,即所述每个分页上查看的文档个数q值太大或太小,都可能反应出用户对本次查询的满意度不高。基于此,本发明对每个分页维度进行如下计算:计算每个分页查看文档个数占整体查看文档个数的百分比,然后将结果进行区间拉升,拉升到π大小范围内,然后取其cos值的绝对值,并对每个值进行求和,形成公式。

因此上述公式对用户行为的5个指标分别进行收敛计算,得出合理的分词检索满意度分值。其大小表示了用户行为分析的结果对检索的匹配度贡献,可以在后续操作中作为判定分词的存储位置及其动态更新的依据。基于用户行为的分值曲线如图2所示。

步骤4,动态更新扩展词库,若步骤3计算所得的分词检索满意度分值高于设计的分值,系统会自动判定查询的结果不符合用户的查询需求,此时,将当前分词在基础词库以及扩展词库中进行查找匹配,若不存在该分词,则将该分词添加到扩展词库中去,随后系统根据词库的更新,定时启动索引更新程序,对当前文档索引进行更新;否则不对当前查询行为做处理。若步骤3计算所得的分词检索满意度分值低于设计的分值,说明分词查询结果与用户查询需求期望之间的相差比较小,分值越小,当前分值与期望分值之间越接近,查询结果越符合用户查询需求,不需要将该分词添加到扩展词库中去,即不对当前查询行为做处理。基于用户行为分析的分词添加流程如图3所示。

经过循环往复迭代,不断将分词检索满意度分值高于设计分值的分词添加到扩展词库中,并更新文档索引。随着用户对中文词条的频繁检索,以及根据用户操作处理返回结果等用户行为指标分析逐步增强和智能化,系统自动累积存储在扩展词库中的专业词汇不断增加,词库数据和内容得到不断更新。

实施例:

本实例中,用户输入页岩气领域的“压裂工艺”的中文词条进行查询;

系统先加载页岩气领域专业词汇的基础词库和扩展词库中的词语,以这些页岩气专业词汇为语料,采用中文分词器,对输入的“压裂工艺”进行分词处理,拆分为“压裂”和“工艺”两个分词,这样更符合中文检索习惯和语义规范的分词文本,上述中文词条的分词结果集如下(这里用“/”表示分词效果):

压裂/工艺

搜索引擎按照基础词库与扩展词库进行分析,生成文档索引库,根据“压裂工艺”的分词结果与索引库,快速检索出文档,并将要输出的结果按照关联度从大到小进行排序,并以分页的方式返回给用户,用户得到与“压裂工艺”的搜索返回结果后,对搜索返回结果进行操作处理;将用户对搜索结果的操作行为进行记录,并作为维度数据发送给行为分析处理器,行为分析处理器对传过来的多个维度数据进行分析处理,根据分词检索满意度分值公式计算f(t,n,q,m,p)数值,得到用户对“压裂工艺”搜索结果的分词检索满意度分值,然后根据该分词检索满意度分值确定词库的更新策略。

本实施例中,搜索引擎将相关度较高的20个文档,以2个分页的形式返回给用户,每个分页显示的10个文档,即m=2;其中用户查看了5个文档,即n=5;第一分页查看了3个文档,第二分页查看了2个文档,即q=3和2;用户查看查询返回结果中每个文档的时间t分别为30s、40s、60s、80s和120s;5个文档在整个查询返回结果中的排列位置p分别为1、2、3、11和12。因此记录用户行为的5个指标参数值域分别如下:

m={2}

n={5}

q={3,2}

p={1,2,3,11,12}

t={30,40,60,80,120}

通过上述公式计算f(t,n,p,m,q)值,过程如下:

这个分值即为对“压裂工艺”进行查询后,通过用户行为分析处理器计算出的分词检索满意度分值,其大小表示了对“压裂”“工艺”查询时用户行为分析结果和检索的匹配度。

本实施例中,如果对“压裂工艺”查询的用户行为分析后的分词检索满意度分值高于系统设计的分值,如0.5(系统可根据训练和统计结果调整该值),则系统认为返回的查询结果不符合用户的查询需求,就需要进一步判定“压裂工艺”是否存在于基础词库和扩展词库中。如果是首次进行该词条的查询,经查询匹配发现在基础词库和扩展词库中没有该词,系统就自动将“压裂工艺”添加到扩展词库中并建立索引标记。随着页岩气领域专业词汇不断的添加和更新到扩展词库中,以及文档索引的重新构建,为进一步在页岩气资源库中进行准确的文本检索提供了新的处理手段。如果在基础词库或扩展词库中发现该词存在,就不需要进行处理。

本实施例提供的一种基于用户行为分析的动态词库更新方法,能够充分发挥基于用户行为分析的专业领域词库动态更新规范、实时性高的优点,满足各类专业领域快速查询的需要,专业词汇查询准确,词库更新效率高。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1