分类模型更新方法及其相应的装置、设备、介质与流程

文档序号:26920256发布日期:2021-10-09 16:35阅读:93来源:国知局
分类模型更新方法及其相应的装置、设备、介质与流程

1.本技术实施例涉及电商信息技术领域,尤其涉及一种分类模型更新方法及其相应的装置、设备、介质。


背景技术:

2.文本分类作为信息管理和应用的一种有效手段,主要是根据目标文档的主题或内容,将大量文本按照一定的分类体系或标准,依次归属到一个或多个类别的过程。在支撑主题抽取、情感分析、舆情分析、垃圾邮件过滤、智能问答和推荐系统等方面起着重要的作用。
3.近年随着attention(注意力机制)的兴起,预训练和精调模型(fine

tune)用于nlp语言任务的情况越来越多。首先预训练得到的模型是基于大量完整语义所训练后得到的结果,在一些复杂的语义识别,问答和理解时有着较好的效果。遗憾的是,在本技术所关注的跨境电商领域,大部分的内容,特别是用于描述电商产品的电商标题,其语境没有完整的语义,基本都是关键词的拼接,因此,直接使用各大研究团队得到的预训练模型无法满足电商领域的文本分类需求。
4.同时,基于精调的深度学习模型的训练过程需要耗费大量的时间,且易因为模型的复杂度较高而极容易出现过拟合,过程中需要不断地对样本进行更新迭代,耗时费力。由此,将模型投入实际生产进行实时的风控内容检测时,模型会因为得不到及时更新,导致风控出现极大的风险。特别是在跨境电商领域,由于商品销售是面向不同的国家、不同的文化,便极容易出现涉及到对方文化、法律或是当前时事中的一些违禁点或敏感点,那么就需要及时地对跨境电商领域中的一些实时更新的商品、内容进行实时的检测,分析其相关信息,判决其是否属于安全或不安全类别。
5.为了实现对上线商品的安全属性的判决,当前存在的方法则是以先建立好的不同类型词库进行相关内容的匹配,但是,由于缺乏有效的技术手段,这些词库的更新通常是人力执行或滞后采集的,因此不同国家和地区的词库的更新往往具有极大的延迟,如果借助翻译别国的词库来实现,又会导致得到的本国语言词库只是语义本身就不够准确的直译结果,反而更容易使靠关键词来匹配的模型出现极大的误判。
6.综上所述,用于实现文本分类的机器学习模型,无论是神经网络模型还是传统机器学习模型,在对电商领域特别是跨境电商领域常用的标题文本进行分类时,由于其词库的更新滞后,容易导致相应的模型出现分类不准确、不及时等现象,亟待改进。


技术实现要素:

7.本技术的目的针对现有技术中存在的至少部分不足而提供一种分类模型更新方法及其相应的装置、计算机设备及存储介质。
8.为解决上述技术问题,本技术采用的一个技术方案是:
9.本技术提供一种分类模型更新方法,其包括如下步骤:
10.获取具有满足预设时效性的引用文本,对其进行分词以提取出候选词;
11.融合每个候选词的自信息熵与互信息熵获得每个候选词的信息分值,将信息分值高于预设阈值的候选词作为所述引用文本中的命中词;
12.计算每个命中词与预设的分类词库中各个分类的匹配度,将每个命中词按照相应的匹配度聚类至所述各个分类以构成该分类词库的关键词;
13.将每个命中词的最高匹配度的分类确定为该命中词的所属分类,将该命中词与其所属分类以及所述引用文本之间的映射关系更新至语料库;
14.启动用于实现标题文本分类的分类模型的训练,使该分类模型以所述语料库中的所述引用文本作为训练样本,以所述语料库中该引用文本相对应的命中词与其分类的映射关系作为该引用文本的监督标签。
15.较佳的实施例中,获取具有满足预设时效性的引用文本,对其进行分词以提取出候选词,包括如下步骤:
16.调用爬虫接口抓取属于目标地理区域及预设时间范围内的网站信息页面;
17.从所述网站信息页面中提取出其中的文本信息,将其格式化预处理为所述的引用文本;
18.调用分词器对所述引用文本进行分词,以获得所述的候选词。
19.具体化的实施例中,融合每个候选词的自信息熵与互信息熵获得每个候选词的信息分值,将信息分值高于预设阈值的候选词作为所述引用文本中的命中词,包括如下步骤:
20.统计每个候选词的自信息熵,自信息熵为该候选词的左邻信息熵与右邻信息熵的和值;
21.统计每个候选词的互信息熵;
22.适应每个候选词,将其自信息熵与其互信息熵配以不同权重进行线性融合,获得相应的候选词的信息分值;
23.输出信息分值高于预设阈值的候选词作为所述引用文本中的命中词。
24.具体化的实施例中,计算每个命中词与预设的分类词库中各个分类的匹配度,将每个命中词按照相应的匹配度聚类至所述各个分类以构成该分类词库的关键词,包括如下步骤:
25.将所述命中词与所述预设的分类词库中的关键词进行向量化;
26.根据向量化所得的词向量,计算每个命中词与分类词库中各个分类的关键词之间的平均余弦相似度作为所述的匹配度;
27.将每个命中词与所述各个分类的匹配度的对应关系数据存储至所述分类词库中,使该命中词构成其中的关键词,完成所述命中词的聚类。
28.进一步扩展的实施例中,将每个命中词与所述各个分类的匹配度的对应关系数据存储至所述分类词库中,使该命中词构成其中的关键词,完成所述命中词的聚类,还包括如下步骤:
29.调用所述用于实现标题文本分类的分类模型对所述引用文本进行分类,确定所述引用文本在所述预设分类词库的分类结构中所属的具体分类;
30.比较所述引用文本的具体分类与该引用文本的命中词的最高匹配度的分类是否一致,当两者不一致时,从所述预设分类词库中召回相应的命中词;
31.接收针对所召回的命中词的匹配度的重新标注数据,将其存储至所述的预设分类
词库中。
32.进一步扩展的实施例中,所述分类模型经训练至收敛状态启动运行之后,包括如下步骤:
33.获取外部输入的标题文本;
34.将所述标题文本分词并向量化,获得标题词向量;
35.根据所述标题词向量对标题文本进行分类,获得其属于所述分类词库中的各个分类的评分值;
36.输出其中评分值最大的分类的分类标签。
37.较佳的实施例中,所述标题文本为电商产品的标题形式,包括用于描述电商产品的多个语义相关而语法上离散的字词。
38.为解决上述技术问题,本技术采用的另一技术方案是:
39.本技术提供一种分类模型更新装置,其包括文本引用模块、文本评分模块、分类更新模块、语料更新模块、模型启动模块,其中,所述文本引用模块,用于获取具有满足预设时效性的引用文本,对其进行分词以提取出候选词;所述文本评分模块,用于融合每个候选词的自信息熵与互信息熵获得每个候选词的信息分值,将信息分值高于预设阈值的候选词作为所述引用文本中的命中词;所述分类更新模块,用于计算每个命中词与预设的分类词库中各个分类的匹配度,将每个命中词按照相应的匹配度聚类至所述各个分类以构成该分类词库的关键词;所述语料更新模块,用于将每个命中词的最高匹配度的分类确定为该命中词的所属分类,将该命中词与其所属分类以及所述引用文本之间的映射关系更新至语料库;所述模型启动模块,用于启动用于实现标题文本分类的分类模型的训练,使该分类模型以所述语料库中的所述引用文本作为训练样本,以所述语料库中该引用文本相对应的命中词与其分类的映射关系作为该引用文本的监督标签。
40.较佳的实施例中,所述的文本引用模块包括:爬虫抓取子模块,用于调用爬虫接口抓取属于目标地理区域及预设时间范围内的网站信息页面;文本提取子模块,用于从所述网站信息页面中提取出其中的文本信息,将其格式化预处理为所述的引用文本;文本分词子模块,用于调用分词器对所述引用文本进行分词,以获得所述的候选词。
41.具体化的实施例中,所述的文本评分模块包括:自信息熵子模块,用于统计每个候选词的自信息熵,自信息熵为该候选词的左邻信息熵与右邻信息熵的和值;互信息熵子模块,用于统计每个候选词的互信息熵;分值融合子模块,用于适应每个候选词,将其自信息熵与其互信息熵配以不同权重进行线性融合,获得相应的候选词的信息分值;选词冒泡子模块,用于输出信息分值高于预设阈值的候选词作为所述引用文本中的命中词。
42.具体化的实施例中,所述分类更新模块包括:向量映射子模块,用于将所述命中词与所述预设的分类词库中的关键词进行向量化;匹配计算子模块,用于根据向量化所得的词向量,计算每个命中词与分类词库中各个分类的关键词之间的平均余弦相似度作为所述的匹配度;聚类更新子模块,用于将每个命中词与所述各个分类的匹配度的对应关系数据存储至所述分类词库中,使该命中词构成其中的关键词,完成所述命中词的聚类。
43.进一步扩展的实施例中,所述分类更新模块还包括:召回分类子模块,用于调用所述用于实现标题文本分类的分类模型对所述引用文本进行分类,确定所述引用文本在所述预设分类词库的分类结构中所属的具体分类;比较召回子模块,用于比较所述引用文本的
具体分类与该引用文本的命中词的最高匹配度的分类是否一致,当两者不一致时,从所述预设分类词库中召回相应的命中词;标签刷新子模块,用于接收针对所召回的命中词的匹配度的重新标注数据,将其存储至所述的预设分类词库中。
44.进一步扩展的实施例中,所述分类模型包括:标题获取子模块,用于获取外部输入的标题文本;标题向量子模块,用于将所述标题文本分词并向量化,获得标题词向量;标题评分子模块,用于根据所述标题词向量对标题文本进行分类,获得其属于所述分类词库中的各个分类的评分值;标题分类子模块,用于输出其中评分值最大的分类的分类标签。
45.较佳的实施例中,所述标题文本为电商产品的标题形式,包括用于描述电商产品的多个语义相关而语法上离散的字词。
46.为解决上述技术问题,本技术还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行所述分类模型更新方法的步骤。
47.为解决上述技术问题本技术实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行所述分类模型更新方法的步骤。
48.与现有技术相比,本技术具有如下优点:
49.本技术考虑到用于描述电商产品的电商标题的内容在语法和语义上的特殊性,适应用于对此类标题的标题文本进行分类判别的分类模型的需要,改进了此类分类模型的更新过程,具体是针对此类分类模型所需的语料库及分类词库的内容实现自动获取和自动更新,使得此类分类模型的语料库及其分类词库能够长期自动地从外部公开资源中获取引用文本,从中发现新词,给出新词相关的分类信息,将新词的分类信息及其引用文本填充至分类模型所需的语料库中,并驱动分类模型更新后的语料库进行模型的更新训练,使分类模型不断扩展新词识别能力而能适应不同国家、不同文化、不同时事热点相关的信息安全规范,从而确保分类模型能够及时识别出电商标题中的敏感词、违规词等目标词,持续动态地提升电商平台的信息安全识别能力。
50.由于本技术用于新词发现的数据源可以通过多种形式获取,尤其可以通过从公网中获取到满足时效性要求的引用文本,这些引用文本可以及时反映当前时事热点、当前政策、当前法律法规等与社会热点相关的敏感信息,因此,确保了后续发现的新词(命中词)对于监测与社会热点相关的安全信息有价值,进一步由于在进行新词挖掘时融合了候选词的自信息熵和互信息熵对候选词进行信息价值的考察,使得所挖掘出来的命中词具有较高的准确率,因此,综合确保能够及时准确提取社会热点相关的命中词用于增强本技术的分类模型的信息安全风控能力。
51.进一步,将本技术的技术方案应用到跨境电商领域的用作违规产品、违规产品的识别,能够根据不同的国家、不同的文化的特点,通过新词发现来不断快速完善相关分类模型的预训练语料库,快速更新其样本,及时迭代分类模型,快速缩短分类模型的更新时间,极大提高对潜在风险信息的检测准确率,最大化地减小训练样本打标所需的人力时间成本。
附图说明
52.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
53.图1为本技术的分类模型更新方法的基本流程示意图;
54.图2为本技术的分类模型更新方法获取引用文本过程的流程示意图;
55.图3为本技术的分类模型更新方法计算信息分值过程的流程示意图;
56.图4为本技术的分类模型更新方法命中词聚类过程的流程示意图;
57.图5为本技术的分类模型更新方法命中词召回打标过程的流程示意图;
58.图6为本技术的分类模型的工作过程的流程示意图;
59.图7为本技术的分类模型更新装置的基本结构示意图;
60.图8为本技术一个实施例的计算机设备的基本结构框图。
具体实施方式
61.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能解释为对本技术的限制。
62.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
63.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
64.本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;pcs(personal communications service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;pda(personal digital assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(global positioning system,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,
或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是pda、mid(mobile internet device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
65.本技术所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
66.需要指出的是,本技术所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本技术的网络部署方式的实施方式。
67.本技术部分技术方案可部署在云端服务器,其可以与业务上相关的服务器实现数据通信连接以协调在线服务,还可与其他相关服务器构成逻辑上相关联的服务机群,来为相关的终端设备例如智能手机、个人计算机、第三方服务器等提供服务。所述的智能手机和个人计算机均可通过公知的网络接入方式接入互联网,与本技术的服务器建立数据通信链路,以便访问和使用所述服务器所提供的服务。
68.对于服务器而言,一般通过提供在线服务的服务引擎开放相应的程序接口供各种终端设备进行远程调用,本技术中适于部署于服务器的相关技术方案,便可以此种方式实现于服务器中。
69.本技术所称的计算机程序,即应用程序,以计算机程序语言开发而成,安装于计算机设备中,包括服务器、终端设备等,用于实现本技术所限定的相关功能,除非特别指定,否则与其所采用的开发语言无关。
70.本领域技术人员对此应当知晓:本技术的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本技术所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
71.本技术即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本技术的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
72.请参阅图1所示本技术的分类模型更新方法在其典型实施例中的基本流程示意图,本技术提供的一种分类模型更新方法,被编程为应用程序,部署于计算机设备中运行,其包括如下步骤:
73.步骤s1100、获取具有满足预设时效性的引用文本,对其进行分词以提取出候选词:
74.所述的引用文本的来源,可以通过多种方式来确定,例如线下人工采集后形成的
数据源、线上以爬虫技术获取的网站页面信息所构成的数据源等。数据源中主要提供文本信息,这些文本信息的内容,通常是应用本技术的互联网业务平台所在的地区的最新信息,包括但不限于该地区的最新法律法规、最新国家政策、最新文化安全信息、最新时事热点新闻等,概括这些文本信息的特点,便是其需要满足一定的预设时效性,例如近三天、近一周、近一月等等,为了满足这一预设时效性,可以在从数据源中获取用于提取引用文本的文本信息时约束相关的文本信息的时间字段,将限定的时间范围内的数据源获取到即可,以过滤时间上可能已经不具备信息贡献价值的数据源。可见,数据源的确定,关系到本技术后续新词发现的时效性及准确性,但本领域技术人员可以根据此处揭示的精神,适当结合先验知识灵活确定实施本技术所需的数据源。
75.本技术的典型实施例,是适应一个适于为电商领域尤其是跨境电商领域的标题文本进行分类的分类模型的需求而提出的,适应这一分类模型,依据数据源的文本信息加工而成的引用文本最终将被参考一个分类词库进行加工,以发现其中的新词。本实施例中,所述预设分类词库中的关键词,主要是用于存储一些违禁词,即电商平台需要对其进行遮蔽、过滤、删除的关键词,这些关键词被按照分为不同的类别。在其他实施例中,如果所述分类模型的功能是用于实现其他目的,用于公安侦查犯罪线索的目的,这种情况下,则其分类词库的分类结构可能与本技术的典型实施例中的分类词库的分类结构不一致,仅需相应替换分类词库,即可实现相对应的目的。可见,尽管在本技术中主要是电商领域的应用为例揭示本技术的各种具体实施方式,但将本技术的技术方案转用到其他领域也不超脱本技术的保护范围,读者对此应当理解。
76.获取本技术所需的引用文本之后,便可借助各种本领域技术人员熟知的分词器对其进行分词提取,以便通过分词获得引用文本中的候选词,以便后续根据候选词确定引用文本中真正的中心词。
77.步骤s1200、融合每个候选词的自信息熵与互信息熵获得每个候选词的信息分值,将信息分值高于预设阈值的候选词作为所述引用文本中的命中词:
78.现有技术中存在多种本领域技术人员熟知的分词器,利用不同的算法,可以适用于对引用文本进行分词提取,包括基于词典的分词算法、基于统计的机器学习分词算法、基于神经网络的分词器等,本领域技术人员可以灵活选用合适的分词器,以便从所述的引用文本中提取候选词。本技术区别于现有技术之处在于,其对分词获得的候选词进行基于信息熵的统计而获得各个候选词相应的信息分值,根据信息分值来确定候选词是否为真正命中的新词,即本技术所称的命中词。示例而言,一种实施例中,可以利用n

gram来进行新词发现,统计出各个候选词的词频,在此基础上进行基于自信息熵和互信息熵的信息分值计算。
79.候选词的自信息熵,用来衡量该候选词的自由度。假设一个候选词一共出现了n次,其左边共出现过n个汉字,每个汉字依次出现n1,n2,
……
,nn次,则满足n=n1+n2+
……
+nn,因此可以计算该词语左边各个汉字出现的概率,并根据熵公式计算左邻熵。同理,可以计算出其右邻熵。根据左邻熵与右邻熵的汇总和值,便可进一步确定出该候选词的自信息熵。熵越小则自由度越低,否则其自由度越高。
80.候选词的互信息熵,用来衡量该候选词的凝固度。假设候选词为s,首先计算该词语在候选词集合中出现的概率p(s),然后尝试s的所有可能的二切分,即分为左半部分sl和
右半部分sr并计算p(sl)和p(sr),例如双汉字词语存在一种二切分、三汉字词语存在两种二切分。接下来计算所有二切分方案中,p(s)/(p(sl)
×
p(sr))的最小值,取对数之后即可作为凝固度的衡量。互信息熵越大,候选词的内部的聚合程度越高,互信息熵越大,候选词内部的聚合程度越低。
81.将候选词的自信息熵进行融合来确定该候选词的信息分值,本质上是给出该候选词的价值评估指标,当信息分值越高时,其构成具有独立地位的中心词的可能性越高,否则,当信息分值越低时,其构成中心词的可能性越低。最简单的融合方式,可以是将互信息熵与自信息熵直接相加来确定,本技术其他实施例将给出实现融合的其他方式,此处暂且不表。
82.考察本技术所主要应用的电商领域的标题文本的特点可知,所述标题文本为电商产品的标题形式,包括用于描述电商产品的多个语义相关而语法上离散的字词,例如“欢聚蹦迪舞鞋畅销新款利能定制款”,其中,当其被分词之后,理论上将得到多个候选词如:“欢聚”、“蹦迪”、“舞鞋”、“畅销”、“新款”、“利能”、“定制款”,考察这些候选词的特点可以看出,基本上均为关键词的堆叠,词与词之间语义上有一定的相关性,但在语法上是相对离散的,更多是并列的,且整个标题文本的长度基本也不会过长。根据这些特点,考虑到互信息熵会受到候选词长度的影响,候选词越长,互信息熵的取值便偏大,因此,在计算互信息熵时,可以为互信息熵的计算引入n方的权,其中n指该候选词的字的数量。
83.通过计算获得各个候选词的信息分值之后,可以根据预设阈值来判决候选词的信息分值是否满足要求,将满足要求的候选词确定为本技术所需的命中词,即通过数据挖掘发现后所确定的新词。所述的预设阈值可以根据本领域技术人员的先验知识来确定,也可基于对所有候选词的信息分值的统计均值来确定。给出所述的预设阈值之后,将每一候选词的信息分值与之相比较,信息阈值高于该预设阈值的候选词便可确定为从所述引用文本中发现的命中词,否则不将其确定为命中词。
84.步骤s1300、计算每个命中词与预设的分类词库中各个分类的匹配度,将每个命中词按照相应的匹配度聚类至所述各个分类以构成该分类词库的关键词:
85.本技术的分类模型,适应其实现其标题文本分类功能所需,引用一个分类词库,以便通过引用该分类词库的数据实现标题文本的分类,该分类词库中建立一个分类结构,该分类结构包括多个分类,用于存储海量的关键词,每个关键词被标注其映射到各个分类时的匹配度数据,以表征一个关键词属于某个具体分类的相似度。
86.本实施例中,针对每个命中词,可以计算其相对于分类词库中各个分类的匹配度,获得该命中词分别映射到各个分类时的各个匹配度数据,这一计算过程可以借助本领域常用的分类器来实现,从而获得一个命中词相对应于各个分类的相应的匹配度。
87.确定每个命中词的匹配度数据之后,便可将每个命中词存储至所述的分类词库中,相应的,也为各个命中词填入其映射到各个分类的匹配度数据,从而使该命中词构成了所述分类词库中的关键词。
88.将所有的命中词都存储到所述分类词库中后,便完成了对所有通过新词发现的命中词的聚类。
89.可以看出,这一过程中,命中词的匹配度数据对引用文本而言,起到了标签的作用,其中命中词具有最高匹配度的分类,便可视为影响该引用文本的信息价值分类的标注
信息,当其被投入分类模型中参与训练时,这一标注信息实际上便起到监督标签的作用,可以用于监督分类模型对所述引用文本的学习结果。
90.步骤s1400、将每个命中词的最高匹配度的分类确定为该命中词的所属分类,将该命中词与其所属分类以及所述引用文本之间的映射关系更新至语料库:
91.为了便于本技术的分类模型可以根据新词发现所得的命中词进行训练,故将每个命中词的最高匹配度的分类确定为该命中词的所属分类,然后将所述引用文本与其中的所述命中词的所属分类的映射关系数据更新至所述分类模型训练所需的语料库中,实现为所述的语料库添加新的训练语料,使得所述的分类模型可以在新增语料的基础上不断提升自身对于标题文本的分类识别能力。
92.步骤s1500、启动用于实现标题文本分类的分类模型的训练,使该分类模型以所述语料库中的所述引用文本作为训练样本,以所述语料库中该引用文本相对应的命中词与其分类的映射关系作为该引用文本的监督标签:
93.所述的语料库,可以理解,其存储有所述分类模型训练所需的训练样本及其监督标签,其中,本技术的引用文本被添加至该语料库中作为训练样本,而该引用文本所包含的所述命中词与其所属分类的映射关系数据则被添加至该语料库中构成该引用文本被用于训练时所需的监督标签,所述分类模型对引用文本进行分类识别,获得映射到所述分类词库的分类结果的各个分类的评分值,其中的评分值最高的分类即为根据所述引用文本分类识别出的具体分类,这一具体分类是否正确,可以引用相应的监督标签来比较,若分类标签不正确,则通过修正分类模型的学习参数来逼近正确结果。引用多个训练样本对分类模型执行多次的迭代训练,可以使其判断结果的正确率不断提升,并且不断兼容拓展其对新词的分类能力。
94.所述的分类模型,可以为本领域公知的各种适于实现安全属性分类模型,包括传统机器学习模型、基于神经网络的深度学习模型等,本领域技术人员可以理解,该分类模型将包括能够对所输入的标题文本进行向量化的特征处理部件例如bert、albert等,以及包括适于执行分类操作的分类器如softmax分类器等。较佳的,分类模型可以是基于注意力机制构造的。本领域技术人员可以理解,本技术的分类模型,本技术无需罗列枚举,因其涵盖任何适于利用本技术所制备的语料库、分类词库进行表示学习并实现分类识别的功能的分类模型,只要其能够根据本技术的语料库和分类词库习得标题文本的分类能力,即不超脱本技术的保护范围。
95.本实施例中,所述分类词库可以基于其中关键词的安全属性来进行分类,构成其中的分类结构,例如包括“黄”、“赌”、“毒”等具体分类,将本技术的分类模型用于电商领域对电商标题进行识别时,借助这一分类词库,分类模型可以识别出标题文本是否归入其中何一类别,从而实现标题文本的安全属性的识别。
96.本技术考虑到用于描述电商产品的电商标题的内容在语法和语义上的特殊性,适应用于对此类标题的标题文本进行分类判别的分类模型的需要,改进了此类分类模型的更新过程,具体是针对此类分类模型所需的语料库及分类词库的内容实现自动获取和自动更新,使得此类分类模型的语料库及其分类词库能够长期自动地从外部公开资源中获取引用文本,从中发现新词,给出新词相关的分类信息,将新词的分类信息及其引用文本填充至分类模型所需的语料库中,并驱动分类模型更新后的语料库进行模型的更新训练,使分类模
型不断扩展新词识别能力而能适应不同国家、不同文化、不同时事热点相关的信息安全规范,从而确保分类模型能够及时识别出电商标题中的敏感词、违规词等目标词,持续动态地提升电商平台的信息安全识别能力。
97.由于本技术用于新词发现的数据源可以通过多种形式获取,尤其可以通过从公网中获取到满足时效性要求的引用文本,这些引用文本可以及时反映当前时事热点、当前政策、当前法律法规等与社会热点相关的敏感信息,因此,确保了后续发现的新词(命中词)对于监测与社会热点相关的安全信息有价值,进一步由于在进行新词挖掘时融合了候选词的自信息熵和互信息熵对候选词进行信息价值的考察,使得所挖掘出来的命中词具有较高的准确率,因此,综合确保能够及时准确提取社会热点相关的命中词用于增强本技术的分类模型的信息安全风控能力。
98.进一步,将本技术的技术方案应用到跨境电商领域的用作违规产品、违规产品的识别,能够根据不同的国家、不同的文化的特点,通过新词发现来不断快速完善相关分类模型的预训练语料库,快速更新其样本,及时迭代分类模型,快速缩短分类模型的更新时间,极大提高对潜在风险信息的检测准确率,最大化地减小训练样本打标所需的人力时间成本。
99.请参阅图2,为提高数据源获取效率而提供的实施例中,所述步骤s1100包括如下步骤:
100.步骤s1111、调用爬虫接口抓取属于目标地理区域及预设时间范围内的网站信息页面:
101.为了制备引用文本,考虑到时效性及电商平台所面向的地理区域,可以针对性地从公网中获取相关的网站信息页面,以便提取其中的文本信息用于制备引用文本。
102.可以利用爬虫工具提供的爬虫接口来抓取所述的网站信息页面,对于所抓取的网站信息页面,一般有所约束,例如,可以通过网站的ip地址所属的国别来判别是否属于电商平台所面向的目标国家,从而只抓取目标国家相关的网站信息页面;可以通过网站信息页面的信息发布时间来判别是否满足预设时效性,从而只抓取一段时间以内发布的网站信息页面。
103.为了获得目标国家的网站信息页面,可以给出关于目标地理区域的约束条件,为了获得满足预设时效性的网站信息页面,可以给出关于目标时间范围的约束条件,两者联立对所抓取的网站信息页面进行过滤,从而便可获得符合要求的网站信息页面。
104.较佳的,这些网站信息页面可以是政府网站的法律法规政策等信息的相关页面,可以是媒体单位发布新闻的相关页面,可以是其他类似页面等。
105.步骤s1112、从所述网站信息页面中提取出其中的文本信息,将其格式化预处理为所述的引用文本:
106.由于网站信息页面中存在各种冗余信息,因此,此处可仅提取出其中正文部分的文本信息,并且可以采用各种公知的格式化预处理工具对其进行格式化预处理,最终形成所述的引用文本。
107.步骤s1113、调用分词器对所述引用文本进行分词,以获得所述的候选词:
108.如前所述,此处可调用各种公知且适于本技术中后续对候选词进行信息熵统计的分词器对所述的引用文本进行分词,以提取出引用文本中的候选词。
109.本实施例通过规范引用文本的数据源,将数据源约束为公网上动态发布的各种有助于发现符合本技术的分类词库的分类性质的网站信息页面,由于此类数据源可以通过爬虫工具快速获取、加工、制备,并且具有迅速反映社会动态的特点,因此,由此获得的引用文本,用于新词发现后,丰富分类模型所需的语料库和分类词库,显然可以更加迅速地提升分类模型基于新词完成分类的能力。
110.请参阅图3,为便于编程实现而提供的具体化的实施例中,所述步骤s1200,包括如下步骤:
111.步骤s1211、统计每个候选词的自信息熵,自信息熵为该候选词的左邻信息熵与右邻信息熵的和值:
112.首先,熵表示对于分布为p(xi)的随机变量x,其自信息的数学期望,其计算公式为信息论中公知的公式,本技术中表示为:
113.h(x)=∑p
xi
lnp
xi
114.本步骤中,先行统计从引用文本中提取出的候选词的自信息熵,为了计算自信息熵,需要先计算候选词的左右邻熵。
115.左邻熵:
116.el=∑p(wi|str)lnp(wi|str)
117.其中,wi为左邻字符串集合,str为字符串的组合,p(.)为给定条件str下wi的条件概率。
118.右邻熵:
119.er=∑p(wi|str)lnp(wi|str)
120.其中,wi为右邻字符串集合,str为字符串的组合,p(.)为给定条件str下wi的条件概率。
121.根据左邻熵和右邻熵公式可以得知,当wi集合越大,以及当p的值越大时,得到的熵就会越大。熵越大,代表的信息量也就越大。
122.在获得左邻熵和右邻熵的基础上,适用如下的自信息熵评估函数:
123.l=erlnel+ellner+|el

er|ln(er+el)

(er+el)ln|er

el|
124.可见,左右的信息熵都相对较大时,此时的候选词可以独立作为一个中心词的可能性越大,使用的左右邻字丰富程度优化后评估函数更好。本技术在实际测试中,也取得了很好的效果。
125.步骤s1212、统计每个候选词的互信息熵:
126.一般地,两个离散随机变量x和y的互信息可以定义为:
[0127][0128]
其中,p(x,y)是x和y的联合概率分布函数,而p(x)和p(y)分别是x和y的边缘概率分布函数。
[0129]
两个字符串之间的互信息评估的是他们在一起的意义,互信息越大,说明彼此依赖更强,而不是可以有可无的。故适用如下函数对互信息熵进行计算:
[0130][0131]
其中,p(str)为文本词频。
[0132]
进一步,由于对象间互信息量会受到候选词长度的影响(候选词越长,互信息取值偏大),在跨境电商场景下,文本的使用大概率是由关键词的堆叠,且文本的长度基本不会过长,故而为mi加入n方的权,修正如下:
[0133][0134]
步骤s1213、适应每个候选词,将其自信息熵与其互信息熵配以不同权重进行线性融合,获得相应的候选词的信息分值:
[0135]
为了获得每个候选词的自信息熵与互信息熵之间的和值,且方便对其进行调和,因此,对自信息熵和互信息熵分别配以为不同权重参数,用于计算所述的信息分值。本领域技术人员可以根据实际情况灵活确定其中的不同权重。相应的公式如下:
[0136]
score=α
·
l(w)+β
·
ami(w)
[0137]
其中,l(w)是自信息熵,ami(w)互信息熵,α和β是其相应的权重参数。
[0138]
根据该公式,便可求得各个候选词相对应的综合信息熵,作为其对应的信息分值,因此便可据此来选择所述的候选词。
[0139]
步骤s1214、输出信息分值高于预设阈值的候选词作为所述引用文本中的命中词:
[0140]
为了实现对候选词的优选,可以引入预设阈值用于判决每个候选词的信息分值是否满足要求,当一个候选词相对应的信息分值高于所述的预设阈值时,才将其确定为该候选词所在的引用文本中的命中词。
[0141]
本实施例在进行候选词优选以识别出命中词的过程中,应用了信息论中关于自信息熵与互信息熵的加权融合的思维,既考虑了候选词自身内部的聚合程度的稳定性,也考虑了候选词与其他字词之间的关联自由度,使得据此所发现的新词更具语义上的准确性,更有助于增强本技术的分类模型的识别分类能力。
[0142]
请参阅图4,为便于编程实现而提供的具体化的实施例中,所述步骤s1300,包括如下步骤:
[0143]
步骤s1311、将所述命中词与所述预设的分类词库中的关键词进行向量化:
[0144]
如前所述,利用一个本领域技术人员所熟知的实现词嵌入的特征提取器可以分别将新词发现的命中词进行向量化,获得词向量,同时本技术的分类词库内的关键词也预先被该特征提取器转换为词向量。
[0145]
步骤s1312、根据向量化所得的词向量,计算每个命中词与分类词库中各个分类的关键词之间的平均余弦相似度作为所述的匹配度:
[0146]
在词向量的基础上,可以利用本领域技术人员熟知的余弦相似度算法计算每个命中词与分类词库中每个分类的关键词之间的余弦相似度,将同一分类的各个余弦相似度进行平均,获得该分类相应的平均余弦相似度,由此对于一个命中词而言,对应每个具体分类,便获得一个平均余弦相似度,作为所述的匹配度,可以理解,平均余弦相似度最高的分类,即是该命中词在该分类词库中最大可能隶属的分类,据此也可判定该命中词属于该相
应的分类。
[0147]
步骤s1313、将每个命中词与所述各个分类的匹配度的对应关系数据存储至所述分类词库中,使该命中词构成其中的关键词,完成所述命中词的聚类:
[0148]
在前获得的命中词属于各个具体分类的匹配度,构成对应关系数据,可将其存储至所述分类词库中,从而使该命中词构成该分类词库的新增的关键词,当所有的命中词均被存储至所述分类词库中,也就完成所有命中词的聚类。
[0149]
本实施例具体利用余弦相似度实现对命中词的分类,其实现简单,运行效率高,有助于提升实现了本技术的技术方案的应用程序的运行效率。
[0150]
请参阅图5,为进一步实现本技术的方案基于机器学习原理实现自训练的扩展的实施例中,所述步骤s1300中,所述步骤s1313之后,还包括如下步骤:
[0151]
步骤s1314、调用所述用于实现标题文本分类的分类模型对所述引用文本进行分类,确定所述引用文本在所述预设分类词库的分类结构中所属的具体分类:
[0152]
如前所述,本技术所述的分类模型,经本技术的语料库的训练样本进行训练,能够引用所述分类词库实现对标题文本的分类识别。因此,在本实施例中,可以反过来,利用该分类模型来辅助判别各个命中词是否具有良好的分类参考作用。为此,在本步骤中,可以调用所述分类模型,对所述引用文本进行分类识别,通过该分类模型确定该引用文本的具体分类是属于所述预设分类词库分类结构中的何一具体分类。由于分类模型的末端输出一般是多分类器的概率评分输出,因此,可以在同一意义上与存入至所述分类词库中的命中词的分类匹配度进行比较。
[0153]
步骤s1315、比较所述引用文本的具体分类与该引用文本的命中词的最高匹配度的分类是否一致,当两者不一致时,从所述预设分类词库中召回相应的命中词:
[0154]
所述引用文本经分类模型所确定的具体分类,可以与该引用文本相对应的命中词所属分类(具有最高匹配度)进行比较,如果两者并不一致,此时可高度怀疑命中词本身所属分类是否正确,由此,可以召回出现比较不一致的所有命中词。
[0155]
步骤s1316、接收针对所召回的命中词的匹配度的重新标注数据,将其存储至所述的预设分类词库中:
[0156]
对于重新召回的命中词,可以由进行人工标注,使其构成有效的监督标签。本步骤负责接收到针对所召回的命中词给出的重新标注数据,即指定其具体的所属分类或给出属于各个分类的匹配度数据,在此基础上,将完成重新标注的命中词存入所述的预设分类词库中,进一步提升命中词的分类准确率。
[0157]
当然,本领域技术人员也可以基于关键词查询对分类词库中的关键词,主要是所述的命中词进行暴力召回后进行重新标注,但是,其效率显然更低。而本实施例期望建构一个关于命中词的自训练机制,使得依据本技术所获得的命中词能够借助分类模型的逆向检验而更为高效地识别出需要召回修订的命中词,从而进一步提升处理效率。
[0158]
请参阅图6,为本技术的分类模型在电商领域的具体应用而进一步扩展的实施例中,所述分类模型经训练至收敛状态启动运行之后,包括如下步骤:
[0159]
步骤s2100、获取外部输入的标题文本:
[0160]
当调用本技术的已经被预训练至收敛状态并上线运行的分类模型时,用户将向其传入一个或多个标题文本,所述的标题文本在电商领域,一般是用于描述电商产品的各种
属性的标题文本或者其简要说明文本,本技术的分类模型可以针对每一个标题文本进行分类。
[0161]
步骤s2200、将所述标题文本分词并向量化,获得标题词向量:
[0162]
同理,标题文本作为自然语言需要进行向量化,通过词嵌入获得相应的标题词向量,以便在此基础上执行后续操作实现分类。
[0163]
步骤s2300、根据所述标题词向量对标题文本进行分类,获得其属于所述分类词库中的各个分类的评分值:
[0164]
本实施例的分类模型推荐基于albert来实现向量化之后,可以基于attention机制进行基于q、k、v的操作,使得在对所述标题文本进行分类时,实现对所述分类词库的引用,从而获得所述标题文本对应分类词库的分类结构中的各个分类的评分值。
[0165]
步骤s2400、输出其中评分值最大的分类的分类标签:
[0166]
可以理解,分类结果所得的各个分类的评分值中,评分值最大的分类,即是所述标题文本应归入的具体分类,为此,可以将该具体分类标签输出,以便向用户调用返回相应的分类结果数据。
[0167]
本实施例揭示,由本技术提供语料库进行训练的分类模型,能够快速及时地学习到新增的新词,并且根据新词对电商标题之类的标题文本进行具有高准确率的分类,尤其适用于跨境电商应用场景中。
[0168]
请参阅图7,本技术实施例还提供一种分类模型更新装置,其包括文本引用模块1100、文本评分模块1200、分类更新模块1300、语料更新模块1400、模型启动模块1500,其中,所述文本引用模块1100,用于获取具有满足预设时效性的引用文本,对其进行分词以提取出候选词;所述文本评分模块1200,用于融合每个候选词的自信息熵与互信息熵获得每个候选词的信息分值,将信息分值高于预设阈值的候选词作为所述引用文本中的命中词;所述分类更新模块1300,用于计算每个命中词与预设的分类词库中各个分类的匹配度,将每个命中词按照相应的匹配度聚类至所述各个分类以构成该分类词库的关键词;所述语料更新模块1400,用于将每个命中词的最高匹配度的分类确定为该命中词的所属分类,将该命中词与其所属分类以及所述引用文本之间的映射关系更新至语料库;所述模型启动模块1500,用于启动用于实现标题文本分类的分类模型的训练,使该分类模型以所述语料库中的所述引用文本作为训练样本,以所述语料库中该引用文本相对应的命中词与其分类的映射关系作为该引用文本的监督标签。
[0169]
较佳的实施例中,所述的文本引用模块1100包括:爬虫抓取子模块,用于调用爬虫接口抓取属于目标地理区域及预设时间范围内的网站信息页面;文本提取子模块,用于从所述网站信息页面中提取出其中的文本信息,将其格式化预处理为所述的引用文本;文本分词子模块,用于调用分词器对所述引用文本进行分词,以获得所述的候选词。
[0170]
具体化的实施例中,所述的文本评分模块1200包括:自信息熵子模块,用于统计每个候选词的自信息熵,自信息熵为该候选词的左邻信息熵与右邻信息熵的和值;互信息熵子模块,用于统计每个候选词的互信息熵;分值融合子模块,用于适应每个候选词,将其自信息熵与其互信息熵配以不同权重进行线性融合,获得相应的候选词的信息分值;选词冒泡子模块,用于输出信息分值高于预设阈值的候选词作为所述引用文本中的命中词。
[0171]
具体化的实施例中,所述分类更新模块1300包括:向量映射子模块,用于将所述命
中词与所述预设的分类词库中的关键词进行向量化;匹配计算子模块,用于根据向量化所得的词向量,计算每个命中词与分类词库中各个分类的关键词之间的平均余弦相似度作为所述的匹配度;聚类更新子模块,用于将每个命中词与所述各个分类的匹配度的对应关系数据存储至所述分类词库中,使该命中词构成其中的关键词,完成所述命中词的聚类。
[0172]
进一步扩展的实施例中,所述分类更新模块1400还包括:召回分类子模块,用于调用所述用于实现标题文本分类的分类模型对所述引用文本进行分类,确定所述引用文本在所述预设分类词库的分类结构中所属的具体分类;比较召回子模块,用于比较所述引用文本的具体分类与该引用文本的命中词的最高匹配度的分类是否一致,当两者不一致时,从所述预设分类词库中召回相应的命中词;标签刷新子模块,用于接收针对所召回的命中词的匹配度的重新标注数据,将其存储至所述的预设分类词库中。
[0173]
进一步扩展的实施例中,所述分类模型包括:标题获取子模块,用于获取外部输入的标题文本;标题向量子模块,用于将所述标题文本分词并向量化,获得标题词向量;标题评分子模块,用于根据所述标题词向量对标题文本进行分类,获得其属于所述分类词库中的各个分类的评分值;标题分类子模块,用于输出其中评分值最大的分类的分类标签。
[0174]
较佳的实施例中,所述标题文本为电商产品的标题形式,包括用于描述电商产品的多个语义相关而语法上离散的字词。
[0175]
本技术实施例还提供计算机设备。具体请参阅图8,图8为本实施例计算机设备基本结构框图。
[0176]
如图8所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种分类模型更新方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种分类模型更新方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0177]
本实施方式中处理器用于执行图7中各个模块/子模块的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有分类模型更新装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
[0178]
本技术还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例的分类模型更新方法的步骤。
[0179]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read

only memory,rom)等非易失性存储介质,或随机存储记
忆体(random access memory,ram)等。
[0180]
应当理解,经本技术的技术方案的分类模型,除适用于电商标题的安全分类识别之外,也适用于具有与电商标题相同特点的应用场景的语句的分类识别,对此,本领域技术人员应当知晓,将本技术的技术方案应用于电商领域之外的其他场景中,依然属于本技术所限定的等同替换范围之内。
[0181]
综上所述,本技术能够为实现标题文本分类的分类模型提供语料库与分类词库的及时更新,使分类模型经迭代训练之后不断引入其对动态新增热点信息的语义理解能力,从而更为高效、准确、及时地对标题文本进行安全属性分类。
[0182]
本技术领域技术人员可以理解,本技术中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本技术中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本技术中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
[0183]
以上所述仅是本技术的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1