产品特征信息获取方法、获取装置、电子设备及存储介质与流程

文档序号：32948981发布日期：2023-01-14 12:29阅读：55来源：国知局

1.本技术涉及数字医疗技术领域，具体涉及一种产品特征信息获取方法、获取装置、电子设备及存储介质。

背景技术：

2.随着互联网技术和数字医疗技术的发展，越来越多的数字医疗产品信息被公布在网页上，例如医院网页、在线问诊或新药品发布等应用场景中，通过网页来进行宣传数字医疗产品成为较为常用的宣传手段之一。例如，获取药品特征信息可以是通过对网页进行信息提取来实现的，例如对某款新研制药品的特征信息采集，可以通过医院网页、药品研发公司网页以及相关新闻网页等进行特征数据提取来实现。相关技术中的产品特征信息提取只是对文字信息进行提取，只能获得单模态信息，导致获得的数字医疗产品特征信息不够全面，不能满足实际应用需求。

技术实现要素：

3.本技术的目的是提供一种产品特征信息获取方法、获取装置、电子设备及存储介质，以解决相关技术中的产品特征信息提取只是对文字信息进行提取，只能获得单模态信息，导致获得的产品特征信息不够全面，不能满足实际应用需求的问题。
4.为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。
5.根据本技术实施例的一个方面，提供一种产品特征信息获取方法，包括：
6.从目标网页中获取目标产品的图片信息和文字描述信息；
7.根据获取的所述图片信息和所述文字描述信息，生成所述目标产品的多模态信息；
8.利用所述多模态信息生成所述目标产品的产品特征信息。
9.在本技术的一些实施例中，从所述目标网页中获取所述目标产品的图片信息，包括：
10.获取所述目标网页的网页地址所指向的网页文件；
11.获取所述网页文件中的页面资源；
12.从所述页面资源中获取图片资源，提取对应于所述图片资源的图片信息。
13.在本技术的一些实施例中，所述获取所述网页文件中的页面资源，包括：
14.调用浏览器进程，利用浏览器内核对所述网页文件进行解析和渲染处理，得到所述页面资源。
15.在本技术的一些实施例中，从所述目标网页中获取所述目标产品的文字描述信息，包括：
16.根据所述目标网页的字体，获取所述目标网页的字体文件；
17.确定所述字体文件中的至少一个编码字符、以及所述至少一个编码字符在所述字体文件中的先后排列顺序；
18.根据所述至少一个编码字符，获取各所述编码字符对应的目标网页中的文字；
19.将所获取的文字按照所述先后排列顺序对应排列，构成所述文字描述信息。
20.在本技术的一些实施例中，所述根据获取的图片信息和文字描述信息，生成目标产品的多模态信息，包括：
21.将所述目标产品的图片信息输入预设的图片内容文本生成模型进行处理；
22.根据所述图片内容文本生成模型的输出结果，生成用于描述所述图片信息的图片内容文本信息；
23.提取所述图片内容文本信息和所述文字描述信息中的属性关键词，利用所述属性关键词构成所述目标产品的多模态信息。
24.在本技术的一些实施例中，所述根据获取的图片信息和文字描述信息，生成目标产品的多模态信息，包括：
25.对所述图片信息进行属性检测，生成图片信息属性关键词；
26.对所述文字描述信息进行属性检测，生成文字信息属性关键词；
27.利用所述图片信息属性关键词以及所述文字信息属性关键词生成所述目标产品的属性关键词；
28.根据所述图片信息以及所述目标产品的属性关键词，对不同模态信息进行特征向量融合，生成所述目标产品的多模态信息。
29.在本技术的一些实施例中，所述根据所述图片信息以及所述目标产品的属性关键词，对不同模态信息进行特征向量融合，生成所述目标产品的多模态信息，包括：
30.采用多模态处理模型的编码器对所述图片信息进行图像特征提取，生成图像特征向量；
31.采用所述多模态处理模型的编码器提取所述目标产品的属性关键词中的文本结构化编码特征，生成文本特征向量；
32.对所述图像特征向量和所述文本特征向量进行融合处理，得到所述多模态信息。
33.在本技术的一些实施例中，所述利用所述多模态信息生成所述目标产品的产品特征信息，包括：
34.采用多模态处理模型的编码器对所述多模态信息进行编码，生成图文特征向量；
35.采用所述多模态处理模型的解码器处理所述图文特征向量，生成产品特征信息；
36.其中，所述图文特征向量为包含图像和文本的多模态时域注意力信息的特征向量。
37.根据本技术实施例的另一个方面，提供一种产品特征信息获取装置，包括：
38.图文信息获取模块，用于从目标网页中获取目标产品的图片信息和文字描述信息；
39.多模态信息生成模块，用于根据获取的所述图片信息和所述文字描述信息，生成所述目标产品的多模态信息；
40.产品特征信息生成模块，用于利用所述多模态信息生成所述目标产品的产品特征信息。
41.根据本技术实施例的另一个方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述任一项的产品特征信息获取方法。
42.根据本技术实施例的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述任一项的产品特征信息获取方法。
43.本技术实施例的其中一个方面提供的技术方案可以包括以下有益效果：
44.本技术实施例提供的产品特征信息获取方法，从目标网页中获取目标产品的图片信息和文字描述信息，根据获取的所述图片信息和所述文字描述信息，生成所述目标产品的多模态信息，利用多模态信息生成目标产品的产品特征信息，利用多模态信息获得的产品特征信息更加全面，能够更好地满足实际应用需求，解决了相关技术中的产品特征信息提取只是对文字信息进行提取，只能获得单模态信息，导致获得的产品特征信息不够全面，不能满足实际应用需求的问题。
45.本技术的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本技术实施例了解。
附图说明
46.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
47.图1示出了本技术实施例的产品特征信息获取方法的实施环境图。
48.图2示出了本技术的一个实施例的产品特征信息获取方法流程图。
49.图3示出了图2中步骤s20的一些实施方式的流程图。
50.图4示出了本技术的另一实施例的产品特征信息获取装置结构框图。
51.图5示出了本技术的另一实施例的电子设备结构框图。
52.图6示出了本技术的另一实施例的计算机可读存储介质的示意图。
53.本技术的目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
54.为了使本技术的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本技术做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。根据本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
55.本领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
56.在本技术实施例进行描述的过程中出现的部分名词或术语的含义解释如下：
57.卷积神经网络(convolutional neural networks，简称为cnn)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一；卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类；卷积神经网络仿造生物的视知觉机制构建，可以进行监督学习和非监督学习，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征；
58.钩子函数(hook function)是windows消息处理机制的一部分，通过设置“钩子”，应用程序可以在系统级对所有消息、事件进行过滤，访问在正常情况下无法访问的消息；钩子函数的本质是一段用以处理系统消息的程序，通过系统调用将其挂入系统；
59.残差网络resnet是为了解决深度神经网络的退化问题而提出的一种人工神经网络，其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题；
60.albert模型一种深度语言模型，是一种轻量的bert模型，albert模型使用具有gelu非线性的transformer编码器；
61.长短期记忆网络(long short-term memory，简称为lstm)是一种时间循环神经网络，是为了解决一般的rnn(循环神经网络)存在的长期依赖问题而设计的；
62.多模态信息指的是多种模态的信息，例如文本、图像、视频、音频等信息；
63.多模态处理模型，为一种端到端模型，是一种编码器-解码器结构，可以利用自动学习的方法充分学习输入的多模态信息，以生成准确的产品特征信息；
64.自注意力机制(self-attention)为注意力机制中的一种，也是transformer模型中的重要组成部分。
65.图1为一个实施例中提供的产品特征信息获取方法的实施环境图，如图1所示，在该实施环境中，包括通信连接的服务器110以及终端120，终端120可以向服务器110发送获取产品特征信息的请求，可以接收服务器110发送的产品特征信息。服务器110可以用于从目标网页中获取目标产品的图片信息和文字描述信息，根据获取的图片信息和文字描述信息生成目标产品的多模态信息，利用多模态信息生成目标产品的产品特征信息，服务器110可以将产品特征信息发送给终端120。
66.需要说明的是，终端120以及服务器110均可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。服务器110可以是单独配置的支持各种业务的一个服务器，也可以配置为一个服务器集群。服务器110以及终端120可以通过蓝牙、usb(universal serial bus，通用串行总线)或者其他通讯连接方式进行连接，本技术在此不做限制。
67.本技术的发明人发现，在数字医疗技术领域，相关技术中的产品特征信息提取(例如药品特征信息提取等)只是对文字信息进行提取，只能获得单模态信息，导致获得的数字医疗产品特征信息不够全面，不能满足实际应用需求。针对相关技术中存在的问题，本技术实施例提供了一种产品特征信息获取方法。
68.如图2所示，本技术的一个实施例提供了一种产品特征信息获取方法，该方法可以包括步骤s10至s30：
69.步骤s10、从目标网页中获取目标产品的图片信息和文字描述信息。
70.在本实施例中，目标网页可以为包含有目标产品的图片以及文字描述内容的网页。目标产品例如可以是最新研发的药品、医疗设备等。目标网页例如可以是药品的介绍网页、包含有药品信息的医院网站网页或者药品研发公司的网站中介绍药品信息的网页等。目标网页例如可以是医疗设备的介绍网页、包含有药品信息的医院网站网页或者是医疗设备研发公司网站中介绍医疗设备的网页等。目标产品的图片信息和文字描述信息能够从多种不同的角度对目标产品进行描述。其中，图片信息可以包括图片，图片信息中可以包含有目标产品的颜色、图案、形状等信息，文字描述信息包括对目标产品的各种特征进行描述的文字。
71.目标产品例如可以为药品，例如可以为医药公司研发的新药品。例如，某医药公司上市了一种新药品，在介绍该新药品的目标网页中包含有该新药品的图片以及文字介绍，目标网页可以是包含有该新药品信息的医院网站网页、医药公司网站网页或者其他网站网页，获取该新药品的图片信息和文字描述信息即对目标网页的源代码进行分析处理提取图片信息和文字描述信息。
72.目标产品例如还可以为医疗设备，例如可以为医疗设备公司发布的新医疗设备。例如，某医疗设备公司上市了一款新款电子血压计，在介绍该新款电子血压计的目标网页中包含有该新款电子血压计的图片以及文字介绍，目标网页可以是包含有该新款电子血压计信息的医院网站网页、医疗设备公司网站网页或者其他网站网页，获取该新款电子血压计的图片信息和文字描述信息即对目标网页的源代码进行分析处理提取图片信息和文字描述信息。
73.在一些实施方式中，从目标网页中获取目标产品的图片信息，可以包括：获取目标网页的网页地址所指向的网页文件；获取网页文件中的页面资源；从页面资源中获取图片资源，提取对应于该图片资源的图片信息。
74.网页地址例如是网页的统一资源定位符。统一资源定位符uniform resource locator，简称url，是因特网的万维网服务程序上用于指定信息位置的字符串。通过url可以确定资源在互联网上的位置并可以访问互联网上的资源。网页地址所指向的网页文件是根据网页地址获取到的网页文件，例如html文件。
75.页面资源例如可以包括文本、视频、图片等，也可以是文本、视频、图片的地址。例如，可以直接从html文件的网页文件中获取各个地址以及图片的地址，并通过图片地址获取图片。
76.在一个示例中，获取网页文件中的页面资源，可以包括：调用浏览器进程，利用浏览器内核对网页文件进行解析和渲染处理，得到渲染处理后的页面资源。渲染处理后的页面资源中的图片资源是渲染处理后的图片资源。
77.例如，在利用浏览器内核对网页文件的解析和渲染处理之后，通过钩子函数(hook function)确定浏览器内核完成对网页文件的渲染处理。
78.通过钩子函数从渲染处理后的网页文件中获取页面资源。例如，在浏览器中设置有页面资源获取接口。
79.钩子函数可以通过调用该页面资源获取接口来获取页面资源。该页面资源包含需要展示的内容，例如，该网页的文本、图片等。
80.在一个示例中，使用node.js进程获取图片。例如，钩子函数可以向node.js进程发
送消息，将图片地址发送给node.js进程，以便下载和保存图片。
81.图片资源的类型标识信息为“img”，可以根据“img”标识信息确定页面资源中的图片资源。图片资源也可以是图片地址，例如图片的url，可以根据图片地址下载对应的图片。
82.在一些实施方式中，从目标网页中获取目标产品的文字描述信息，可以包括：根据目标网页的字体，获取目标网页的字体文件；根据获取的字体文件，确定目标网页的字体文件中的至少一个编码字符、以及所述至少一个编码字符在所述字体文件中的先后排列顺序；根据上述的至少一个编码字符，获取各编码字符对应的目标网页中的文字；将所获取的文字按照所述先后排列顺序对应排列，构成文字描述信息。
83.其中，目标网页的字体用于表示当前网页中显示的自定义字体，例如：“楷体”、“仿宋体”、“微软雅黑”等。目标网页的字体文件用于表示目标网页中每个文字的格式，例如当前最普遍的web开放字体格式(web open font format，简称woff)是一种网页所采用的字体格式标准。
84.本实施例中的一个编码字符对应一个文字。其中，每种字体文件中的每个文字都对应唯一的编码字符，浏览器可以通过编码字符渲染出网页中对应的文字，例如：“药”字对应的编码字符为uni836f。
85.在一个示例中，某目标网页的标题是“今年上市新款药品”，该目标网页的字体文件中的编码字符分别为：uni4eca、uni 5e74、uni4e0a、uni5e02、uni65b0、uni6b3e、uni836f、uni54c1，利用目标网页的字体文件中的编码字符可以获得目标网页中的文字“今年上市新款药品”。
86.例如，目标产品为药品的一个具体示例的文字描述信息可以包括：主要成份：白芍、甘草、桂枝、高良姜、黄连。性状：本品为胶囊剂，内容物为棕黄色的粉末。气香、味辛、苦。功效与作用：舒肝和胃，缓急止痛。主治胃脘疼痛，呕恶泛酸、烧灼不适。用于慢性胃炎有以上症状者。用法用量：口服，一次8粒，一日3次。副作用：尚不明确。禁忌：尚不明确。注意事项：1.忌食生冷油腻不易消化食物。2.忌情绪激动或生闷气。3.适用于脾胃阴虚，主要表现为口干、舌红少津、大便干。4.孕妇慎用。5.请将本品放在儿童不能接触的地方。
87.又例如，目标产品为新款电子血压计的一个具体示例的文字描述信息可以包括：产品类别：电子血压计；测试位置：上臂式；测试范围：压力(0-40)kpa/(0-299)mmhg，脉率(40-199)搏/分；可测心率不齐：支持；产品颜色：白色+香槟金；加压模式：自动智能加压；显示方式：lcd大屏幕加背光灯显示，显示分辨率为0.133kpa(1mmhg)；电源类型：dc5v 1a；产品重量：312(不含袖带)g；产品尺寸：整机尺寸182*100*39mm，臂带尺寸220-320mm，空气管长600
±
20mm，包装尺寸213*105*80mm。
88.步骤s20、根据获取的图片信息和文字描述信息，生成目标产品的多模态信息。
89.具体地，在获取目标产品的图片信息和文字描述信息之后，对图片信息和文字描述信息进行分析，生成目标产品的多模态信息。
90.多模态信息即多种模态的信息或者多模态数据，其可以包括不同模态信息的特征向量，其中，特征向量可以包括图像特征向量和文本特征向量。例如，多模态信息可以包括不同模态信息的特征向量，或者，多模态信息可以包括目标产品的图像信息和文字描述信息。
91.在本实施例中，对图片信息和文字描述信息进行分析，可以是对图片信息和文字
描述信息进行关键词检测，生成目标产品的关键词，该关键词可以用于描述目标产品的特征，然后根据图片信息、文字描述信息以及目标产品的关键词进行组合处理，从而生成目标产品的多模态信息。
92.参考图3所示，在某些实施方式中，步骤s20可以包括：
93.s201、将目标产品的图片信息输入预设的图片内容文本生成模型进行处理。
94.具体地，预设的图片内容文本生成模型为预先利用多个样本图像进行对抗式训练后所得到的用于生成图像描述信息的生成网络，对抗式训练是根据与图片内容文本生成模型相匹配的初始化的图像描述信息生成网络以及初始化的判别器而进行的交替训练，判别器用于判别图像描述信息生成网络的输出结果。
95.s202、根据图片内容文本生成模型的输出结果，生成对应于图片信息的图片内容文本信息。
96.在获取到目标产品的图片之后，将其输入通过对抗式训练所得到的图片内容文本生成模型，利用该图片内容文本生成模型来生成与上述目标产品的图片相匹配的目标产品的图片内容文本信息。
97.在对抗式训练过程中引入判别器，对图片内容文本生成模型的输出结果进行判别，并交替训练判别器和图片内容文本生成模型，以使最终生成的图片内容文本生成模型得到强化学习，从而优化利用图片内容文本生成模型所生成的图像描述信息的评价指标，提高了图像内容文本信息的生成质量。
98.例如，在获取到目标产品的图片之后，将该目标产品的图片输入图片内容文本生成模型，以生成与该目标产品的图片相匹配的目标产品的图片内容文本信息，其中，该图片内容文本生成模型是利用新引入的判别器经过对抗式训练后所得到的用于生成图像内容描述文本的网络模型。以目标产品是药品为例，图片内容文本生成模型所生成的目标产品的图片内容文本信息例如可以为：“片剂”、“白色”、“圆形”等。以目标产品是电子血压计为例，图片内容文本生成模型所生成的目标产品的图片内容文本信息例如可以为：“显示屏”、“香槟金色”、“长方体”等。
99.示例性地，判别器主要将商品特征映射到对应的评分，本模型将生成器挑选出的商品与正样本映射成两个分数，判别器的损失函数主要来源两部分，一部分为候选集商品与标签为0的差异，另外一部分是真实样本与标签为1的差异。判别器的误差会指导生成器不断迭代，选择更接近正样本的数据，生成器提供的样本越接近真实的样本，就要求判别器需要更强的鉴别能力，二者不断博弈，最后将鉴别器或者判别器作为推测模块用于线上。
100.在本实施例中所构建的初始化的图像描述信息生成网络可以包括：卷积神经网络cnn、注意力序列化语言模型attention及循环神经网络rnn。其中，其中，cnn用于提取图像中的图像特征，attention是序列化语言模型中用于进行权重更新的机制，rnn用于学习上下文特征。
101.上述语言模型可以包括一个或多个用于评价图像描述生成信息的生成质量的指标参数，如bleu、rouge、meteor等。上述参数的综合评价分值，将可以实现客观反映出图像描述生成信息的生成质量的效果。
102.在本实施例中，利用经过对抗式训练得到的图片内容文本生成模型对目标产品的图片进行学习，以生成与该目标产品的图片相对应的优化的图片内容文本信息，从而提高
了图像内容描述文本信息的生成质量。
103.s203、提取图片内容文本信息和文字描述信息中的属性关键词，利用属性关键词构成目标产品的多模态信息。
104.在某些实施方式中，步骤s20，对图片信息和文字描述信息进行分析，生成目标产品的多模态信息，包括：
105.对图片信息进行属性检测，生成图片信息属性关键词；
106.对文字描述信息进行属性检测，生成文字信息属性关键词；
107.利用图片信息属性关键词以及文字信息属性关键词生成目标产品的属性关键词；
108.根据图片信息以及目标产品的属性关键词，对不同模态信息进行特征向量融合，生成目标产品的多模态信息。
109.利用图片信息属性关键词以及文字信息属性关键词生成目标产品的属性关键词，包括：将图片信息属性关键词和文字信息属性关键词中重复的属性关键词合并，将合并处理后的所有属性关键词作为目标产品的属性关键词。
110.在某些实施方式中，多模态处理模型为一种端到端的编码器-解码器结构模型。根据图片信息以及目标产品的属性关键词，对不同模态信息进行特征向量融合，生成目标产品的多模态信息，包括：
111.采用多模态处理模型的编码器对图片信息进行图像特征提取，生成图像特征向量；
112.采用多模态处理模型的编码器提取目标产品的属性关键词中的文本结构化编码特征，生成文本特征向量；
113.对图像特征向量和文本特征向量进行融合处理，得到融合结果，即为多模态信息。
114.具体地，编码器可以使用卷积神经网络模型提取图片信息的图像特征。
115.在一些实施方式中，可以采用resnet对图片进行图像特征提取，生成图像特征向量；可以采用albert对文字描述信息进行属性检测，生成属性关键词。属性关键词例如可以包括产品类目、品牌、型号等。
116.在本实施例中，多模态处理模型的编码器可以包括cnn模型，该cnn模型例如可以为resnet-50cnn模型，在根据图片信息以及目标产品的属性关键词对不同模态信息进行特征向量融合时，编码器使用卷积神经网络模型对产品的图片进行图像的特征提取，通过提取出的特征生成图像特征向量，可以是提取图片的特征图，并将特征图组成一个图像特征向量。
117.示例性地，本实施例的属性关键词中包括文本结构化编码特征(word embedding)，可以使用编码器提取上述文本结构化编码特征，并将其组成文本特征向量，其中，本实施例的不同模态信息的特征向量包括上述图像特征向量和文本特征向量。
118.在生成上述图像特征向量和文本特征向量之后，可以对图像特征向量和文本特征向量进行融合处理，生成融合结果，进而可以将该融合结果输入至编码器中。
119.步骤s30、利用上述的多模态信息生成目标产品的产品特征信息。
120.具体地，可以采用多模态处理模型处理多模态信息，生成用于描述目标产品的产品特征信息。
121.在本发明上述步骤s30提供的技术方案中，在分析图片信息和文字描述信息，生成
目标产品的多模态信息之后，采用多模态处理模型处理多模态信息，生成用于描述目标产品的产品特征信息。
122.在一些实施方式中，多模态处理模型可以包括互相连接的生成器和判别器。生成器可以用于从商品的候选集中挑选出潜在的用户点击商品，采用了hard attention作为生成器结构，将正样本作为注意力机制的query向量，候选集商品作为key、value向量，通过计算正样本与每个负样本的相关性，然后采用了蒙特卡洛随机采样的方法，从候选集中挑选出与正样本最接近的商品。判别器主要将商品特征映射到对应的评分，本模型将生成器挑选出的商品与正样本映射成两个分数，判别器的损失函数主要来源两部分，一部分为候选集商品与标签为0的差异，另外一部分是真实样本与标签为1的差异。判别器的误差会指导生成器不断迭代，选择更接近正样本的数据，生成器提供的样本越接近真实的样本，就要求判别器需要更强的鉴别能力，二者不断博弈，最后将鉴别器或者判别器作为推测模块用于线上描述目标产品的产品特征信息。
123.在一些实施方式中，多模态处理模型例如可以采用编码器-解码器结构的模型。多模态处理模型例如可以采用transformer模型。
124.在一些实施方式中，多模态处理模型可以为一种端到端模型，可视为编码器-解码器结构，可以利用自动学习的方法充分学习输入的多模态信息，以生成准确的产品特征信息，该产品特征信息可以为文本描述内容，用于描述目标产品，例如，为商品信息，可以包括但不限于目标产品的产品标题、产品卖点等信息。
125.示例性地，本实施例的多模态处理模型可以为多模态transformer网络模型，用于充分学习不同模态信息之间的关联关系，从而生成更加准确的产品特征信息。
126.本实施例通过多模态处理模型对多模态信息进行综合利用，使得生成的产品特征信息的描述内容精度更高。示例性地，本实施例将生成的产品特征信息自动填写至在发布目标产品时需要的信息填写模板中，以对目标产品进行发布，从而在发布产品时，减少卖家手动填写产品特征信息的时间，提高了产品发布的效率。
127.在某些实施方式中，多模态处理模型在处理多模态信息的过程中，通过学习不同模态信息之间的关联关系，来生成产品特征信息。
128.在本实施例中，多模态信息包括不同模态信息之间的特征向量，并且不同模态信息之间具有互补信息。本实施例的多模态处理模型在处理上述多模态信息的过程中，可以针对不同模态信息之间的关联关系进行学习，充分利用多模态信息的互补信息生成产品特征信息，从而有效地提升对目标产品进行描述的准确性。
129.在某些实施方式中，多模态处理模型可以包括编码器(encoder)和解码器(decoder)。采用多模态处理模型处理多模态信息，生成用于描述目标产品的产品特征信息，可以包括：采用多模态处理模型的编码器对多模态信息进行编码，生成图文特征向量，其中，图文特征向量为包含图像和文本的多模态时域注意力信息的特征向量；多模态处理模型的解码器根据图文特征向量生成产品特征信息。
130.在生成图文特征向量后，可以利用多模态处理模型的解码器对上述图文特征向量进行解码处理，从而生成目标产品的产品特征信息，其中，解码器可以为长短期记忆网络lstm。
131.本技术实施例提供的产品特征信息获取方法，从目标网页中获取目标产品的图片
信息和文字描述信息，根据获取的所述图片信息和所述文字描述信息，生成所述目标产品的多模态信息，利用多模态信息生成目标产品的产品特征信息，利用多模态信息获得的产品特征信息更加全面，能够更好地满足实际应用需求，解决了相关技术中的产品特征信息提取只是对文字信息进行提取，只能获得单模态信息，导致获得的产品特征信息不够全面，不能满足实际应用需求的问题。
132.如图4所示，本技术的另一个实施例提供了一种产品特征信息获取装置，包括：
133.图文信息获取模块，用于从目标网页中获取目标产品的图片信息和文字描述信息；
134.多模态信息生成模块，用于根据获取的所述图片信息和所述文字描述信息，生成所述目标产品的多模态信息；
135.产品特征信息生成模块，用于利用所述多模态信息生成所述目标产品的产品特征信息。
136.在一些实施方式中，从所述目标网页中获取所述目标产品的图片信息，包括：获取所述目标网页的网页地址所指向的网页文件；获取所述网页文件中的页面资源；从所述页面资源中获取图片资源，提取对应于所述图片资源的图片信息。
137.在一些实施方式中，获取所述网页文件中的页面资源，包括：调用浏览器进程，利用浏览器内核对所述网页文件进行解析和渲染处理，得到所述页面资源。
138.在一些实施方式中，从所述目标网页中获取所述目标产品的文字描述信息，包括：根据所述目标网页的字体，获取所述目标网页的字体文件；确定所述字体文件中的至少一个编码字符、以及所述至少一个编码字符在所述字体文件中的先后排列顺序；根据所述至少一个编码字符，获取各所述编码字符对应的目标网页中的文字；将所获取的文字按照所述先后排列顺序对应排列，构成所述文字描述信息。
139.在一些实施方式中，多模态信息生成模块可以包括：
140.图片信息处理单元，用于将所述目标产品的图片信息输入预设的图片内容文本生成模型进行处理；
141.图片内容文本信息生成单元，用于根据所述图片内容文本生成模型的输出结果，生成对应于所述图片信息的图片内容文本信息；
142.多模态信息构建单元，用于提取所述图片内容文本信息和所述文字描述信息中的属性关键词，利用所述属性关键词构成所述目标产品的多模态信息。
143.在另一些实施方式中，多模态信息生成模块可以包括：
144.属性检测单元，用于对所述图片信息进行属性检测，生成图片信息属性关键词；以及用于对所述文字描述信息进行属性检测，生成文字信息属性关键词；
145.属性关键词生成单元，用于利用所述图片信息属性关键词以及所述文字信息属性关键词生成所述目标产品的属性关键词；
146.特征向量融合单元，用于根据所述图片信息以及所述目标产品的属性关键词，对不同模态信息进行特征向量融合，生成所述目标产品的多模态信息。
147.在一些实施方式中，根据所述图片信息以及所述目标产品的属性关键词，对不同模态信息进行特征向量融合，生成所述目标产品的多模态信息，包括：采用多模态处理模型的编码器对所述图片信息进行图像特征提取，生成图像特征向量；采用所述多模态处理模
型的编码器提取所述目标产品的属性关键词中的文本结构化编码特征，生成文本特征向量；对所述图像特征向量和所述文本特征向量进行融合处理，得到所述多模态信息。
148.在一些实施方式中，产品特征信息生成模块，可以包括：
149.图文特征向量生成单元，用于采用多模态处理模型的编码器对所述多模态信息进行编码，生成图文特征向量；
150.产品特征信息生成单元，用于采用所述多模态处理模型的解码器处理所述图文特征向量，生成产品特征信息；
151.其中，所述图文特征向量为包含图像和文本的多模态时域注意力信息的特征向量。
152.本技术实施例提供的产品特征信息获取装置，从目标网页中获取目标产品的图片信息和文字描述信息，根据获取的所述图片信息和所述文字描述信息，生成所述目标产品的多模态信息，利用多模态信息生成目标产品的产品特征信息，利用多模态信息获得的产品特征信息更加全面，能够更好地满足实际应用需求，解决了相关技术中的产品特征信息提取只是对文字信息进行提取，只能获得单模态信息，导致获得的产品特征信息不够全面，不能满足实际应用需求的问题。
153.本技术另一实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述任一实施方式的产品特征信息获取方法。
154.如图4所示，电子设备10可以包括：处理器100，存储器101，总线102和通信接口103，处理器100、通信接口103和存储器101通过总线102连接；存储器101中存储有可在处理器100上运行的计算机程序，处理器100运行该计算机程序时执行本技术前述任一实施方式所提供的方法。
155.其中，存储器101可能包含高速随机存取存储器(ram：random access memory)，也可能还可以包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。
156.总线102可以是isa总线、pci总线或eisa总线等。总线可以分为地址总线、数据总线、控制总线等。其中，存储器101用于存储程序，处理器100在接收到执行指令后，执行该程序，前述本技术实施例任一实施方式揭示的方法可以应用于处理器100中，或者由处理器100实现。
157.处理器100可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器，可以包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，
可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101，处理器100读取存储器101中的信息，结合其硬件完成上述方法的步骤。
158.本技术实施例提供的电子设备与本技术实施例提供的方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。
159.本技术另一实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述任一实施方式的产品特征信息获取方法。
160.参考图5所示，其示出的计算机可读存储介质为光盘20，其上存储有计算机程序(即程序产品)，该计算机程序在被处理器运行时，会执行前述任意实施方式所提供的方法。
161.需要说明的是，计算机可读存储介质的例子还可以包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。
162.本技术的上述实施例提供的计算机可读存储介质与本技术实施例提供的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
163.需要说明的是：
164.术语“模块”并非意图受限于特定物理形式。取决于具体应用，模块可以实现为硬件、固件、软件和/或其组合。此外，不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。
165.在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与根据在此的示例一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本技术也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本技术的内容，并且上面对特定语言所做的描述是为了披露本技术的最佳实施方式。
166.应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
167.以上所述实施例仅表达了本技术的实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：夏烽
技术所有人：康键信息技术（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。