OTA酒店的图文信息匹配的检测方法、系统及电子设备与流程

文档序号:20030180发布日期:2020-02-28 10:17阅读:391来源:国知局
OTA酒店的图文信息匹配的检测方法、系统及电子设备与流程

本发明涉及互联网技术领域,具体涉及一种ota酒店的图文信息匹配的检测方法、系统、介质及电子设备。



背景技术:

在当前互联网环境中,图像和文本是两大重要的信息媒介,对于ota(在线旅游公司)来说,信息的准确性将直接影响对用户的服务体验,由于信息来源复杂,种类繁多,因此保证信息的准确是ota酒店信息维护过程中的极大挑战。

现有技术中,维护图像和文本信息的准确和可靠主要依赖于人工操作,而酒店行业的图像量在数以亿计计算,文本信息更为丰富庞大。因此,人工维护需要耗费较大的人力成本且效率较低,能够快速准确地挖掘图像和文本中的关键性信息具有较高的应用价值。



技术实现要素:

本发明要解决的技术问题是为了克服现有技术中通过人工方式核实ota酒店的图像和文本是否匹配,成本高且效率、准确率低的缺陷,提供一种ota酒店的图文信息匹配的检测方法、系统、介质及电子设备。

本发明是通过下述技术方案来解决上述技术问题:

一种ota酒店的图文信息匹配的检测方法,所述检测方法包括:

获取所述ota酒店的待检测图像,所述待检测图像包括房间图像以及设施图像;

提取所述待检测图像的特征信息;

获取所述待检测图像对应的待检测文本信息,所述待检测文本信息包括房型描述信息、设施描述信息以及点评信息的一种或多种;

对所述待检测文本信息进行聚类,以得到聚类后的待检测文本关键词;

判断所述待检测图像的特征信息与所述待检测文本关键词是否一致;

若是,则确定所述ota酒店的所述图文信息匹配;

若否,则确定所述ota酒店的所述图文信息不匹配。

较佳地,所述获取所述ota酒店的待检测图像的步骤之前还包括:获取所述ota酒店的历史图像;以所述历史图像为输入,以所述历史图像的特征信息为输出对预测模型进行训练;

所述提取所述待检测图像的特征信息的步骤包括:将所述待检测图像输入训练后的所述预测模型,以得到所述待检测图像的特征信息。

较佳地,所述获取所述ota酒店的历史图像的步骤之前还包括:获取所述ota酒店的历史文本信息;对所述历史文本信息进行聚类,以得到聚类后的历史文本关键词;

所述获取所述ota酒店的历史图像的步骤之后还包括:根据所述历史文本关键词标注所述历史图像的特征信息。

较佳地,所述确定所述ota酒店的所述图文信息不匹配的步骤之后还包括:将所述图文信息不匹配的所述待检测图像以及对应的所述待检测文本信息发送至预先绑定的终端,以用于人工核实。

较佳地,所述历史图像包括训练集图像以及测试集图像,所述训练集图像以及所述测试集图像相互无交集;

所述以所述历史图像为输入,以所述历史图像的特征信息为输出对预测模型进行训练的步骤包括:

以所述训练集图像为输入,以所述训练集图像的特征信息为输出对预测模型进行训练;

所述以所述历史图像为输入,以所述历史图像的特征信息为输出对预测模型进行训练的步骤之后还包括:

利用测试集图像对训练后的所述预测模型进行测试;

判断所述测试的结果是否满足预设条件;

若是,则执行所述获取所述ota酒店的待检测图像的步骤;

若否,则执行所述以所述训练集图像为输入,以所述训练集图像的特征信息为输出对预测模型进行训练的步骤。

一种ota酒店的图文信息匹配的检测系统,所述检测系统包括:

第一图像获取模块,用于获取所述ota酒店的待检测图像,所述待检测图像包括房间图像以及设施图像;

第一特征提取模块,用于提取所述待检测图像的特征信息;

第一文本获取模块,用于获取所述待检测图像对应的待检测文本信息,所述待检测文本信息包括房型描述信息、设施描述信息以及点评信息的一种或多种;

聚类模块,用于对所述待检测文本信息进行聚类,以得到聚类后的待检测文本关键词;

第一判断模块,用于判断所述待检测图像的特征信息与所述待检测文本关键词是否一致;

若是,则调用结果确认模块,所述结果确认模块用于确定所述ota酒店的所述图文信息匹配;若否,则所述结果确认模块用于确定所述ota酒店的所述图文信息不匹配。

较佳地,所述检测系统还包括第二图像获取模块以及训练模块;所述第二图像获取模块用于获取所述ota酒店的历史图像;所述训练模块用于以所述历史图像为输入,以所述历史图像的特征信息为输出对预测模型进行训练;

所述第一特征提取模块用于将所述待检测图像输入训练后的所述预测模型,以得到所述待检测图像的特征信息。

较佳地,所述检测系统还包括第二文本获取模块,所述第二文本获取模块用于获取所述ota酒店的历史文本信息;所述第二文本获取模块还用于调用所述聚类模块,所述聚类模块还用于对所述历史文本信息进行聚类,以得到聚类后的历史文本关键词;

所述检测系统还包括标注模块,所述标注模块用于根据所述历史文本关键词标注所述历史图像的特征信息。

较佳地,所述检测系统还包括发送模块,所述发送模块用于将所述图文信息不匹配的所述待检测图像以及对应的所述待检测文本信息发送至预先绑定的终端,以用于人工核实。

较佳地,所述历史图像包括训练集图像以及测试集图像,所述训练集图像以及所述测试集图像相互无交集;

所述训练模块用于以所述训练集图像为输入,以所述训练集图像的特征信息为输出对预测模型进行训练;

所述检测系统还包括测试模块以及第二判断模块,所述测试模块利用测试集图像对训练后的所述预测模型进行测试;

所述第二判断模块用于判断所述测试的结果是否满足预设条件;

若是,则调用所述第一图像获取模块;

若否,则调用所述训练模块。

一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现前述的ota酒店的图文信息匹配的检测方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的ota酒店的图文信息匹配的检测方法的步骤。

本发明的积极进步效果在于:本发明提供的ota酒店的图文信息匹配的检测方法、系统、介质及电子设备可以基于ota酒店下的海量图像信息和文本信息,自动对图像和文本进行匹配纠错,及时发现信息的内在缺陷,可大幅度节省运营维护成本,保证图像和文本信息展示的准确性,有效提升了ota场景下用户的服务体验。

附图说明

图1为本发明实施例1中的ota酒店的图文信息匹配的检测方法的流程图。

图2为本发明实施例2中的ota酒店的图文信息匹配的检测方法的流程图。

图3为本发明实施例3中的ota酒店的图文信息匹配的检测方法的流程图。

图4为本发明实施例4中的ota酒店的图文信息匹配的检测系统的结构框图。

图5为本发明实施例5中的ota酒店的图文信息匹配的检测系统的结构框图。

图6是本发明实施例6中的实现ota酒店的图文信息匹配的检测方法的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供了一种ota酒店的图文信息匹配的检测方法,如图1所示,所述检测方法可以包括如下步骤:

步骤s10:获取所述ota酒店的待检测图像,所述待检测图像包括房间图像以及设施图像;

本实施例中,所述图像可以是静态的图片,也可以是动态的影像,只要所述图像中能够反映房型信息(例如大床房、双床房等)以及设施信息(例如电脑、沙发、浴缸等)即可。

步骤s11:提取所述待检测图像的特征信息;

具体地,所述特征信息可以包括设施在房间的位置、设施类别、设施数量的一种或多种。

步骤s12:获取所述待检测图像对应的待检测文本信息,所述待检测文本信息包括房型描述信息、设施描述信息以及点评信息的一种或多种;

步骤s13:对所述待检测文本信息进行聚类,以得到聚类后的待检测文本关键词;

具体地,本实施例中的聚类算法可以采用分割算法(例如:k-means算法)、分层次算法(例如:rock算法)、基于密度的算法(例如:dbscan算法、mean-shift算法)、基于网格的算法(例如:sting算法)等。本领域技术人员可以根据具体的应用需求而适应性的选择合适的聚类算法,本发明实施例对此不做限制。

聚类之后,得到的待检测文本关键词可以包括大床、双床、上下铺、电脑、窗户、沙发等。

步骤s14:判断所述待检测图像的特征信息与所述待检测文本关键词是否一致;

若是,则执行步骤s15:确定所述ota酒店的所述图文信息匹配;

若否,则执行步骤s16:确定所述ota酒店的所述图文信息不匹配。

本实施例提供的ota酒店的图文信息匹配的检测方法可以基于ota酒店下的海量图像信息和文本信息,自动对图像和文本进行匹配纠错,及时发现信息的内在缺陷,可大幅度节省运营维护成本,保证图像和文本信息展示的准确性,有效提升了ota场景下用户的服务体验。

实施例2

本实施例提供了一种ota酒店的图文信息匹配的检测方法,如图2所示,所述检测方法是在实施例1基础上的进一步改进。

具体地,所述步骤s10之前还可以包括如下步骤:

步骤s20:获取所述ota酒店的历史图像;

步骤s21:以所述历史图像为输入,以所述历史图像的特征信息为输出对预测模型进行训练;

优选地,在执行所述步骤s21之前还可以对所述历史图像进行预处理,所述预处理包括尺寸调整、像素归一化、亮度变换的一种或多种。

具体地,本实施例中的预测模型可以是深度卷积神经网络模型,其中,深度卷积神经网络网络包含特征提取主干网络和特征金字塔网络。其中,特征提取主干网络由一个包含由55个卷积层的神经网络堆叠搭建而成,特征金字塔层有五个卷积模块,可针对不同目标的大小做适应性学习,每层有两个分支,分别输出目标的类别置信度以及目标的位置。

在算法执行的过程中,可以针对类别预测和位置预测设计两种不同的目标损失函数,即类别预测损失函数以及定位损失函数。

其中,类别预测损失函数可以表示为:

classloss=-αt(1-pt)γlog(pt),γ>0,αt∈[0,1]

定位损失函数可以表示为:

其中,classloss表示类别预测损失,locateloss表示定位损失,pt表示类别预测概率,x表示目标预测位置,γ表示难分样本的影响因子,αt为组组合类别预测损失和定位损失的权重系数。

在训练过程中,还可以随机添加噪声、旋转、仿射、翻转、亮度、对比度等变量以增加模型学习样本的鲁棒性,迭代模型直至所述类别预测损失以及所述定位损失发生收敛,则认为预测模型的训练过程结束。

所述步骤s11可以包括:

步骤s111:将所述待检测图像输入训练后的所述预测模型,以得到所述待检测图像的特征信息。

进一步地,所述步骤s20之前还可以包括如下步骤:

步骤s22:获取所述ota酒店的历史文本信息;

步骤s23:对所述历史文本信息进行聚类,以得到聚类后的历史文本关键词;

所述步骤s20之后还可以包括步骤s24:根据所述历史文本关键词标注所述历史图像的特征信息。

本实施例中,每一个历史文本关键词可以代表一个类别目标。

可以根据所述历史图像是否包含历史文本关键词,做好样本标注,并保证每个类别目标数量不少于500幅图像,其中,对于一幅图像来说,标注的类别目标可为0~n(n是正整数),n为通过聚类算法提取的历史文本关键词的数量。若出现某一个类别目标对应的图像张数较少的情况,可以通过“上采样操作”来增加某一个类别目标对应的图像数量,从而使得各个类别目标对应的图像数量均衡,所述“上采样操作”是指通过对已有图像进行尺寸变化、局部裁切等方式使其变为新的图像来增加某一类别的图像数量。

进一步地,所述确定所述ota酒店的所述图文信息不匹配的步骤之后还可以将所述图文信息不匹配的所述待检测图像以及对应的所述待检测文本信息发送至预先绑定的终端,以用于人工核实。人工核实后若确认为图像错误或文本信息错误,则可以对相应的内容进行修改,并将修改后的结果反馈到预测模型,便于对模型进行进一步优化。

本实施例提供的ota酒店的图文信息匹配的检测方法通过提前训练预测模型,再利用训练后的预测模型提取待检测图像的特征信息以用于后续的对比过程,由此,可以提高待检测图像的特征信息的提取效率以及准确性。

实施例3

本实施例提供了一种ota酒店的图文信息匹配的检测方法,如图3所示,所述检测方法是在实施例2基础上的进一步改进。

具体地,所述历史图像可以包括训练集图像以及测试集图像,所述训练集图像以及所述测试集图像相互无交集;所述训练集图像与所述测试集图像的比例可以相同也可以不同,例如,所述训练集图像以及所述测试集图像在历史图像中的比例可以各占50%;或者,所述训练集图像在历史图像中的比例可以占70%,而所述测试集图像在历史图像中的比例可以占30%。

所述步骤s21具体可以包括如下步骤:

步骤s211:以所述训练集图像为输入,以所述训练集图像的特征信息为输出对预测模型进行训练;

所述步骤s211之后还可以包括如下步骤:

步骤s30:利用测试集图像对训练后的所述预测模型进行测试;

步骤s31:判断所述测试的结果是否满足预设条件;

若是,则执行所述步骤s10。

若否,则执行所述步骤s211。

本实施例提供的ota酒店的图文信息匹配的检测方法通过对训练后的预测模型进行测试,符合测试要求的预测模型用来进行特征信息的预测,不符合测试要求的预测模型则继续进行训练,直到满足测试要求为止,由此,可以进一步提高模型预测的准确性,进而提高了用户体验。

实施例4

一种ota酒店的图文信息匹配的检测系统,如图4所示,所述检测系统1包括:

第一图像获取模块110,用于获取所述ota酒店的待检测图像,所述待检测图像包括房间图像以及设施图像;

第一特征提取模块111,用于提取所述待检测图像的特征信息;

具体地,所述特征信息可以包括设施在房间的位置、设施类别、设施数量的一种或多种。

第一文本获取模块112,用于获取所述待检测图像对应的待检测文本信息,所述待检测文本信息包括房型描述信息、设施描述信息以及点评信息的一种或多种;

聚类模块113,用于对所述待检测文本信息进行聚类,以得到聚类后的待检测文本关键词;

第一判断模块114,用于判断所述待检测图像的特征信息与所述待检测文本关键词是否一致;

若是,则调用结果确认模块115,所述结果确认模块115用于确定所述ota酒店的所述图文信息匹配;若否,则所述结果确认模块115用于确定所述ota酒店的所述图文信息不匹配。

本实施例中,所述图像可以是静态的图片,也可以是动态的影像,只要所述图像中能够反映房型信息(例如大床房、双床房等)以及设施信息(例如电脑、沙发、浴缸等)即可。

具体地,本实施例中的聚类算法可以采用分割算法(例如:k-means算法)、分层次算法(例如:rock算法)、基于密度的算法(例如:dbscan算法、mean-shift算法)、基于网格的算法(例如:sting算法)等。本领域技术人员可以根据具体的应用需求而适应性的选择合适的聚类算法,本发明实施例对此不做限制。

聚类之后,得到的待检测文本关键词可以包括大床、双床、上下铺、电脑、窗户、沙发等。

本实施例提供的ota酒店的图文信息匹配的检测系统在运行时,可以基于ota酒店下的海量图像信息和文本信息,自动对图像和文本进行匹配纠错,及时发现信息的内在缺陷,可大幅度节省运营维护成本,保证图像和文本信息展示的准确性,有效提升了ota场景下用户的服务体验。

实施例5

本实施例提供了一种ota酒店的图文信息匹配的检测系统,如图5所示,所述检测系统是在实施例4基础上的进一步改进。

所述检测系统1还包括第二图像获取模块120以及训练模块121;所述第二图像获取模块120用于获取所述ota酒店的历史图像;所述训练模块121用于以所述历史图像为输入,以所述历史图像的特征信息为输出对预测模型进行训练;

优选地,所述检测系统1还可以包括预处理模块122,所述预处理模块122用于对所述历史图像进行预处理,所述预处理包括尺寸调整、像素归一化、亮度变换的一种或多种。

具体地,本实施例中的预测模型可以是深度卷积神经网络模型,其中,深度卷积神经网络网络包含特征提取主干网络和特征金字塔网络。其中,特征提取主干网络由一个包含由55个卷积层的神经网络堆叠搭建而成,特征金字塔层有五个卷积模块,可针对不同目标的大小做适应性学习,每层有两个分支,分别输出目标的类别置信度以及目标的位置。

在算法执行的过程中,可以针对类别预测和位置预测设计两种不同的目标损失函数,即类别预测损失函数以及定位损失函数。

其中,类别预测损失函数可以表示为:

classloss=-αt(1-pt)γlog(pt),γ>0,αt∈[0,1]

定位损失函数可以表示为:

其中,classloss表示类别预测损失,locateloss表示定位损失,pt表示类别预测概率,x表示目标预测位置,γ表示难分样本的影响因子,αt为组合类别预测损失和定位损失的权重系数。

在训练过程中,还可以随机添加噪声、旋转、仿射、翻转、亮度、对比度等变量以增加模型学习样本的鲁棒性,迭代模型直至所述类别预测损失以及所述定位损失发生收敛,则认为预测模型的训练过程结束。

所述第一特征提取模块111用于将所述待检测图像输入训练后的所述预测模型,以得到所述待检测图像的特征信息。

进一步地,所述检测系统1还包括第二文本获取模块123,所述第二文本获取模块123用于获取所述ota酒店的历史文本信息;所述第二文本获取模块123还用于调用所述聚类模块113,所述聚类模块113还用于对所述历史文本信息进行聚类,以得到聚类后的历史文本关键词;

所述检测系统1还包括标注模块124,所述标注模块124用于根据所述历史文本关键词标注所述历史图像的特征信息。

本实施例中,每一个历史文本关键词可以代表一个类别目标。

可以根据所述历史图像是否包含历史文本关键词,做好样本标注,并保证每个类别目标数量不少于500幅图像,其中,对于一幅图像来说,标注的类别目标可为0~n(n为正整数),n为通过聚类算法提取的历史文本关键词的数量。若出现某一个类别目标对应的图像张数较少的情况,可以通过“上采样操作”来增加某一个类别目标对应的图像数量,从而使得各个类别目标对应的图像数量均衡,所述“上采样操作”是指通过对已有图像进行尺寸变化、局部裁切等方式使其变为新的图像来增加某一类别的图像数量。

所述检测系统1还可以包括发送模块125,所述发送模块125用于将所述图文信息不匹配的所述待检测图像以及对应的所述待检测文本信息发送至预先绑定的终端,以用于人工核实。人工核实后若确认为图像错误或文本信息错误,则可以对相应的内容进行修改,并将修改后的结果反馈到预测模型,便于对模型进行进一步优化。

本实施例中,所述历史图像包括训练集图像以及测试集图像,所述训练集图像以及所述测试集图像相互无交集;所述训练集图像与所述测试集图像的比例可以相同也可以不同,例如,所述训练集图像以及所述测试集图像在历史图像中的比例可以各占50%;或者,所述训练集图像在历史图像中的比例可以占70%,而所述测试集图像在历史图像中的比例可以占30%。

所述训练模块121用于以所述训练集图像为输入,以所述训练集图像的特征信息为输出对预测模型进行训练;

所述检测系统1还包括测试模块130以及第二判断模块131,所述测试模块130利用测试集图像对训练后的所述预测模型进行测试;

所述第二判断模块131用于判断所述测试的结果是否满足预设条件;

若是,则调用所述第一图像获取模块110;

若否,则调用所述训练模块121。

本实施例提供的ota酒店的图文信息匹配的检测系统在运行时,通过提前训练预测模型,再利用训练后的预测模型提取待检测图像的特征信息以用于后续的对比过程,由此,可以提高待检测图像的特征信息的提取效率以及准确性。另外,本实施例通过对训练后的预测模型进行测试,符合测试要求的预测模型用来进行特征信息的预测,不符合测试要求的预测模型则继续进行训练,直到满足测试要求为止,由此,可以进一步提高模型预测的准确性,进而提高了用户体验。

实施例6

本发明还提供一种电子设备,如图6所示,所述电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现前述实施例1-3中任一实施例的ota酒店的图文信息匹配的检测方法的步骤。

可以理解的是,图6所示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示,电子设备2可以以通用计算设备的形式表现,例如:其可以为服务器设备。电子设备2的组件可以包括但不限于:上述至少一个处理器3、上述至少一个存储器4、连接不同系统组件(包括存储器4和处理器3)的总线5。

所述总线5可以包括数据总线、地址总线和控制总线。

所述存储器4可以包括易失性存储器,例如随机存取存储器(ram)41和/或高速缓存存储器42,还可以进一步包括只读存储器(rom)43。

所述存储器4还可以包括具有一组(至少一个)程序模块44的程序工具45(或实用工具),这样的程序模块44包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

所述处理器3通过运行存储在所述存储器4中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1-3中任一实施例的ota酒店的图文信息匹配的检测方法的步骤。

所述电子设备2也可以与一个或多个外部设备6(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口7进行。并且,模型生成的电子设备2还可以通过网络适配器8与一个或者多个网络(例如局域网lan,广域网wan和/或公共网络)通信。

如图6所示,网络适配器8可以通过总线5与模型生成的电子设备2的其它模块通信。本领域技术人员应当明白,尽管图中未示出,可以结合模型生成的电子设备2使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

需要说明的是,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例7

本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例1-3中任一实施例的ota酒店的图文信息匹配的检测方法的步骤。

其中,计算机可读存储介质可以采用的更具体方式可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1-3中任一实施例的ota酒店的图文信息匹配的检测方法的步骤。

其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1