文本图像合成方法、装置、计算机设备和存储介质与流程

文档序号：19073108发布日期：2019-11-08 20:59阅读：170来源：国知局

本申请涉及图像合成领域，特别涉及一种文本图像合成方法、装置、计算机设备和存储介质。

背景技术：

随着图像合成技术地不断发展，合成自然场景文本图像的技术也得到了飞速地发展。合成自然场景文本图像早期通过字体渲染、着色和投影变换等方式将文本与自然图像中的背景混合，随后出现了根据一定的算法预测的语义分割图和深度图，进行文本图像的合成，进一步地，为了弥补将文本嵌入到不合理的表面(例如人脸上与现实场景相矛盾)的缺点，提出了选择性语义分割，以便将文本嵌入到在合理的对象上，并自适应地渲染文本实例以适应其背景风格。

然而，上述方法在得到合成图像的时候，并没有考虑到自然场景中的文本信息通常会具有视点、照明和遮挡的变化，常常会导致合成的文本图像与真实世界文本图像之间存在较大的差距。

技术实现要素：

基于此，有必要针对上述技术问题，提供一种文本图像合成方法、装置、计算机设备和存储介质。

一种文本图像合成方法，所述方法包括：

在三维模型中构建至少一个锚点；

获取与所述锚点对应的图像信息；

根据所述图像信息，得到目标文本区域；

根据目标文本区域和预设文本内容，生成文本信息；

根据所述文本信息、所述目标文本区域和所述三维模型，得到三维合成图像。

在其中一个实施例中，所述图像信息包括表面法向图；

所述根据所述图像信息，得到目标文本区域，包括：

遍历所述表面法线图，生成表面法线边界图；

根据所述表面法线边界图，生成可用文本区域；

从所述可用文本区域中进行抽选，得到所述目标文本区域。

在其中一个实施例中，所述遍历所述表面法线图，生成表面法线边界图，包括：

获取所述表面法线图中每一位置处的表面法向量；

根据目标位置处的表面法向量以及所述目标位置预设邻域范围内的表面法向量集，得到所述目标位置处的表面法线边界信息；

根据每一位置处的表面法线边界信息，生成所述表面法线边界图。

在其中一个实施例中，所述根据目标位置处的表面法向量以及所述目标位置预设邻域范围内的表面法向量集，得到所述目标位置处的表面法线边界信息，包括：

计算所述目标位置处的表面法向量与所述表面法向量集中的每一个表面法向量的差值；

根据所述差值中的最大值，得到所述目标位置处的表面法线边界信息。

在其中一个实施例中，所述目标位置处的表面法线边界信息包括所述目标位置为边界和所述目标位置为非边界；

所述根据所述差值中的最大值，得到所述目标位置处的表面法线边界信息，包括：

若所述差值中的最大值大于预设阈值，则所述目标位置为边界；

若所述差值中的最大值小于或等于所述预设阈值，则所述目标位置为非边界。

在其中一个实施例中，所述根据所述表面法线边界图，生成可用文本区域，包括：

根据所述表面法线边界图和预设区域网格，得到初始文本区域；

采用随机二分搜索算法，以所述初始文本区域为起点，对所述表面法线边界图进行搜索，生成所述可用文本区域。

在其中一个实施例中，所述图像信息包括rgb图像；

所述根据目标文本区域和预设文本内容，生成文本信息，包括：

在预设字体库中抽样字体，得到字体信息；

从所述图像信息中的rgb图像中，获取所述目标文本区域的rgb图像；

根据所述目标文本区域的rgb图像，得到文本颜色；

根据所述预设文本内容、所述字体信息和所述文本颜色，生成所述文本信息。

在其中一个实施例中，所述根据所述文本信息、所述目标文本区域和所述三维模型，得到三维合成图像，包括：

根据所述三维模型，将所述文本信息映射到所述目标文本区域，得到初始三维合成图像；

对所述初始三维合成图像进行渲染，得到所述三维合成图像。

在其中一个实施例中，所述根据所述三维模型，将所述文本信息映射到所述目标文本区域，得到初始三维合成图像，包括：

从所述三维模型中获取所述目标文本区域的第一位置坐标集和深度值集以及获取参考矩阵；

根据所述第一位置坐标集、所述深度值集和所述参考矩阵，将所述文本信息映射到所述目标文本区域，得到所述初始三维合成图像。

在其中一个实施例中，所述第一位置坐标集为获取到的粗粒度位置坐标集；

所述根据所述第一位置坐标集、所述深度值集和所述参考矩阵，将所述文本信息映射到所述目标文本区域，得到初始三维合成图像，包括：

根据所述锚点、所述第一位置坐标集和所述表面法向图，得到第二位置坐标集；其中，所述第二位置坐标集为细粒度位置坐标集；

根据所述第二位置坐标集、所述深度值集和所述参考矩阵，将所述文本信息映射到所述目标文本区域，得到所述初始三维合成图像。

一种文本图像合成装置，所述装置包括：

锚点获取模块，用于在三维模型中构建至少一个锚点；

图像信息获取模块，用于获取与所述锚点对应的图像信息；

文本区域生成模块，用于根据所述图像信息，得到目标文本区域；

文本信息生成模块，用于根据目标文本区域和预设文本内容，生成文本信息；

图像合成模块，用于根据所述文本信息、所述目标文本区域和所述三维模型，得到三维合成图像。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。

上述文本图像合成方法、装置、计算机设备和存储介质，通过在三维模型中构建至少一个锚点，接着，获取与锚点对应的图像信息，根据图像信息，得到目标文本区域，进一步，根据目标文本区域和预设文本内容，生成文本信息，最后，根据文本信息、目标文本区域和三维模型，得到三维合成图像。其中，通过引入三维模型，根据三维模型中的图像信息确定目标文本区域和文本放置方式，得到文本合成图像，可以真实地反映视点、照明和遮挡的变化，减小合成的文本图像与真实世界文本图像之间存在的视觉差距，使合成的文本图像更为逼真。

附图说明

图1为一个实施例中文本图像合成方法的流程示意图；

图2为一个实施例中步骤s300的细化步骤的流程示意图；

图3为一个实施例中步骤s310的细化步骤的流程示意图；

图4为一个实施例中步骤s312的细化步骤的流程示意图；

图5为一个实施例中步骤s320的细化步骤的流程示意图；

图6为一个实施例中步骤s400的细化步骤的流程示意图；

图7为一个实施例中步骤s500的细化步骤的流程示意图；

图8为一个实施例中步骤s510的细化步骤的流程示意图；

图9为一个实施例中步骤s512的细化步骤的流程示意图；

图10为一个实施例中文本图像合成的效果图；

图11为一个实施例中文本图像合成的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解本申请中所使用的术语“第一”、“第二”等可在本文中用于描述各种条件关系，但这些条件关系不受这些术语限制。这些术语仅用于将一个条件关系与另一个条件关系区分开来。

在一个实施例中，如图1所示，提供了一种文本图像合成方法，包括以下步骤：

步骤s100，在三维模型中构建至少一个锚点。

其中，三维模型(3dimensions模型，3d模型)表示三维虚拟场景。

具体地，控制摄像机在3d模型中巡视，在某一位置定位摄像机，这一位置的视点即为摄像机的锚点。变换摄像机的位置，可以得到多个位置的视点，即得到多个锚点，将这一组摄像机视点(可以在每个3d模型选择大约20到30个)作为至少一个锚点的组合。

步骤s200，获取与锚点对应的图像信息。

具体地，在步骤s100中选定的锚点处，直接从使用的3d模型中获取与锚点位置对应的图像信息，图像信息中包括该锚点对应的图像的rgb图像、深度图像和表面法线图等信息。

步骤s300，根据图像信息，得到目标文本区域。

其中，目标文本区域为从与锚点对应的图像中选定的能够放置文本的区域。

具体地，与锚点对应的图像中可能包含多个物体，各个物体的形状也不同，同一物体表面没有突变的情况下才会放置文本信息。例如，图像中有一个长方体柜子，若该柜子的一个表面是平整的或者曲率变化均匀且较小，这样的表面才适合放置文本，那么可以将这一表面确定为可以放置文本得区域，然而在这个柜子与墙面的交界处是不适合放置文本的(也不符合现实生活中的需求)，当检测到这样的位置时，则将这位置确定为不适合放置文本得区域，最后，从检测到的可以放置文本的区域进行选择，将选定的可以放置文本的区域确定为目标文本区域。

步骤s400，根据目标文本区域和预设文本内容，生成文本信息。

其中，文本信息表示用于合成图像的文本包含的信息，包括字体信息、文本内容和文本颜色等。

具体地，一般文本信息包括该文本的内容、字体或者颜色。选定的目标文本区域对文本的大小和颜色都有一定的要求。例如，目标文本区域为一个100mm*200mm的矩形框，若需要将文本布满整个目标文本区域，则需要根据文本内容、段落格式和字体大小进行调整，若需要达到一定的视觉效果，还需要对文本得字体或者排版进行调整，同时，考虑到目标文本区域的颜色，还需要对文本的颜色进行调整，如目标文本区域为白色背景，则不宜将文本得颜色设置为白色或者特别浅的颜色。从上述需求出发，可以得到包含文本内容、字体信息和文本颜色的文本信息。

步骤s500，根据文本信息、目标文本区域和三维模型，得到三维合成图像。

具体地，将上述方法中得到的文本信息映射到3d模型中的目标文本区域中，得到三维合成图像。上述目标文本区域为3d模型中的一个3d的区域，可选地，目标文本区域还可以是一个2d区域，将2d的目标文本区域映射到3d模型中，得到相应的3d区域，然后，文本信息变形以适当地适合3d区域表面。需要说明的是，并非所有的文本区域都是平面，例如瓶子的表面或者衣服的表面，其中，文本信息需要变形以适合目标表面。作为一个示例，将文本区域平面视为三角网格，将文本信息视为网格的纹理贴图，首先，将网格的四个角顶点固定到3d区域的角上，然后将中间顶点变换到目标对象表面上的最近位置，接着，根据欧几里德距离估计顶点相对于角顶点的纹理坐标，最后，将文本区域的其他点按照相同的规则变换到目标对象表面，可以得到三维合成图像。

上述文本图像合成方法，通过在三维模型中构建至少一个锚点，接着，获取与锚点对应的图像信息，根据图像信息，得到目标文本区域，进一步，根据目标文本区域和预设文本内容，生成文本信息，最后，根据文本信息、目标文本区域和三维模型，得到三维合成图像。其中，通过引入三维模型，根据三维模型中的图像信息确定目标文本区域和文本放置方式，得到文本合成图像，可以真实地反映视点、照明和遮挡的变化，减小合成的文本图像与真实世界文本图像之间存在的视觉差距，使合成的文本图像更为逼真。

在其中一个实施例中，如图2所示，为步骤s300的细化步骤，图像信息包括表面法向图，其中步骤s300，根据图像信息，得到目标文本区域，包括：

s310，遍历表面法线图，生成表面法线边界图。

其中，表面法线图中包含与锚点对应的图像的所有位置的表面法线的信息，表面法线边界图中包含图像的边界信息。具体地，边界信息是指图像中对应的位置是否为一个物体与另一个物体的交界处，或者是否为同一物体中的突变表面(例如，在一个长方体的棱角处，虽然还在同一个物体上，但是存在表面突变的情况)，若对应的位置为一个物体与另一个物体的交界处或是同一物体中的突变表面，则认为此处为一个边界。

具体地，对图像信息中的表面法线图进行遍历，得到图像中每一个位置处对应的表面法向量，根据图像中的表面法向量，生成表面法线边界图。

s320，根据表面法线边界图，生成可用文本区域。

其中，可用文本区域是指图像中适合放置文本的区域。

具体地，若一个位置为一个物体与另一个物体的交界处，或是同一物体中的突变表面，则说明该位置不适合放置文本，若该位置不是交界也不存在表面突变的状态，则认为该位置适合放置文本。因此，根据表面法线边界图，能够判断出某一选定位置是否适合放置文本，进而生成可以放置文本的区域，作为可用文本区域。

s330，从可用文本区域中进行抽选，得到目标文本区域。

具体地，得到可用文本区域后，可以根据具体需求，以一定的规则从可用文本区域中选出适合放置文本的区域，并将选定的区域作为目标文本区域。例如，得到可用文本区域后，将可用文本区域以图像的形式呈现给用户，用户根据自己的需求进行点选，也可以预设一个选定规则，运用预设的选定规则进行抽选。具体规则根据相应的需求确定，在此不做具体限定。

上述实施例中，通过遍历表面法线图，生成表面法线边界图，接着，根据表面法线边界图，生成可用文本区域，进一步，从可用文本区域中进行抽选，得到目标文本区域。为放置文本提供了合适的位置，并为后续生成文本信息提供部分基础。

在其中一个实施例中，如图3所示，为步骤s310的细化步骤，遍历表面法线图，生成表面法线边界图，包括：

步骤s311，获取表面法线图中每一位置处的表面法向量。

其中，表面法向量是指垂直于当前位置坐标点切平面的单位矢量。

具体地，表面法线图中每一位置处对应一个表面法向量，可以从3d模型中直接获取每一位置处的表面法向量。

步骤s312，根据目标位置处的表面法向量以及目标位置预设邻域范围内的表面法向量集，得到目标位置处的表面法线边界信息。

其中，某一位置处的表面法向量相对于不同的锚点是不变的，表面法向量的这一优点使得采用表面法向量的方式对边界进行判断的正确率更高。

具体地，根据选定的目标位置处的表面法向量和该目标位置周围预设邻域范围内的位置处的表面法向量，可以判断出目标位置与周围一定范围内的位置之间的表面法向量的变化情况，根据表面法向量的变化情况可以判断出目标位置是否是边界点。

步骤s313，根据每一位置处的表面法线边界信息，生成表面法线边界图。

具体地，将步骤s312中得到的目标位置处的表面法线边界信息进行整合，得到每一个位置处的表面法线边界信息，根据每一位置处的表面法向边界信息，能够生成表面法线边界图。

上述实施例中，通过获取表面法线图中每一位置处的表面法向量，进一步，根据目标位置处的表面法向量以及目标位置预设邻域范围内的表面法向量集，得到目标位置处的表面法线边界信息，最后，根据每一位置处的表面法线边界信息，生成表面法线边界图。其中，某一位置处的表面法向量相对于不同的锚点是不变的，表面法向量的这一优点使得采用表面法向量的方式对边界进行判断的正确率更高，同时也使得最终生成的表面法线边界图更稳健。

在其中一个实施例中，如图4所示，为步骤s312的细化步骤，根据目标位置处的表面法向量以及目标位置预设邻域范围内的表面法向量集，得到目标位置处的表面法线边界信息，包括：

步骤s3121，计算目标位置处的表面法向量与表面法向量集中的每一个表面法向量的差值。

具体地，计算目标位置处的表面法向量与该目标位置预设邻域范围内的表面法向量集中的每一个表面法向量的差值。该差值可以为两个法向量之间的范数，也可以是两个法向量之间差值的平方，在此不做具体限定。

步骤s3122，根据差值中的最大值，得到目标位置处的表面法线边界信息。

其中，目标位置处的表面法线边界信息包括目标位置为边界和目标位置为非边界。

可选地，若差值中的最大值大于预设阈值，则目标位置为边界；若差值中的最大值小于或等于预设阈值，则目标位置为非边界。

具体地，只要差值中有一个大于预设阈值，就表示差值中的最大值大于预设阈值表示。差值中有一个大于预设的阈值(即差值中的最大值大于预设的阈值)，则说明目标位置处的法向量与其预设邻域范围内的位置处的表面法向量差异较大，说明目标位置与其邻域内的位置的法向量发生了突变，说明目标位置的邻域范围内的位置并不是一个均匀光滑的表面，可能是一个物体与另一个物体的交界，也可能是同一物体但表面发生突变的情况，总之，可以将该位置看作是一个边界，该目标位置的邻域范围内不适合放置文本。若所有的差值都小于或者等于预设的阈值，则说明目标位置处的法向量与其预设邻域范围内的表面法向量差异较小，该位置不是边界位置，该目标位置的邻域范围内的位置处于一个均匀光滑的表面内，该目标位置的邻域范围内适合放置文本。

具体地，可以用一个变换方程将表面法线图中的表面法向量变换为表面法线边界图中的判断依据，具体变换方式如公式(1)所示：

其中，bi,j表示目标位置(i，j)的返回值，ni,j表示目标位置(i，j)处的表面法向量，n⁰i,j到n^ki,j表示目标位置(i，j)周围一定预设邻域范围内的位置处的表面法向量，t表示预设阈值，k表示在目标位置(i，j)周围一定范围内选取的比较位置的数量，例如，可以在目标位置周围均匀地选择4个位置，此时k＝3。

由公式(1)可知，为目标位置与其预设邻域范围内的第一个位置处的表面法向量差值的范数，为目标位置与其预设邻域范围内的第k个位置处的表面法向量差值的范数。当所有表面法向量的差值的最大值大于预设阈值时，则将位置值bi,j返回1，表示目标位置为边界；当所有表面法向量的差值的最大值小于或等于预设阈值时，则将位置值bi,j返回0，表示目标位置为非边界。

上述实施例中，计算目标位置处的表面法向量与表面法向量集中的每一个表面法向量的差值，接着，根据差值中的最大值，得到目标位置处的表面法线边界信息。得到的目标位置处的表面法线边界信息为生成表面法向边界图提供了基础。

在其中一个实施例中，如图5所示，为步骤s320的细化步骤，根据表面法线边界图，生成可用文本区域，包括：

步骤s321，根据表面法线边界图和预设区域网格，得到初始文本区域。

其中，预设区域网格为一个最小尺寸的初始矩形边界框，该区域的大小刚刚可以放置最小的文本内容，可以设置为一个32*64像素的矩形框。

具体地，对表面法向边界图进行遍历，查找得到能够放置预设区域网格的区域，并将得到的能够放置预设区域网格的区域作为初始文本区域。

步骤s322，采用随机二分搜索算法，以初始文本区域为起点，对表面法线边界图进行搜索，生成可用文本区域。

具体地，为了穷尽可用的文本区域，得到最大的可用文本区域，采用随机二分搜索算法，以初始文本区域为起点，并将当前位置设置为一个界限(以设置为上界为例)，将与当前位置对应的较远的另一个边角设置为相对的另一个界限(相对地，此处为一个下界)，从一个边角出发，在初始文本区域周围紧邻初始文本区域，随机地展开一个预设区域网格，如果展开的矩形不跨越边界，则下限将更新为中点，否则，上限将更新为中点，当每个边的上界和下界相等时，算法收敛，生成一个锚定框。在所有锚定框生成后，按随机顺序逐个选中每个锚定框，如果存在一个锚定框与另一锚定框重叠的现象，则将该锚定框舍弃，将最终保留的锚定框作为可用文本区域。

上述实施例中，根据表面法线边界图和预设区域网格，得到初始文本区域，接着，采用随机二分搜索算法，以初始文本区域为起点，对表面法线边界图进行搜索，生成可用文本区域，能够得到与锚点对应的图像中的所有最大的可用文本区域。

在其中一个实施例中，如图6所示，为步骤s400的细化步骤，图像信息包括rgb图像，其中，步骤s400，根据目标文本区域和预设文本内容，生成文本信息，包括：

步骤s410，在预设字体库中抽样字体，得到字体信息。

具体地，如果没有具体的需求，可以在预设字体库进行随机抽样，以获得字体信息。若对字体有具体的需求，例如，为了与某一特定字体进行对比，可以根据具体需求在字体库中进行抽样，得到字体信息。

步骤s420，从图像信息中的rgb图像中，获取目标文本区域的rgb图像。

其中，图像信息中包含完整的图像的rgb信息，而为了将文本与图像合成，获得显示良好的字体颜色，仅需要根据目标文本区域的rgb信息对文本颜色进行调整即可，因此为了提升执行速度，此处可以仅获取目标区域的rgb信息。

步骤s430，根据目标文本区域的rgb图像，得到文本颜色。

具体地，文本颜色需要根据目标文本区域的背景来确定，可以预设一个文本颜色与可用文本区域的背景颜色之间的对应关系，在得到目标文本区域的rgb信息后，根据rgb图像可以确定文本的颜色。例如，目标文本区域为白色背景，则不宜将文本颜色设置为白色或者特别浅的颜色。

步骤s440，根据预设文本内容、字体信息和文本颜色，生成文本信息。

其中，文本信息是一个包含文本内容、字体信息和文本颜色的组合。例如，文本内容可以为“helloworld”字体为新罗马字体，大小为四号，颜色为黑色。

上述实施例中，在预设字体库中抽样字体，得到字体信息，同时，从图像信息中的rgb图像中，获取目标文本区域的rgb图像，接着，根据目标文本区域的rgb图像，得到文本颜色，最后，根据预设文本内容、字体信息和文本颜色，生成文本信息。本发明实施例确定了即将放置到目标文本区域的文本内容、字体信息和文本颜色，以使合成效果更加完美。

在其中一个实施例中，如图7所示，为步骤s500的细化步骤，根据文本信息、目标文本区域和三维模型，得到三维合成图像，包括：

步骤s510，根据三维模型，将文本信息映射到目标文本区域，得到初始三维合成图像。

具体地，在三维模型中，将得到的包含文本内容、字体信息和文本颜色的文本信息，以一定的规则映射到相应的目标文本区域中，得到一个初始三维合成图像。

步骤s520，对初始三维合成图像进行渲染，得到三维合成图像。

具体地，在得到初始三维合成图像后，为初始三维合成图像所在的3d场景设置多个环境模式，例如，为室内场景设置三种照明模式：正常照度、亮度和黑暗，为室外场景设置雾环境、阴天或者晴天模式。设置环境模式后，首先，在不同的环境模式下对初始三维合成图像进行渲染；接着，转换锚点，再次进行同样的合成和渲染；最后，对不同锚点的合成图像进行采样整合，得到最终的三维合成图像。

上述实施例中，根据三维模型，将文本信息映射到目标文本区域，得到初始三维合成图像，接着，对初始三维合成图像进行渲染，得到三维合成图像。通过这种方式，生成的三维合成图像可以真实地反映视点、照明和遮挡的变化，减小合成的文本图像与真实世界文本图像之间存在的视觉差距，使合成的文本图像更为逼真。

在其中一个实施例中，如图8所示，为步骤s510的细化步骤，根据三维模型，将文本信息映射到目标文本区域，得到初始三维合成图像，包括：

步骤s511，从三维模型中获取目标文本区域的第一位置坐标集和深度值集以及获取参考矩阵。

其中，第一位置坐标集是指从3d模型中获取到的与锚点对应的图像中的目标文本区域的整个区域的位置坐标，鉴于3d模型中存储的数据的特性，此时的位置坐标为粗粒度位置坐标，因此，第一位置坐标集是粗粒度位置坐标集。深度值集是指目标文本区域中的每一位置与锚点之间的深度值构成的集合。参考矩阵锚点处的摄像机的内部参考矩阵，是摄像机的属性参数。

步骤s512，根据第一位置坐标集、深度值集和参考矩阵，将文本信息映射到目标文本区域，得到初始三维合成图像。

具体地，根据第一位置坐标集、深度值集和参考矩阵，将上述二维文本信息按照公式(2)映射到3d模型中的目标文本区域中，得到初始三维合成图像。

得到初始三维合成图像的具体实现方式如由公式(2)所示：

其中，(xj,yj,zj)表示目标文本区域中的第一位置坐标集，k表示参考矩阵，dj表示深度值集，(xj,yj,1)表示文本信息中与三维第一位置坐标集(xj,yj,zj)对应的二维坐标信息。

上述实施例中，通过从三维模型中获取目标文本区域的第一位置坐标集和深度值集以及获取参考矩阵，接着，根据第一位置坐标集、深度值集和参考矩阵，将文本信息映射到目标文本区域，得到初始三维合成图像。能够将二维的文本信息映射到3d模型中，得到合成的文本图像。

在其中一个实施例中，如图9所示，为步骤s512的细化步骤，第一位置坐标集为获取到的粗粒度位置坐标集，其中，步骤s512，根据第一位置坐标集、深度值集和参考矩阵，将文本信息映射到目标文本区域，得到初始三维合成图像，包括：

步骤s5121，根据锚点、第一位置坐标集和表面法向图，得到第二位置坐标集；其中，第二位置坐标集为细粒度位置坐标集。

具体地，根据表面法向图中的表面法向量可以得到图像中的物体的表面的位置坐标，为了得到第二位置坐标集，首先构建一个射线v＝(pi-pv)，其中pi表示第一位置坐标集pv表示选定的锚点，第二位置坐标集pf在射线v＝(pi-pv)与图像中的物体的表面的交点的坐标的集合。

步骤s5122，根据第二位置坐标集、深度值集和参考矩阵，将文本信息映射到目标文本区域，得到初始三维合成图像。

具体地，将公式(2)中的第一位置坐标集替换为第二位置坐标集，按照相同的方式将二维文本信息映射到3d模型中的目标文本区域中，得到初始三维合成图像。

上述实施例中，根据锚点、第一位置坐标集和表面法向图，得到第二位置坐标集；其中，第二位置坐标集为细粒度位置坐标集，接着，根据第二位置坐标集、深度值集和参考矩阵，将文本信息映射到目标文本区域，得到初始三维合成图像。能够将二维的文本信息在更为精细的程度上映射到3d模型中，得到合成的文本图像。

在一个具体的实施例中，如图10所示，为一个文本图像合成的效果图，以将文本信息“you”与汽车中的车门进行合成为例进行说明。具体地，按照上述各个实施例中的方法，在图10中由左到右直至得到合成的文本图像。首先，构建一个锚点，接着，得到与锚点对应的图像信息，这里为整个车体，进一步，选定车门位置为目标文本区域，生成的文本信息为“you”，其中，文本信息“you”的字体和颜色可以根据车门的颜色决定，最后将文本信息“you”按照汽车车门的弯曲程度进行映射，得到合成的文本图像，如图10中最右边的车与车门上的文本信息所示。

在一个实施例中，如图11所示，提供了一种文本图像合成装置，包括：锚点获取模块111、图像信息获取模块112、文本区域生成模块113、文本信息生成模块114和图像合成模块115，其中：

锚点获取模块111，用于在三维模型中构建至少一个锚点；

图像信息获取模块112，用于获取与锚点对应的图像信息；

文本区域生成模块113，用于根据图像信息，得到目标文本区域；

文本信息生成模块114，用于根据目标文本区域和预设文本内容，生成文本信息；

图像合成模块115，用于根据文本信息、目标文本区域和三维模型，得到三维合成图像。

在其中一个实施例中，文本区域生成模块113还用于遍历表面法线图，生成表面法线边界图；根据表面法线边界图，生成可用文本区域；从可用文本区域中进行抽选，得到目标文本区域。

在其中一个实施例中，文本区域生成模块113还用于获取表面法线图中每一位置处的表面法向量；根据目标位置处的表面法向量以及目标位置预设邻域范围内的表面法向量集，得到目标位置处的表面法线边界信息；根据每一位置处的表面法线边界信息，生成表面法线边界图。

在其中一个实施例中，文本区域生成模块113还用于计算目标位置处的表面法向量与表面法向量集中的每一个表面法向量的差值；根据差值中的最大值，得到目标位置处的表面法线边界信息。

在其中一个实施例中，文本区域生成模块113还用于若差值中的最大值大于预设阈值，则目标位置为边界；若差值中的最大值小于或等于预设阈值，则目标位置为非边界。

在其中一个实施例中，文本区域生成模块113还用于根据表面法线边界图和预设区域网格，得到初始文本区域；采用随机二分搜索算法，以初始文本区域为起点，对表面法线边界图进行搜索，生成可用文本区域。

在其中一个实施例中，文本信息生成模块114还用于在预设字体库中抽样字体，得到字体信息；从图像信息中的rgb图像中，获取目标文本区域的rgb图像；根据目标文本区域的rgb图像，得到文本颜色；根据预设文本内容、字体信息和文本颜色，生成文本信息。

在其中一个实施例中，图像合成模块115还用于根据三维模型，将文本信息映射到目标文本区域，得到初始三维合成图像；对初始三维合成图像进行渲染，得到三维合成图像。

在其中一个实施例中，图像合成模块115还用于从所述三维模型中获取目标文本区域的第一位置坐标集和深度值集以及获取参考矩阵；根据第一位置坐标集、深度值集和参考矩阵，将文本信息映射到目标文本区域，得到初始三维合成图像。

在其中一个实施例中，图像合成模块115还用于根据锚点、第一位置坐标集和表面法向图，得到第二位置坐标集；其中，第二位置坐标集为细粒度位置坐标集；根据第二位置坐标集、深度值集和参考矩阵，将文本信息映射到目标文本区域，得到初始三维合成图像。

关于文本图像合成装置的具体限定可以参见上文中对于文本图像合成方法的限定，在此不再赘述。上述文本图像合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本图像合成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在三维模型中构建至少一个锚点；

获取与锚点对应的图像信息；

根据图像信息，得到目标文本区域；

根据目标文本区域和预设文本内容，生成文本信息；

根据文本信息、目标文本区域和三维模型，得到三维合成图像。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：遍历表面法线图，生成表面法线边界图；根据表面法线边界图，生成可用文本区域；从可用文本区域中进行抽选，得到目标文本区域。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：获取表面法线图中每一位置处的表面法向量；根据目标位置处的表面法向量以及目标位置预设邻域范围内的表面法向量集，得到目标位置处的表面法线边界信息；根据每一位置处的表面法线边界信息，生成表面法线边界图。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：计算目标位置处的表面法向量与表面法向量集中的每一个表面法向量的差值；根据差值中的最大值，得到目标位置处的表面法线边界信息。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：若差值中的最大值大于预设阈值，则目标位置为边界；若差值中的最大值小于或等于预设阈值，则目标位置为非边界。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：根据表面法线边界图和预设区域网格，得到初始文本区域；采用随机二分搜索算法，以初始文本区域为起点，对表面法线边界图进行搜索，生成可用文本区域。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：在预设字体库中抽样字体，得到字体信息；从图像信息中的rgb图像中，获取目标文本区域的rgb图像；根据目标文本区域的rgb图像，得到文本颜色；根据预设文本内容、字体信息和文本颜色，生成文本信息。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：根据三维模型，将文本信息映射到目标文本区域，得到初始三维合成图像；对初始三维合成图像进行渲染，得到三维合成图像。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：从三维模型中获取目标文本区域的第一位置坐标集和深度值集以及获取参考矩阵；根据第一位置坐标集、深度值集和参考矩阵，将文本信息映射到目标文本区域，得到初始三维合成图像。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：根据锚点、第一位置坐标集和表面法向图，得到第二位置坐标集；其中，第二位置坐标集为细粒度位置坐标集；根据第二位置坐标集、深度值集和参考矩阵，将文本信息映射到目标文本区域，得到初始三维合成图像。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在三维模型中构建至少一个锚点；

获取与锚点对应的图像信息；

根据图像信息，得到目标文本区域；

根据目标文本区域和预设文本内容，生成文本信息；

根据文本信息、目标文本区域和三维模型，得到三维合成图像。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：遍历表面法线图，生成表面法线边界图；根据表面法线边界图，生成可用文本区域；从可用文本区域中进行抽选，得到目标文本区域。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取表面法线图中每一位置处的表面法向量；根据目标位置处的表面法向量以及目标位置预设邻域范围内的表面法向量集，得到目标位置处的表面法线边界信息；根据每一位置处的表面法线边界信息，生成表面法线边界图。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：计算目标位置处的表面法向量与表面法向量集中的每一个表面法向量的差值；根据差值中的最大值，得到目标位置处的表面法线边界信息。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：若差值中的最大值大于预设阈值，则目标位置为边界；若差值中的最大值小于或等于预设阈值，则目标位置为非边界。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据表面法线边界图和预设区域网格，得到初始文本区域；采用随机二分搜索算法，以初始文本区域为起点，对表面法线边界图进行搜索，生成可用文本区域。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：在预设字体库中抽样字体，得到字体信息；从图像信息中的rgb图像中，获取目标文本区域的rgb图像；根据目标文本区域的rgb图像，得到文本颜色；根据预设文本内容、字体信息和文本颜色，生成文本信息。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据三维模型，将文本信息映射到目标文本区域，得到初始三维合成图像；对初始三维合成图像进行渲染，得到三维合成图像。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：从三维模型中获取目标文本区域的第一位置坐标集和深度值集以及获取参考矩阵；根据第一位置坐标集、深度值集和参考矩阵，将文本信息映射到目标文本区域，得到初始三维合成图像。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据锚点、第一位置坐标集和表面法向图，得到第二位置坐标集；其中，第二位置坐标集为细粒度位置坐标集；根据第二位置坐标集、深度值集和参考矩阵，将文本信息映射到目标文本区域，得到初始三维合成图像。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：廖明辉;何明航;龙上邦;姚聪
技术所有人：北京旷视科技有限公司
我是此专利的发明人

上一篇：一种单立柱系泊式井口生产作业平台的制作方法
上一篇：一种基于图像识别技术的水面垃圾分拣装置及方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。