基于图像处理语义分析的阅读环境音效增强系统及方法与流程

文档序号：11251348阅读：1069来源：国知局

本发明涉及基于图像处理和语义分析配置阅读背景音乐和音效的系统及方法，尤其涉及一种方法，通过分析处理获取的阅读页面图像，确定阅读页中文本语义的环境及情绪属性，并根据该文本语义选择音乐和音效素材合成阅读背景音乐和音效，以获得阅读环境的音效增强效果。

背景技术：

阅读文学作品、杂志、报纸时搭配相应的背景音效和音乐能增强现场体验感、提高阅读效率。利用节奏舒缓的音乐来刺激大脑，可以消除心理压力，使读者注意力集中、同时增强大脑活力。如果播放节奏缓慢的古典音乐，读者的记忆力可以提高百分之五十；如果根据文章内容搭配情景音乐音效，还能够产生印象深刻的阅读体验。

在阅读背景音乐的智能化选择方面，现有的方法是建立一个阅读物库和一个背景音乐库，根据阅读物的总体内容，事先人工确定好对应的背景音乐曲目，建立阅读物和背景音乐曲目的对应关系。一旦读者选择阅读某份阅读物，系统就自动提取对应的背景音乐曲目并予以播放。该系统的缺点首先是阅读物的数量受限，读者不能阅读不在该库的阅读物；其次，系统只能提供数量有限的背景音乐，而不能提供体现环境、场景特征的音效，缺乏阅读的身临其境感；第三，由于音乐曲目只是在总体上与阅读物的内容相匹配，因此在具体章节上会存在该音乐不能适应阅读物情境，甚至与阅读物情境相矛盾的情况。因此，现有的阅读背景音乐系统软硬件产品还存在很大的不足，不能实时识别阅读物的文本并确定阅读内容的实时场景和情绪，不能提供反映阅读内容场景和情绪的音效和音乐，阅读的愉悦感一般，阅读的身临其境感很差。

技术实现要素：

本发明提出一种基于图像处理和语义分析的阅读环境音效增强系统及方法，根据当前阅读的实时内容匹配场景音效和情绪音乐，并通过音频合成及增强技术生成合适的背景音效，更大程度上提高阅读者身临其境的阅读感受。

本发明采用的技术方案一方面为一种基于图像处理和语义分析的阅读环境音效增强系统，包括图像获取装置以及处理装置。图像获取装置用于获取用户的实时阅读内容的图像。处理装置包括传输单元、存储单元和音频单元和用于控制传输单元、存储单元和音频单元分别执行传输、储存和音频合成的运算单元。所述运算单元包括：图像提取模块，用于接收所述图像获取装置的输入信号，然后转换为图像信号；文字识别模块，用于处理该图像信号使之清晰且易于识别，通过该图像信号识别文字，将识别出的文字储存于缓存文本中，在该文本中将文字进行分类；语义分析模块，用于识别分类后的文字语义，分别提取环境语义词及情绪语义词，然后将环境语义词及情绪语义词分别比对背景音乐库，获得环境背景音效和情绪背景音乐；音频合成模块，用于将背景音效和音乐进行音频合成及音效增强。

进一步，其中所述的图像获取装置包括摄像头和/或智能阅读设备的文字截取工具，该文字截取工具包括屏幕截图工具、文字内存读取工具或阅读软件api调用工具。

进一步，其中所述图像获取装置通过一个或多个配件附属在用户的耳机、眼镜或可穿戴设备上。

进一步，其中所述系统还包括设置于所述图像获取装置中的第二运算单元，其中该第二运算单元包括：图像预处理模块，用于对获取的图像执行阅读目标区域的标定以及对阅读目标区域图像进行截取、校正、去噪和二值化处理；传输模块，用于通过无线方式对预处理的图像进行压缩传输。

进一步，其中所述语义分析模块包括：词语切分器，用于调用统计语言模型对语段进行切分，生成多个切分词语，然后为每个切分词语计算权重值和情绪评分值；主题模型求解器，用于通过随机采样方法计算隐含狄利克雷模型(lda)主题模型的最优解来表示各个切分词语的分类；词语特征提取器，用于对文本串的词语进行特征词分类，提取文本串中的环境词和情绪词。

进一步，其中所述音频合成模块包括：时域记录器，用于根据采集的图像的阅读目标区域的文字变化，记录一个或多个阅读时间节点，并且当累积的情绪评分值超过预设的阈值时记录一个或多个情绪时间节点，每个情绪时间节点与相应的情绪词在文段中的位置对应，然后将所述阅读时间节点和情绪时间节点整合生成时域控制条；混音器，用于根据所述时域控制条，通过包含有衰减因子的饱和器将背景音乐和音效的音频信号在时域上进行叠加。

本发明采用的技术方案另一方面为一种基于图像处理和语义分析的阅读环境音效增强方法，包括以下步骤：

s1、提供一语义知识库，该语义库包含背景语义集，该背景语义集包括环境语义集和情绪语义集，该环境语义集及情绪语义集包含条件词；

s2、接收输入信号，转换图像信息，其中输入的图像信号包括电子设备的屏幕截图或者纸质书籍的页面照片；

s3、处理该图像信号使之清晰且易于识别，通过该图像信号识别文字，将识别出的文字储存于缓存文本中，在该文本中将文字进行分类；

s4、识别分类后的文字语义，分别提取环境语义词及情绪语义词；

s5、该环境语义词及情绪语义词分别比对背景音乐/音效库，获得环境和情绪的背景音乐与音效；

s6、根据背景音乐/音效进行音频合成及音效增强，供音频输出设备播放合成后的音频。

进一步，其中所述步骤s3还包括：处理图像信号，其包括图像校正，去噪处理过程。文字识别包括文字细化，连通域数字化和线段直线化处理。

进一步，其中所述步骤s5还包括：调用统计语言模型对语段进行切分，生成多个切分词语，然后为每个切分词语计算权重值和情绪评分值；通过随机采样方法计算隐含狄利克雷模型(lda)主题模型的最优解来表示各个切分词语的分类；对文本串的词语进行特征词分类，提取文本串中的环境词和情绪词；使各个切分词语结合条件词匹配对应的音乐素材。

进一步，其中所述步骤s6还包括：根据采集的图像的阅读目标区域的文字变化，记录一个或多个阅读时间节点，并且当累积的情绪评分值超过预设的阈值时记录一个或多个情绪时间节点，每个情绪时间节点与相应的情绪词在文段中的位置对应；将所述阅读时间节点和情绪时间节点整合生成时域控制条；根据所述时域控制条，通过包含有衰减因子的饱和器将背景音乐和音效音乐的音频信号在时域上进行叠加。

本发明的有益效果为：提出的阅读音效增强系统和方法，采用图像识别、文字分类和场景关键词分析的方法，能够根据当前阅读的具体内容来实时匹配场景音效和情绪音乐，并通过音频合成及增强技术生成背景音效，通过音频输出设备予以播放，不仅极具趣味性，还能提供阅读者身临其境的阅读感受，深化对所读内容的理解；并且，结合机器学习的语义识别，以及根据时间采用改进时域叠加混音方式，提高了识别准确度和实时性，解决了阅读和音效同步的问题。

附图说明

图1所示为根据本发明的系统的示意性框图；

图2所示为根据本发明的系统的进一步示意性框图；

图3至5所示为根据本发明的系统的多个具体的实施例；

图6所示为根据本发明的方法的流程图；

图7所示为根据本发明的方法的实施例中的语义知识库框图；

图8所示为根据本发明的方法的实施例中的图像采集及预处理过程的示意图；

图9所示为根据本发明的方法的实施例中的文字识别过程的示意图；

图10所示为根据本发明的方法的实施例中的从词语提取至音频合成的过程的示意图；

图11所示为根据本发明的方法的词语提取过程的具体实施例；

图12和13所示为根据本发明的方法的生成阅读时间节点过程的具体实施例；

图14所示为根据本发明的方法的生成情绪时间节点过程的具体实施例；

图15所示为根据阅读时间节点和情绪时间节点并且基于时域叠加的方式进行音频合成的具体实施例。

具体实施方式

在下文中，将参照附图更详细地解释本发明。

参照图1，在一实施例中，根据本发明的系统可以包括摄像头1、处理装置2、人机交互设备3和配件5。音频输出设备4可以包含在该系统中，也可以是用户自己提供的设备。所述处理装置2包括用于与摄像头1和音频输出设备4通信连接的传输单元21，用于储存数据的存储单元23，用于执行音频合成与音效增强的音频单元24，以及分别与传输单元21、存储单元23和音频单元24连接的运算单元22。优选地，所述传输单元21通过内部传输线路或蓝牙与摄像头1和音频输出设备4通信。所述存储单元23包括ram、rom或任何公知的存储设备，用于提供运算内存支持和储存音乐文件。所述音频单元24可以实施为音频解码编码芯片。所述运算单元22可以实施为低功耗型微处理芯片。用户可以通过人机交互设备3输入指令和获知处理装置2的运行信息。所述配件5用于将摄像头1定向至阅读方向，以及用于支撑音频输出设备4。关于配件5的具体实施方式，可以参照本申请人提交的申请号为201720306109.7的专利申请公布文件，该申请通过全文引用的方式并入本文。

进一步参照附图2，在存储单元23中储存有语义知识库，包含背景音乐和音效音乐文件的音乐库。运算单元22包括图像提取模块，用于接收摄像头的输入信号，然后转换为图像信号；文字识别模块，用于处理该图像信号使之清晰且易于识别，通过该图像信号识别文字，将识别出的文字储存于缓存文本中，在该文本中将文字进行分类；语义分析模块，用于识别分类后的文字语义，分别提取环境语义词及情绪语义词，然后将环境语义词及情绪语义词分别比对背景音乐库，获得环境背景音乐及情绪背景音乐；和音频合成模块，用于根据背景音乐进行音频合成及音效增强。

图3至5所示为根据本发明的系统的多个具体的实施例。其中阅读介质6可以是纸质媒体、智能手机、电子纸阅读器（比如亚马逊的kindle阅读器）等。这样，所述处理装置2可以设置在阅读器内，或者至少一部分的处理装置2设置在图像获取装置内。比如，可以在图像获取装置中设置第二运算单元，用于对捕获的图像执行阅读目标区域的标定以及对阅读目标区域图像进行截取、校正、去噪和二值化处理。这样经过预处理后的图像可以大幅度地压缩体积，便于通过蓝牙等方式进行无线传输。

参照图6所示的根据本发明的方法的流程图。

s1、提供一语义知识库，该语义库包含背景语义集，该背景语义集包括环境语义集和情绪语义集，该环境语义集及情绪语义集包含条件词；

s2、接收输入信号，转换图像信息，其中输入的图像信号包括电子设备的屏幕截图或者纸质书籍的页面照片；

s3、处理该图像信号使之清晰且易于识别，通过该图像信号识别文字，将识别出的文字储存于缓存文本中，在该文本中将文字进行分类；

s4、识别分类后的文字语义，分别提取环境语义词及情绪语义词；

s5、该环境语义词及情绪语义词分别比对背景音乐库，获得环境背景音乐及情绪背景音乐；

s6、根据背景音乐进行音频合成及音效增强，供音频输出设备播放合成后的音频。

步骤s1“建立语义知识库”具体实现方式如下：

如图7所示，为了设计基于图像处理和语义分析配置的阅读背景音乐系统，对语义知识库中词语代表概念精确的建模和辨识是非常重要的步骤。完整的建模过程应该包括：背景语义集的词语分类，近义词和同义词的分类，音乐素材分类，词语概念匹配对应音乐素材等。

背景语义集包括环境语义集和情绪语义集。环境语义集存储若干环境相关的条件词语，例如，时间、地点、人物、声响以及天气等，可以切实反映当前检测的词语所描述的背景状态。声响可以包括动物叫声、人声鼎沸的背景声等，天气包括打雷、下雨等。情绪语义集存储若干情绪相关的条件词语，例如，高兴、激情、紧张、恐惧等。

近义词和同义词分类即为环境语义集和情绪语义集中词条的近义词及同义词的分类库，扩充匹配范围。近义词和同义词库存储若干词条的同义词及近义词，例如，在环境语义集中，存在一条词条为大海，用于描述当前环境为大海，则在该词条对应的近义词和同义词库中，存储同义词如海里、海上，近义词如海边、海滩等；在情绪语义集中，存在一条词条为高兴，用于描述当前氛围为高兴，则在该词条对应的近义词和同义词库中，存储同义词如开心、愉快，近义词如快乐、欣喜等。

音乐素材分类根据环境语义集和情绪语义集的分类后，按照音乐所表现的特点将素材归类到背景语义集中。

对于实际系统，建立完整的语义知识库是非常困难的。一般分为两个部分：（1）通过建立简化模型来实现对背景语义集的组建；（2）对于未识别的词汇在联网后采用机器学习的方法训练匹配词义，再重新扩充背景语义集。

步骤s2“输入图像信号”具体实现方式如下：

接收输入信号，输入信号为图像信号。其中，图像信号包括电子书阅读设备的图像或纸质书的图像。具体的，电子书阅读设备的图像可以通过屏幕截图的方式获得，纸质书的图像可以通过摄像头采集得到。图片是从摄像机、手机、或者电子阅读设备等获得，经过图片的预处理，如图8所示。预处理的最基本目的有三点：（1）校正图片，使图片行与水平平行。（2）图片二值化处理。（3）尽可能的去掉噪点。

步骤s3“文字识别”具体实现方式如下：

文字识别的流程如图9所示。笔画扫描计算特征码直接影响识别率，是识别程序的核心部分。特征码一旦计算处理，直接查询数据库中特征码对应的文字编码，就可以输出文本文字了。

采用文字几何特征扫描的方式，能够深入挖掘文字的特征。其算法处理流程为：

（1）文字细化，用一个个像素的宽度来表示图片的文字笔画，提取文字的骨架。特征码扫描的第一步骤是将文字进行细化，提取出文字的骨架，即使用用一个像素的宽度来表示图片的文字笔画。细化算法的思想是一层层的剥掉原来的图像边缘冗余的像素，但还要保持图片整体骨架不变，联通性不变。本文采样了相对成熟的zhang细化算法，该算法首先设定前景色像素为1，背景色像素为0。像素和周边像素的关系如同九宫格所示。定义边界点为p1，而p2-p9为其8领域的8个点。显然临界的边节点具有8领域中至少一个点的像素是0的特征。zhang细化算法处理后的图片，只剩下用单个像素表示的骨架。

（2）连通域数字化过程，可以认为是将图片上的单像素宽度的文字图片提取出用坐标、方向、以及与邻接点的关系用数值表示处理。

（3）线段直线化。在上面的处理后，已经将图片转化为以段段的线段表示了，由于细化算法等原因，可能原本是一条横线的笔画，中间也会存在几个小波折的线段。为了整合这些小的波折线段，已及更容易制定特征码，把小波折线段调整整合成直线线段。

（4）计算特征码。特征码的计算，指的是用一串数字来表示当前字形的结构。经过线段直线化后，文字的纹理就非常清晰，可以较容易的进行特征码的计算。

步骤s4“语义分析”具体实现方式如下：

语义分析包括文本基本处理和文本语义分析两个部分，分别描述如下：

（1）文本基本处理。拿到一段文本后，通常情况下，首先要做分词。这里采用全切分方法。首先切分出与词库匹配的所有可能的词，再运用统计语言模型决定最优的切分结果。它的优点在于可以解决切分词语中的歧义问题。下图是一个示例，对于文本串“深圳市大梅沙海滩”，首先进行词条检索，找到匹配的所有词条（深圳，市，大梅沙，海滩，深圳市，大梅沙，大梅，梅，沙海），以词网格形式表示，接着做路径搜索，基于统计语言模型n-gram找到最优路径，最后可能还需要命名实体识别。“深圳市大梅沙海滩”的语言模型得分，即p(深圳市，大梅沙，海滩)最高，则为最优切分。

文本分词后需要对切分词语后的每个终端计算一个权重，重要的终端应该给与更高的权重。利用有监督机器学习方法来预测权重。这里类似于机器学习的分类任务，对于文本串的每个终端，预测一个[0,1]的得分，得分越大则终端重要性越高。既然是有监督学习，那么就需要训练数据。如果采用人工标注的话，极大耗费人力，所以可以采用训练数据自提取的方法，利用程序从搜索日志里自动挖掘。从海量日志数据里提取隐含的用户对于终端重要性的标注，得到的训练数据将综合亿级用户的“标注结果”，覆盖面更广，且来自于真实搜索数据，训练结果与标注的目标集分布接近，训练数据更精确。

短文本串的核心词提取。对短文本串分词后，利用上面介绍的终端权重方法，获取终端权重后，取一定的阈值，就可以提取出短文本串的核心词。

（2）文本语义分析。对一个文本串进行分词和重要性打分后，可以开始高层的语义分析任务，包括主题模型，文本分类两个部分。主题模型采用gibbssampling方法寻求隐含狄利克雷模型(lda)主题模型的最优解，其最优解表示词的分类情况。随后在文本分类中，采用训练过的词语特征提取器，对文本串的词语进行特征词分类，将文本串中的环境词和情绪词提取出来。

步骤s5“音乐素材匹配”具体实现方式如下：

采用基于统计特征的方法，分别统计常见的场景描述词语以及常见的情绪描述词语，通过字面匹配的方式，提取文中的关键词。匹配的操作方式可以分为3类：（1）精确匹配，匹配条件是在步骤s4中所提取的关键词与背景语义集中的词条进行匹配，二者字面完全一致时才能通过匹配。（2）短语匹配，匹配条件是步骤s4中所提取的关键词与背景语义集中的近义词和同义词词条进行匹配（颠倒，同义等）才能通过匹配。例如，关键词为“大海”，则以下词语“海面”、“海上”、“海洋”都能跟大海匹配，选择大海为背景的阅读背景音乐。（3）广泛匹配，当使用广泛匹配时，关键词只需高度相关，也可能在筛选的范围之内。例如“鲨鱼”这个词语，就会直接关联到“大海”这个背景词语。

根据步骤s1所搭建的背景语义集及其对应的音乐素材库，可以选出对应的环境音乐素材和情绪音乐素材。

步骤s6“音频合成及音效增强”具体实现方式如下

音频信号处理的特点如下：（1）音频信号是时间依赖的连续媒体。因此音频处理的时序性要求很高，如果在时间上有25ms的延迟，人就会感到断续。（2）理想的合成声音应是立体声。由于人接收声音有两个通道（左耳、右耳），因此计算机模拟自然声音也应有两个声道，即立体声。（3）由于语音信号不仅仅是声音的载体，同时情感等信息也包含其中，因此对语音信号的处理，要抽取语意等其它信息。

实际应用中，混音方案分为以下几类：（1）时域叠加混音。该类混音方法是直接将多段音频信号在时域上进行叠加，但是数字音频信号存在量化上限和下限的问题，容易造成溢出。（2）溢出检测混音。该方法在时域叠加的基础上，采用饱和器，当检测到信号超过上限时，结果被置为上限，超过下限时结果被置为下限。但是这种做法破坏了语音信号原有的时域特征和连续性，容易出现爆破声和语音不连续的现象。（3）改进的时域叠加方案。该方法在时域叠加混音的基础上，加入了衰减因子，其中n为混叠语音流的数量。该方法可以保证混叠后的语音信号不会溢出。然后在步骤s5选取的音乐素材基础上，采用改进的时域叠加方案进行音频合成。

图11所示为根据本发明的方法的词语提取过程的一个具体实施例。下面以此文章识别的背景词和情绪词来示例性说明本发明的时域控制和音频合成过程。

图12和13所示为根据本发明的方法的生成阅读时间节点过程。图12所示为传统纸质阅读介质的情况，根据阅读对象（在本实施例中为书本）在阅读区域va的移动情况来判断读者读到文章的哪个位置。图13所示为通过阅读设备内部的程序协议获得阅读位置。这种情况更容易掌握读者的阅读位置。比如可以通过界面sc更直接了解当前阅读到哪里，还可以根据分节符br和结束符号ed来辨别文章位置。

图14所示为根据本发明的方法的生成情绪时间节点。其中根据识别关键词在文章的位置来划分时间节点，还依据每个词的情绪评分累积超过预设阈值来定义情绪折点。然后可以根据阅读时间节点和情绪时间节点并且基于时域叠加的方式进行音频合成。如图15所示。根据不同的情绪，可以寻找音乐素材库，加入对应的音效，比如在惊恐的时候加入鼓击乐以承托紧张气氛。还可以调节eq来增强高频或低频，以获得更震撼的效果。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作-根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

进一步，该方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、ram、rom等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姚舜杰;楼婺丹;楼云江;陈雨景
技术所有人：哈尔滨工业大学深圳研究生院;楼云江
我是此专利的发明人

上一篇：一种可通过蓝牙传递指纹信息的指纹识别装置的制造方法
上一篇：活体识别方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。