基于智能语义理解的手机彩信生成方法

文档序号:7749719阅读:180来源:国知局

专利名称::基于智能语义理解的手机彩信生成方法
技术领域
:本发明属于数字图像处理
技术领域
,,涉及一种基于智能语义理解的手机彩信生成方法。
背景技术
:不同于《阿凡达》等影视动漫音像作品提供了豪华的视觉盛宴;受制于无线网络的传输速度,特别是手机屏幕尺寸和手机的计算能力,手机动漫多以画面夸张、个性明朗、令人愉悦取胜。即手机动漫作品十分追求新的创意,追求欢乐有趣,而不以画面的精细、层次的繁复取胜。传统的手机短信以纯粹的黑白文字展现在收信人面前,多少给人以枯燥乏味的感觉,这种简易的黑白文字表达方式,在很多时候,并不能充分的表达发信人的感情,不能完全满足人们大众的交流的需求。
发明内容本发明的目的是提出一种基于智能语义理解的手机彩信生成方法,该方法能将普通的短信自动转换成包含有更多动画及图片信息、趣味性更强的彩信。本发明的技术解决方案如下一种基于智能语义理解的手机彩信生成方法,其特征在于,包括以下步骤步骤1建立汉语词库以及图像素材库;将所建立的汉语词库分为主题词库和普通词库;普通词库中的属性项包括词条名、词条ID、索引ID、频度和词性,对普通词库中的每一类词性相同的词条设置一个加权系数值;主题词库设置的属性项包括主题词名、加权系数、重点词ID、索引ID、频度和词源集合,对主题词库中的每一个主题词设置一个加权系数值;步骤2对原始短信内容进行词条切分;将原始短信内容切分为多个词条,并获得每一个词条的词性;采用最长子串优先法作为词条切分方法;步骤3从切分出来的多个词条中提取短信的文本主题;步骤4图像检索以及彩信合成。将所得的文本主题在主题词库中检索,从而确定彩信的背景图片;在普通词库中检索每一个词条所对应的文字图标;对于没有对应的文字图标的词条,则采用该词条的原文字;将所确定的主题图片、文字图标以及所述的原文字合成为一条手机彩信,即完成手机彩信的生成。步骤3的具体步骤为具体实现步骤如下1)在分词获得每一词条词性的基础上,通过词条之间的上下文连接关系对短信所包含的每一条语句进行句法分析,获得每一条语句的句法结构。2)根据语句结构及加权系数求出每一词条在该语句中的权重值。3)对每一词条按权重值排序,选取权重值高的词条为重点词。4)在主题词库中检索出该重点词所对应的主题。文本主题是发信人在本短信中所欲表达的核心内容,基于文本主题在下一步骤中获取相应的背景图片(主题图片),就能更贴切、准确地表达发信人的意愿。有益效果本发明公开了一种基于词条切分与图像检索的手机动漫制作方法,即一种基于智能语义理解的手机彩信生成方法,主要步骤为经由手机动漫服务器对发信人发出的纯文本信息,进行智能分解获得其所欲表达的内涵及其主题,智能地检索获取最佳匹配的主题图像、配合以必要的文字渲染,改造成一份彩色手机动漫图像,传情达意地发送到收信人手中。使收信人在倍感亲切温馨的同时也享受到一份乐趣。本发明使用实用有效的计算机人工智能方法,通过手机动漫服务器制作,将一份原本是纯文本的普通手机短信转换成彩色手机动漫图像,转换成的彩色手机动漫图像能使得收信人倍感亲切温馨。图1为本发明的总流程图;图2为句法分析示例;图3为示例的第一句话的权重分析表之一;图4为示例的第一句话的权重分析表之二;图5为示例的第一句话的权重分析表之三;图6为示例的权重分析示意图;图7为由实施例总的短信实例生成的两份手机彩信,图(a)为第1份手机彩信,图(b)为第2份手机彩信.具体实施例方式以下将结合图和具体实施过程对本发明做进一步详细说明。本发明为解决上述技术问题所采用的技术方案包括以下步骤1)步骤一建立汉语词库分词就是把句子切分开成为独立的词条并标明它的词性。分词的基础是相应的汉语词库,设计良好的词库有助于在分词时迅速检索出最佳的候选词条。本发明中为便于检索将词库分成普通词库和主题词库两类。其中,主题词库用于存储最能反映某一段文字主题的词类——主题词。如百折不挠、生日快乐等,它们多半有直接对应的背景图片。主题词库中的主题词可由最长子串分词规则直接导出或由重点词间接导出,所以能得到更快的分词效率。普通词库用于存储主题词以外的一股词条。为能准确反映所编录词语的内容特征和形式特征,定义三类著录项目,每类又分为若干主项(必备项)和子项(可选项)。词库的存储管理中设置有“频度”属性项,将按照使用频度对使用频繁的词条向前调整词序。频度是一数字量,表征本词条被使用的频繁程度。日常分词中,用到本词条一次,其“频度”属性项就加1。所以为加快检索效率,应该将频度高的词条向前调整其词序。词库的存储管理还有“前向关联”与“后向关联”两属性项,用于建立链表结构,以便灵活、迅速地调整词序。普通词库<table>tableseeoriginaldocumentpage5</column></row><table>g点、胃区于其他重点词,具有唯一性的编号ID^I1d与本词条相关的索引编号存储及i司条长度---索引将按照使用频度及时调整在词库中频度的序次前向关联指向前一词表的相对定位后向关联指向后一词表的相对定位本发明采用的词类及其词性代码<table>tableseeoriginaldocumentpage6</column></row><table>图像素材包括简单的漫画、背景、图标、乃至手势、表情符号等等,是本发明用于生成手机彩信,将黑白世界变成彩色世界使用最频繁的资源。所以建立设计精良、结构清晰、描述准确、适当冗余的素材库是导致成功生成手机彩信重要环节。为实现有效组织、方便检索的原则,本发明采用多重树状结构,建立以题名和内容分类为主的索引机制(包括按类型、重点词ID、…、等交叉分类索引)的“多重树状条目索引结构”。每一素材的主项(乃至部分子项)都可成为检索的途径,实现全方位、多途径、高效、快捷、灵活模糊检索。(1)主题图像素材(用作背景图片)本发明中将具有专属内涵、相对“复杂”的图像素材(或图片)称之为“主题”,它们多与重点词库中的词条相呼应。例如有多幅动漫或漫画作为背景图片,为重点词条“生日快乐”服务,这些动漫或漫画在本发明中将它们归类为“主题”类图片,画面上表现为背景,从而最直观地进入收信人的视野。一旦在上下文“主题提取”环节获得了短信的准确主题,又检索到与之贴切的“主题”类图片,则按步骤六“彩信合成”所述,构成一份效果十分理想的彩信。主题提取的内容将在第4节“基于人工智能的文本主题提取”中展开。如未能在“主题提取”环节获得该短信的主题,则仅为之选配一幅无特指意义的背景图片;并用迷你简娃娃篆、文鼎中楷、宋体、黑体等多种字体;以及选择不同的字体颜色、大小,进行文字渲染。反之,如果检索到多个对象则随机地选取一幅“主题”类图片。例如图7的(a)和(b)同为祝贺生日(主题相同),但背景图片是随机选取的。(2)素材库设计本发明中为能准确反映所编录素材的内容特征和形式特征,定义四类著录项目,每类又分为若干主项(必备项)和子项(可选项)。<table>tableseeoriginaldocumentpage7</column></row><table><table>tableseeoriginaldocumentpage8</column></row><table>(2)创建索引索引是一项常规计算机数据库技术。数据库使用索引类似于书本中使用目录,可以通过搜索索引找到特定的值,然后跟随指针到达包含该值的行。例如素材库中某项素材的“正名”是“生日快乐”,通过正名索引检索到“生日快乐”后,利用指针迅速指向“生日快乐”这一素材,进一步获得存储本素材的Http地址,就能迅速取出其画面。本发明中采用分类索引以快速检索素材。本发明建立分主题索引库和素材索引两类索引库,分类存储主题素材和图标素材。素材库建立后,数据库系统将自动实时更新索弓丨,以达到快速检索的效果。3)步骤三词条切分(简称分词)。本发明认为(汉语)语句是由若干子句以主谓宾、主系表、定状补等句法结构串接而成,当且仅当其中每一子句都对应着该语句的最长子串时,就能导致最完满的理解。(1)定义定义1称分词中继指针是对某一语句经过若干次分词后到达的语句的某一位置的指针,即它指向若干次分词所得到的最后一个词的结束位置之后(下一词的起始位置之前)。例如语句“轻轻一声祝愿,”,经过3次分词获得(轻轻/a)(—/m)(声/q)”后,中继指针就在“声”之后,“祝愿,”之前。定义2最长子串是同时满足如下三条件的子串(1)候选词Wn和词条W1的起始位置相同;(2)候选词Wn和词条Wm的结束位置相同;(3)词条W1,W2,...,Wm依次首尾相连。则称Wn是覆盖词条W1,W2,...,Wm的最长子串。(2)分词步骤步骤1在句子起始点使用最长子串分词规则,到达分词中继指针。步骤2判断分词中继指针是否指向句尾?如是转结束步骤;否则转步骤3。步骤3继续使用最长子串分词规则,转步骤2。结束步骤分词结束。本发明采用最长子串优先法作为分词规则。即对需要分词的语句首先在重点词库、然后在一股词库中检索,以获得最长的子串为第一选择。(3)分词示例例如句子“轻轻一声祝愿,胜过千言万语”。根据最长子串优先法得到的分词结果是(轻轻/a)(一/m)(声/q)(祝愿/ν)(,/w)(胜过/ν)(千言万语/i)·(4)分词效果通过分词我们可以把句子级的语义分析简化为词与词之间的关系分析,从而极大地降低了语义理解的难度,为下一基于人工智能的“文本主题提取”环节奠定基础。4)步骤四基于人工智能的文本主题提取主题是一份短信所表达的核心内容,只有提取出主题才能进一步为它配上生动、达意的画面,使收信人感到亲切。为分析获得该短信所表达的核心内容,本发明应用人工智能模式文法中的串文法并建立相应满足汉语语法的加权产生式规则。(1)句法(产生式)规则定义1一个串文法被定义为四元组G=(VN,VT,S,P)其中,有限非空集合Vn={S,A1,A2,...,AJ为非终止符集,SeVn为初始符,An第η种句式结构或短语结构,见下表。有限非空集合Vt={ai;a2,...,aj为终止符集,且VtΠVn=Φ,a表示词性。有限非空集合ρ={ri,r2,...,rJ为产生式。一股地,每一产生式有如下形式riαi—βρi=1,2,···,η其中,αie(VNUVt)*Vn(VnUVt)*,e(VNUVt)*此处,(VNUVt广表示VnUVt的传递闭包,即由VnUVt上的有限符号串构成的集合定义2—个加权产生式有如下形式Ai—BiBi或Ai—Bi其中,Ai,BieVn,aiGVt且有mmm4=Π""=1A…,"A=FfcV'=1A…,"=S1Yla^i=1,2”..,《其中,;=1;=1;=1ωu为产生式i中子项j的加权系数,Si为词条i长度的*(2)句法(产生式)规则与加权系数ω(部分规则见下表)<table>tableseeoriginaldocumentpage10</column></row><table>规则说明1、命名规则1规则中dj表示表示句子2、命名规则2根据前述词类及其词性代码表进行命名,命名分为两种①直接用表中的代码,如v,n,a分别表示动词,名词,形容词②表中的代码大写后+“P”表示语法结构,如Vp,Np,Ap分别表示动词结构,名词结构,形容词结构。例如规则Dj—Np(I)·Vp(1.1)表示句子是由一个名词结构和一个动词结构组成,名词结构的加权系数是1,动词结构的加权系数是1.1(3)主题分析。根据句法分析和加权系数,计算出每一词条即每一个分词的权重,并按照权重由大到小排序,权重大者为重点词,进一步检索出该重点词所对应的主题。需要为主题配置生动的画面。比如,权重计算结果得到重点词是(生日快乐祝福),通过检索得到的主题词是(生日快乐),进一步检索得到背景图片。具体实现步骤如下步骤1在分词获得每一词条词性的基础上,通过词条之间的上下文连接关系进行句法分析,获得对应的句法结构主谓宾、主系表、定状补、祈使句等。步骤2根据语句结构及加权系数求出每一词条在该语句中的权重值。步骤3对每一词条按权重值从高到低排序。步骤4选取权重高的词条为重点词。步骤5在主题库里检索出该重点词所对应的主题。5)步骤五图像检索(1)主题、图标检索主题检索是为了确定彩信的背景图片或主题图片。对检索结果根据主题的权重进行排序,从中选提取权重最大者为彩信的背景。图标检索是对短信进行分词后的分词集合依次进行关键字检索,生成一系列的文字图标。6)步骤六彩信合成对所获得的背景素材、主题素材、图标素材进行动态组合。一股使背景素材占满全屏,在其上的最突出位置放置主题素材,在其周围放置图标素材。对一股性文字进行改变字体、改变着色等文字渲染。可选用迷你简娃娃篆、文鼎中楷、宋体、黑体等;也可以选择字体的颜色,大小。上述布置均按既定版面样式实现。实施例1下面实例是对本发明的进一步说明,而不是限制发明的范围考虑到建立汉语词库和建立图像素材库及相关索引是日常性工作并非实例,且前面已详细论述,故不再重复。下面以一份短信“轻轻一声祝愿,胜过千言万语,当敲响你生日的钟声,别忘了我的祝福,祝你生日快乐!”为例,说明词条切分和文本主题提取两大核心过程。1)词条切分(轻轻/a)(一/m)(声/q)(祝愿/ν)(,/w)(胜过/ν)(千言万语/i)(,/V)(当/P)(敲响/ν)(你/r)(生日/n)(的/u)(钟声/n)(,/w)(别/d)(忘/V)(了/u)(我/r)(的/u)(祝福/n)(,/w)(祝/ν)(你/r)(生日/n)(快乐/a)(!/w)2)文本主题提取(1)句法分析,(见图2)(2)权重计算例如第一句话轻轻一声祝愿,胜过千言万语,根据句法分析结果得到第一条规则是:dj->np+vp,在规则库进行检索得到:dj—ηρ(1)·vp(l.1),(见图3)得到第二层的规则np—ap·npvp—vp·ip在规则库进行检索得到np—ap(0.9)·ηρ(1.0)νρ—νρ(1.0)·ρ(1.0),见图4.第三层的规则为ap—ap·mpnp—ηνρ—νip—i在规则库进行检索得到dj—ηρ(1·0)·νρ(1·1)ηρ—ap(0.9)·ηρ(1·0)νρ—νρ(1·0)·ip(l.0)ap—ap(l.0)·mp(0.3)ηρ—η(1·0)νρ—ν(Ι.Ο)ip—i(1.0)ap—a(1.0)mp—m(l.0)·q(l.0)......最终得到句子中各词的权重(第一句的结构和权重见图5,短信中所有的句子的结构及权重见图6)每个词的权重通过每一分支的权重相乘得到,结果如下轻轻(1.0X0.9X1.0X1.0)=0.9一(1.0X0.9X0.3X1.0X0.5)=0.135声(1.0X0.9X0.3X1.0X0.5)=0.135祝愿(1.0X1.0X1.0)=1.0胜过(1.1X1.0X1.0)=1.1千言万语(1.1X1.0X1.0X2)=2.2当(0.6X1.0X0.5)=0.3敲响(0.6X0.3X1.1X1.0)=0.20你(0.6X0.3X1.1X0.9X0.9X0.8X0.5)=0.065生日(0.6X0.3X1.1X0.9X0.9X1.0X1.0)=0.16的(0.6X0.3X1.1X0.9X0.1X0.5)=0.01钟声(0.6X0.3X1.1X1.2X1.0)=0.24别(1.0X0.7X1.0X0.5)=0.35忘了(1.0X1.1X1.1X1.0)=1.21我(1.0X1.1X1.1X0.9X0.6X0.5)=0.326的(1.0X1.1X1.1X0.9X0.1X0.5)=0.054祝福(1.0X1.1X1.1X1.1X1.0)=1.33祝(1.1X0.7X0.5)=0.385你(1.1X1.1X0.8X0.5)=0.484生日(1.1X1.1X1.0X1.0)=1.21快乐(1.1X1.1X1.0)=1.21对上述词条的权重排序得知权重最大的是千言万语、祝福、生日(后一个“生日”)和快乐。3)图像检索权重最高的有四个词条“千言万语”、“生日”、“快乐”和“祝福”。但检索素材库只得到后三个词条的背景图片或主题图片,组合后得到图1左侧的两份主题背景。对一股性词条“一”、“祝”、“我”、“你”、“生日”、“快乐”进行检索,也获得一些图标,一并用于彩信生成,最后获得的彩信如图7所示。权利要求一种基于智能语义理解的手机彩信生成方法,其特征在于,包括以下步骤步骤1建立汉语词库以及图像素材库;将所建立的汉语词库分为主题词库和普通词库;普通词库中的属性项包括词条名、词条ID、索引ID、频度和词性,对普通词库中的每一类词性相同的词条设置一个加权系数值;主题词库设置的属性项包括主题词名、加权系数、重点词ID、索引ID、频度和词源集合,对主题词库中的每一个主题词设置一个加权系数值;步骤2对原始短信内容进行词条切分;将原始短信内容切分为多个词条,并获得每一个词条的词性;采用最长子串优先法作为词条切分方法;步骤3从切分出来的多个词条中提取短信的文本主题;步骤4图像检索以及彩信合成。将所得的文本主题在主题词库中检索,从而确定彩信的背景图片;在普通词库中检索每一个词条所对应的文字图标;对于没有对应的文字图标的词条,则采用该词条的原文字;将所确定的主题图片、文字图标以及所述的原文字合成为一条手机彩信,即完成手机彩信的生成。2.根据权利要求1所述的基于智能语义理解的手机彩信生成方法,其特征在于,步骤3的具体步骤为具体实现步骤如下1)在分词获得每一词条词性的基础上,通过词条之间的上下文连接关系对短信所包含的每一条语句进行句法分析,获得每一条语句的句法结构。2)根据语句结构及加权系数求出每一词条在该语句中的权重值。3)对每一词条按权重值排序,选取权重值高的词条为重点词。4)在主题词库中检索出该重点词所对应的主题。全文摘要本发明提供了一种基于智能语义理解的手机彩信生成方法,其特征在于,包括以下步骤步骤1建立汉语词库以及图像素材库;步骤2对原始短信内容进行词条切分;步骤3从切分出来的多个词条中提取短信的文本主题;步骤4图像检索以及彩信合成。本发明的方法能将普通的短信自动转换成包含有更多动画及图片信息、趣味性更强的彩信。文档编号H04W4/12GK101820475SQ201010182098公开日2010年9月1日申请日期2010年5月25日优先权日2010年5月25日发明者李泽洲,杨正慧,沈林超,罗伟,邓住才申请人:拓维信息系统股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1