文景转换中基于词典的名词可视性标注方法、介质及系统与流程

文档序号:19680756发布日期:2020-01-14 17:19阅读:193来源:国知局
文景转换中基于词典的名词可视性标注方法、介质及系统与流程

本发明属于计算机信息处理技术领域,具体属于文景转换中的可视化领域。



背景技术:

文景转换是让计算机理解文本,并将文本转换成图片、三维静态场景及动画等。文景转换包括三个部分,一是理解文本,对文本进行自然语言处理,并进行信息的提取,提取出我们需要可视化的信息;二是将提取出的信息映射到模型或者图片;三是将这些模型进行组合和场景的渲染,让生成的场景更符合文本的描述。

文景转换也可称为可视化自然语言描述,自然语言是描述视觉观念和心理意象的一种简单而有效的媒介,对它进行可视化是一项艰巨而复杂的任务。在处理由自然语言描述生成图像的过程中,首先要考虑真实世界,并从虚拟和真实环境中代表最基本概念的句子中找出关键的视觉信息。文本中关键视觉信息包括:实体,事件,动作,地点,时间等要素,这些要素在文本中体现为名词,动词,形容词等,其中名词是所有词中数量最多,担任句子成分最多的词,且是可视化要素中最基本的,所以对名词可视性的研究是必要的。

本文针对名词的可视性进行研究,构建名词可视性结构体系,基于结构体系提出可视化名词识别与抽取的方法,减少文本中的干扰数据,同时,也希望名词可视性结构体系的提出,为之后对文本的可视化提供理论和技术方案基础,以及对文本要素的抽取提供理论参考。

现有的文景转换方式对文本名词的处理采用模型库匹配法或人工筛选法,不能将所有可视化的名词直接提取出,本发明通过计算机的可视性词典判别出名词的可视性类别,减少人工耗时,也更加准确,使得文本的主题更加的突出和明朗;同时,可视性类别的判别也给名词的可视化带来不一样的可视化方式,减小传统模型库的规模。



技术实现要素:

本发明旨在解决以上现有技术的问题。提出了一种减少人工耗时,也更加准确的文景转换中基于词典的名词可视性标注方法、介质及系统。本发明的技术方案如下:

文景转换中基于词典的名词可视性标注方法,用于计算机自然语言的文景转换场景,其包括以下步骤:

步骤1、计算机构建名词的可视化结构,所述可视化结构包括名词可视化的转换结构以及转换规则的约束;

步骤2、计算机从实体角度和可视性角度分别对名词进行分类;

步骤3、计算机分析名词实体分类和可视性分类的关系,形成名词的可视性判别规则;

步骤4、计算机根据可视性判别规则,构建名词可视性词典,利用大量语料训练对词典进行扩充;

步骤5、计算机利用步骤4中的可视性词典,自动对文本中的名词进行可视性的判别,并进行可视性标注。

进一步的,所述步骤1中构建名词的一般可视化结构包括:名词的可视化是名词形成的逆过程,是名词到世界可见实体的转换,名词的可视化结构为:

vn=f(e1,e2,...,en)

vn表示可视化名词,e表示最终呈现的可视化实体,一个名词可由一个至多个实体进行可视化展示,f是人类认知的逆过程,是名词转换到实体的一般规则,此规则可随着名词类别和名词所处文本环境进行变化。

进一步的,所述步骤2中,从实体角度和可视化角度分别对名词进行分类,包括:

(1)从实体角度对名词的分类:从名词与实体的联系进行名词的分类,将名词分为实体名词和非实体名词,设n表示所有名词集合,n1表示实体名词集合,n2表示非实体名词集合,则有:n1∪n2=n,n1∩n2=φ,(n1,....,ni)∈n1,(n1,...,ni)∈n2;

(2)从可视化的角度对名词进行分析,将名词划分为可视化名词和非可视化名词,可视化名词从可视化的步骤和复杂度又可分为直接可视化名词和间接可视化名词,设n表示所有名词集合,vn表示可视化名词集合,nvn表示非可视化名词集合,vnd表示直接可视化名词集合,vnid表示间接可视化名词集合,则有:vn∪nvn=n,vn∩nvn=φ,vnd∪vnid=vn,vnd∩vnid=φ。

进一步的,所述步骤3)计算机依据名词的可视化结构,分析实体名词分类和名词可视化分类的关系,形成名词的可视性判别规则,包括:结合名词的可视化结构和实体的传统三元组结构分析得到如下判别规则:

设n是一个名词,f是名词到实体的转换规则:

n=f(e1(c,a(str,tet,col,si),v(strv,tetv,colv,siv)),...)

其中:

(1):f为简单规则,strv>0,tetv>0,400nm<colv<770nm,siv>0.02mm时,名词n是直接可视化名词;

(2):f为简单规则,str,tet,col,si中任一值未知或不存在,或si<0.02mm,colv<400nm,colv>760nm时,名词n是间接可视化名词

(3):f是复杂多次规则时,名词n是间接可视化名词;

(4):不存在f规则时,名词n是非可视化名词;

c代表实体的基本概念域;a表示实体的可视化属性;v表示相对于可视化属性而言的属性值;tet表示实体的纹理属性,col表示实体的颜色属性,si表示实体的尺寸,strv表示实体的结构属性值,tetv表示实体的纹理属性值,colv表示实体的颜色属性值,siv表示实体的尺寸属性值。

(1)进一步的,所述步骤4)中,计算机依据名词可视性的判别规则,构建名词可视性判别词典,包括:

(1)可视性词典采用下述格式:词典由三个txt文本构成,这三个文本分别存储直接可视化名词,间接可视化名词,非可视化名词,每个文件的每行存储一个名词,名词以字典序进行排列;

(2)以现代汉语词典为语料,使用中科院的语义分析系统对词典内的词进行词性标注,筛选出所有名词,形成初步名词集,以步骤3的名词可视性判别规则为基础,对名词集内的名词进行可视性分类,可视性词典初步构建完成;

(3)利用现有知识库进行相似度的计算对词典进行扩充,再利用大量语料和词典内的词进行训练,对词典进行二次扩充

进一步的,所述步骤5中,利用步骤4中的名词可视性词典对文本中的名词进行可视性标注,将文本通过分词,提取名词后,进入词典查询,词典内存在该名词则直接标注可视性,词典内不存在该名词,则与词典内的名词进行词语相似度比较,对文本中的名词进行可视性的标注,直接可视化名词标注为:din,间接可视化名词标注为:idin,不可可视化名词标注为:novn。

一种介质,该介质内部存储计算机程序,其所述计算机程序被处理器读取时,执行上述权利要求任一项的方法。

一种文景转换中基于词典的名词可视性标注系统,用于计算机自然语言的文景转换场景,其包括:

可视化结构构建模块:用于构建名词的可视化结构,所述可视化结构包括名词可视化的转换结构以及转换规则的约束

分类模块:用于计算机从实体角度和可视性角度分别对名词进行分类;

规则构建模块:用于计算机分析名词实体分类和可视性分类的关系,形成名词的可视性判别规则;

可视性词典构建模块:用于计算机根据可视性判别规则,构建名词可视性词典;

可视性标注模块:用于利用可视性词典对名词进行可视性标注。

本发明的优点及有益效果如下:

本发明的具体创新在于:通过计算机建立了名词可视性结构,从名词的一般分类和可视化分类两个角度进行分析,提出了名词可视性判别规则,提出了通过建立词典的方式对名词进行可视性的标注。通过比较,现有的文景转换方式对文本名词的处理采用模型库匹配法或人工筛选法,不能将所有可视化的名词直接提取出,本发明通过可视性词典判别出名词的可视性类别,减少人工耗时,也更加准确,使得文本的主题更加的突出和明朗;同时,可视性类别的判别也给名词的可视化带来不一样的可视化方式,减小传统模型库的规模。

附图说明

图1是本发明提供优选实施例一种文景转换中基于词典的名词可视性标注的方法的流程图。

图2为本申请中名词判别规则图。

图3为本申请中基于词典的名词可视性标注实现图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是:

本发明提供文景转换中基于词典的名词可视性标注方法、介质及系统、介质及系统,包括:

步骤一、构建名词的可视化结构;

步骤二、从可视化角度和实体角度分别对名词进行分类;

步骤三、分析名词一般分类和名词可视化分类的关系,形成名词的可视性判别规则;

步骤四、根据可视性判别规则,构建名词可视性词典;

步骤五、利用步骤4)中的可视性词典对名词进行可视性标注。

需要指出的是,以上构建名词的一般可视化结构、对名词进行分类、形成名词的可视性判别规则、构建名词可视性词典、对名词进行可视性标注均是计算机来执行完成的,其是具备工业运用或者产业运用的方法,并不是需要人全程参与的步骤,其是利用了自然规律来完成的技术方案,对现有的计算机信息处理过程中的文景转换中的耗时以及不准确的缺陷进行的技术改变,因此属于技术方案,因此其并不属于专利法第二条第二款规定的情形,也不属于智力活动规则的范畴。

所述的文景转换中基于词典的名词可视性标注的方法,其中步骤一,包括:构建名词的一般可视化结构,名词是人类对实体,事件,动作,自然因素,认知概念等的抽象表达,而名词的可视化是名词形成的逆过程,名词可视化是名词到世界可见实体的转换,名词的可视化结构为:

vn=f(e1,e2,......,en)

vn表示可视化名词,e表示最终呈现的可视化实体,一个名词可由一个至多个实体进行可视化展示,f是人类认知的逆过程,是名词转换到实体的一般规则,此规则可随着名词类别和名词所处文本环境进行变化。

所述的文景转换中基于词典的名词可视性标注的方法,其中步骤二,包括:从可视化角度和实体角度分别对名词进行分类:

(1)从实体角度对名词的分类,目前名词的一般分类有以下几种:生命义名词和非生命义名词,可量名词和不可量名词,一般名词和专有名词,以上几种分类方式分类后的名词不能应用于名词可视化的基本可视化结构,根据名词的可视化结构,本文提出从名词与实体的联系进行名词的分类,将名词划分为实体名词和非实体名词,设n表示所有名词集合,n1表示实体名词集合,n2表示非实体名词集合,则有:n1∪n2=n,n1∩n2=φ,(n1,....,ni)∈n1,(n1,...nj)∈n2,从人类认知的特点和可视化生成的属性特征出发,实体表示为植物、动物、人、人工制品和自然对象五大类,实体名词是表示这五大类的名词,实体名词之外的名词是非实体名词,非实体名词不是人类对实体的直接认知,多表示为人类的活动,学习和自然规律;

(2)从可视化的角度对名词进行分析,可将名词划分为可视化名词和非可视化名词,能够通过计算机生成图形并显示的名词称为可视化名词,不可可视化名词与之相反,可视化名词的可视化可由实体推理和实体可视化组成,从可视化实体的推理步骤和实体可视化复杂度又可分为直接可视化名词和间接可视化名词,直接可视化名词是指能够通过直接映射转换为可视实体的名词,间接可视化是指需要通过名词之间的映射,再映射到实体的复杂推理,或者直接映射到实体后需对实体进行可视化修改操作的名词,设n表示所有名词集合,vn表示可视化名词集合,nvn表示非可视化名词集合,vnd表示直接可视化名词集合,vnid表示间接可视化名词集合,则有:vn∪nvn=n,vn∩nvn=φ,vnd∪vnid=vn,vnd∩vnid=φ。

所述的文景转换中基于词典的名词可视性标注的方法,其中步骤三,包括:依据名词的可视化结构,分析名词和名词可视化分类的关系,形成名词的可视性判别规则:

(1)名词能否可视化的判定:由名词的可视化结构得出,能够通过一定的规则f转换到实体的名词是可视化名词,这里的规则f不唯一,在不同的一般名词分类中,规则不同,例如:实体名词都可通过简单规则f1转换成实体n1=f1(e1,...,en),非实体名词中的部分名词可通过多次多种规则转换为实体,n2=f3(f2(f1(e1,...,en),...),...,f2(f1(e1,...,en),...)),而不能经过任一规则f转换为实体的非实体名词是非可视化名词;

(2)可视化名词进一步划分的判定:需要经过复杂规则f转换到实体的名词判定为间接可视化名词,而由一般规则f转换到实体的名词,还需考虑其转换后的实体的可视化,确定可视化名词,并将可视化名词转换为实体后,依据实体传统的三元组结构,对实体进行可视化的分析,实体的三元组结构:实体名称(概念域,属性,属性值),e=(c,a,v),c代表实体的基本概念域,是对实体基本类别及特殊约束条件的描述;a表示实体的可视化属性,实体的可视化属性是一个函数集合体,决定着实体的外观,包含实体外形结构函数、表面纹理函数;v表示相对于可视化属性而言的属性值,是可视化属性函数的自变量,是引起实体外观属性变化的参量的统称;可见实体的属性a须具有一定的结构,纹理和色彩,且属性值v的范围需要符合人类眼睛分辨率的极限范围,经研究表明人眼分辨极限最小粒子为0.1mm-0.2mm,人眼可见光的电磁波的波长在400~760nm之间,本文将属性及属性值的可视判定部分定义:a(str,tet,col,si),v=(strv,tetv,colv,siv),str表示实体的结构属性,tet表示实体的纹理属性,col表示实体的颜色属性,si表示实体的尺寸,strv表示实体的结构属性值,tetv表示实体的纹理属性值,colv表示实体的颜色属性值,siv表示实体的尺寸属性值,当实体的可视属性和属性值明确且符合人类可见标准时,称该类实体可直接可视化,而可视属性不能明确,或属性值不符合人类可见标准时,需要对其进行属性的推理,或属性值的修改,称该类实体可间接可视化;

综上所述,名词可视性判别规则如下:

设n是一个名词,f是名词到实体的转换规则:

n=f(e1(c,a(str,tet,col,si),v(strv,tetv,colv,siv)),...)

其中:

(1):f为简单规则,strv>0,tetv>0,400nm<colv<770nm,siv>0.02mm,名词n是直接可视化名词;

(2):f为简单规则,str,tet,col,si中任一值未知或不存在,或si<0.02mm,colv<400nm,colv>760nm时,名词n是间接可视化名词

(3):f是复杂多次规则时,名词n是间接可视化名词;

(4):不存在f规则时,名词n是非可视化名词。

例如:

“今天是开学的日子,小明背着书包,迎着阳光,踏着欢快的步伐来到了学校。”

(1)通过文本处理,提取出句子中的名词:日子,小明,书包,阳光,步伐,学校;

(2)对提取出的名词进行分类:实体名词:小明,书包,阳光,学校;非实体名词:日子,步伐;

(3)实体名词进行简单规则f的转换:小明→人,书包→书包,阳光→光,学校→(校门,教学楼,操场,宿舍,植物);非实体名词进行复杂规则的转换:步伐→(左右脚的前后交替)→(脚),而日子不能找到任一规则对其进行实体转换;

(4)对转换后的实体进行可视化分析:人,书包,校门,教学楼,操场,宿舍,植物,脚的属性和属性值都是明确的,阳光不具有外观结构,纹理,尺寸,需要进行属性和属性值的推理;

(5)得出结论:直接可视化名词:小明,书包,学校,间接可视化名词:步伐,不可可视化名词:日子。

所述的文景转换中基于词典的名词可视性标注的方法,其步骤四,包括:依据名词可视性的判别规则,构建名词可视性判别词典,以现代汉语词典为语料,通过人工方式,依据步骤3)的名词可视性判别规则,对现代汉语词典内的名词进行可视性分类,分为以下三类:直接可视化名词,间接可视化名词,非可视化名词,初步分类后,利用同义词词林对其进行扩充,构建名词可视性判别词典。

所述的文景转换中基于词典的名词可视性标注的方法,其步骤五,包括:利用步骤四中的名词可视性词典对文本中的名词进行可视性标注,将文本通过分词,提取名词后,进入词典查询,词典存在名词则直接标注可视性,词典内不存在该名词,则与词典内的名词进行词语相似度比较,对文本中的名词进行可视性的标注,直接可视化名词标注为:din,间接可视化名词标注为:idin,不可可视化名词标注为:novn。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1