根据文本语义补充内容的方法和装置与流程

文档序号:16208356发布日期:2018-12-08 07:24阅读:154来源:国知局
根据文本语义补充内容的方法和装置与流程

本发明涉及人工智能领域,尤其涉及一种根据文本语义补充内容的方法和装置。

背景技术

在日常工作、学习和生活中,会涉及到很多报表、声明、文件等文本,在这些文本中,一些重要的信息往往由文字和表格共同表述。由于表格结构清楚,简单明了,操作人员一般会先制作表格,然后根据表格中的内容,来撰写文字表述部分。

比如,a公司需要制作财务报表,其中包括a公司的前五大客户营业额以及占比情况,制作的表格如表一所示:

表一

操作人员需要根据表一来撰写文字表述部分,从而得到“2015年,公司在第一大客户的营业额为17593.89万元。2015年,公司前五大客户的营业额占总营业额的比例为55%”等文字表述部分。在撰写文字表述部分时,需要操作人员人工将其中的数据信息输入。但是由于文本中可能存在大量数据,且数据可能较为复杂。操作人员在输入时需要手工输入,且进行人工计算,使得文本的制作过程工作效率较低。



技术实现要素:

本发明实施例提供了一种根据文本语义补充内容的方法和装置,能够提高文本制作过程的工作效率。

一方面,本发明实施例提供了一种根据文本语义补充内容的方法,文本包括文字;方法包括:将已输入的文字转化为表达式;提取与已输入的文字对应的存储数据集合中的待测数据,并将待测数据代入表达式,运算得到表达式的表达结果;生成提示将表达结果添加在已输入的文字中的提示信息。

另一方面,本发明实施例提供了一种根据文本语义补充内容的装置,文本包括文字;装置包括:转化模块,被配置为将已输入的文字转化为表达式;运算模块,被配置为提取与已输入的文字对应的存储数据集合中的待测数据,并将待测数据代入表达式,运算得到表达式的表达结果;提示生成模块,被配置为生成提示将表达结果添加在已输入的文字中的提示信息。

本发明实施例提供了一种根据文本语义补充内容的方法和装置,将已输入的文字转化为表达式。提取与已输入的文字对应的存储数据集合中的待测数据,将待测数据代入表达式,运算得到表达式的表达结果。生成提示将表达结果添加在已输入的文字中的表达信息。与需要操作人员人工计算输入的文字中的表达结果的现有技术相比,在本发明实施例中,可以将已输入的文字转化为表达式,通过在与已输入的文字对应的存储数据集合中获取的待测数据,由装置运算得到已输入的文字的表达结果,不需要人工进行计算,从而提高了文本制作过程的工作效率。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中,相同或相似的附图标记表示相同或相似的特征。

图1为本发明一实施例中根据文本语义补充内容的方法的流程图;

图2为本发明实施例中一种提示信息的示意图;

图3为本发明另一实施例中根据文本语义补充内容的方法的流程图;

图4为本发明又一实施例中根据文本语义补充内容的方法的流程图;

图5为本发明一实施例中根据文本语义补充内容的装置的结构示意图;

图6为本发明另一实施例中根据文本语义补充内容的装置的结构示意图;

图7为本发明又一实施例中根据文本语义补充内容的装置的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中,提出了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说很明显的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中,没有示出公知的结构和技术,以便避免对本发明造成不必要的模糊。

图1为本发明一实施例中根据文本语义补充内容的方法的流程图。如图1所示,根据文本语义补充内容的方法包括步骤101至步骤103。

在步骤101中,将已输入的文字转化为表达式。

其中,输入的文字可包括表达式。若输入的文字包括表达式,则可直接获取该表达式用于后续步骤。输入的文字也可不包括表达式。若输入的文字不包括表达式,则可根据已输入的文字的语义,来将输入的文字转化为表达式。表达式可以为算术表达式,也可以为逻辑关系表达式,在此并不限定。需要说明的是,已输入的文字转化出的表达式的数目可能为1个,也可能为2个以上,在此并不限定。

在一个示例中,可以对输入的文字进行分词,得到一个以上的词语。根据语义,得到词语之间的运算关系。从而根据词语以及运算关系,得到已输入的文字转化出的表达式。

比如,已输入的文字为“2015年,公司在第一大客户的营业额为”,则将已输入的文字转化为的表达式为“第一大客户营业额=”。又比如,已输入的文字为“2015年,公司前五大客户的营业额占总营业额的比例为”,则将已输入的文字转化为的表达式为“2015年公司前五大客户营业额/总营业额=”;和/或,将已输入的文字转化为的表达式为“2015年公司前五大客户营业额占总营业额比例=2015年公司第一大客户营业额占总营业额比例+2015年公司第二大客户营业额占总营业额比例+2015年公司第三大客户营业额占总营业额比例+2015年公司第四大客户营业额占总营业额比例+2015年公司第五大客户营业额占总营业额比例=”。

在步骤102中,提取与已输入的文字对应的存储数据集合中的待测数据,并将待测数据代入表达式,运算得到表达式的表达结果。

其中,与已输入的文字对应的存储数据集合的形式并不限定,比如,存储数据集合可以为文字所在文本中的表格,也可以为其他文本中的表格,还可以为外部的数据库。待测数据为存储数据集合中的各种数据。比如,待测数据可以为存储数据集合中的各种项目、各种属性,以及各种项目对应的值和各种属性对应的值。

已输入的文字中并不含有表达结果,表达结果由根据文本语义补充内容的装置运算得到。比如,已输入的文字为“2015年,公司前五大客户的营业额占总营业额的比例为”,“为”之后应为表达结果。在步骤102中运算得到表达式的表达结果后,可将表达结果以提示信息的方式显示在终端设备上。

比如,已输入的文字为“2015年,公司前五大客户的营业额占总营业额的比例为”。存储数据结合为文本中的表格,且文本中的表格如表一所示。则“2015年”“营业额”“占比”“no.1”“no.2”“no.3”“no.4”“no.5”,以及表格中的各个数值均为待测数据。其中,表格中的“2015年”与已输入的文字中的“2015年”对应;表格中的“营业额”以及和营业额对应的数值与已输入的文字中的“营业额”对应;表格中的“no.1”“no.2”“no.3”“no.4”“no.5”与已输入的文字中的“前五大客户”对应;表格中的“占比”以及和占比对应的数值与已输入的文字中的“比例”对应。已输入的文字转化为的表达式为“2015年公司前五大客户营业额占总营业额比例=2015年公司no.1客户营业额占总营业额比例+2015年公司no.2客户营业额占总营业额比例+2015年公司no.3客户营业额占总营业额比例+2015年公司no.4客户营业额占总营业额比例+2015年公司no.5客户营业额占总营业额比例=”,则可以将表格中2015年公司no.1客户营业额占总营业额比例“22.32”、2015年公司no.2客户营业额占总营业额比例“12.14”、2015年公司no.3客户营业额占总营业额比例“8.29”、2015年公司no.4客户营业额占总营业额比例“6.70”和2015年公司no.5客户营业额占总营业额比例“5.55”代入表达式,则可以得到表达结果为55%(即22.32、12.14、8.29、6.70与5.55之和)。

在步骤103中,生成提示将表达结果添加在已输入的文字中的提示信息。

其中,提示信息可以为图像信息,也可以为语音信息。比如,图2为本发明实施例中一种提示信息的示意图,如图2所示,已输入的文字为“2015年,公司前五大客户的营业额占总营业额的比例为”,表达结果为“55%”。提示信息为显示为“55%”的图像信息。用户可通过操作选择添加表达结果。添加了表达结果后的句子为“2015年,公司前五大客户的营业额占总营业额的比例为55%”。又比如,在输入文字“2015年,公司前五大客户的营业额占总营业额的比例为”时,提示信息可为发出内容为“55%”的语音信息。

本发明实施例提供了一种根据文本语义补充内容的方法,将已输入的文字转化为表达式。提取与已输入的文字对应的存储数据集合中的待测数据,将待测数据代入表达式,运算得到表达式的表达结果。生成提示将表达结果添加在已输入的文字中的表达信息。与需要操作人员人工计算输入的文字中的表达结果的现有技术相比,在本发明实施例中,可以将已输入的文字转化为表达式,通过在与已输入的文字对应的存储数据集合中获取的待测数据,由装置运算得到已输入的文字的表达结果,不需要人工进行计算,从而提高了文本制作过程的工作效率。

图3为本发明另一实施例中根据文本语义补充内容的方法的流程图。图3与图1的不同之处在于,图1中的步骤101可具体细化为图3中的步骤1011至步骤1013,图1中的步骤102可具体细化为图3中的步骤1021至步骤1023。

在步骤1011中,提取已输入的文字中的词语。

在一个示例中,可对已输入的文字进行分词,分词后得到一个以上的词语。可以将分词后得到的词语提取出来,用于后续步骤的运算。由于已输入的文字中可能包含一些与需要生成的表达式关联性很小的词语,也可以在分词后的词语中先进行筛选,将与需要生成的表达式关联性较大的词语提取出来,用于后续步骤的运算。比如,可以提取已输入的文字中的时间实体、属性实体以及值实体等重要信息。

在步骤1012中,利用预设的运算符集与词语的词向量进行运算,得到与词语之间的运算关系对应的运算符。

其中,运算符集包括运算符的词向量。在一个示例中,可以将词语的词向量和预设的运算符集中运算符的词向量输入循环神经网络,由循环神经网络运算,得到与词语之间的运算关系对应的运算符。比如,在已输入的文字中提取出3个词语,则可以将这3个词语两两组合,并将组合的两个词语的词向量与运算符集输入循环网络中。组合的两个词语的词向量与运算符集中的每一个运算符的词向量均能够运算生成一个隐向量。可以预先训练分类模型,使分类模型能够判断隐向量是否表示组合的两个词语的运算关系与运算符相符,从而能够得到已输入的文字中的词语之间的运算关系。

在步骤1013中,根据词语和与词语之间的运算关系对应的运算符,生成表达式。

其中,已知词语和词语之间的运算关系对应的运算符,则可组合出表达式。比如,词语a与词语b之间的运算关系对应的运算符为加法运算符“+”,则根据词语a、词语b和加法运算符“+”,可生成的表达式为“词语a+词语b=”。

在步骤1021中,获取存储数据集合中的数据,并在数据中提取待测实体。

其中,待测实体为与表达式对应的数据。在存储数据集合中可包括多个数据。比如,若存储数据集合为表一,如表一所示,表一包括“项目”“2015年”“no.1”“营业额”“万元”“占比”以及对应的各个值等数据。在多个数据中可能存在与表达式无关或关联性很小的数据,将与表达式无关或关联性很小的数据排除,可以避免与表达式无关或关联性很小的数据对表达式的表达结果的影响。比如,表达式为“2015年公司前五大客户营业额占总营业额比例=2015年公司no.1客户营业额占总营业额比例+2015年公司no.2客户营业额占总营业额比例+2015年公司no.3客户营业额占总营业额比例+2015年公司no.4客户营业额占总营业额比例+2015年公司no.5客户营业额占总营业额比例=”。则表一中与表达式对应的待测实体为“2015年”“no.1”“no.2”“no.3”“no.4”“no.5”“占比”。而“2014年”“2013年”等数据均与表达式无关,因此不能作为待测实体。

在步骤1022中,将与待测实体对应的值作为待测数据。

其中,表达式中常涉及数值的计算,因此将与待测实体对应的值作为待测数据。并在后续步骤中将待测数据代入表达式,运算得到表达结果。比如,表一中的待测实体为“2015年”“no.1”“no.2”“no.3”“no.4”“no.5”“占比”,则待测实体对应的值包括“22.32”“12.14”“8.29”“6.70”和“5.55”。

在步骤1023中,将待测数据代入表达式,运算得到表达式的表达结果。

图4为本发明又一实施例中根据文本语义补充内容的方法的流程图。图4与图1的不同之处在于,根据文本语义补充内容的方法还可包括步骤104至步骤106。

在步骤104中,建立文字中的关联词语与存储数据集合中的待测数据的映射关系。

其中,关联词语包括表达式中的词语和/或表达结果。建立的文字中的关联词语与存储数据集合中的待测数据的映射关系,能够使得在后续对存储数据集合中的数据进行更新时,依据建立的映射关系,使文字中的关联词语随着存储数据集合中被更新的待测数据更新。或者,建立的文字中的关联词语与存储数据集合中的待测数据的映射关系,能够使得在后续对文字中的关联词语进行更新时,依据建立的映射关系,将存储数据集合中的待测数据随着文字中被更新的关联词语更新,从而保持文字中的关联词语与存储数据集合中的待测数据的一致性。

在步骤105中,若更新存储数据集合中的待测数据,根据映射关系,更新与被更新的待测数据对应的文字中的关联词语。

比如:文本中的文字为“2015年,公司前五大客户的营业额占总营业额的比例为55%”。存储数据集合为表一。与文字对应的表达式中的“2015年公司no.1客户营业额占总营业额比例”与表一中的原“22.32”存在对应关系,建立了通过公式运算得到的表达结果“55%”与表一中的原“22.32”的映射关系。若将表一中与“2015年”“no.1”以及“占比”对应的数值“22.32”更新为“22.42”,表一中的其他待测数据不变。根据映射关系,与原“22.32”具有映射关系的“55%”也会随着更新为“55.1%”(即22.42、12.14、8.29、6.70与5.55之和)。

在步骤106中,若更新文字中的关联词语,根据映射关系,更新与被更新的关联词语对应的存储数据集合中的待测数据。

比如:文本中的文字为“2015年,公司no.1客户的营业额为17593.89万元”。存储数据集合为表一。文字中的表达结果“17593.89”与表一中与“2015年”“no.1”以及“营业额”对应的“17593.89”具有映射关系。若将文字中的表达结果“17593.89万元”更新为“17693.89万元”。根据映射关系,与文字中原“17593.89万元”具有映射关系的表一中的“17593.89万元”也会随着更新为“17693.89”。

在上述实施例中,对于相匹配的文字和存储数据集合,文字中的关联词语与存储数据集合中的待测数据相互关联,具有联动关系。从而在文字的关联词语与存储数据集合的待测数据其中的一项发生变化时,另一项也随之发生变化。不需要操作人员人工寻找与文字的关联词语与存储数据集合的待测数据其中一项对应的另一项需要更新之处,提高了文本的更新效率。而且能够避免操作人员人工更新中会出现的遗漏更新的问题。

图5为本发明一实施例中根据文本语义补充内容的装置200的结构示意图。如图5所示,根据文本语义补充内容的装置200包括转化模块201、运算模块202和提示生成模块203。

其中,转化模块201,被配置为将已输入的文字转化为表达式。

文本包括文字。

运算模块202,被配置为提取与已输入的文字对应的存储数据集合中的待测数据,并将待测数据代入表达式,运算得到表达式的表达结果。

提示生成模块203,被配置为生成提示将表达结果添加在已输入的文字中的提示信息。

本发明实施例提供了一种根据文本语义补充内容的装置200,转化模块201将已输入的文字转化为表达式。运算模块202提取与已输入的文字对应的存储数据集合中的待测数据,将待测数据代入表达式,运算得到表达式的表达结果。提示生成模块203生成提示将表达结果添加在已输入的文字中的表达信息。与需要操作人员人工计算输入的文字中的表达结果的现有技术相比,在本发明实施例中,可以将已输入的文字转化为表达式,通过在与已输入的文字对应的存储数据集合中获取的待测数据,由装置运算得到已输入的文字的表达结果,不需要人工进行计算,从而提高了文本制作过程的工作效率。

图6为本发明另一实施例中根据文本语义补充内容的装置200的结构示意图。图6与图5的不同之处在于,图6中的转化模块201可包括词语提取单元2011、运算单元2012和表达式生成单元2013,图6中的运算模块202包括实体提取单元2021和待测数据获取单元2022。

词语提取单元2011,被配置为提取已输入的文字中的词语。

运算单元2012,被配置为利用预设的运算符集与词语的词向量进行运算,得到与词语之间的运算关系对应的运算符,运算符集包括运算符的词向量。

表达式生成单元2013,被配置为根据词语和与词语之间的运算关系对应的运算符,生成表达式。

实体提取单元2021,被配置为获取存储数据集合中的数据,并在数据中提取待测实体,待测实体为与表达式对应的数据。

待测数据获取单元2022,被配置为将与待测实体对应的值作为待测数据。

图7为本发明又一实施例中根据文本语义补充内容的装置200的结构示意图。图7与图5的不同之处在于,根据文本语义补充内容的装置200还可包括关系建立模块204、第一更新模块205和第二更新模块206。

关系建立模块204,被配置为建立文字中的关联词语与存储数据集合中的待测数据的映射关系,关联词语包括表达式中的词语和/或表达结果;

第一更新模块205,被配置为若更新存储数据集合中的待测数据,根据映射关系,更新与被更新的待测数据对应的文字中的关联词语;

第二更新模块206,被配置为若更新文字中的关联词语,根据映射关系,更新与被更新的关联词语对应的存储数据集合中的待测数据。

需要明确的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。对于装置实施例而言,相关之处可以参见方法实施例的说明部分。本发明并不局限于上文所描述并在图中示出的特定步骤和结构。本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。并且,为了简明起见,这里省略对已知方法技术的详细描述。

以上所述的结构框图中所示的功能模块和功能单元可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1