对文本进行自动标注的方法和装置制造方法

文档序号：6527078阅读：177来源：国知局

对文本进行自动标注的方法和装置制造方法
【专利摘要】本发明提出一种对文本进行自动标注的方法和装置，其中，对文本进行自动标注的方法包括以下步骤：对文本中的词汇进行识别；将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式；将识别出的实词标注为知识库中的实体知识；基于对实词的标注结果，将识别出的代词标注为代词指代的内容；以及基于对实词和代词的标注结果，将识别出的属性名标注为知识库中对应的属性名。本发明实施例的对文本进行自动标注的方法，根据知识库中的实体知识对文本进行自动标注，深度地整合了知识库中实体知识，从而将知识库中海量的结构化信息引入传统的文本处理应用之中，实现了文本与实体知识之间的推理和扩展，并以此拓展出极其广阔的应用前景。
【专利说明】对文本进行自动标注的方法和装置
【技术领域】
[0001 ] 本发明涉及计算机【技术领域】，尤其涉及一种对文本进行自动标注的方法和装置。
【背景技术】
[0002]词法分析和处理是NLP (Natural Language Processing,传统自然语言处理)的一项基础技术，其主要功能包括WordSeg(Word Segmentation,自然语言文本切词)、PosTag(Part-of-Speech Tagging,词性标注)以及 NER (Named Entity Recognition,专名识别)。经过词法分析和处理之后的文本，将被切分成词汇的形式，且每个词汇将被赋予特定的词性(例如，动词、名词、形容词等)以及专名类别(人名、地名、机构名)等信息。大量的上层应用技术，例如搜索引擎技术、深度问答技术、机器翻译技术等都是建立在上述分析结果的基础之上。
[0003]但是，在实现本发明的过程中发明人发现现有技术至少存在以下问题:词法分析仅仅只是停留在对词汇字面语义的分析上，对于更深层的语义知识、词汇代表的实体意义，现有的词法分析无法给出更多有效信息，因此无法有效完成基于词法分析结果进行的后续应用，用户体验差。

【发明内容】

[0004]本发明旨在至少解决上述技术问题之一。
[0005]为此，本发明的第一个目的在于提出一种对文本进行自动标注的方法。该方法根据知识库中的实体知识对文本进行自动标注，深度地整合了知识库中实体知识，从而将知识库中海量的结构化信息引入传统的文本处理应用之中，实现了文本与实体知识之间的推理和扩展，并以此拓展出极其广阔的应用前景。
[0006]本发明的第二个目的在于提出一种对文本进行自动标注的装置。
[0007]为了实现上述目的，本发明第一方面实施例的对文本进行自动标注的方法，包括以下步骤:对文本中的词汇进行识别；将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式；将识别出的实词标注为所述知识库中的实体知识；基于对实词的标注结果，将识别出的代词标注为所述代词指代的内容；以及基于对实词和代词的标注结果，将识别出的属性名标注为所述知识库中对应的属性名。
[0008]本发明实施例的对文本进行自动标注的方法，根据知识库中的实体知识对文本进行自动标注，深度地整合了知识库中实体知识，从而将知识库中海量的结构化信息引入传统的文本处理应用之中，实现了文本与实体知识之间的推理和扩展，并以此拓展出极其广阔的应用前景。
[0009]为了实现上述目的，本发明第二方面实施例的对文本进行自动标注的装置，包括:识别模块，用于对文本中的词汇进行识别；第一标注模块，用于将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式；第二标注模块，用于将识别出的实词标注为所述知识库中的实体知识；第三标注模块，用于基于对实词的标注结果，将识别出的代词标注为所述代词指代的内容；以及第四标注模块，用于基于对实词和代词的标注结果，将识别出的属性名标注为所述知识库中对应的属性名。
[0010]本发明实施例的对文本进行自动标注的装置，根据知识库中的实体知识对文本进行自动标注，深度地整合了知识库中实体知识，从而将知识库中海量的结构化信息引入传统的文本处理应用之中，实现了文本与实体知识之间的推理和扩展，并以此拓展出极其广阔的应用前景。
[0011]本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
【专利附图】

【附图说明】
[0012]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，
[0013]图1是根据本发明一个实施例的对文本进行自动标注的方法的流程图；
[0014]图2是根据本发明一个实施例的文本的示意图；
[0015]图3是对图2所示文本进行自动标注后的示意图；
[0016]图4是根据本发明一个实施例的将识别出的实词标注为知识库中的实体知识的流程图；
[0017]图5是根据本发明一个实施例的基于关联空间的语义相似度计算的示意图；
[0018]图6是传统网页搜索的结果示意图；
[0019]图7是根据本发明一个实施例的网页搜索结果示意图；
[0020]图8是根据本发明另一个实施例的网页搜索结果示意图；
[0021]图9是根据本发明一个实施例的对文本进行自动标注的装置的结构示意图。
【具体实施方式】
[0022]下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0023]在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。
[0024]流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属【技术领域】的技术人员所理解。[0025]下面参考附图描述本发明实施例的对文本进行自动标注的方法和装置。
[0026]图1是根据本发明一个实施例的对文本进行自动标注的方法的流程图。
[0027]如图1所示,对文本进行自动标注的方法包括以下步骤:
[0028]SlOl，对文本中的词汇进行识别。
[0029]为了将知识库中海量的结构化信息引入传统的文本处理应用之中，实现文本与知识之间的推理和扩展，在本发明实施例中，需要对文本中的词汇进行识别。由于实体知识库(简称知识库)中的实体知识包括实体标识、属性和属性值，因此，需要对文本中与知识库中的实体、属性和属性值完全相同或相近的词汇进行识别，以便与知识库建立对应关系。
[0030]在本实施例中，假定对图2所示文本进行识别，则可以识别出“央视”、“李娜”等实词，“他们”等代词，表示属性的词汇“官方微博”，表示属性值的词汇“北京时间27日”。
[0031]S102，将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式。
[0032]在本发明的实施例中，首先对识别出的表示属性值的词汇进行标注，以便将其规范化成知识库中的属性值类型的表达形式，从而生成的属性值知识能够参与知识库知识推理和计算。其中，知识库中的属性值具有不同的属性值类型，每个属性值类型具有固定的格式。具体地，属性值类型可以包括:数字(以及对应单位)、时间(日期、时分秒)、时间区间(XX日至YY日、AA点至BB点)、资源(url、uri等)、电话/邮编、位置/方向(如食堂、南边)、工具/材料(如毛线、工资)、比较(如一比二)、方式手段(如手术、低音)、枚举类(如星座、血型)
等ο
[0033]在识别过程中，同一个词汇有可能会存在多种属性值类型。例如:“刘德华(1961-)，香港人…”中的“ 1961”既可能表示数字也可能表示时间，甚至还可能表示邮编，而且表示数字或者时间时，“1961”是缺少单位的。因此，在识别过程中需要对文本中的词汇的属性值进行类别择优和单位补全。
[0034]在识别出属性值类型之后，需要对属性值的表达形式进行归一化处理即进行格式转换。针对不同属性值类型进行的归一化处理包括:数值单位的归一换算(如I72cm->1.72米)、时间的归一化表示(如1961年11月11日->{时区:北京时间；日期:1961-11-11;时分秒:00:00:00;})、比较的格式化(一比二->{左实体:1;右实体:2;得分差:_1})以及枚举类的表达归一(天蝎_>天蝎座，0->0型血)等。
[0035]经过步骤S102，可以识别出图2所示文本中的属性值，并将其标注为知识库中对应属性值所属类型的格式，如图3中用A标识部分。
[0036]S103，将识别出的实词标注为知识库中的实体知识。
[0037]在本发明的实施例中，如图4所示，该步骤S103可以包括如下步骤:
[0038]S401，根据当前实词获得文本关键词，根据文本关键词从知识库中获得与文本关键词相关的候选实体集合。
[0039]具体地，根据当前实词和同义词资源获得文本关键词。
[0040]举例来说，文本“李娜和小威的WTA中，李娜输给对手几分？ ”中，“李娜”、“小威”、“WTA”是实词。在知识库中，“李娜”的同义词资源有很多，有可能是歌唱家李娜，也有可能是影视演员李娜，则可以获得“李娜”为文本关键词以及跟“李娜”相关的候选实体集合。
[0041]S402，计算候选实体集合中每个候选实体与文本关键词对应的文本上下文的语义相关度。
[0042]在本发明的实施例中，采用基于关联空间的语义相似度计算公式计算候选实体集合中每个候选实体与文本关键词对应的文本上下文的语义相关度。如图5所示，上述基于关联空间的语义相似度计算公式可以为:
[0043]
【权利要求】
1.一种对文本进行自动标注的方法，其特征在于，包括: 对文本中的词汇进行识别；将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式；将识别出的实词标注为所述知识库中的实体知识；基于对实词的标注结果，将识别出的代词标注为所述代词指代的内容；以及基于对实词和代词的标注结果，将识别出的属性名标注为所述知识库中对应的属性名。
2.如权利要求1所述的方法，其特征在于，所述知识库中的所述实体知识包括实体标识、属性和属性值，所述属性值具有不同的属性值类型，每个属性值类型具有固定的格式。
3.如权利要求2所述的方法，其特征在于，所述将识别出的实词标注为所述知识库中的实体知识包括: 根据当前实词获得文本关键词，根据所述文本关键词从所述知识库中获得与所述文本关键词相关的候选实体集合；计算所述候选实体集合中每个候选实体与所述文本关键词对应的文本上下文的语义相关度；根据所述语义相关度确定与所述文本关键词对应的实体，将当前实词标注为所确定的实体对应的实体知识。
4.如权利要求3所述的方法，其特征在于，所述根据当前实词获得文本关键词包括: 根据当前实词和同义词资源获得文本关键词。
5.如权利要求3所述的方法，其特征在于，所述计算所述候选实体集合中每个候选实体与所述文本关键词对应的文本上下文的语义相关度包括: 采用基于关联空间的语义相似度计算公式计算所述候选实体集合中每个候选实体与所述文本关键词对应的文本上下文的语义相关度。
6.如权利要求5所述的方法，其特征在于，所述基于关联空间的语义相似度计算公式为:
7.如权利要求1或2所述的方法，其特征在于，所述基于对实词和代词的标注结果，将识别出的属性名标注为所述知识库中对应的属性名，包括: 基于对实词和代词的标注结果，获得所述文本中的属性名对应的实体；从所获得的实体的所有属性名中获得与所述文本中的属性名语义相似度最高的属性名，将所述文本中的属性名标注为所获得的属性名。
8.一种对文本进行自动标注的装置，其特征在于，包括:识别模块，用于对文本中的词汇进行识别；第一标注模块，用于将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式；第二标注模块，用于将识别出的实词标注为所述知识库中的实体知识；第三标注模块，用于基于对实词的标注结果，将识别出的代词标注为所述代词指代的内容；以及第四标注模块，用于基于对实词和代词的标注结果，将识别出的属性名标注为所述知识库中对应的属性名。
9.如权利要求8所述的装置，其特征在于，所述知识库中的所述实体知识包括实体标识、属性和属性值，所述属性值具有不同的属性值类型，每个属性值类型具有固定的格式。
10.如权利要求9所述的装置，其特征在于，所述第二标注模块，具体用于: 根据当前实词获得文本关键词，根据所述文本关键词从所述知识库中获得与所述文本关键词相关的候选实体集合；计算所述候选实体集合中每个候选实体与所述文本关键词对应的文本上下文的语义相关度；根据所述语义相关度确定与所述文本关键词对应的实体，将当前实词标注为所确定的实体对应的实体知识。
11.如权利要求10所述的装置，其特征在于，所述第二标注模块，具体用于:根据当前实词和同义词资源获得文本关键词。
12.如权利要求10所述的装置，``其特征在于，所述第二标注模块，具体用于: 采用基于关联空间的语义相似度计算公式计算所述候选实体集合中每个候选实体与所述文本关键词对应的文本上下文的语义相关度。
13.如权利要求12所述的装置，其特征在于，所述基于关联空间的语义相似度计算公式为:
其中，
14.如权利要求8或9所述的装置，其特征在于，所述第四标注模块，具体用于: 基于对实词和代词的标注结果，获得所述文本中的属性名对应的实体；从所获得的实体的所有属性名中获得与所述文本中的属性名语义相似度最高的属性名，将所述文本中的属性名标注为所获得的属性名。
【文档编号】G06F17/27GK103678281SQ201310752962
【公开日】2014年3月26日申请日期:2013年12月31日优先权日:2013年12月31日
【发明者】孙珂, 赵世奇, 忻舟, 王海峰申请人:北京百度网讯科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙珂;赵世奇;忻舟;王海峰;
技术所有人：北京百度网讯科技有限公司;
我是此专利的发明人

上一篇：基于级联主题的消息获取方法
上一篇：应用软件和插件的交互方法及装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。