一种文本内容划词标识的方法及装置与流程

文档序号:17442486发布日期:2019-04-17 04:57阅读:196来源:国知局
一种文本内容划词标识的方法及装置与流程

本发明涉及资源共享技术领域,尤其涉及一种文本内容划词标识的方法及装置。



背景技术:

内容标识又称内容标引,即给内容添加关键字标签或分类标签,是内容检索、分类基础。总体来说,内容标识分为人工标识、计算机自动标识、计算机辅助标识(推荐标识,让人工进一步选择确认)。

近年来,随着自然语言处理技术的发展,文本内容的计算机自动标识技术取得了长足的进步,在通用领域如财经、体育有着较高的准确度。但在许多应用场景、特别是垂直行业领域,依然是人工标识的方法。

手势的应用在移动设备上应用较多,但基本都是对应预设的指令,比如翻页、解锁,切换等动作。

鼠标手势(按住鼠标左键或右键,移动鼠标形成轨迹)应用相对较少,但也全都是对应指定的动作。划词功能在搜索上应用较多,但在内容标识上未见报道。

现有技术中,自动标识系统在垂直行业的应用有以下难点:

1.准确度不高,无法满足企业高标准的需求。

2.第三方开放平台无法满足企业的个性化需求。

垂直行业领域,需要建立专门的行业本体,并需求大量的行业语料做样本训练,才可以做关键词提取、内容分类。腾讯、阿里、百度到那个第三方nlp(自然语言处理)类开放平台虽然可以对普通内容(财经、体育等)进行关键词提取,但这些企业作为通用性开放平台,没有强大的市场需求和预期收益(不是单个企业能承受的),是不会做就某些垂直行业建行业本体和语料库。

应用第三方开发平台提取的关键词无法与企业应用系统直接关联(比如提取的关键词是a,企业想要的是数据库定义的a的近义词a’)。

3.企业应用自动标识系统的结果后无法将修正的内容反馈到第三方平台,以便下一次得到更准确的标识。

4.定制化部署的内容自动标识系统成本高,技术门槛高,实施周期长,中小型企业无法承受。

常规人工标识需要人工手动选择分类属性,输入关键词,效率低。



技术实现要素:

本发明实施例所要解决的技术问题在于,提供一种文本内容划词标识的方法及装置,能够提高内容文本人工标识的速度和准确率,且技术成本低。

为解决上述问题,本发明的一个实施例提供的一种文本内容划词标识的方法,适于在计算设备中执行,至少包括如下步骤:

识别鼠标手势;

在预定义库中查询与所述鼠标手势对应的维度,并确定与所述维度对应的目标表和匹配方法;

将所述鼠标手势所选定的字符串作为关键词,在所述目标表中使用所述匹配方法,对所述关键词进行匹配,并将匹配结果呈现给用户;

根据选定的匹配结果,生成标签,并将所述标签存入用户页面缓存区;

重复上述步骤,直至响应用户的保存指令,将所述用户页面缓存区的所有标签插入到数据库表中,作为文本内容的标识数据。

进一步地,当用户只选定匹配结果时,所述标签为二元组标签,包括维度和属性值;当用户同时选定匹配结果和关联度时,所述标签为三元组标签,包括维度、属性值和关联度。

进一步地,所述的文本内容划词标识的方法,在识别鼠标手势之前,还包括:

预定义鼠标手势和维度的关系,以及维度与目标表和匹配方法的关系。

进一步地,所述鼠标手势为以选定文本内容中的部分连续字符串区域为起始位置,划词的移动轨迹。

进一步地,所述的文本内容划词标识的方法,在所述将所述鼠标手势所选定的字符串作为关键词,在所述目标表中使用所述匹配方法,对所述关键词进行匹配,并将匹配结果呈现给用户之后,还包括:

当所述匹配结果为两个及以上时,根据用户选定的匹配结果获取数据表中对应的id;

当所述匹配结果为一个时,直接选定该匹配结果,并获取数据表中对应的id。

进一步地,所述标识数据的标签记录表包括内容id、维度id、属性值id、属性值和关联度;当匹配结果为空时,所述属性值id为空。

本发明的另一个实施例还提供了一种文本内容划词标识的装置,包括:

识别模块,用于识别鼠标手势;

查询模块,用于在预定义库中查询与所述鼠标手势对应的维度,并确定与所述维度对应的目标表和匹配方法;

匹配模块,用于将所述鼠标手势所选定的字符串作为关键词,在所述目标表中使用所述匹配方法,对所述关键词进行匹配,并将匹配结果呈现给用户;

标签生成模块,根据选定的匹配结果,生成标签,并将所述标签存入用户页面缓存区;

存储模块,用于重复上述步骤,直至响应用户的保存指令,将所述用户页面缓存区的所有标签插入到数据库表中,作为文本内容的标识数据。

进一步地,当用户只选定匹配结果时,所述标签为二元组标签,包括维度和属性值;当用户同时选定匹配结果和关联度时,所述标签为三元组标签,包括维度、属性值和关联度;所述鼠标手势为以选定文本内容中的部分连续字符串区域为起始位置,划词的移动轨迹。

进一步地,所述的文本内容划词标识的装置,还包括:

预定义模块,用于预定义鼠标手势和维度的关系,以及维度与目标表和匹配方法的关系。

进一步地,所述的文本内容划词标识的装置,在所述将所述鼠标手势所选定的字符串作为关键词,在所述目标表中使用所述匹配方法,对所述关键词进行匹配,并将匹配结果呈现给用户之后,还包括:

当所述匹配结果为两个及以上时,根据用户选定的匹配结果获取数据表中对应的id;

当所述匹配结果为一个时,直接选定该匹配结果,并获取数据表中对应的id。

本发明实施例提供的一种文本内容划词标识的方法及装置,技术成本低,通过预先定义鼠标手势与标识维度的关系;维度与目标表、匹配方法的关系,然后选定关键词后的划词鼠标手势的操作为,以选定的字符串为关键词,从鼠标手势对应的表中去搜索匹配此关键词,即此过程完成了关键词输入、维度表(属性类别)选择的过程,从而能够提高内容文本人工标识的速度和准确率,满足企业高标准的需求和个性化需求。

附图说明

图1是本发明的一个实施例提供的一种文本内容划词标识的方法的流程示意图;

图2是本发明的一个实施例提供的一种文本内容划词标识的方法的另一流程示意图;

图3是本发明的一个实施例提供的标识数据的标签记录表;

图4是本发明的一个实施例提供的一种文本内容划词标识的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当说明的是,实施例各个步骤前的序号仅是为了方便说明,不应当视为对各个步骤执行顺序的限定。

第一方面,请参阅图1-3。

本发明的一个实施例提供的一种文本内容划词标识的方法,适于在计算设备中执行,至少包括如下步骤:

s1、识别鼠标手势。

其中,所述鼠标手势为以选定文本内容中的部分连续字符串区域为起始位置,划词的移动轨迹。

即,用鼠标选定文本内容中的部分连续字符串,以选定字符串区域为起始位置,按住鼠标(左键或右键,预先定义)移动鼠标形成的轨迹(屏幕上显示此轨迹便于用户区别)。

在识别鼠标手势之前,还包括:预定义鼠标手势和维度的关系,以及维度与目标表和匹配方法的关系。

具体的,定义鼠标手势与维度(属性类别)的关系(鼠标手势维度关系表),定义每个维度对应标签值(属性值)所在的目标表、字符的匹配方法。其中,匹配方法如首字匹配,中间开始匹配,完全匹配,区分大小写,中文拼音匹配、输入多少字符以内不匹配(为了性能)等。

s2、在预定义库中查询与所述鼠标手势对应的维度,并确定与所述维度对应的目标表和匹配方法。

在具体的实施例当中,系统将划词移动的鼠标轨迹与定义的鼠标手势维度关系表进行匹配,取得对应的维度(属性类别),确定待搜索的目标表和搜索/匹配方法。需要说明的是,维度值就是目标表名。搜索的目的是为了确认关键词在预定义库中的id,便于不同内容间数据关联。

s3、将所述鼠标手势所选定的字符串作为关键词,在所述目标表中使用所述匹配方法,对所述关键词进行匹配,并将匹配结果呈现给用户。

当所述匹配结果为两个及以上时,根据用户选定的匹配结果获取数据表中对应的id;当所述匹配结果为一个时,直接选定该匹配结果,并获取数据表中对应的id。

在具体的实施例当中,为了更好的标识内容,也为了便于不同内容之间的相互关联,内容需要在不同的维度(属性类别)进行标识,而这些维度的属性值有数据表进行维护。不同维度及为维度属性值可以用一个二元组<a,v>表示,如<“行业”,“磷化工”>、<“行业”,“农业”>、<“产品”,“钛白粉”>、<“产品”,“汽车”>、<“企业”,“浙江新安化工集团股份有限公司”>、<“企业”,“南通江山农药股份有限公司”>。当然,为了便于管理,这些维度、维度属性值都是数据库(预定义库)预先定义并独立维护的,内容标识存储的是这些维度、维度属性值的id。

其中,所述标识数据的标签记录表包括内容id、维度id、属性值id、属性值和关联度;当匹配结果为空时,所述属性值id为空。如图3所示。

s4、根据选定的匹配结果,生成标签,并将所述标签存入用户页面缓存区。

其中,当用户只选定匹配结果时,所述标签为二元组标签<类型,值>,包括维度和属性值;当用户同时选定匹配结果和关联度时,所述标签为三元组标签,包括维度、属性值和关联度<类型,值,关联度>。从而对文本内容进行多维度标识的方法,属性值是查数据库匹配,保存对应的id(匹配不出来id为空,后期可以更新,维护此属性下相应的关键词对象),便于不同内容关联。

关联度是1-5的自然数,数字越大,代表关联度越强。

需要说明的是,匹配出结果待用户选择确认,选择关联度加入到标签缓存区,继续下一步循环动作。即重复上述步骤,或移除缓存区。

s5、重复上述步骤,直至响应用户的保存指令,将所述用户页面缓存区的所有标签插入到数据库表中,作为文本内容的标识数据。

全部完成后,点击保存。将缓存区的所有标签{<维度1,属性值1,关联度>,<维度1,属性值2,关联度>,……<维度1,属性值n,关联度>,<维度2,属性值1,关联度>,<维度2,属性值1,关联度>……<维度2,属性值n,关联度>,……<维度m,属性值1,关联度>,<维度m,属性值2,关联度>,……<维度m,属性值n,关联度>}插入到数据库表,作为文本内容的标识数据。

本实施例定义了水平方向从左到右(自西向东)的鼠标手势与产品维度关联。产品维度对应的表是product_def,搜索(匹配)方法定义为任意位置连续匹配(字符和空格作为整体,不按空格分词)。用户在待标引文本中选定“海关服务器”,并按住鼠标从左往右划词,系统捕获到鼠标轨迹到的动作,将轨迹与预先定义的轨迹做对比(捕获方法和轨迹对比匹配算法不是本发明重点),匹配出鼠标手势对应的维度属性(用户欲选择的维度),会发送“海关服务器”关键词到product_def表用预定义的搜索方法匹配。匹配出结果待用户选择确认,选择关联度加入到标签缓存区,继续下一步循环动作。

根据本实施例提供的一种文本内容划词标识的方法,内容文本人工标识的速度和准确率得到很大的提升。不同标引内容间的相互关联。比如定义a企业名与b企业名的关联关系,某内容含有a企业名的标签,那么可以查找相关的带b企业标签的相关内容。

第二方面,请参阅图4。

本发明的另一个实施例还提供了一种文本内容划词标识的装置,包括:

识别模块21,用于识别鼠标手势。

其中,所述鼠标手势为以选定文本内容中的部分连续字符串区域为起始位置,划词的移动轨迹。

即,用鼠标选定文本内容中的部分连续字符串,以选定字符串区域为起始位置,按住鼠标(左键或右键,预先定义)移动鼠标形成的轨迹(屏幕上显示此轨迹便于用户区别)。

在识别鼠标手势之前,预定义模块20,用于预定义鼠标手势和维度的关系,以及维度与目标表和匹配方法的关系。

具体的,定义鼠标手势与维度(属性类别)的关系(鼠标手势维度关系表),定义每个维度对应标签值(属性值)所在的目标表、字符的匹配方法。其中,匹配方法如首字匹配,中间开始匹配,完全匹配,区分大小写,中文拼音匹配、输入多少字符以内不匹配(为了性能)等。

查询模块22,用于在预定义库中查询与所述鼠标手势对应的维度,并确定与所述维度对应的目标表和匹配方法。

在具体的实施例当中,系统将划词移动的鼠标轨迹与定义的鼠标手势维度关系表进行匹配,取得对应的维度(属性类别),确定待搜索的目标表和搜索/匹配方法。需要说明的是,维度值就是目标表名。搜索的目的是为了确认关键词在预定义库中的id,便于不同内容间数据关联。

匹配模块23,用于将所述鼠标手势所选定的字符串作为关键词,在所述目标表中使用所述匹配方法,对所述关键词进行匹配,并将匹配结果呈现给用户。

当所述匹配结果为两个及以上时,根据用户选定的匹配结果获取数据表中对应的id;当所述匹配结果为一个时,直接选定该匹配结果,并获取数据表中对应的id。

在具体的实施例当中,为了更好的标识内容,也为了便于不同内容之间的相互关联,内容需要在不同的维度(属性类别)进行标识,而这些维度的属性值有数据表进行维护。不同维度及为维度属性值可以用一个二元组<a,v>表示,如<“行业”,“磷化工”>、<“行业”,“农业”>、<“产品”,“钛白粉”>、<“产品”,“汽车”>、<“企业”,“浙江新安化工集团股份有限公司”>、<“企业”,“南通江山农药股份有限公司”>。当然,为了便于管理,这些维度、维度属性值都是数据库(预定义库)预先定义并独立维护的,内容标识存储的是这些维度、维度属性值的id。

其中,所述标识数据的标签记录表包括内容id、维度id、属性值id、属性值和关联度;当匹配结果为空时,所述属性值id为空。如图3所示。

标签生成模块24,根据选定的匹配结果,生成标签,并将所述标签存入用户页面缓存区。

其中,当用户只选定匹配结果时,所述标签为二元组标签<类型,值>,包括维度和属性值;当用户同时选定匹配结果和关联度时,所述标签为三元组标签,包括维度、属性值和关联度<类型,值,关联度>。从而对文本内容进行多维度标识的方法,属性值是查数据库匹配,保存对应的id(匹配不出来id为空,后期可以更新,维护此属性下相应的关键词对象),便于不同内容关联。

关联度是1-5的自然数,数字越大,代表关联度越强。

需要说明的是,匹配出结果待用户选择确认,选择关联度加入到标签缓存区,继续下一步循环动作。即重复上述步骤,或移除缓存区。

存储模块25,用于重复上述步骤,直至响应用户的保存指令,将所述用户页面缓存区的所有标签插入到数据库表中,作为文本内容的标识数据。

全部完成后,点击保存。将缓存区的所有标签{<维度1,属性值1,关联度>,<维度1,属性值2,关联度>,……<维度1,属性值n,关联度>,<维度2,属性值1,关联度>,<维度2,属性值1,关联度>……<维度2,属性值n,关联度>,……<维度m,属性值1,关联度>,<维度m,属性值2,关联度>,……<维度m,属性值n,关联度>}插入到数据库表,作为文本内容的标识数据。

本实施例定义了水平方向从左到右(自西向东)的鼠标手势与产品维度关联。产品维度对应的表是product_def,搜索(匹配)方法定义为任意位置连续匹配(字符和空格作为整体,不按空格分词)。用户在待标引文本中选定“海关服务器”,并按住鼠标从左往右划词,系统捕获到鼠标轨迹到的动作,将轨迹与预先定义的轨迹做对比(捕获方法和轨迹对比匹配算法不是本发明重点),匹配出鼠标手势对应的维度属性(用户欲选择的维度),会发送“海关服务器”关键词到product_def表用预定义的搜索方法匹配。匹配出结果待用户选择确认,选择关联度加入到标签缓存区,继续下一步循环动作。

根据本实施例提供的一种文本内容划词标识的装置,通过预先定义鼠标手势与标识维度的关系;维度与目标表、匹配方法的关系,然后选定关键词后的划词鼠标手势的操作为,以选定的字符串为关键词,从鼠标手势对应的表中去搜索匹配此关键词,即此过程完成了关键词输入、维度表(属性类别)选择的过程,从而能够提高内容文本人工标识的速度和准确率,满足企业高标准的需求和个性化需求。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变形,这些改进和变形也视为本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1