一种企业简称提取方法、系统、设备及介质与流程

文档序号:33558206发布日期:2023-03-22 12:57阅读:74来源:国知局
一种企业简称提取方法、系统、设备及介质与流程

1.本技术涉及自然语言处理领域,尤其是涉及一种企业简称提取方法、系统、设备及介质。


背景技术:

2.简称,是一种对语句进行求简的过程,它以方便精简为原则,在更短的语句上凝练了与原有语句相同的信息含义;对于企业而言,全称的简化有利于对企业品牌与文化的宣传,据统计,从网易财经随机获取的100篇新闻文本中,共出现了近2000个企业名,其中简称占比高达九成,由此可见,简称在现代社会中被广泛使用着。
3.通常而言,当用户需要搜索某个企业时,不会直接搜索企业全称,而是以惯用简称作为搜索关键词进行搜索;这就导致了从搜索关键词中找到用户希望搜索的结果需要进行企业简称与全称的匹配,因此如何从百万数量级别的各类公司全称中有效的提取出公司简称,是许多检索公司需要解决的技术问题。
4.目前,对于企业简称的提取通常是采用基于规则或基于规则与统计结合的方法,还有少部分采用人工标注对企业全称进行缩写;由于中文具有复杂的语境与语义,因此如何确定缩写规则变得十分困难,上述方式效率较低且缩写出的企业简称容易出现歧义与概括不全的情况,难以与人员的普遍口头习惯相适应,不能有效的提取企业简称。


技术实现要素:

5.为了高效准确的对企业的有效简称进行提取,本技术提供一种企业简称提取方法、系统、设备及介质。
6.第一方面本技术提供的一种企业简称提取方法采用如下的技术方案:通过分词器根据预置的分词规则将待缩写企业全称划分并标注为若干个特征语素;根据所述特征语素通过预置的缩写模型对所述待缩写企业全称进行缩写得出若干个备选企业简称;通过用户习惯模型对若干个所述备选企业简称进行评级,选取评级最高的所述备选企业简称作为所述待缩写企业全称的有效企业简称。
7.通过采用上述技术方案,完成了对待缩写企业全称的缩写,并根据用户习惯对多个生成的备选企业简称进行评级,得出与用户口头习惯最相符的备选企业简称,将其作为有效企业简称,得出的有效企业简称符合缩写规则且为用户日常使用最频繁的企业简称,准确的完成了企业简称的提取。
8.优选的,在通过分词器根据预置的分词规则将待缩写企业全称划分并标注为若干个特征语素中,具体包括以下步骤:根据预置的地名词库划分所述待缩写企业全称中的地名词;根据预置的企业常用后缀词库划分所述待缩写企业全称中的后缀词;
将所述待缩写企业全称剩余部分通过关键词拆分算法拆分为关键词与修饰词;根据预置的分词规则标注完成拆分的语素为特征语素。
9.通过采用上述技术方案,将企业全称划分的构成语素划分为地名词、后缀词、关键词与修饰词四种类型,这四类词基本覆盖当前存在的企业全称,实现了企业全称的结构化。
10.优选的,在根据所述缩写规则对所述待缩写企业全称进行缩写得出若干个备选企业简称后,还包括以下步骤:通过预置的违禁词库对所述备选企业简称进行合法性校验;剔除未通过所述合法性校验的备选企业简称。
11.通过采用上述技术方案,对备选企业简称进行筛选,避免得到的有效企业简称中存在不符规定的违禁词。
12.优选的,在剔除未通过所述合法性校验的备选企业简称后,还包括以下步骤:获取所述待缩写企业全称在搜索引擎中的查询历史记录;获取所述查询历史记录中与所述待缩写企业全称对应的全部用户搜索关键词;剔除与所述用户搜索关键词不匹配的所述备选企业简称。
13.通过采用上述技术方案,在通过用户习惯模型对多个备选企业简称进行评级之前,通过用户搜索记录对备选企业简称进行初步筛选,使最后生成的有效企业简称是用户在使用的企业简称,且减少了后续用户习惯分析的计算数据量。
14.优选的,在通过用户习惯模型对若干个所述备选企业简称进行评级,选取评级最高的所述备选企业简称作为所述待缩写企业全称的有效企业简称中,具体包括以下步骤:获取通过合法性校验与搜索关键词匹配的所述备选企业简称的查询信息,所述查询信息包括所述备选企业简称搜索导向页面信息、用户鼠标指针热力图、导向页面停留时间及备选企业简称查询频次;将所述查询信息导入所述用户习惯模型分析用户对所述备选企业简称的偏好并进行评级;选取评级最高的所述备选企业简称作为所述待缩写企业全称的有效企业简称。
15.通过采用上述技术方案,根据用户查询记录,导入用户习惯模型,计算各备选企业简称与企业全称的关联性及在用户日常使用中的常用度,选取各项综合评价最高的备选企业简称作为有效企业简称,使有效企业简称贴合用户习惯。
16.优选的,在通过用户习惯模型对若干个所述备选企业简称进行评级,选取评级最高的所述备选企业简称作为所述待缩写企业全称的有效企业简称中,具体包括以下步骤:在预置的已知简称库中查找是否存在与所述评级最高的所述备选企业简称相同的企业简称;若是,则选取所述评级次高的所述备选企业简称作为所述待缩写企业全称的有效企业简称。
17.通过采用上述技术方案,使企业对应有唯一的企业简称,防止在后续使用简称进行检索或展示时出现歧义的情况。
18.优选的,在通过用户习惯模型对若干个所述备选企业简称进行评级,选取评级最高的所述备选企业简称作为所述待缩写企业全称的有效企业简称后,还包括以下步骤:将所述有效企业简称与其对应的所述待缩写企业全称导入训练语料库;
根据所述训练语料库对所述缩写模型进行训练。
19.通过采用上述技术方案,将生成的有效简称作为缩写模型的训练基础,有效的扩大了缩写模型的训练数据量,保证缩写模型的准确度。
20.第二方面,本技术提供一种企业简称提取系统,所述系统包括以下模块:分词器模块,用于根据预置的分词规则将待缩写企业全称划分并标注为若干个特征语素;缩写模块,用于根据所述特征语素通过预置的缩写模型对所述待缩写企业全称进行缩写得出若干个备选企业简称;简称评级模块,用于对若干个所述备选企业简称进行评级,选取评级最高的所述备选企业简称作为所述待缩写企业全称的有效企业简称。
21.第三方面,本技术提供一种计算机设备,采用如下技术方案:包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如上述任一种企业简称提取方法的计算机程序。
22.第四方面,本技术提供一种计算机可读存储介质,采用如下技术方案:存储有能够被处理器加载并执行上述任一种企业简称提取方法程序。
23.综上所述,本技术包括以下至少一种有益技术效果:1.从待缩写企业全称中有效的提取出若干个备选企业简称,根据用户习惯对多个备选企业简称进行评级最终生成有效企业简称,得到的有效企业简称能够很好的代表该企业且较贴合用户口头习惯;2.对所有备选企业简称进行了合法性校验,保证生成的有效企业简称不存在合法性问题;3.完成了相同企业简称的筛选,有效防止了多家企业全称结构缩写生成得出有相同的企业简称,避免企业简称指代不明的情况发生。
附图说明
24.图1是本技术实施例提供的一种企业简称提取方法的方法流程图。
25.图2是本技术实施例提供的一种企业简称提取方法的参考示例图。
26.图3是本技术实施例提供的一种企业简称提取系统的系统框图。
27.图4是本技术实施例提供的一种企业简称提取设备的结构示意图。
28.附图标记说明:301、分词器模块;302、缩写模块;303、简称评级模块;400、电子设备;401、处理器;402、通信总线;403、用户接口;404、网络接口;405、存储器。
具体实施方式
29.为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。
30.本技术实施例公开一种企业简称提取方法,参照图1,一种企业简称提取方法具体包括以下步骤:s1:将待缩写企业全称划分并标注为若干个特征语素;
具体的,通过分词器根据设定的分词规则对待缩写企业全称进行预处理,分词器可以借助自然语言处理工具nlp(natural language processing),将完整的待缩写企业全称拆分为若干个语素,并根据设定的分词规则,对各个拆分的语素进行标注,得到特征语素;拆分出来的若干个特征语素完全构成了待缩写企业全称,并且在拆分过程中并不会改变特征语素的排列顺序。
31.在本技术的一实施例中,通过分词规则将待缩写企业全称拆分为地名词(loc)、关键词(key word)、修饰词(type)及后缀词(suffix)共四种类别,这四类词基本包含了中文企业全称全部组成要素,需要说明的是,在一个企业全称中并不一定会同时出现全部种类的特征词,例如“中国(l)工商(k)银行(s)”、“比亚迪(k)股份(t1)有限(t2)公司(s)”。
32.对于一待缩写企业全称,首先将其在预置的地名词库中进行匹配,提取出待缩写企业全称的地名词,预置的地名词库可以是搜狗输入法词库中的地名词库;将剩余部分与创建的常用后缀词库匹配,提取出待缩写企业全称的后缀词,常用后缀词库中包含有中国企业常见的后缀词,这些词通常出现于企业全称的末尾,例如“公司”、“集团”等等;完成后缀词与地名词的拆分后,剩余部分将被划分为关键词与修饰词,关键词可以认为是最能代表该企业的词语,通常是由企业相关人员自行创造的,例如“维正”、“比亚迪”,而修饰词通常用于说明企业所在行业或领域,例如“信息”、“知识产权”,对于关键词与修饰词的划分可以通过bi
ꢀ‑ꢀ
gram算法实现,此为现有技术,在此不做过多说明。
33.在本技术另一实施例中,在对待缩写企业全称的地名词与后缀词进行剔除后,由于剩余部分规律性不强,且中文具有表意的特征,这就导致了剩余部分容易出现歧义的问题,划分关键词与修饰词的过程中难以找到两者的分界点,例如待缩写企业全称为“上海启迪新能源股份有限公司”,在剔除地名词与后缀词后剩余部分为“启迪新能源股份有限”,进一步拆分过程中得到其中一个修饰词“新能源”,但在划分关键词与修饰词的过程中,可能会识别到错误的修饰词,错误的将关键词“新能源”拆分为“新”与“能源”,为了解决修饰词划分错误的情况,引入有下列规则:当识别到剩余部分存在由于词性划分产生的单字时,将划分得出的该单字添加至与其相邻的下一个特征语素中;建立企业常用修饰词库,收集类似于“新能源”的修饰词,在进行划分时将企业常用修饰词库作为划分参考。
34.完成上述操作后,待缩写企业全称被划分为多个特征语素,且构成待缩写企业全称的各特征语素均标注有其词性,将待缩写企业全称自动结构化。
35.s2:对待缩写企业全称进行缩写得出若干个备选企业简称;具体的,在对待缩写企业全称进行词性划分并标注为多干特征语素后,通过预置的缩写模型对待缩写企业全称进行缩写,缩写模型会根据多种规则将待缩写企业全称进行简写,通常而言,这种简写分为三种类型:提取型,即提取各个特征语素中的个别单字,组合提取出的若干个单字,形成该企业全称的简称,例如“上海交通大学”可以缩写成“上交大”;截取型,即截取企业全称中的某个特征语素,将其作为企业简称,例如“比亚迪股份有限公司”,截取其关键词,得到简称“比亚迪”;混合型,即综合上述两种类型,既抽取某个特征语素,同时对未被抽取的特征语素
进行提取,例如“国防科技大学”简称“国防科大”。
36.在通过预置的缩写模型对待缩写企业全称进行缩写时,根据不同的规则得到不同的备选企业简称,但为保证备选企业简称的合理性,在本技术一实施例中,可以采用crf(条件随机场)模型作为缩写模型;在进行待缩写企业全称缩写前,向crf模型中导入训练语料库对其进行训练,该训练语料库中包含有已知的企业全称与简称,已知的企业全称与简称可以是人员预先提取的,通过训练语料库的训练,crf模型可以更加贴合自然语言习惯,通过crf模型得到的企业简称也更为合理。
37.s3:校验合法性,将违法的备选企业简称剔除;具体的,经过上述步骤,待缩写企业全称已经被转化为多个备选的企业简称,由于在进行缩写时采用了多种规则,而对于特定的待缩写企业全称,采用某一规则并不一定合理,可能会在通过该规则缩写得到的企业简称中包含违禁词,因此需要对所有备选企业简称进行筛选。
38.创建违禁词库,将生成的备选企业简称与违禁词库进行比对匹配,筛选出具有与违禁词库中相同字词备选企业简称,将这一部分备选企业简称认定为不合法的企业简称,从备选企业简称中剔除;违禁词库可以聚合有广告法违禁词、互联网违禁词、各行业违禁词,杂糅多个数据库的违禁词库能够尽可能的从备选企业简称中剔除违法企业简称。
39.s4:匹配搜索记录,剔除在搜索记录中未出现过的备选企业简称;具体的,查询搜索引擎中待缩写企业全称的查询历史记录,该历史记录以待缩写企业全称对应企业为目标页面,显示有用户通过输入何种关键词访问到待缩写企业全称对应企业的目标页面,将备选企业简称与查询历史记录中的搜索关键词进行匹配,查找备选企业简称是否在查询历史记录中出现过,对于未出现的备选企业简称,对其予以剔除。
40.s5:对剩余备选企业简称进行评级,选取评级最高的备选企业简称作为待缩写企业全称的有效企业简称;具体的,经过上述合法性校验与搜索关键词匹配后,此时仍存在的备选企业简称均已满足合法且被用户查询过两个条件,但在备选企业简称中仍存在有多个可能的有效企业简称,对剩余的备选企业简称进行用户习惯评级,根据用户搜索习惯、用户偏好等因素对剩余的备选企业简称进行评级,选取评价最高的备选企业简称作为待缩写企业全称的有效企业简称。
41.在本技术一实施例中,获取用户在搜索待缩写企业全称时的备选企业简称搜索导向页面信息、用户鼠标指针热力图、导向页面停留时间及备选企业简称查询频次,通过上述的各项数据,可以通过用户习惯模型对用户习惯进行分析,判断何备选企业简称是用户最常使用的,用户习惯模型可以是卷积神经网络模型且已经过预训练,可以将用户行为转化为用户偏好;与用户习惯最为贴合的备选企业简称具有在用户使用其对企业进行搜索时,用户具有最长的页面停留时间,且该备选企业简称的查询频次应当为最高的,同时应能够有效的导向该企业简称对应的企业;对上述指标赋予权值,通过用户习惯模型进行综合计算,得出各备选企业简称的评级。
42.在本技术另一实施例中,可以将全部备选企业简称作为该企业的搜索备选项,根据用户选择次数及用户在页面的停留时间判断用户偏好,选取各项指标最高的备选企业简称作为有效企业简称。
43.在完成有效企业简称的生成后,可以将生成的有效企业简称与其对应的企业全称放置进入crf缩写模型的训练语料库中,反复对crf缩写模型进行训练,由于经过上述企业有效企业简称提取的过程中参考有用户习惯,因此得到的有效企业简称是与用户使用习惯较为贴合,用该有效企业简称重新反复训练crf缩写模型,有利于提高缩写环节的准确率与召回率,使后续缩写出的企业简称更为合理。
44.在本技术另一实施例中,得出有效企业简称后,需要将该有效企业简称与已知的企业简称进行比对,若查询到相同的企业简称,为防止指代不明与歧义的情况,可以不选取在用户习惯分析评价时评级最高的备选企业简称作为有效企业简称,向下选取评级次高的备选企业简称作为有效企业简称。
45.为更好的说明本技术的技术方案,提供有本技术技术方案的一参考示例,具体如图2所示,需要说明的是为展示本技术全部技术方案,该示例在描述过程中做出了人为性调节,具体体现在合法性校验过程中,人为设定有违禁词,在本技术实际实施过程中,违禁词的设定需根据相关规定进行设定。
46.本技术实施例一种企业简称提取方法的实施原理为:通过分词器或分词模型将待缩写企业全称划分为若干个特征语素,根据划分的规则为各特征语素进行标注,再通过缩写模型对各个特征语素进行缩写,组合缩写结果得到若干个备选企业简称,通过对用户习惯进行分析,对各个备选企业简称进行评级,选取评级最高的备选企业简称作为有效企业简称。
47.通过上述过程,有效的对企业全称进行了缩写,且得出的企业简称符合用户使用习惯,在进行缩写的过程中还对企业简称进行了合法性校验,保证生成的企业简称符合相关规定。
48.本技术实施例还公开一种企业简称提取系统,参照图3,一种企业简称提取系统包括以下模块:分词器模块301,用于根据预置的分词规则将待缩写企业全称划分并标注为若干个特征语素;缩写模块302,用于根据特征语素通过预置的缩写模型对待缩写企业全称进行缩写得出若干个备选企业简称;简称评级模块303,用于对若干个备选企业简称进行评级,选取评级最高的备选企业简称作为待缩写企业全称的有效企业简称。
49.具体的,分词器模块301中包含有全称结构化单元与标注单元。
50.全称结构化单元,用于根据分词规则划分待缩写企业全称;标注单元,用于为划分出的各特征语素标注上对应的词性。
51.具体的,缩写模块302中包含有缩写单元、合法化校验单元及查询匹配单元。
52.缩写单元,用于通过缩写模型对结构化后的待缩写企业全称进行缩写;合法化校验单元,用于通过预置的违禁词库对备选企业简称进行合法性校验并剔除未通过合法性校验的备选企业简称;查询匹配单元,用于查询历史记录中与待缩写企业全称对应的全部用户搜索关键词并对与用户搜索关键词不匹配的备选企业简称进行剔除。
53.请参见图4,为本技术实施例提供了一种电子设备400的结构示意图。如图4所示,
所述电子设备400可以包括:至少一个处理器401,至少一个网络接口404,用户接口403,存储器405,至少一个通信总线402。
54.其中,通信总线402用于实现这些组件之间的连接通信。
55.其中,用户接口403可以包括显示屏(display)、摄像头(camera),可选用户接口403还可以包括标准的有线接口、无线接口。
56.其中,网络接口404可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。
57.其中,处理器401可以包括一个或者多个处理核心。处理器401利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器405内的指令、程序、代码集或指令集,以及调用存储在存储器405内的数据,执行服务器的各种功能和处理数据。可选的,处理器401可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器401可集成中央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器401中,单独通过一块芯片进行实现。
58.其中,存储器405可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。可选的,该存储器405包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器405可用于存储指令、程序、代码、代码集或指令集。存储器405可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。如图4所示,作为一种计算机存储介质的存储器405中可以包括操作系统、网络通信模块、用户接口模块以及一种企业简称提取方法的应用程序。
59.在图4所示的电子设备400中,用户接口403主要用于为用户提供输入的接口,获取用户输入的数据;而处理器401可以用于调用存储器405中存储的一种企业简称提取方法的应用程序,当由一个或多个处理器401执行时,使得电子设备400执行如上述实施例中一个或多个所述的方法。
60.一种电子设备可读存储介质,所述电子设备可读存储介质存储有指令。当由一个或多个处理器401执行时,使得电子设备400执行如上述实施例中一个或多个所述的方法。
61.本技术实施例还公开一种计算机可读存储介质。
62.具体来说,该计算机可读存储介质,其存储有能够被处理器401加载并执行如上述一种企业简称提取方法的计算机程序,该计算机可读存储介质例如包括:u盘、移动硬盘、只读存储器 (read-only memory,rom)、随机存取存储器 (random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
63.以上均为本技术的较佳实施例,并非依此限制本技术的保护范围,故:凡依本技术的结构、形状、原理所做的等效变化,均应涵盖于本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1