一种基于NLPIR中文分词系统的中文分词工具的制作方法

文档序号:12748009阅读:374来源:国知局

本发明涉及中文分词技术领域,特别是涉及一种基于NLPIR中文分词系统的中文分词工具。



背景技术:

由于计算机不能识别中文文本的语义,所以必须将文本进行分词。中文分词指的是将一个汉字序列切分成一个一个单独的词,中文分词是文本挖掘的基础,文本挖掘是用于基于文本信息的知识发现,对于输入的一段中文,成功的进行中文分词,可以达到使计算机能够自动识别语句含义的效果。

目前的NLPIR中文分词系统只开放了API接口和动态链接库,无法对分词后得到的结果进行文档说明,导致非专业人员看不懂也用不了,故通用性弱,便利性差。

因此,如何提供一种通用性强、便利性好的基于NLPIR中文分词系统的中文分词工具是本领域技术人员目前需要解决的问题。



技术实现要素:

本发明的目的是提供一种基于NLPIR中文分词系统的中文分词工具,能够为用户提供分词结果的文档说明,使非专业人员也能够看懂及使用,通用性强,便利性好。

为解决上述技术问题,本发明提供了一种基于NLPIR中文分词系统的中文分词工具,所述NLPIR中文分词系统包括API接口以及动态链接库,所述中文分词工具包括:

用户输入窗口,用于供用户输入文本文件的路径地址;

分词函数调用模块,用于接收到用户输入的所述路径地址后自动调用相应的API接口或所述动态链接库内的函数来进行相应的分词操作,得到所述文本文件对应的分词后的文本文件,并将所述分词后的文本文件发送至显示界面进行显示。

优选地,还包括:

与所述分词函数调用模块相连的词向量函数调用模块,用于接收到所述分词后的文本文件后,调用所述NLPIR中文分词系统的word2vec模型接口对所述分词后的文本文件进行处理,得到对应的词向量。

优选地,还包括:

与所述词向量函数调用模块相连的聚类函数调用模块,用于当得到所述分词后的文本文件对应的所述词向量后,调用所述NLPIR中文分词系统的k-means算法接口对所述词向量进行聚类分析,得到聚类分析结果并发送至所述显示界面进行显示。

优选地,所述显示界面为计算机桌面。

优选地,所述中文分词工具采用的编写语言为C#语言。

本发明提供了一种基于NLPIR中文分词系统的中文分词工具,包括用户输入窗口以及分词函数调用模块,用户只需要输入文本文件的路径地址,即可从显示界面获得分词后的文本文件。可见,本发明提供的工具实现了用户界面化操作,方便了用户进行人机交互,且能够为用户提供分词结果的文档说明,使非专业人员也能够看懂及使用,通用性强,便利性好,提高了用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于NLPIR中文分词系统的中文分词工具的结构示意图。

具体实施方式

本发明的核心是提供一种基于NLPIR中文分词系统的中文分词工具,能够为用户提供分词结果的文档说明,使非专业人员也能够看懂及使用,通用性强,便利性好。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供了一种基于NLPIR中文分词系统的中文分词工具,NLPIR中文分词系统包括API接口以及动态链接库,参见图1所示,图1为本发明提供的一种基于NLPIR中文分词系统的中文分词工具的结构示意图。中文分词工具包括:

用户输入窗口11,用于供用户输入文本文件的路径地址;

分词函数调用模块12,用于接收到用户输入的路径地址后自动调用相应的API接口或动态链接库内的函数来进行相应的分词操作,得到文本文件对应的分词后的文本文件,并将分词后的文本文件发送至显示界面13进行显示。

可以理解的是,这里的用户输入窗口11通过显示界面13进行显示,即本发明中文分词工具具体为桌面软件,软件打开后即在显示界面13上弹出用户输入窗口11。

其中,NLPIR中文分词系统采用深度神经网络模型,能够实现文本内容提取、文本分类和文本过滤的操作,具体可应用于垃圾信息屏蔽、敏感信息审查等领域;该系统采用层叠隐马尔科夫模型,还支持中英文分词和词性标注等操作,并能够利用信息熵计算每个候选词的上下文条件熵,实现文本中出现的人名、地名等关键词提取。NLPIR中文分词系统包括有动态链接库以及多个API接口,每个API接口代表一种函数操作,动态链接库内包括有多个函数,通过调用API接口以及动态链接库内的函数即能够实现相应的操作,具体的,这里的操作指的是上述NLPIR中文分词系统所能实现的操作。

作为优选地,中文分词工具还包括:

与分词函数调用模块12相连的词向量函数调用模块14,用于接收到分词后的文本文件后,调用NLPIR中文分词系统的word2vec模型接口对分词后的文本文件进行处理,得到对应的词向量。

其中,Word2vec模型利用深度学习的思想及词向量表示方式,可以通过训练把对文本内容的处理简化为K维向量空间中的向量运算,其基本思想是通过训练将每个词映射成K维实数向量(K一般为模型中的超参数),通过词向量之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度。Word2vec模型输出的词向量可以被用来做比如聚类分析、找同义词、词性分析等工作。这里的聚类分析指的是将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。

可以理解的是,通过生成词向量,即可采用该词向量进行后续聚类分析、找同义词、词性分析等工作,方便后续操作。

进一步的,中文分词工具还包括:

与词向量函数调用模块14相连的聚类函数调用模块15,用于当得到分词后的文本文件对应的词向量后,调用NLPIR中文分词系统的k-means算法接口对词向量进行聚类分析,得到聚类分析结果并发送至显示界面13进行显示。

其中,K-means算法是一种基于原型的目标函数聚类方法,以欧式距离作为相似度测度,它是用于求取对应某一初始聚类中心向量的、使得评价指标最小的最优分类。

另外,这里的显示界面13为计算机桌面。这里的计算机可以为32位的或64位的计算机,当然,本发明对此不作限定。

具体的,本发明中的中文分词工具采用的编写语言为C#语言。

本发明提供了一种基于NLPIR中文分词系统的中文分词工具,包括用户输入窗口以及分词函数调用模块,用户只需要输入文本文件的路径地址,即可从显示界面获得分词后的文本文件。可见,本发明提供的工具实现了用户界面化操作,方便了用户进行人机交互,且能够为用户提供分词结果的文档说明,使非专业人员也能够看懂及使用,通用性强,便利性好,提高了用户体验。

需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1