基于归类分析的文字处理系统的制作方法

文档序号：13590449阅读：232来源：国知局

本发明涉及计算机技术领域，具体涉及基于归类分析的文字处理系统。

背景技术：

软件文档或者源代码文档是指与软件系统及其软件工程过程有关联的文本实体。文档的类型包括软件需求文档，设计文档，测试文档，用户手册等。其中的需求文档，设计文档和测试文档一般是在软件开发过程中由开发者写就的，而用户手册等非过程类文档是由专门的非技术类写作人员写就的。文档能提高软件开发的效率，保证软件的质量，而且在软件的使用过程中有指导、帮助、解惑的作用，尤其在维护工作中，文档是不可或缺的资料。

然而现有的文档，尤其是开发类的用户手册由于篇幅巨大且需要不同的部门分开编写，所以在排版时花费的时间过长，大幅提高了产品的时间成本。

技术实现要素：

本发明所要解决的技术问题是现有的开发类用户手册由于篇幅巨大且需要不同的部门分开编写，所以在排版时花费的时间过长，大幅提高了产品的时间成本，目的在于提供基于归类分析的文字处理系统，解决上述问题。

本发明通过下述技术方案实现：

基于归类分析的文字处理系统，包括：用于读取文本文件的读取模块；用于将文本文件中的文本块进行赋值的赋值模块，赋值采用文本块所对应的左上角坐标值；用于将任意选择一个不是核心对象的文本块作为核心对象，并选择文本块密度p和边界半径r的聚类模块；所述边界半径r采用几何距离；所述聚类模块还用于当核心对象的半径r范围之内的文本块数量超过文本块密度p，则将该范围内所有的文本块视为核心对象，并划入同一类然后再次聚类；所述聚类模块还用于当核心对象的半径r范围之内的文本块数量未超过文本块密度p，将该文本块取消核心对象。

现有技术中，文档，尤其是开发类的用户手册由于篇幅巨大，普遍篇幅在两千页以上，而且不同的内容需要不同的部门分开编写，将这些内容进行排版时，会花费大量的人力和时间，大幅提高了产品的成本。本发明应用时，先将每一个文本块进行赋值，赋值采用文本块所对应的左上角坐标值，再任意选择一个不是核心对象的文本块作为核心对象；选择文本块密度p和边界半径r；所述边界半径r采用几何距离，这里所说的几何距离，是指一个平面上的两个点的直线距离，再然后当核心对象的半径r范围之内的文本块数量超过文本块密度p，则将该范围内所有的文本块视为核心对象，并划入一类，这样子就可以自动的将相似的文档分类到一起，如此循环，而当当核心对象的半径r范围之内的文本块数量未超过文本块密度p，将该文本块取消核心对象，而重新选择核心对象，从而保证了一个类中的相似度非常高，排除了不同的文本块分到同一类的情况。本发明通过上述步骤，实现了对文本文档中文本块的快速分类，从而节省了产品的成本。

进一步的，本发明还包括：用于当所有的文本块都执行过聚类后，将不是核心对象的所有文本块视为噪音文本块的判断模块。

进一步的，本发明还包括：用于将划分好的类按照规则重新进行排版的排版模块。

进一步的，所述文本块密度p正比于边界半径r的平方。

本发明应用时，由于文本块密度p正比于边界半径r的平方，所以保障了在分类的过程中，误差值产生很低。

进一步的，所述取消核心对象仅限于聚类模块任意选择得到的核心对象。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明基于归类分析的文字处理系统，通过上述模块，实现了对文本文档中文本块的快速分类，从而节省了产品的成本。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成

本技术：
的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明结系统构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

本发明基于归类分析的文字处理系统，基于归类分析的文字处理系统，包括：用于读取文本文件的读取模块；用于将文本文件中的文本块进行赋值的赋值模块，赋值采用文本块所对应的左上角坐标值；用于将任意选择一个不是核心对象的文本块作为核心对象，并选择文本块密度p和边界半径r的聚类模块；所述边界半径r采用几何距离；所述聚类模块还用于当核心对象的半径r范围之内的文本块数量超过文本块密度p，则将该范围内所有的文本块视为核心对象，并划入同一类然后再次聚类；所述聚类模块还用于当核心对象的半径r范围之内的文本块数量未超过文本块密度p，将该文本块取消核心对象。本发明还包括：用于当所有的文本块都执行过聚类后，将不是核心对象的所有文本块视为噪音文本块的判断模块。本发明还包括：用于将划分好的类按照规则重新进行排版的排版模块。所述文本块密度p正比于边界半径r的平方。所述取消核心对象仅限于聚类模块任意选择得到的核心对象。

本实施例实施时，先将每一个文本块进行赋值，赋值采用文本块所对应的左上角坐标值，再任意选择一个不是核心对象的文本块作为核心对象；选择文本块密度p和边界半径r；所述边界半径r采用几何距离，这里所说的几何距离，是指一个平面上的两个点的直线距离，再然后当核心对象的半径r范围之内的文本块数量超过文本块密度p，则将该范围内所有的文本块视为核心对象，并划入一类，这样子就可以自动的将相似的文档分类到一起，如此循环，而当当核心对象的半径r范围之内的文本块数量未超过文本块密度p，将该文本块取消核心对象，而重新选择核心对象，从而保证了一个类中的相似度非常高，排除了不同的文本块分到同一类的情况。本发明通过上述步骤，实现了对文本文档中文本块的快速分类，从而节省了产品的成本。由于文本块密度p正比于边界半径r的平方，所以保障了在分类的过程中，误差值产生很低。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：

技术总结
本发明公开了基于归类分析的文字处理系统，包括：用于将任意选择一个不是核心对象的文本块作为核心对象，并选择文本块密度P和边界半径R的聚类模块；所述边界半径R采用几何距离；所述聚类模块还用于当核心对象的半径R范围之内的文本块数量超过文本块密度P，则将该范围内所有的文本块视为核心对象，并划入同一类然后再次聚类；所述聚类模块还用于当核心对象的半径R范围之内的文本块数量未超过文本块密度P，将该文本块取消核心对象。本发明基于归类分析的文字处理系统，通过上述模块，实现了对文本文档中文本块的快速分类，从而节省了产品的成本。

技术研发人员：曾传德
受保护的技术使用者：曾传德
技术研发日：2017.09.21
技术公布日：2018.02.02

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曾传德
技术所有人：曾传德
我是此专利的发明人

上一篇：自然语言处理方法、装置、存储介质及终端设备与流程
上一篇：一种宠物沐浴露的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。