一种文件分类方法、装置及电子设备与流程

文档序号：14037078阅读：115来源：国知局

本发明涉及数据处理技术领域，具体而言，涉及一种文件分类方法、装置及电子设备。

背景技术：

随着计算机技术的发展，越来越多的企业、组织以及政府机构等依赖于计算机处理各类事务，在这一过程中，源源不断地产生大量的电子文档。在日常工作中或是进行档案管理时，一般需要将这些电子文档分入特定的类别，但是，在数据量呈现爆炸性增长的今天，某些企业可能一天内就产生几tb的数据，对应着成千上万的电子文档，对其进行人工甄别及管理无疑效率低，而随着计算机实现的自动分类给人们带来了很大的便利，但由于文本分类具有高维性、高稀疏度等特点，文本分类的性能还不能满足人们的实际需求，还具有非常大的改进空间。

而随着电子政务的快速发展，政府网站建设的重心发生了转移，从建设初期主要为政府各个部门发各种新闻信息资源，转向了以提高政府的监管职能和服务水平为目的，应当从网站的实际工作出发，制定规范政府网站的工作制度，提升服务意识和政府网站的办事能力；加强网站与政务的合作，扩大政府网站与大众的互动交流；建立高效的投诉体系，增强监督力度。随着每天有大量的投诉和建议文本数据，所以，如何将投诉文本进行快速精确的分类是目前急需解决的问题。

技术实现要素：

有鉴于此，本发明实施例的目的在于提供一种文件分类方法、装置及电子设备，其能有效解决现有技术中无法对投诉文本分类准确性低的问题。

第一方面，本发明实施例提供了一种文件分类方法，所述方法包括：将待分类投诉文本进行分词处理，获得多个待匹配词语；将所述多个待匹配词语与表征不同投诉问题的词典分别进行匹配，获取匹配结果；根据所述匹配结果确定所述待分类投诉文本所属投诉类别；其中，所述表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的。

第二方面，本发明实施例提供了一种文件分类装置，所述装置包括：分词处理模块，用于将待分类投诉文本进行分词处理，获得多个待匹配词语；匹配模块，用于将所述多个待匹配词语与表征不同投诉问题的词典分别进行匹配，获取匹配结果；分类模块，用于根据所述匹配结果确定所述待分类投诉文本所属投诉类别；其中，所述表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的。

第三方面，本发明实施例提供一种电子设备，所述电子设备包括处理器以及存储器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述电子设备执行以下操作：将待分类投诉文本进行分词处理，获得多个待匹配词语；将所述多个待匹配词语与表征不同投诉问题的词典分别进行匹配，获取匹配结果；根据所述匹配结果确定所述待分类投诉文本所属投诉类别；其中，所述表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的。

第四方面，本发明实施例提供一种可读取存储介质，其特征在于，所述可读取存储介质存储于计算机内，所述可读取存储介质包括多条指令，所述多条指令被配置成使得计算机执行如第一方面所提供的文件分类方法。

本发明实施例提供一种文件分类方法、装置及电子设备，首先通过将待分类投诉文本进行分词处理，获得多个待匹配词语，然后将多个待匹配词语与表征不同投诉问题的词典分别进行匹配，获取匹配结果，其中，所述表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的，然后根据匹配结果确定所述待分类投诉文本所属投诉类别，以对上述待分类投诉文本进行分类，本方法中通过预先训练获得的多个词典，使得可以将多个待匹配词语与词典匹配，从而可以获得更加准确的匹配结果，可将待分类投诉文本进行准确分类，实现了针对不同投诉问题的投诉文本有较高的分类精度，提高了文本分类的性能。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了一种可应用于本发明实施例中的电子设备的结构框图；

图2为本发明第一实施例提供的一种文件分类方法的流程图；

图3为本发明第二实施例提供的一种文件分类装置的结构框图；

图4为本发明第二实施例提供的一种匹配模块的结构框图；

图5为本发明实施例提供的另一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1示出了一种可应用于本发明实施例中的电子设备100的结构框图。如图1所示，电子设备100包括存储器101、存储控制器102，一个或多个(图中仅示出一个)处理器103、外设接口104、射频模块105、音频模块106、触控屏幕107等。这些组件通过一条或多条通讯总线/信号线108相互通讯。

存储器101可用于存储软件程序以及模块，如本发明实施例中的文件分类方法对应的程序指令/模块，处理器103通过运行存储在存储器101内的软件程序以及模块，从而执行各种功能应用以及数据处理，如本发明实施例提供的文件分类方法。

存储器101可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。处理器103以及其他可能的组件对存储器101的访问可在存储控制器102的控制下进行。

外设接口104将各种输入/输入装置耦合至处理器103以及存储器101。在一些实施例中，外设接口104，处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

射频模块105用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。

音频模块106向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。

触控屏幕107在电子设备100与用户之间同时提供一个输出及输入界面。具体地，触控屏幕107向用户显示视频输出，这些视频输出的内容可包括文字、图形、视频及其任意组合。

可以理解，图1所示的结构仅为示意，所述电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

第一实施例

请参照图2，图2为本发明第一实施例提供的一种文件分类方法的流程图，所述方法应用于文件分类装置，该文件分类装置运行于上述电子设备，所述方法包括：

步骤s110：将待分类投诉文本进行分词处理，获得多个待匹配词语。

对于电子文档，可以采用“关键词”表示分析和理解文档时所涉及的所有特征，关键词例如“出租车”、“拼车”、“计价器”等，当然，对于不同的主体，例如银行、政府机构和一般企业，确定电子文档的类别时所依据的关键词可能不相同，在针对某些企业涉及的电子文档进行分类时，可以根据经验预先确定上述关键词。

如政府机构需要对收到的多个用户投诉的电子文档进行分类时，首先对电子文档进行预处理，即对获取的待分类投诉文本进行分词处理，该待分类投诉文本为上述的电子文档。其中，对该待分类投诉文本进行分词处理，首先需要识别出其中的最小语义单元，作为一种实施方式，可以采用lucene搜索引擎自带的中文分词算法进行分词处理，lucene有其自己的中文分析器，其中主要是standardanalyzer和cjkanalyzer。standardanalyzer分析器采用单字分词法，而cjkanalyzer分析器采用二分法。

在lucene搜索引擎的中文分词算法中最常用的是基于字符串匹配方法，在此基础上还有一种正向最大增字匹配分词算法，正向最大增字匹配分词算法实现思想是准备一个分词的词典，然后利用算法对输入的语句进行从左到右进行扫描，其目的是将语句中的字符串与词典中的词条进行逐个匹配。匹配字段是从一个字开始，匹配中不断增字，直到匹配不下去为止，每一轮结束得到的结果，取最大的可以匹配成功的当前匹配字段，例如，待分类投诉文本中扫描到的第一句话为“今天天气阴沉沉的”，词典中有“今天”、“天气”、“天”、“阴沉沉”等词，然后从“今”字开始，向后依次扫描，分别取“今”、“今天”、“今天天”、“今天天气”、“今天天气阴”、“今天天气阴沉”、“今天天气阴沉沉”、“今天天气阴沉沉的”进行匹配，词典中最长的匹配字符串是“今天”，那么该词被切分出来，接下来从“天”字开始扫描，重复上述操作，结果为“今天/天气/阴沉沉/的”，并且为其各个词标注词性，其中，名词、动词、数词、形容词、前置词、助词、连词、标点等词性标记分别为n、v、m、a、p、u、c、wp等符号，例如，将“今天”标注为名词，然后将该(今天、天气、阴沉沉、的)作为初始词集，当然，为了后续匹配的准确性，还需删掉初始词集中常用且意义不大的词，称之为去停用词，例如：的、是、了等字，所以在上述去掉停用词后得到的词语为：今天、天气、阴沉沉，然后可以将这些词语作为待分类投诉文本的第一句话进行分词处理后获得的待匹配词语，以此方法，可获得整篇该待分类投诉文本进行分词处理后得到的多个待匹配词语。

步骤s120：将所述多个待匹配词语与表征不同投诉问题的词典分别进行匹配，获取匹配结果。

表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的，该词典对应不同投诉问题分类，且每个词典中的每个词语的权重在预设权重范围内。

例如，在对政府投诉文件进行分类处理时，可以针对不同的投诉问题进行分类，如：出租车问题、通讯媒体问题、公交车问题、停车问题等，然后对各个投诉问题预先确定多个关键词，如，在出租车问题中可以确定的多个关键词为：出租车、拼客、计价器、打车、加价等词语，在通讯媒体问题中可以确定的多个关键词为：宽带、电话、联通、联通公司、拨打等词语，上述关键词为下述确定的语义集中的词语。

然后对获取的多个历史投诉文本进行训练，首先对该多个历史投诉文本中每个历史投诉文本进行上述的分词处理，以确定表征不同投诉问题的词语构成的词典，针对每个词典，根据该词典所包含的各词语的语义与该词典所表征投诉问题的关联程度的高低，将各词语划分多个语义集，并为每个语义集分配对应的权重范围，每个语义集可以包括以不同投诉问题分类下的多个关键词，为每个词语从所属语义集对应的权重范围内确定权重，其中，与投诉问题关联程度越高的语义集所分配权重范围对应权重越大。

比如，在出租车问题分类中，划分的语义集1为(出租车、拼客、计价器)，语义集2为(打车、加价)，该语义集1中的各个词语与该出租车问题的关联程度最高，可为其分配的权重范围为0.9-0.98，语义集2分配的权重范围为0.8-0.89，若计算出语义集1中的词语的权重没在0.9-0.98范围内时，很可能表示计算出的权重不准确，可能最后导致文本分类错误的问题，所以可以将该语义集中的权重进行重新分配，例如，若计算出“出租车”的权重为0.85，没在上述的0.9-0.98范围内，则将该词“出租车”重新分配新的权重，使得“出租车”的新权重处于0.9-0.98范围内，其中，作为一种方式，可以在预设权重范围内，即0.9-0.98范围内随机选取一个权重作为新权重分配给“出租车”，如选取权重为0.95分配给“出租车”，即“出租车”的新权重重新确定为0.95。

另外，还可以预先为确定的语义集中每个词语分配一个权重范围，如，在出租车问题分类中，词语“出租车”可以认为是在该类问题中会出现频率较大的一个词语，所以，可以为其分配一个较大的权重范围，如0.9-0.98，为词语“拼车”分配的权重范围为0.87-0.89。然后若计算出“出租车”的权重为0.85，则表示其权重没在预设权重范围内，很可能表示计算出的权重不准确，可能最后导致文本分类错误的问题，所以可以将“出租车”的权重进行重新分配，即将该词“出租车”重新分配新的权重，使得“出租车”的新权重处于预设权重范围内，即0.9-0.98，其中，作为一种方式，可以在预设权重范围内随机选取一个权重作为新权重分配给“出租车”，如选取权重为0.95分配给“出租车”，即“出租车”的新权重重新确定为0.95。

另外，作为一种实施方式，还可设置一计算规则，例如，若计算出“出租车”的权重没在预设权重范围内，则将当前“出租车”的权重加上一预设值，作为新权重，使得新权重处于预设权重范围内。当然，该预设值可以设置得较小，如0.1或者0.05等，若在当前“出租车”的权重加上该预设值后得到的新权重还是没有处于预设权重范围内，则还可以在新权重的基础上再加上预设值，直到最后得到的新权重处于预设权重范围内即可。

当然，作为另外一种实施方式，还可以基于各个历史投诉文本首先确定表征不同投诉问题的词语构成的词典，该词典中的各个词语此时没有分配权重，但是为各个语义集分配有对应的权重范围，所以再为每个词语从所属语义集对应的权重范围内来确定权重，如语义集1(出租车、拼客、计价器)分配的权重范围为0.9-0.98，则为该语义集中各个词语随机分配一个0.9-0.98权重范围内的权重，如为“出租车”分配权重为0.97，为“拼客”分配权重为0.95，为“计价器”分配权重为0.9。

通过上述方法，可获得语义集中各个词语的新权重，然后基于不同分类，如上述的出租车问题、通讯媒体问题等，建立多个词典，即每个分类下建立一个词典，该词典中包含多个词语及其对应的新权重。

其中，本实施例中可以采用tf-idf算法获取所述待分类投诉文本中每个待匹配词语的tf-idf值，将待匹配词语的tf-idf值作为该待匹配词语的权重。

tf-idf(termfrequency–inversedocumentfrequency)是一种用于资讯检索与资讯探勘的常用加权技术。tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

tf-idf的主要思想是：如果某个词或短语在一篇文章中出现的频率tf高，并且在其他文章中很少出现，则认为此词语具有很好的类别区分能力，适合用来分来。tf-idf实际上是tf*idf，tf词频(termfrequency)，idf逆文档频率(inversedocumentfrequency)。tf表示词条在文档d中出现的频率，idf的主要思想是：如果包含词条t的文档越少，idf越大，则说明词条t具有很好的类别区分能力。如果某一类文档c中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，按照idf公式得到的idf的值会小，就说明该词条t类别区分能力不强。所以在实际应用中，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。

具体地，获取每个词语的tf-idf值首先计算并获得待分类投诉文本中每个词语在所属待分类投诉文本中词频tf，词频tf＝某个词语在所属待分类投诉文本中出现次数/该待分类投诉文本的总词数，其计算公式为其中ni,j是该词在所属文本中出现的次数，分母表示在该文本中所以字词的出现次数之和，如词语“出租车”在所属待分类投诉文本中的出现次数为300次，该待分类投诉文本的总词数为1200，则该词语“出租车”的词频tf＝300/1200＝0.25。然后再获取每个词语的逆文档频率idf，逆文档频率idf＝log(语料库的文档总数/包含该词语的文档数+1)，其计算公式为其中|d|表示语料库中的文档总数，|{j:ti∈dj}|表示包含该词语的文档数。再基于每个词语的词频tf及逆文档频率idf，获取每个词语的tf-idf值，即词语的tf-idf值＝词频tf*逆文档频率idf。

由此可获得所述待分类投诉文本中每个待匹配词语的tf-idf值，当然，对于一个历史投诉文本，也可通过上述方法获取每个词典中各个词语的tf-idf值，将该历史投诉文本中的每个词语以tf-idf值进行降序排列，其中，作为一种方式，可取每个历史投诉文本中排在最前面的100个词作为语义集来构成词典。

可参照表1和表2，其是某个政府机构针对不同的投诉问题建立的多个词典，表1为获取的多个历史投诉文本，表2为基于不同投诉问题分类建立的多个词典。

表1

表2

然后将上述获得的多个待匹配词语与上述建立的多个词典分别进行匹配，即将待分类投诉文本进行分词处理后获得的多个待匹配词语与多个词典中的词语进行匹配。具体地，首先获取多个待匹配词语中每个待匹配词语在上述待分类投诉文本中的权重，将每个待匹配的词语作为第一词频向量，例如，对于语句“这只皮靴号码大了，那只号码合适”，将该语句进行分词后得到“这只/皮靴/号码/大了，那只/号码/合适”，计算每个词的词频，即权重，其每个词对应的权重为：这只1，皮靴1，号码2，大了1，那只1，合适1，不0，小0，更0。

然后针对每个词典，获取为该词典中每个词语分配的权重，得到该词典对应的第二词频向量，即多个第二词频向量为针对不同投诉问题分类的词频向量，每个分类获得一个第二词频向量，如上述表2所示，再按照预设相似度匹配算法，将所述第一词频向量分别与各词典分别对应的第二词频向量依次进行相似度匹配，直到确定出匹配的第二词频向量则停止继续匹配，并获取匹配结果。

进行相似度计算的方法可以采用knn(k-nearestneighbor，邻近算法)、朴素贝叶斯、支持向量机、神经网络、决策树、夹角余弦算法等方法，本实施例中，预设所述预设相似度匹配算法为夹角余弦算法，下面以夹角余弦算法为例进行说明。

采用如下方式确定所述第一词频向量与任一第二词频向量之间的夹角余弦，完成相似度匹配：

若将第一词频向量表示为a＝[a1,a2...an]，第二词频向量表示为b＝[b1,b2...bn]，夹角余弦公式为具体地，例如若计算出的上述语句“这只皮靴号码大了，那只号码合适”中每个词的权重，作为第一词频向量a＝[1,1,2,1,1,1,0,0,0]，若某一第一投诉分类下的词语为“这只/皮靴/号码/不/小，那只/更/合适”，其在词典中各自对应的权重为：这只1，皮靴1，号码1，大了0，那只1，合适1，不1，小1，更1，若在另一第二投诉分类下的词语为“这辆/宝马车/很/有型”，其在词典中各自对应的权重为：这辆1，宝马车2，很0，有型1；则对应的第二词频向量可以为b1＝[1,1,1,0,1,1,1,1,1]以及b2＝[1,2,0,1]，则根据上述的夹角余弦公式分别求得所以，可以得出匹配结果为上述根据夹角余弦公式求得的值。

步骤s130：根据所述匹配结果确定所述待分类投诉文本所属投诉类别。

在获取多个待匹配词语与词典分别进行匹配的匹配结果，如步骤s120中获取的第一词频向量与第二词频向量的相似度，其中，将获得的多个相似度进行比较，如第一词频向量a与第二词频向量b1的相似度比与第二词频向量b2的相似度高，则将待分类投诉文本分类到上述的第一投诉分类中，由此可完成对待分类投诉文本的分类。

或者，可以设置阈值，若与某词频向量得到的相似度达到设置的阈值则确定待分类投诉文本的分类属于该某词频向量对应的分类。

例如，其通过上述方法对待分类投诉文本进行分类的结果如下表3所示。

表3

可见运用上述方法建立词典，然后再用分类法对待分类投诉文本进行分类，具有较高的分类精度。

本发明第一实施例提供一种文件分类方法，首先通过将待分类投诉文本进行分词处理，获得多个待匹配词语，然后将多个待匹配词语与表征不同投诉问题的词典分别进行匹配，获取匹配结果，其中，所述表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的，然后根据匹配结果确定所述待分类投诉文本所属投诉类别，以对上述待分类投诉文本进行分类，本方法中通过预先训练获得的多个词典，使得可以将多个待匹配词语与词典匹配，从而可以获得更加准确的匹配结果，可将待分类投诉文本进行准确分类，实现了针对不同投诉问题的投诉文本有较高的分类精度，提高了文本分类的性能。

第二实施例

请参照图3，图3为本发明第二实施例提供的一种文件分类装置200的结构框图，所述装置用于执行第一实施例提供的文件分类方法，所述装置包括：

分词处理模块210，用于将待分类投诉文本进行分词处理，获得多个待匹配词语。

匹配模块220，用于将所述多个待匹配词语与表征不同投诉问题的词典分别进行匹配，获取匹配结果。

分类模块230，用于根据所述匹配结果确定所述待分类投诉文本所属投诉类别。

其中，所述表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的。

所述装置还包括：

词典获取模块，用于对所述多个历史投诉文本中每个历史投诉文本进行分词处理，确定表征不同投诉问题的词语构成的词典。

权重分配模块，用于针对每个词典，根据该词典所包含的各词语的语义与该词典所表征投诉问题的关联程度的高低，将各词语划分语义集，并为每个语义集分配对应的权重范围；以及权重确定模块，用于为每个词语从所属语义集对应的权重范围内确定权重。

其中，与投诉问题关联程度越高的语义集所分配权重范围对应权重越大。

请参照图4，所述匹配模块220包括：

第一词频向量获取单元221，用于获取所述多个待匹配词语中每个待匹配词语的在所述待分类投诉文本中的权重，将每个待匹配词语的权重作为第一词频向量。

所述第一词频向量获取单元221，还用于采用tf-idf算法获取所述待分类投诉文本中每个待匹配词语的tf-idf值，将待匹配词语的tf-idf值作为该待匹配词语的权重，将每个待匹配词语的权重作为第一词频向量。

第二词频向量获取单元222，用于针对每个词典，获取为该词典中每个词语分配的权重，得到该词典对应的第二词频向量。

匹配单元223，用于按照预设相似度匹配算法，将所述第一词频向量分别与各词典分别对应的第二词频向量依次进行相似度匹配，直到确定出匹配的第二词频向量则停止继续匹配，并获取匹配结果。

其中，所述预设相似度匹配算法为夹角余弦算法，所述匹配单元223还包括夹角余弦算法单元，用于采用如下方式确定所述第一词频向量与任一第二词频向量之间的夹角余弦，完成相似度匹配：

将所述第一词频向量表示为a＝[a1,a2...an]，第二词频向量表示为b＝[b1,b2...bn]，基于夹角余弦公式进行相似度匹配，获取匹配结果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

综上所述，本发明实施例提供一种文件分类方法、装置及电子设备，首先通过将待分类投诉文本进行分词处理，获得多个待匹配词语，然后将多个待匹配词语与表征不同投诉问题的词典分别进行匹配，获取匹配结果，其中，所述表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的，然后根据匹配结果确定所述待分类投诉文本所属投诉类别，以对上述待分类投诉文本进行分类，本方法中通过预先训练获得的多个词典，使得可以将多个待匹配词语与词典匹配，从而可以获得更加准确的匹配结果，可将待分类投诉文本进行准确分类，实现了针对不同投诉问题的投诉文本有较高的分类精度，提高了文本分类的性能。

对应于图2中的文件分类方法，本申请实施例还提供了一种电子设备，如图5所示，该设备包括存储器1000、处理器2000及存储在该存储器1000上并可在该处理器2000上运行的计算机程序，其中，上述处理器2000执行上述计算机程序时实现上述文件分类方法的步骤。

具体地，上述存储器1000和处理器2000能够为通用的存储器和处理器，这里不做具体限定，当处理器2000运行存储器1000存储的计算机程序时，能够执行上述文件分类方法，从而可以清楚直观地了解到在多个城市节点中，两个城市节点规划为组合景区数据点的概率，从而提高行业以及企业的旅游数据分析效率，进一步地可以科学而合理的对城市旅游规划进行指导，促使旅游业的发展。

对应于图1中的文件分类方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述文件分类方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述文件分类方法，从而可以清楚直观地了解到在多个城市节点中，两个城市节点规划为组合景区数据点的概率，从而提高行业以及企业的旅游数据分析效率，进一步地可以科学而合理的对城市旅游规划进行指导，促使旅游业的发展。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张斌德;夏耘海;王甲樑
技术所有人：国信优易数据有限公司
我是此专利的发明人

上一篇：用户终端、无线基站以及无线通信方法与流程
上一篇：终端装置、通信方法以及集成电路与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。