一种关键词提取方法和装置与流程

文档序号:12464622阅读:248来源:国知局
一种关键词提取方法和装置与流程

本发明涉及信息处理领域,尤其涉及一种关键词提取方法和装置。



背景技术:

随着信息技术的发展,海量数据涌现在人们的生活中。日常生活中常面临一种场景,在大篇幅的文字中,可能仅有很少量的字或词是用户需要从大篇幅文字中获取的信息,这些少量的字或词称为该大篇幅文字的关键词。目前,获取关键词的方法有两种:第一,基于统计特征的方法;这种方法比较简单,但是在提取过程中会忽略出现次数不多但很重要的关键词。第二,基于词语网络的方法,这种方法对于同一文档中的出现次数较多的词和距离相近的词提取效果好,而对于出现次数不多的关键词提取不出来。



技术实现要素:

为解决现有存在的技术问题,本发明实施例提供了一种关键词提取方法和装置,解决了在关键词提取过程中对出现频率不高的关键词提取不准确的问题。

本发明实施例的技术方案是这样实现的:

第一方面,本实施例提供一种关键词提取方法,所述方法包括:

根据预设规则获取待处理的文本的分词集合,所述分词集合中至少包括第一至第N分词,N为大于1的整数;

确定所述分词集合中第i分词的网页级别PR值,所述i为大于等于1且小于等于N的整数;

确定所述分词集合中两两分词之间的编码距离;

获取第一编码距离集合,所述第一编码距离集合包括第i分词与除所述第i分词外其他分词之间的编码距离;

根据第一编码距离集合和所述第i分词对应的第i阈值确定所述第i分词的关联度;

根据所述第i分词的PR值和所述第i分词的关联度确定所述第i分词的关键度;

根据所述第一至第N分词的关键度确定所述待处理的文本的关键词。

第二方面,本实施例提供了一种关键词提取装置,所述装置包括:第一获取模块、第二获取模块、第一确定模块、第二确定模块、第三确定模块、第四确定模块和第五确定模块,

所述第一获取模块,用于根据预设规则获取待处理的文本的分词集合,所述分词集合中至少包括第一至第N分词,N为大于1的整数;

所述第一确定模块,用于确定所述分词集合中第i分词的网页级别PR值,所述i为大于等于1且小于等于N的整数;

所述第二确定模块,用于确定所述分词集合中两两分词之间的编码距离;

所述第二获取模块,用于获取第一编码距离集合,所述第一编码距离集合包括第i分词与除所述第i分词外其他分词之间的编码距离;

所述第三确定模块,用于根据第一编码距离集合和所述第i分词对应的第i阈值确定所述第i分词的关联度;

所述第四确定模块,用于根据所述第i分词的PR值和所述第i分词的关联度确定所述第i分词的关键度;

所述第五确定模块,用于根据所述第一至第N分词的关键度确定所述待处理的文本的关键词。

本发明的实施例提供的一种关键词提取方法和装置,通过对待处理文档进行分词,获得分词集合,然后根据分词集合中每一个分词的PR值的计算结果和每一个分词的语义关联度的计算结果,对分词集合中的所有分词按关键度又高到低进行排序,获取排名在预设排位前的分词作为待处理文档的关键词。

附图说明

图1为实现本发明各个实施例的一个可选的移动终端的硬件结构示意图;

图2为本发明实施例提供的移动终端能够操作的通信系统结构示意图;

图3为本发明实施例一提供的关键词提取方法流程示意图;

图4为本发明实施例三中用户配置需要留下的特定词的词性的界面示意图;

图5为本发明实施例三中用户设置基于分词的PR值在关键词提取中的权重的界面示意图;

图6为本发明实施三中用户设置需要保留的关键词的个数的界面示意图;

图7为本发明实施例四提供的关键词提取装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

现在将参考附图1来描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。

移动终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)、便携式多媒体播放器(PMP)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设终端是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。

图1为实现本发明各个实施例的移动终端的硬件结构示意。

移动终端100可以包括无线通信单元110、音频/视频(A/V)输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。图1示出了具有各种组件的移动终端,但是应理解的是,并不要求实施所有示出的组件,可以替代地实施更多或更少的组件,将在下面详细描述移动终端的元件。

无线通信单元110通常包括一个或多个组件,其允许移动终端100与无线通信系统或网络之间的无线电通信。例如,无线通信单元可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。

广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以是生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且将其发送给终端的服务器。广播信号可以包括TV广播信号、无线电广播信号、数据广播信号等等。而且,广播信号可以进一步包括与TV或无线电广播信号组合的广播信号。广播相关信息也可以经由移动通信网络提供,并且在该情况下,广播相关信息可以由移动通信模块112来接收。广播信号可以以各种形式存在,例如,其可以以数字多媒体广播(DMB)的电子节目指南(EPG)、数字视频广播手持(DVB-H)的电子服务指南(ESG)等等的形式而存在。广播接收模块111可以通过使用各种类型的广播系统接收信号广播。特别地,广播接收模块111可以通过使用诸如多媒体广播-地面(DMB-T)、数字多媒体广播-卫星(DMB-S)、数字视频广播-手持(DVB-H),前向链路媒体(MediaFLO@)的数据广播系统、地面数字广播综合服务(ISDB-T)等等的数字广播系统接收数字广播。广播接收模块111可以被构造为适合提供广播信号的各种广播系统以及上述数字广播系统。经由广播接收模块111接收的广播信号和/或广播相关信息可以存储在存储器160(或者其它类型的存储介质)中。

移动通信模块112将无线电信号发送到基站(例如,接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。

无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。

短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂TM等等。

位置信息模块115是用于检查或获取移动终端的位置信息的模块。位置信息模块115的典型示例是GPS(全球定位系统)。根据当前的技术,GPS模块115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法,从而根据经度、纬度和高度准确地计算三维当前位置信息。当前,用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外,GPS模块115能够通过实时地连续计算当前位置信息来计算速度信息。

A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风122,相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元151上。经相机121处理后的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送,可以根据移动终端的构造提供两个或更多相机121。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风122接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息,并且可以包括键盘、触摸板(例如,检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)等等。特别地,当触摸板以层的形式叠加在显示单元151上时,可以形成触摸屏。

感测单元140检测移动终端100的当前状态,(例如,移动终端100的打开或关闭状态)、移动终端100的位置、用户对于移动终端100的接触(即,触摸输入)的有无、移动终端100的取向、移动终端100的加速或减速移动和方向等等,并且生成用于控制移动终端100的操作的命令或信号。例如,当移动终端100实施为滑动型移动电话时,感测单元140可以感测该滑动型电话是打开还是关闭。另外,感测单元140能够检测电源单元190是否提供电力或者接口单元170是否与外部装置耦接。

接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元170可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。

输出单元150可以包括显示模块151和音频输出模块152等等。

显示单元151可以显示在移动终端100中处理的信息。例如,当移动终端100处于电话通话模式时,显示单元151可以显示与通话或其它通信(例如,文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时,显示单元151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。

同时,当显示模块151和触摸板以层的形式彼此叠加以形成触摸屏时,显示模块151可以用作输入装置和输出装置。显示模块151可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看,这可以称为透明显示器,典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式,移动终端100可以包括两个或更多显示单元(或其它显示装置),例如,移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。

音频输出模块152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且,音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括扬声器、蜂鸣器等等。

存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等,或者可以暂时地存储已经输出或将要输出的数据。而且,存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。

存储器160可以包括至少一种类型的存储介质,所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且,移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。

控制器180通常控制移动终端的总体操作。例如,控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外,控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块181,多媒体模块181可以构造在控制器180内,或者可以构造为与控制器180分离。控制器180可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。

电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,这样的实施方式可以在控制器180中实施。对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器160中并且由控制器180执行。

至此,已经按照其功能描述了移动终端。下面,为了简要起见,将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此,本发明能够应用于任何类型的移动终端,并且不限于滑动型移动终端。

如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。

现在将参考图2描述其中根据本发明的移动终端能够操作的通信系统。

这样的通信系统可以使用不同的空中接口和/或物理层。例如,由通信系统使用的空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信系统(UMTS)(特别地,长期演进(LTE))、全球移动通信系统(GSM)等等。作为非限制性示例,下面的描述涉及CDMA通信系统,但是这样的教导同样适用于其它类型的系统。

参考图2,CDMA无线通信系统可以包括多个移动终端100、多个基站(BS)270、基站控制器(BSC)275和移动交换中心(MSC)280。MSC280被构造为与公共电话交换网络(PSTN)290形成接口。MSC280还被构造为与可以经由回程线路耦接到基站270的BSC275形成接口。回程线路可以根据若干已知的接口中的任一种来构造,所述接口包括例如E1/T1、ATM,IP、PPP、帧中继、HDSL、ADSL或xDSL。将理解的是,如图2中所示的系统可以包括多个BSC275。

每个BS270可以服务一个或多个分区(或区域),由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS270。或者,每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS270可以被构造为支持多个频率分配,并且每个频率分配具有特定频谱(例如,1.25MHz,5MHz等等)。

分区与频率分配的交叉可以被称为CDMA信道。BS270也可以被称为基站收发器子系统(BTS)或者其它等效术语。在这样的情况下,术语"基站"可以用于笼统地表示单个BSC275和至少一个BS270。基站也可以被称为"蜂窝站"。或者,特定BS270的各分区可以被称为多个蜂窝站。

如图2中所示,广播发射器(BT)295将广播信号发送给在系统内操作的移动终端100。如图1中所示的广播接收模块111被设置在移动终端100处以接收由BT295发送的广播信号。在图2中,示出了几个全球定位系统(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。

在图2中,描绘了多个卫星300,但是理解的是,可以利用任何数目的卫星获得有用的定位信息。如图1中所示的GPS模块115通常被构造为与卫星300配合以获得想要的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外,可以使用可以跟踪移动终端的位置的其它技术。另外,至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。

作为无线通信系统的一个典型操作,BS270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS270内进行处理。获得的数据被转发给相关的BSC275。BSC提供通话资源分配和包括BS270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据路由到MSC280,其提供用于与PSTN290形成接口的额外的路由服务。类似地,PSTN290与MSC280形成接口,MSC280与BSC275形成接口,并且BSC275相应地控制BS270以将正向链路信号发送到移动终端100。

基于上述移动终端硬件结构以及通信系统,提出本发明各个实施例。

实施例一

本发明实施例实现了一种关键词提取方法,如图3所示,该方法包括:

步骤S101、根据预设规则获取待处理的文本的分词集合,所述分词集合中至少包括第一至第N分词,N为大于1的整数。

需要说明的是,本实施例中的关键词提取方法的执行主体是关键词提取装置,该关键词提取装置的实现方式可以为台式电脑、笔记本电脑、平板电脑、智能手机等终端。该关键词提取方法可以作为应用程序装置在关键词提取装置中。

使用关键词提取装置提取关键词时,首先关键词提取装置获取待处理的文本,然后将待处理的文本按照句子进行分割,获取到句子的集合。对于每个句子,进行分词和词性的标注,并过滤掉预设词性的词,保留指定词性的词,如名词、动词、形容词等,保留下来的词构成分词集合,分词集合中至少包括第一分词至第N分词,N为大于1的整数。需要说明的是,这里需要保留下来的词可以由用户预先设置,例如设置保留名词、形容词、动词。

步骤S102、确定所述分词集合中第i分词的网页级别PR值,所述i为大于等于1且小于等于N的整数。

对于分词集合中的分词,假设与第i分词相邻且在第i分词后的分词为第j分词,那么认为从第j分词至第i分词构成一条有向边,获取两两分词之间的有向边,构成一个有向边集合。

根据文本分类(TextRank)算法和公式1-1获取所述第i分词的PR值,

公式1-1中vi为所述第i分词,WS(Vi)所述第i分词的PR值,Vi为有向边集合中指向第i分词的集合,Vj为有向边集合中与所述第i分词相邻的分词,Out(Vj)为所述第i分词指向的其它分词的集合,Vi与Vj构成的有向边的权重为wji,wjk为所述分词集合中Vj与除Vi以外的分词之间有向边的权重,d为阻尼系数,d的取值范围为0到1,代表从集合中某一分词指向其他任意分词的概率。公式1-1中,j和k均为不等于i且大于等于1且小于等于N的整数,且j不等于k。

步骤S103、确定所述分词集合中两两分词之间的编码距离。

获取第i分词的PR值后,基于语义规则,计算第i分词和除第i分词以外的其它分词在分词集合中的关联度。对于分词集合中的N个分词,每个分词在《同义词词林》中有其对应的编码。《同义词词林》是梅家驹等人于1983年编纂而成,而后由哈尔滨工业大学信息检索实验室扩展的语义词典,该语义词典用于提供较多的同义词语,对创作和翻译工作起辅助作用。《同义词词林》对词进行了编码,词的编码由八位组成,八位编码中,最后一位为标志位,其中标志集为{=,#,@}。“=”表示词的意义相同;“#”表示词的类别相同,是相关词语;“@”表示词是自我独立的,与别的词不相关。八位编码中,第一位表示大类,第二位表示中类,第三、四位表示小类,第五位表示词群,第六、七位表示原子词群。所以一个词的编码可以表示为X1X2X3X4X5F,其中X1表示第一位,X2表示第二位,X3表示第三、四位,X4表示第五位,X5表示第六、七位。编码位越靠左,对词的区分度越大,编码位的权重越高,以W1、W2、W3、W4、W5、W6依次表示X1、X2、X3、X4、X5、F位的权重,那么W1>W2>W3>W4>W5>W6。为了获取第i分词和除第i分词以外的其它分词在分词集合中的关联度,首先要计算分词集合中两两分词之间的编码距离,具体步骤为:获取第i分词的编码和第j分词的编码,所述j为不等于i且大于等于1且小于等于N的整数,所述编码由预设位数的编码位组成,且根据编码位所对应的权重由高到低的顺序排列所述编码位;将所述第i分词的编码和所述第j分词的编码进行比对,得到比对结果;根据所述对比结果确定首次出现编码值不同的编码位所对应的权重;确定所述权重与预设距离的乘积为所述第i分词和所述第j分词的编码距离。

定义第i分词和第j分词的初始距离为init_d,其中初始距离的值可由用户进行配置。对于两个分词之间的编码距离的计算规则为:第一,若两个分词的八位编码相同,那么定义两个分词的距离为0;第二,从X1位至F位依次比较两个分词的编码,若两个分词的八位编码的第k位不同,那么第i分词和第j分词的距离根据公式1-2计算可得:

Dis(Ci,Cj)=Wk*init_d; (1-2);

公式1-2中Dis(Ci,Cj)表示第i分词和第j分词的编码距离,Wk表示第k位的权重。

需要说明的是,对于分词之间的编码距离的计算并不局限于使用《同义词词林》中的编码进行计算,也可使用其它可以获得分词之间编码距离的计算方法。

步骤S104、获取第一编码距离集合,所述第一编码距离集合包括第i分词与除所述第i分词外其他分词之间的编码距离。

步骤S105、根据第一编码距离集合和所述第i分词对应的第i阈值确定所述第i分词的关联度。

将满足第i阈值的第一编码距离确定为所述第i分词的第二编码距离集合;确定所述第二编码距离集合中包含所述分词的个数为所述第i分词的关联度。

在分词集合中获取与第i分词的编码距离大于第i阈值的分词的个数,这个个数即为第i分词在分词集合中的关联度。其中第i阈值可由用户设定,不限定其数值大小。例如,分词集合中共有500个词,假设第一编码距离集合中的元素为300个,而300个元素中,与第i分词的编码距离大于第i阈值的分词的个数为50个,那么第i分词的关联度即为50。

步骤S106、根据所述第i分词的PR值和所述第i分词的关联度确定所述第i分词的关键度。

将所述第i分词的PR值和所述第i分词的关联度转化成统一单位的数值;

根据以下公式1-3确定所述第i分词的关键度:

score(i)=α*PR(i)+(1-α)*S(i); (1-3);

公式1-3中的参数i表示所述分词集合中的第i分词,score(i)为第i分词的所述关键度,PR(i)为第i分词的统一单位后的PR值,S(i)为第i分词的统一单位后的关联度,α为预设权重值。

本实施例中,采用对第i分词的PR值和第i分词的关联度分别进行归一化处理的方法将第i分词的PR值和所述第i分词的关联度转化成统一单位的数值。

对于第i分词的PR值的归一化处理过程为:获取分词集合中所有分词的PR值的和,称之为分词集合PR值;那么第i分词的PR值与分词集合PR值的比值即为归一化后的第i分词的PR值。对于第i分词的关联度的归一化处理过程为:第i分词的关联度除以分词集合中的元素个数。

需要说明的是,本实施例中的归一化处理只是一种统一第i分词的PR值和第i分词的关联度的数值单位的方法,也可以使用其它可满足此目的的方法对第i分词的PR值和第i分词的关联度的数值单位进行统一,本实施例对此不做限定。

根据获取到的第i分词的PR值和第i分词的关联度即可获得第i分词的在分词集合中的关键度,可以通过公式1-4计算

score(i)=α*PR(i)+(1-α)*S(i); (1-4);

公式1-4中参数i表示所述分词集合中的第i分词,score(i)为第i分词的关键度,PR(i)为第i分词的统一单位后的PR值,S(i)为第i分词的统一单位后的关联度,α为预设权重。其中α可以根据使用情景的不同进行配置。

步骤S107、根据所述第一至第N分词的关键度确定所述待处理的文本的关键词。

根据所述第i分词的关键度对所述N个分词进行排序,得到排序结果;

根据所述排序结果和预设的数目确定所述待处理的文本的关键词。

示例性地,根据排序结果,获取排序在前二十位的分词为待处理文本的关键词。其中,获取的关键词的个数可以进行配置,例如,获取排序在前十位或排序在前十五位的分词为待处理文本的关键词,本实施例不对此进行限定。

本发明的实施例提供的一种关键词提取方法,通过对待处理文档进行分词,获得分词集合,然后根据分词集合中每一个分词的PR值的计算结果和每一个分词的语义关联度的计算结果,对分词集合中的所有分词按关键度由高到低进行排序,获取排序在预设排位前的分词作为待处理文档的关键词。

实施例二

本发明实施例实现了一种关键词提取方法,该方法包括:

步骤S201、根据预设规则获取待处理的文本的分词集合,所述分词集合中至少包括第一至第N分词,N为大于1的整数。

步骤S202、确定所述分词集合中第i分词的网页级别PR值,所述i为大于等于1且小于等于N的整数。

步骤S203、确定所述分词集合中两两分词之间的编码距离。

获取第i分词的编码和第j分词的编码,所述编码由预设位数的编码位组成,且根据编码位所对应的权重由高到低的顺序排列所述编码位;将所述第i分词的编码和所述第j分词的编码进行比对,得到比对结果;根据所述对比结果确定首次出现编码值不同的编码位所对应的权重;确定所述权重与预设距离的乘积为所述第i分词和所述第j分词的编码距离。

步骤S204、获取第一编码距离集合,所述第一编码距离集合包括第i分词与除所述第i分词外其他分词之间的编码距离。

分别计算第i分词和分词集合中除第i分词外的其它分词的编码距离,这些编码距离构成第一编码距离集合。

步骤S205、根据第一编码距离集合和所述第i分词对应的第i阈值确定所述第i分词的关联度。

将满足第i阈值的第一编码距离确定为所述第i分词的第二编码距离集合;确定所述第二编码距离集合中包含所述分词的个数为所述第i分词的关联度。

步骤S206、将所述第i分词的PR值和所述第i分词的关联度转化成统一单位的数值。

本实施例中,采用对第i分词的PR值和第i分词的关联度分别进行归一化处理的方法将第i分词的PR值和所述第i分词的关联度转化成统一单位的数值。

步骤S207、根据以下公式确定所述第i分词的关键度:

score(i)=α*PR(i)+(1-α)*S(i)

公式中的参数i表示所述分词集合中的第i分词,score(i)为第i分词的所述关键度,PR(i)为第i分词的统一单位后的PR值,S(i)为第i分词的统一单位后的关联度,α为预设权重。

步骤S208、根据所述第i分词的关键度对所述N个分词进行排序,得到排序结果。

获得分词集合中N个分词的关键度后,按N个分词的关键度由关键度由高至低对N个分词进行排序。

步骤S209、根据所述排序结果和预设的数目确定所述待处理的文本的关键词。

本发明的实施例提供的一种关键词提取方法,通过对待处理文档进行分词,获得分词集合,然后根据分词集合中每一个分词的PR值的计算结果和每一个分词的语义关联度的计算结果,对分词集合中的所有分词按关键度由高到低进行排序,获取排序在预设排位前的分词作为待处理文档的关键词。

实施例三

本发明的实施例提供的了一种关键词提取方法,结合了语义和统计特征两个维度,使得出的关键词更加准确。本实施例分为两个部分:第一,基于统计特征的方法,即使用TextRank计算分词的PR值;第二,基于语义的方法,即计算每个分词的关键度(语义得分)。需要说明的是,本实施例的执行主体是手机,用户使用手机选择待处理文本,获取待处理文本的关键词。

第一部分,使用TextRank计算分词的PR值。

步骤S301、获取待处理的文档,并将该文档分成句子。然后对每个句子都进行停止词过滤,留下特定词性的词。这里留下的特定词性的词是可以在系统中进行配置的,用户可以通过配置来更改留下的特定词的词性,通过设置词性可以使分词的结果灵活性较好。如图4所示,用户已打开了需要进行处理的文档,在“配置需要留下的特定词的词性”的对话框401中,选则名词、动词和形容词为需要保留的词,图4中对话框中标注黑点的词为用户选中的需要保留的词性。通过分词得到的是句子的集合,每个句子又是词的集合,最后获取到一个分词的集合。

步骤S302、把句子集合中的所有词映射到一个网络中。

对于分词集合中的分词,若分词B在分词A后且分词B与分词A相邻,那么认为从分词B至分词A构成一条有向边。获取分词集合中两两分词之间的有向边,构成一个有向边集合。

步骤S303、根据第i分词在有向边集合中与其它分词的关系,通过公式3-1计算第i分词的PR值。计算公式如下:

公式3-1中vi为所述第i分词,WS(Vi)所述第i分词的PR值,Vi为所述分词集合中指向所述第i分词的集合,Vj为所述分词集合中与所述第i分词相邻的分词,Out(Vj)为所述第i分词指向的其它分词的集合,Vi与Vj之间边的权重为wji,wjk为所述分词集合中Vj与除Vi以外的分词之间边的权重,d为阻尼系数,d的取值范围为0到1,代表从分词集合中某一分词指向其它任意分词的概率。

步骤S304、对分词集合中的每一个分词的PR值进行归一化处理。

例如,对于分词A的PR值的归一化处理过程为:获取分词集合中所有分词的PR值的和,称之为分词集合PR值;那么分词A的PR值与分词集合PR值的比值即为归一化后的分词A的PR值。

第二部分,计算分词集合中每一个分词的语义得分。

把第一部分中获得的所有分词放入一个集合内。计算分词集合中两两分词之间的编码距离。例如对于集合中的分词A和分词B,分别找出它们在《同义词词林》中对应的编码,然后求出这些编码的距离的最小值。当该值小于一定阈值时,则认为分词A和分词B之间有一条边。

从《同义词词林》中获取分词A和分词B的编码。《同义词词林》中每个词由八位编码表示。设分词A对应的编码集的表示方式为{Ci1,Ci2,…,Cim,…},其中{Ci1,Ci2,…,Cim,…}表示分词A在《同义词词林》中的索引位置,那么Cim={cim1,cim2,…,cim8}是分词A的编码,分词B对应的编码集的表示方式为{Cj1,Cj2,…,Cjn,…},其中{Cj1,Cj2,…,Cjn,…}表示分词B在《同义词词林》中的索引位置,那么Cjn={cjn1,cjn2,…,Cjn8}是分词B的编码。分词A和分词B编码距离的定义如公式3-2:

Dis(Wi,Wj)=min{Dis(Cim,Cjn)}; (3-2);

公式3-2中Wi和Wj分别表示分词A和分词B,Cim表示分词A的编码和Cjn表示分词B的编码。

在分词由《同义词词林》表示时,每个分词的八位编码中,第一位表示大类,第二位表示中类,第三、四位表示小类,第五位表示词群,第六、七位表示原子词群。所以一个分词可以表示为X1X2X3X4X5F,其中X1表示第一位,X2表示第二位,X3表示第三、四位,X4表示第五位,X5表示第六七位,最后一位为标志位,标志集为{=,#,@}。“=”表示两个分词的意义相同;“#”表示两个分词是同类别的,是相关词语;“@”表示两个分词是自我独立的,与别的分词不相关。其中按照X1X2X3X4X5F的编码方式,编码位越靠左,对分词的区分度越大,以W1、W2、W3、W4、W5、W6依次表示X1、X2、X3、X4、X5、F编码位的权重,那么八位编码的权重的大小关系为W1>W2>W3>W4>W5>W6。

假设分词A和分词B的位置的初始距离为init_d(可配置),则分词A和分词B的编码距离Dis(Cim,Cjn)的定义如下:

1、如果Cim=Cjn,那么Dis(Cim,Cjn)=0;

2、若按照X1X2X3X4X5F编码为从左到右的方向比较分词A和分词B时,当第k位编码位不同时,Dis(Cim,Cjn)=Wk*init_d,其中k为X1X2X3X4X5F编码位中的任意一个编码位。

对于分词A,如果与分词A的距离相近的词越多,则分词A和与其距离相近的分词会组成一个意群,这个意群越大就越能反映待处理文档的主题,那么分词A就是这篇待处理文档的关键词。通过计算分词A的关联度,并对每个分词的关联度进行归一化处理,最后得到的值S(i)就是分词A的语义得分(即关联度)。

在关键词的提取过程中,设α是基于分词的PR值在关键词提取中的权重,那么基于语义在关键词提取中的权重为1-α。则分词A的关键值为:

score(i)=α*PR(i)+(1-α)*S(i); (3-3);

公式3-3中参数i表示所述分词集合中的第i分词,score(i)为第i分词的所述关键度,PR(i)为第i分词的统一单位后的PR值,S(i)为第i分词的统一单位后的关联度,α为预设权重。其中α可以根据使用情景的不同进行配置。如图5所示,用户在“设置基于分词的PR值在关键词提取中的权重,和基于语义在关键词提取中的权重”的对话框501中设置α的值。如图5所示,设置α为0.45,则基于分词的PR值在关键词提取中的权重为0.45,基于语义在关键词提取中的权重为0.55。

最后,按每个分词的关键度由大到小进行排列,取出排名前M的词作为待处理文档的关键词。其中M是大于等于1的自然数,且M是可以进行配置的。如图6所示,在“设置需要保留的关键词的个数”的对话框601中,用户设置需要保留的关键词的个数是15个。同时对话框中提示用户填写的需要保留的关键词的个数的范围为大于1小于分词集合中元素个数的数字。

本发明的实施例提供的一种关键词提取方法,通过对待处理文档进行分词,获得分词集合,然后根据分词集合中每一个分词的PR值的计算结果和每一个分词的语义关联度的计算结果,对分词集合中的所有分词按关键度由高到低进行排序,获取排序在预设排位前的分词作为待处理文档的关键词。

实施例四

本发明实施例提供了一种关键词提取装置,图7为本发明实施例四一种关键词提取装置的组成结构示意图,如图7所示,所述装置1包括:第一获取模块11、第二获取模块12、第一确定模块21、第二确定模块22、第三确定模块23、第四确定模块24和第五确定模块25,其中:

所述第三确定模块23,用于根据第一编码距离集合和所述第i分词对应的第i阈值确定所述第i分词的关联度;

这里,所述第三确定模块23进一步包括:

第一确定单元,用于将满足第i阈值的第一编码距离确定为所述第i分词的第二编码距离集合;

第二确定单元,用于根据第二编码距离集合确定第i分词的关联度。

所述第二确定单元,还用于确定所述第二编码距离集合中包含所述分词的个数为所述第i分词的关联度。

所述第五确定模块25,用于根据所述第一至第N分词的关键度确定所述待处理的文本的关键词;

这里,所述第五确定模块25进一步包括:

排序单元,用于根据所述第i分词的关键度对所述N个分词进行排序,得到排序结果;

第四确定单元,用于根据所述排序结果和预设的数目确定所述待处理的文本的关键词。

所述第二确定模块22,用于确定所述分词集合中两两分词之间的编码距离;

这里,所述第二确定模块22,进一步包括:

第一获取单元,用于获取第i分词的编码和第j分词的编码,所述j为不等于i且大于等于1且小于等于N的整数,所述编码由预设位数的编码位组成,且根据编码位所对应的权重由高到低的顺序排列所述编码位;

对比单元,用于将所述第i分词的编码和所述第j分词的编码进行比对,得到比对结果;

第五确定单元,用于根据所述对比结果确定首次出现编码值不同的编码位所对应的权重;还用于确定所述权重与预设距离的乘积为所述第i分词和所述第j分词的编码距离。

所述第四确定模块24,用于根据所述第i分词的PR值和所述第i分词的关联度确定所述第i分词的关键度;

这里,所述第四确定模块24,进一步包括:

转化单元,用于将所述第i分词的PR值和所述第i分词的关联度转化成统一单位的数值;

第六确定单元,用于根据以下公式4-1确定所述第i分词的关键度:

score(i)=α*PR(i)+(1-α)*S(i); (4-1);

公式4-1中的参数i表示所述分词集合中的第i分词,score(i)为第i分词的所述关键度,PR(i)为第i分词的统一单位后的PR值,S(i)为第i分词的统一单位后的关联度,α为预设权重值。

本发明实施例提供的一种关键词提取装置的理解可以参考实施例一至实施例三的一种关键词提取方法的说明,本实施例在此不再赘述。

本发明的实施例提供的一种关键词提取装置,通过对待处理文档进行分词,获得分词集合,然后根据分词集合中每一个分词的PR值的计算结果和每一个分词的语义关联度的计算结果,对分词集合中的所有分词按关键度由高到低进行排序,获取排序在预设排位前的分词作为待处理文档的关键词。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所描述的方法。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1