基于社区隶属度的文本主题可视化方法、装置与流程

文档序号:19738253发布日期:2020-01-18 04:48阅读:564来源:国知局
基于社区隶属度的文本主题可视化方法、装置与流程

本申请涉及计算机技术领域,具体而言,本申请涉及一种基于社区隶属度的文本主题可视化方法、装置。



背景技术:

随着论文、专利等科技数据呈现爆发性增长,人工从科技数据中获取主题信息变得困难。如何自动化地从科研数据中获取主题信息成为了一项越来越重要的问题。

现有技术中在获取主题词信息时,通常对主题词进行聚类,基于聚类结果对主题词进行可视化展示,但是目前对主题词的可视化展示只能够体现出主题词之间的相似度,不能够体现出聚类后主题词对社区的重要性,导致对主题词的可视化展示效果差,无法满足用户的使用需求。



技术实现要素:

本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下:

第一方面,本申请实施例提供了一种基于社区隶属度的文本主题可视化方法,该方法包括:

获取待处理文本的主题词以及主题词的共现信息;

确定主题词的社区划分结果;

基于共现信息以及社区划分结果,确定各主题词的社区隶属度;

基于共现信息以及各社区隶属度对主题词进行展示。

第二方面,本申请实施例提供了一种基于社区隶属度的文本主题可视化装置,该装置包括:

共现信息获取模块,用于获取待处理文本的主题词以及主题词的共现信息;

社区划分结果确定模块,用于确定主题词的社区划分结果;

社区隶属度确定模块,用于基于共现信息以及社区划分结果,确定各主题词的社区隶属度;

展示模块,用于基于共现信息以及各社区隶属度对主题词进行展示。

第三方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器和存储器;

存储器,用于存储操作指令;

处理器,用于通过调用操作指令,执行如本申请的第一方面所示的文本主题词的展示方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请的第一方面所示的文本主题词的展示方法。

本申请实施例提供的技术方案带来的有益效果是:

本申请实施例提供的方案,通过获取待处理文本的主题词以及主题词的共现信息,并确定主题词的社区划分结果,基于主题词的共现信息以及社区划分结果,确定各主题词的社区隶属度,从而基于共现信息以及各社区隶属度对主题词进行展示,使得在主体词的可视化显示时,能通过体现主题词的社区隶属度,来体现主题词对社区的重要性,提高了主题词的可视化展示效果,能够满足用户的使用需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种基于社区隶属度的文本主题可视化方法的流程示意图;

图2中示出了本申请实施例提供的一种实施方式的流程示意图;

图3为本申请实施例提供的一种基于社区隶属度的文本主题可视化装置的结构示意图;

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

目前,常通过一些可视化软件进行主题词的可视化展示,如vosviewer、ucinet、gephi等。以vosviewer为例,在对论文进行处理时,vosviewer通过对论文的题录数据进行分析,抽取论文的关键词形成共现矩阵,然后使用相似性视觉(visualofsimilarity,vos)算法进行主题词的布局,通过smartlocal-moving(slm)算法进行主题词的聚类,可以生成主题可视化图以及主题热力图等。

现有技术中,在通过展示图对主题词的可视化展示时,展示图(如主题可视化图、主题热力图等)只能够展示主题词之间的相似度,无法对聚类后主题词对社区的重要性进行展示,并且在主题词规模较大时,展示的结果中距离相近的主题词会被覆盖,有可能会导致一些对社区重要的主题词得不到凸显,影响用户的使用。

另外,目前用于对主题词进行可视化展示的软件,仅支持输入指定格式的输入文件,如vosviewer的输入只能是科学引文索引(webofscience)的题录数据或者由其他文件导入的pajek数据等。如ucinet支持共现矩阵的导入,但也无法直接由文本数据来提取主题词的共现信息。这便可能会导致一些无法满足指定格式的科学数据,无法通过上述的软件进行可视化展示。

本申请实施例提供的基于社区隶属度的文本主题可视化方法、装置,旨在解决现有技术的如上技术问题中的至少一个。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

图1示出了本申请实施例提供的一种基于社区隶属度的文本主题可视化方法的流程示意图,如图1所示,该方法主要可以包括:

步骤s110:获取待处理文本的主题词以及主题词的共现信息;

本申请实施例中,待处理文本可以包括但是不限于科技论文摘要、科技论文全文、专利文件的说明书摘要、专利文件的权利要求书等。

待处理文本可以为文本格式,相较于现有技术中所指定的输入文件的格式,更方便用户的使用。

本申请实施例中,对待处理文本进行处理以获取主题词以及主题词的共现信息,可以采用包括但是不限于分词、过滤停用词、词性识别以及术语识别等自然语言处理手段。

本申请实施例中,获得到待处理文本的主题词后,可以获取主题词的共现信息,共现信息可以包括共现矩阵,可以将获取倒的待处理文本的主题词集合,转化为主题词的共现矩阵。

步骤s120:确定主题词的社区划分结果。

本申请实施例中,在获取到待处理文本的主题词后,可以基于聚类算法对待处理文本的主题词集合进行聚类操作,进而对聚类结果进行社区划分,得到社区划分结果。

步骤s130:基于共现信息以及社区划分结果,确定各主题词的社区隶属度。

本申请实施例中,主题词的社区隶属度能够表示主题词对社区的重要性。基于主题词的共现信息以及社区划分结果,能够确定出主题词的社区隶属度。

步骤s140:基于共现信息以及各社区隶属度对主题词进行展示。

本申请实施例中,基于主题词的共现信息以及主题词的社区隶属度对主题词进行展示,使得在对主体词进行可视化展示时,能够通过体现主题词的社区隶属度,来体现后主题词对社区的重要性。通过对主题词的展示,实现待处理文本主题的可视化,能够使用户简洁直观的了解到待处理文本的主题。

本申请实施例提供的方法,通过获取待处理文本的主题词以及主题词的共现信息,并确定主题词的社区划分结果,基于主题词的共现信息以及社区划分结果,确定各主题词的社区隶属度,从而基于共现信息以及各社区隶属度对主题词进行展示,使得在主体词的可视化显示时,能通过体现主题词的社区隶属度,来体现主题词对社区的重要性,提高了主题词的可视化展示效果,能够满足用户的使用需求。

本申请实施例的一种可选方式中,共现信息包括主题词的共现矩阵,基于共现信息以及社区划分结果,确定各主题词的社区隶属度,包括:

针对任一主题词,基于共现矩阵以及社区划分结果,确定所有主题词的第一模块度,以及除任一主题词外的其他主题词的第二模块度;

基于第一模块度以及第二模块度,确定任一主题词的社区隶属度。

本申请实施例中,模块度值的大小可以用来衡量社区划分质量。在确定任一主题词的社区隶属度时,可以对所有主题词构成的主题词集合进行第一社区划分,并计算第一模块度,第一模块度用于表征第一社区划分的质量。对除上述任一主题词外的其他主题词构成的主题词集合进行第二社区划分,并计算第二模块度,第二模块度用于表征第二社区划分的质量。从而可以基于第一模块度与第二模块度,确定出上述任一主题词的社区隶属度。

本申请实施例的一种可选方式中,基于共现矩阵以及社区划分结果,确定所有主题词的第一模块度,包括:

基于以下公式确定第一模块度:

上述公式(1)中,q(c1,…cn)表示第一模块度,1…n表示各主题词,i、j分别表示主题词中任一个,m表示所有主题词在待处理文本出现的总频次,c1,…cn表示社区划分结果中主题词被划分到的各社区,ci表示主题词i被划分到的社区,cj表示主题词j被划分到的社区,sij表示主题词i与主题词j之间的关联强度。γ为预设置的调和参数,用户可以通过设置γ的值,来调节生成社区的数量,γ的值越大,生成社区的数量越大。δ(ci,cj)为预定义的函数,在ci=cj时,δ(ci,cj)=1,在ci≠cj时,δ(ci,cj)=0;

主题词i与主题词j之间的关联强度sij基于以下公式确定:

上述公式(2)中,wi表示主题词i在待处理文本出现的总频次,其中wj表示主题词j在待处理文本出现的总频次,aij表示主题词i与主题词j在待处理文本共现的频次。

本申请实施例中,可以基于louvain社区发现算法进行主题词的聚类,具体而言,可以通过上述公式(2)计算出主题词i与主题词j之间的关联强度sij,通过上述公式(1)确定第一模块度。

在实际使用中,可以通过q(c1,…,cd-1,cd+1,…,cn)表示第二模块度,针对1…d-1,d+1…n的各主题词,采用与第一模块度相同的计算方式,可以确定出第二模块度。

本申请实施例的一种可选方式中,基于第一模块度以及第二模块度,确定任一主题词的社区隶属度,包括:

基于以下公式确定任一主题词的社区隶属度:

δqd=q(c1,…cn)-q(c1,…,cd-1,cd+1,…,cn)(3)

上述公式(3)中,d表示任一主题词,δqd表示任一主题词的社区隶属度,q(c1,…,cd-1,cd+1,…,cn)表示除任一主题词外的其他主题词的第二模块度。

本申请实施例中,可以根据可以通过上述公式(3)来计算上述任一主题词的社区隶属度。由于第一模块度用于表征所有主题词构成的主题词集合进行的第一社区划分的质量,第二模块度用于表征除上述任一主题词外的其他主题词构成的主题词集合的第二社区划分的质量,将第一模块度与第二模块度做差,可以确定出上述任一主题词对社区划分的重要程度,即社区隶属度。

本申请实施例的一种可选方式中,共现信息包括共现矩阵,基于共现信息以及各社区隶属度对主题词进行展示,包括:

基于相似性视觉vos算法,对共现矩阵进行布局优化;

基于优化后的共现矩阵以及各社区隶属度对主题词进行展示。

本申请实施例中,可以基于相似性视觉vos算法,对共现矩阵进行布局优化。

在实际使用中,可以以下公式定义全局距离:

e(x;s)=∑i<jsij||xi-xj||2(4)

上述公式(4)中,e(x;s)表示全局距离,||xi-xj||表示主题词i与主题词j之间的欧式距离。

基于vos算法,通过最小化主题词的全局距离,可以实现对共现矩阵的布局优化。

具体的布局优化过程可以为:若主题词有c个,可以首先随机初始化c个点的坐标(即c×2维矩阵),然后对c×2维矩阵中的每一个点分别根据e(x;s)求偏导,确定出偏导方向,而后根据原坐标在偏导方向上进行移动预设距离,在完成对c×2维矩阵中的每一个点的移动后,对移动后的c×2维矩阵进行等比例的放大,而后重复进行沿偏导方向移动预设距离以及等比例的放大操作预设次数,结束调整。可以认为结束调整后得到的c×2维矩阵即为最小化主题词的全局距离后的矩阵,即共现矩阵的布局优化结果。

重复进行沿偏导方向移动时,每次移动的预设距离可以相同也可以不同,每次进行放大操作的比例可以相同也可以不同,均可以根据实际需要进行设置。在进行放大过程时,c×2维矩阵中各个点,均需要服从以下约束条件:

通过上述公式(5),对c×2维矩阵进行约束,使得c×2维矩阵中各点之间的平均距离为1,以避免各点的坐标过于接近,导致各点在展示时考的过近。

基于优化的后共现矩阵以及各主题词的社区隶属度,对主题词进行可视化展示,具体而言,可以在展示图中的预设区间,设定可显示的主题词对应点的社区隶属度阈值,当主题词的社区隶属度低于社区隶属度阈值时,则不会被显示,这时可以将社区隶属度较高的主题词,即对社区重要性较高的主题词进行显示。预设区间以及社区隶属度阈值均可以实际需要进行调整。

echarts是百度开源的一款动态可交互的数据可视化工具。pyecharts是一个基于python生成echarts图表的类库,在实际使用中,可直接在python程序渲染出html图表。具体而言,可以利用布局优化后共现矩阵制可视化图表,并且由于echarts图表的可交互特性,用户可以在echarts图表的前端通过调整社区隶属度阈值来控制的图中词的多少,使主题词的展示图的显示更友好直观。

图2中示出了本申请实施例提供的一种实施方式的流程示意图,如图2所示,文本即为待处理文本,文本预处理即对待处理文本进行处理获取待处理文本的主题词以及主题词的共现信息。本例中主题词的共现信息为主题词的共现矩阵。vos即基于vos算法对主题词的共现矩阵进行布局优化。louvain即louvain社区发现算法,基于louvain社区发现算法计算各主题词的社区隶属度。主体词过滤,即通过设置社区隶属度阈值选择社区隶属度高于社区隶属度阈值的主题词进行展示。pyecharts可视化即通过pyecharts进行主题词的展示。

基于与图1中所示的方法相同的原理,图3示出了本申请实施例提供的一种基于社区隶属度的文本主题可视化装置的结构示意图,如图3所示,该文本主题可视化装置20可以包括:

共现信息获取模块210,用于获取待处理文本的主题词以及主题词的共现信息;

社区划分结果确定模块220,用于确定主题词的社区划分结果;

社区隶属度确定模块230,用于基于共现信息以及社区划分结果,确定各主题词的社区隶属度;

展示模块240,用于基于共现信息以及各社区隶属度对主题词进行展示。

本申请实施例提供的装置,通过获取待处理文本的主题词以及主题词的共现信息,并确定主题词的社区划分结果,基于主题词的共现信息以及社区划分结果,确定各主题词的社区隶属度,从而基于共现信息以及各社区隶属度对主题词进行展示,使得在主体词的可视化显示时,能通过体现主题词的社区隶属度,来体现主题词对社区的重要性,提高了主题词的可视化展示效果,能够满足用户的使用需求。

可选地,共现信息包括主题词的共现矩阵,社区隶属度确定模块具体用于:

针对任一主题词,基于共现矩阵以及社区划分结果,确定所有主题词的第一模块度,以及除任一主题词外的其他主题词的第二模块度;

基于第一模块度以及第二模块度,确定任一主题词的社区隶属度。

可选地,社区隶属度确定模块在基于共现矩阵以及社区划分结果,确定所有主题词的第一模块度时,具体用于:

基于以下公式确定第一模块度:

其中,q(c1,…cn)表示第一模块度,1…n表示各主题词,i、j分别表示主题词中任一个,m表示所有主题词在待处理文本出现的总频次,c1,…cn表示社区划分结果中主题词被划分到的各社区,ci表示主题词i被划分到的社区,cj表示主题词j被划分到的社区,sij表示主题词i与主题词j之间的关联强度,γ为预设置的调和参数,δ(ci,cj)在ci=cj时等于1,在ci≠cj时等于0;

主题词i与主题词j之间的关联强度sij基于以下公式确定:

其中,wi表示主题词i在待处理文本出现的总频次,其中wj表示主题词j在待处理文本出现的总频次,aij表示主题词i与主题词j在待处理文本共现的频次。

可选地,社区隶属度确定模块在基于第一模块度以及第二模块度,确定任一主题词的社区隶属度时,具体用于:

基于以下公式确定任一主题词的社区隶属度:

δqd=q(c1,…cn)-q(c1,…,cd-1,cd+1,…,cn)

其中,d表示任一主题词,δqd表示任一主题词的社区隶属度,q(c1,…,cd-1,cd+1,…,cn)表示除任一主题词外的其他主题词的第二模块度。

可选地,共现信息包括共现矩阵,展示模块用于:

基于相似性视觉vos算法,对共现矩阵进行布局优化;

基于优化后的共现矩阵以及各社区隶属度对主题词进行展示。

可以理解的是,本实施例中的基于社区隶属度的文本主题可视化装置的上述各模块具有实现图1中所示的实施例中的文基于社区隶属度的文本主题可视化方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述基于社区隶属度的文本主题可视化装置的各模块的功能描述具体可以参见图1中所示实施例中的基于社区隶属度的文本主题可视化方法的对应描述,在此不再赘述。

本申请实施例提供了一种电子设备,包括处理器和存储器;

存储器,用于存储操作指令;

处理器,用于通过调用操作指令,执行本申请任一实施方式中所提供的基于社区隶属度的文本主题可视化方法。

作为一个示例,图4示出了本申请实施例所适用的一种电子设备的结构示意图,如图4所示,该电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选的,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。

其中,处理器2001应用于本申请实施例中,用于实现上述方法实施例所示的方法。收发器2004可以包括接收机和发射机,收发器2004应用于本申请实施例中,用于执行时实现本申请实施例的电子设备与其他设备通信的功能。

处理器2001可以是cpu(centralprocessingunit,中央处理器),通用处理器,dsp(digitalsignalprocessor,数据信号处理器),asic(applicationspecificintegratedcircuit,专用集成电路),fpga(fieldprogrammablegatearray,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。

总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是pci(peripheralcomponentinterconnect,外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture,扩展工业标准结构)总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器2003可以是rom(readonlymemory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(randomaccessmemory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electricallyerasableprogrammablereadonlymemory,电可擦可编程只读存储器)、cd-rom(compactdiscreadonlymemory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

可选的,存储器2003用于存储执行本申请方案的应用程序代码,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序代码,以实现本申请任一实施方式中所提供的基于社区隶属度的文本主题可视化方法。

本申请实施例提供的电子设备,适用于上述方法任一实施例,在此不再赘述。

本申请实施例提供了一种电子设备,与现有技术相比,通过获取待处理文本的主题词以及主题词的共现信息,并确定主题词的社区划分结果,基于主题词的共现信息以及社区划分结果,确定各主题词的社区隶属度,从而基于共现信息以及各社区隶属度对主题词进行展示,使得在主体词的可视化显示时,能通过体现主题词的社区隶属度,来体现主题词对社区的重要性,提高了主题词的可视化展示效果,能够满足用户的使用需求。

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述方法实施例所示的基于社区隶属度的文本主题可视化方法。

本申请实施例提供的计算机可读存储介质,适用于上述方法任一实施例,在此不再赘述。

本申请实施例提供了一种计算机可读存储介质,与现有技术相比,通过获取待处理文本的主题词以及主题词的共现信息,并确定主题词的社区划分结果,基于主题词的共现信息以及社区划分结果,确定各主题词的社区隶属度,从而基于共现信息以及各社区隶属度对主题词进行展示,使得在主体词的可视化显示时,能通过体现主题词的社区隶属度,来体现主题词对社区的重要性,提高了主题词的可视化展示效果,能够满足用户的使用需求。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1