文本处理装置以及文本处理方法

文档序号：8282262阅读：569来源：国知局

文本处理装置以及文本处理方法
【专利说明】文本处理装置以及文本处理方法
[0001]本申请享有2013年10月31日前文提出的日本特许申请号2013 — 227557的优先权利益，并包含有其全部内容。
技术领域
[0002]实施方式涉及文本处理装置以及文本处理方法。
【背景技术】
[0003]以往，作为使对文本的搜索式访问成为可能的技术，已知有利用被称作大纲编辑器(Outliner)的软件来处理文本。大纲编辑器是显示文本的框架构造、若用户进而选择该构造的任意要素则能够将文本的相应之处打开的软件的通称。
[0004]但是，以往的大纲编辑器一般情况下将对文本预先赋予的章或节等逻辑构造作为文本的框架构造来对待。因此，很难对不具备逻辑构造的文本进行处理，需要改善。

【发明内容】

[0005]实施方式的文本处理装置具备生成部和列表显示部。生成部对所输入的文本进行解析，生成话题构造信息，该话题构造信息包括:表示所述文本中包含的多个话题间的从属关系的信息、以及表示所述文本中包含的多个话题间的前后关系的信息。列表显示部基于所述话题构造信息，使显示器显示将多个节点按照与各节点对应的话题间的前后关系进行排列而成的话题构造列表，该多个节点分别与所述文本中包含的话题对应，且各节点具有表示与该节点对应的话题和其他话题之间的从属关系的标签。
【附图说明】
[0006]图1是表示作为文本处理装置的输出而显示在显示器上的显示画面的画面结构例的图。
[0007]图2 — I是表示样本文本的图。
[0008]图2 — 2是表示样本文本的图。
[0009]图3是表示文本处理装置的整体结构的框图。
[0010]图4是表示话题构造模型的一例的图。
[0011]图5是表示话题构造模型生成器的处理顺序的一例的流程图。
[0012]图6是表示基于话题构造模型生成的话题构造列表的初始状态的图。
[0013]图7是表示初始状态生成部的处理顺序的一例的流程图。
[0014]图8是表示对任意的GUI节点进行了打开操作的情况下的话题构造操作部的处理顺序的一例的流程图。
[0015]图9是表示对任意的⑶I节点进行了关闭操作的情况下的话题构造操作部的处理顺序的一例的流程图。
[0016]图10是表示进行了 GUI节点的开闭操作的情况下的大纲窗口的画面迁移的一例的图。
[0017]图11是表示概括请求部的处理顺序的一例的流程图。
[0018]图12是表示对变更在正文窗口中显示的文本的概括率的操作方法进行了总结的图。
[0019]图13是表示基于最密优先算法进行适用范围调整的情况的适用范围调整部的处理顺序的一例的流程图。
[0020]图14是表示基于加权合成算法进行适用范围调整的情况的适用范围调整部的处理顺序的一例的流程图。
[0021]图15是表示进行语句删除处理的情况的重要语句选择部的处理顺序的一例的流程图。
[0022]图16是表示进行语句追加处理的情况的重要语句选择部的处理顺序的一例的流程图。
[0023]图17是表示计算语句的分数的情况的重要语句选择部的处理顺序的一例的流程图。
[0024]图18是表示话题构造模型生成器的处理顺序的变形例的流程图。
[0025]图19是说明文本处理装置的硬件结构的图。
【具体实施方式】
[0026]以下，参照附图对实施方式的文本处理装置、文本处理方法以及程序进行详细说明。以下所示的实施方式是主要以对呼叫中心(call center)的通话应对、会议经过等进行了记录的文本为处理对象的例子。
[0027]在呼叫中心的通话应对中，有时与相同顾客的通话应对有多次。该情况下，应对相同顾客的操作人员不一定总是相同的，但是顾客有时会说“上次你告诉我的关于奶过敏的事儿，..?”等，基于之前的通话内容的文脉来提问。该情况下，在呼叫中心侧，从顾客满意度的观点出发，要求对这样的提问也能够适当地进行应答。因此，应对顾客的操作人员需要预先理解此前的应对内容。
[0028]作为与这种状况类似的例子，例如有企业的开发例会等分多次来召开的会议。在第二次以后的会议中，多数情况下是在前次为止的会议中讨论过的议题的内容的基础上来展开议题。但是，会存在没有参加此前的会议的人、虽然参加了会议但是无法清楚地想起议题的内容的人等。为了帮助这些人，需要让这些人预先理解此前的会议中讨论过的议题的内容。
[0029]针对这些课题，可以想到如下对策:将过去的交往过程文本化来进行记录(以下，将该记录称作过去日志。)，在呼叫中心的通话应对中和会议中，提示过去日志，以使操作人员或会议参加者能够随时阅读过去日志。该情况下，过去日志优选为，操作人员或会议参加者能够快速地理解必要的“要点”，以避免妨碍通话应对或会议的进行。
[0030]但是，关于哪里是要点，根据通话应对及会议进行的展开、需要信息的操作人员或会议参加者的知识等而不同，无法预先预测必要的要点。因此，期待有需要信息的操作人员或会议参加者自身能够迅速从过去日志中找到必要的要点并能够快速地理解其内容的构架。
[0031]在本实施方式中提出基于使用了文本的话题构造的大纲编辑器来进行的解决方法。大纲编辑器是显示文本的框架构造、若用户进而选择其构造的任意要素则能够打开文本的相应之处的软件的通称。作为现有软件的例子，有Omn1utliner、Microsoft (R) Word等。但是，这些大纲编辑器基于对文本预先赋予的章或节等逻辑构造来进行处理。对此，在实施方式中，将呼叫中心或会议等中的人的交往过程文本化了的东西作为处理的对象，因此，不存在章或节等被预先赋予的逻辑构造。取而代之，使用文本的话题构造。
[0032]话题构造是无法用眼睛看到的。在本实施方式中提出一种文本处理装置，具备:话题构造模型，根据基于假设而检测到的话题间的从属关系和前后关系而构成；以及大纲编辑器，使用了该话题构造模型。
[0033]首先，参照图1对作为本实施方式的文本处理装置的输出而显示在显示器上的显示画面的一例进行说明。
[0034]图1是表示作为本实施方式的文本处理装置的输出而在显示器上显示的显示画面的画面结构例的图。图1(a)中示例的显示画面100由大纲窗口 101和正文窗口 102构成。大纲窗口 101显示对所输入的文本的话题构造进行表示的话题构造列表，进而提供能够对文本的正文进行搜索式访问的交互式的操作。正文窗口 102显示所输入的文本的正文。使用该正文窗口 102，能够显示文本的概括。
[0035]例如，如图1(a)所示，若选择用于表示文本的话题构造而显示在大纲窗口 101中的话题构造列表的项目群(以下，将这些各项目称作GUI节点。)中的任意一个，则与所选择的GUI节点(图1 (a)的105)所表示的话题有关的文本的正文被显示在正文窗口 102中。此时，如果与该GUI节点所表示的话题有关的文本的正文的文量比正文窗口 102的尺寸大，则文本的正文被概括后显示在正文窗口 102中。图1(a)的正文窗口 102示出了对与所输入的文本的[过敏]有关的语句当中、不重要的语句被除去后的概括文本进行了显示的例子。此外,在正文窗口 102显示的文本的概括率通过例如在正文窗口 102的右上设置的“ + ”按钮103、“一”按钮104的操作或鼠标轮操作等而能够变更。
[0036]假定图1(a)所示的显示画面100使用能够同时显示大纲窗口 101和正文窗口 102这2个窗口的尺寸的显示器。但是，有时也使用例如便携终端的显示器那样、由于画面尺寸较小而仅能确保I个窗口区域那样的小型显示器。在这样的情况下，可以想到设为如图1(b)中示例的显示画面200那样在话题构造列表的⑶I节点之间内嵌地显示文本的正文那样的画面结构。但是，以下，作为采用了图1(a)中示例的显示画面100的画面结构例的情况来继续说明。
[0037]图2 — I以及图2-2是表示作为本实施方式的输入例而使用的样本文本的图。该样本文本以呼叫中心中的操作人员与顾客之间的交往过程为题材。图的左端所示的数字是表示在文本内各个语句出现的顺序的行号。在该样本文本的例子中示出了:将能够作为操作人员或顾客进行的一次发言来把握的文本范围作为I行，按照行号I?44的顺序对话持续。另外，文本中的行的定义不限于该例。例如，如果是有段落划分的文本，则也可以将包含在I个段落中的文本范围作为I行。此外，如果是包含表示行的结束的符号的文本，则也可以将由该符号划分的文本范围来作为I行。
[0038]此外，在图2 -1以及图2 — 2所示的样本文本中，在行号的右侧附加的A、B表示该发言的说出者，A表示是操作人员的发言，B表示是顾客的发言。以下，一边适当地利用该图2 — I以及图2 — 2所示的样本文本来示例具体例一边对本实施方式的文本处理装置进行说明。
[0039]图3是表示本实施方式的文本处理装置的整体结构的框图。本实施方式的文本处理装置如图3所示，具备话题构造模型生成器10 (生成部)、话题大纲编辑器20 (列表显示部)、交互式概括器30 (概括显示部)。话题大纲编辑器20是与图1(a)所示例的显示画面100中的大纲窗口 101对应的处理模块。交互式概括器30是与图1(a)所示例的显示画面100中的正文窗口 102对应的处理模块。话题构造模型生成器10是用于生成话题大纲编辑器20中的处理以及交互式概括器30中的处理所使用的话题构造模型M(话题构造信息)的处理模块。
[0040]话题构造模型生成器10对所输入的文本T进行解析来生成话题构造模型M。
[0041 ] 话题构造模型M是为了即使不阅读文本T整体也能够容易地理解文本T所意思的话题的构造而导入的模型。本实施方式的话题构造模型M特别重视的是能够知晓话题间的从属关系和话题间的前后关系。所谓话题间的从属关系，是指某个话题是另外某个话题的一部分这样的关系。所谓话题间的前后关系，是表示什么样的话题以什么样的顺序来出现的信息。
[0042]话题间的从属关系对于文本T的高效跳读是有效的。这是因为，在由话题间的从属关系向用户示出话题Y为话题X的一部分时，用户在判断出对话题X没有兴趣时，就能够确定也没有必要阅读与话题Y有关的描述。此外，话题间的从属关系对于理解话题产生的理由是有效的。这是因为，在由话题间的从属关系向用户示出话题Y是话题X的一部分时，用户能够理解到话题Y是从话题X派生出来的。如果能理解话题产生的理由，那么通过大纲编辑器等从中途阅读文本T的情况下也能够容易地理解文脉。
[0043]话题间的前后关系对于掌握文本T中的话题的走向是有效的。一般而言，即使是不像从属关系那样具有明确关系的独立的话题彼此之间，也会互相有微弱影响，制造走向。通过表示话题间的前后关系，使得用户能够感觉到该话题的走向。这也是在通过大纲编辑器等从中途阅读文本T的情况下，有助于用户理解文脉。
[0044]在本实施方式中，如以下那样定义实际的文本T中的话题间的从属关系和前后关系O
[0045]首先，将文本T中出现的事物分别设为“话题”，将表示话题的事物的字符串(主要为单词，但也可以是具有多个单词的短语或语句)设为“话题语”。在不同的字符串表示相同的事物的情况下，这些不同的字符串为处于共参照关系的话题语。其中，将具有最简明的表达方式的话题语设为与该话题对应的“话题名”。另外

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：浜田伸一郎;清水步;加纳敏行;田中史郎;多田知存;
技术所有人：株式会社东芝;东芝解决方案株式会社;
我是此专利的发明人

上一篇：一种计算机拆分汉语句子的方法
上一篇：信息对象的标题修正方法及装置和推送信息对象的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。