文章信息处理装置的制作方法

文档序号:6397256阅读:168来源:国知局
专利名称:文章信息处理装置的制作方法
技术领域
本发明涉及文章信息处理装置,特别是涉及对于来自文章的有意义的单词或词组附加表示该意义或内容的信息的技术。
背景技术
向来,作为通过对文本数据中使用的单独的单词进行统计处理来将单独的单词进行自动分类,已知有下述的一种技术,即例如对于文本数据中出现的概率为规定值以上的单词类串附加记号(token),将文本数据的单词及记号串所包含的单词及记号所混合的集合加以分割,使得文本数据的单词及记号串的生成概率为最大,将记号置换为文本数据中存在的词组,这样将单词与词组汇总进行自动分类(例如,参照专利文献1日本专利特开平10-97286号公报)。
另外,还已知有一种技术,即在压缩庞大的文章信息,或变换为通过声音容易听懂的表现形式或反过来将用口语词汇写的文章变换为容易读的书面语,或从报纸新闻中抽取人名或地名或组织名或日期时间等文章的重要构成要素(固有表现形式)的系统中,能够说明而且简洁地指定包含字符串的限制在内的重写规则及固有表现抽取规则,而不介意处理的顺序(例如,参照专利文献2日本专利特开2001-67355号公报)。在该技术中,利用翻译装置,将用户描述的重写规则的集合变换为确定段落文法的规则的集合,然后利用规则综合装置,将确定段落文法的规则的集合变换为能够综合进行高速并行处理的规则。重写执行装置接受综合后的规则及要变换的文章(原文),将变换后的结果输出。
但是,在上述的专利文献1及专利文献2所揭示的技术中,仅限于将单词及词组进行自动分类,连单词或词组所具有的意义或内容也不能表现。
另外,近年来随着通信技术及信息控制技术的发展,在不同的地点及时间,在各信息设备终端中,频繁地进行电子邮件交换及以主页浏览为代表的那样的文字信息交换。但是,文字信息中所包含的单词及词组的解读是根据人们的记忆或判断来进行的,有时由于文理或文章结构的判断错误或记忆的错误,常常在文字信息的提供者与文字信息的获得者之间,对文章的意义或内容有不同的理解。其结果存在的问题是,不能顺利地用文字信息进行意向传递。
本发明是为解决上述那样的问题而作出的,其目的在于,提供能够可靠传递文章的意义及内容的文章信息处理装置。

发明内容
本发明的文章信息处理装置,具有将普通文章输入的普通文章输入单元、存储形态要素解析及文章结构解析所使用的辞典的辞典存储单元、通过对从普通文章输入单元输入的普通文章用辞典存储单元中存储的辞典进行形态要素解析来分解为记号的形态要素解析单元、根据普通文章结构对形态要素解析单元得到的记号的词类进行解析并生成包含有意义的词汇的结构化文章的文章结构解析单元、存储标记(markup)所使用的数据的数据存储单元、对于在文章结构解析单元中所生成的结构化文章中所包含的有意义的词汇读出并附加数据存储单元中与该有意义的词汇相关存储的数据而进行标记处理的要素性质处理单元、以及将在要素性质处理单元中所生成的标记文章进行输出的标记文章输出单元。


图1所示为本发明实施形态1有关的文章信息处理装置的构成方框图。
图2所示为本发明实施形态1有关的文章信息处理装置的变形例的构成方框图。
图3所示为本发明实施形态1有关的文章信息处理装置的其他变形例的构成方框图。
图4所示为本发明实施形态1有关的文章信息处理装置的另外其他变形例的构成方框图。
图5所示为本发明实施形态1有关的文章信息处理装置的另外其他变形例的构成方框图。
图6所示为图1所示的要素性质处理单元的构成方框图。
图7所示为图6所示的要素性质处理单元中执行的处理流程图。
图8所示为图6所示的要素关系解析单元中执行的处理流程图。
图9所示为图6所示的固有名要素处理单元中执行的处理流程图。
图10所示为图6所示的位置要素处理单元中执行的处理流程图。
图11所示为图6所示的时间要素处理单元中执行的处理流程图。
图12所示为图6所示的行为要素处理单元中执行的处理流程图。
符号说明1 输入单元,1a 文本文章输入单元,1b、1c、1e 外部通信输入单元,1d 标记文章解析单元,1f 电子邮件结构解析单元,2 标记处理单元,3 输出单元,3a 外部通信输出单元,10 普通文章输入单元,11 辞典存储单元,12 形态要素解析单元,13 文章结构解析单元,14 数据存储单元,15 要素性质处理单元,16 标记文章存储单元,17 标记文章输出单元,20 要素关系解析单元,21 固有名要素处理单元,22 时间要素处理单元,23 位置要素处理单元,24 行为要素处理单元,25 数据采集单元,30 现在位置推定单元,31 时刻处理单元。
具体实施例方式
下面参照附图详细说明本发明的实施形态。另外,本文章信息处理装置例如能够在个人计算机,服务器计算机及PDA等各种信息处理装置上通过软件处理来构成。
实施形态1图1所示为本发明实施形态1有关的文章信息处理装置的构成方框图。该文章信息处理装置由输入单元1、标记处理单元2及输出单元3构成。
输入单元1可以由构筑文章信息处理装置的信息处理装置的输入装置构成。该输入单元1从各种形态的文章生成普通文章,送至标记处理单元2。标记处理单元2的详细内容将在后面叙述,生成对普通文章附加标记的标记文章,送至输出单元3。将从标记处理单元2送来的标记文章输出。
标记处理单元2由普通文章输入单元10、辞典存储单元11、形态要素解析单元12、文章结构解析单元13、数据存储单元14、要素性质处理单元15、标记文章存储单元16及标记文章输出单元17构成。
普通文章输入单元10接受从输入单元1送来的普通文章,送至形态要素解析单元12。辞典存储单元11,存储有形态要素解析单元12中的形态要素解析及文章结构解析单元13中的文章结构解析分别所使用的辞典。
形态要素解析单元12将从普通文章输入单元10接受的普通文章一面参照辞典存储单元11中存储的辞典,一面进行形态要素解析,分解成记号。这里,所谓记号是指构成最小意义单位的字符串。将该形态要素解析单元12分解成记号的数据送至文章结构解析单元13。另外,由于在该形态要素解析单元12进行的记号分解技术是众所周知的,因此在本说明书中省略其详细说明。
文章结构解析单元13将从形态要素解析单元12进行了记号分解的数据输入,一面参照辞典存储单元11中存储的词典,一面根据文章的结构来解析词类,这样进行文章结构解析,生成表示文章结构的数据。在该结构化的文章中包含位置要素,时间要素,固有名词要素,行为要素等有意义的词汇(包含单词及词组,下同)。将该文章结构解析单元13中生成的结构化文章送至要素性质处理单元15。另外,由于在该文章结构解析单元13进行的生成结构化文章的技术是众所周知的,因此在本说明书中省略其详细说明。
数据存储单元14将标记所使用的各种数据作为数据库进行存储,将在该数据存储单元14中形成的数据库,根据从输入单元1输入的数据及标记处理单元2的结果所产生的数据随时进行更新。
要素性质处理单元15对于从文章结构解析单元13送来的结构化文章所包含的有意义的词汇,执行附加表示该词汇的意义或内容的数据的标记处理,生成结构化的标记文章。将在该要素性质处理单元15中生成的标记文章送至标记文章存储单元16。
标记文章存储单元16,将从要素性质处理单元15送来的标记文章进行存储。在该标记文章存储单元16中存储的标记文章从标记文章输出单元17读出。标记文章输出单元17读出标记文章存储单元16中存储的标记文章,送至输出单元3。
这里,为了理解以上那样构成的文章信息处理装置的概貌,以产品发表所使用的预先发表(日文プレリリ一ス)的文章为例,说明从普通文章作成标记文章的过程。将预先发表原稿的一部分,设成由以下用引号包围所示的文章构成。
“「○○株式会社は、カ一ナビ業界初でJava(登錄商標)TMアプリに對應したDVDカ一ナビゲ一シヨンシステム「Aシリ一ズ」2モデルと、高性能ながら普及價格を實現したDVDカ一ナビゲ一シヨンシステム「Bシリ一ズ」2モデルの合計4モデルを4月20日より发壳しますので、お知らせします。」”(其译文是“「○○株式会社在汽车导向产业首次从4月20日销售与Java(登录商标)TM应用对应的DVD汽车导向系统[A系列]的2种型号及实现了既高性能又普及价格的DVD汽车导向系统[B系列]的2种型号的共计4种型号,特此告知。」)若该预先发表原稿从输入单元1输入至标记处理单元2,则经由普通文章输入单元10供给形态要素解析单元12。形态要素解析单元12一面参照辞典存储单元11中存储的辞典,一面执行形态要素解析,将以下用引号包围所示的进行了记号分解的数据输出。
“/「/○○株式/会社/は、/カ一ナビ/業界/初/で/Java(登錄商標)TM/アプリ/に/對應した/DVD/カ一/ナビゲ一シヨン/システム/「/A/シリ一ズ/」/2/モデル/と、/高性能/ながら/普及/价格/を/实现/した/DVD/カ一/ナビゲ一シヨン/システム/「/B/シリ一ズ/」/2/モデル/の/合計/4/モデル/を/4/月/20/日/より/发壳します/ので、/お知らせします。/」/”将从该形态要素解析单元12输出的进行了记号分解的数据,送至文章结构解析单元13。文章结构解析单元13接受来自形态要素解析单元12的数据,一面参照辞典存储单元11中存储的辞典,一面进行文章结构解析,输出下述表1表示的结构化的文章。
<文章構造/>
<主語/>○○株式会社</主語>
<接続語/>は、</接続語>
<補語/>
<主語/>「Aシリ一ズ」</主語>
<修飾語/>カ一ナビ業界初<接続語/>で</接続語>
<修飾語/>Java(登録商標)TMアプリ</修飾語>
<接続語/>に対応した</接続語>
</修飾語>
<修飾語/>DVDカ一ナビゲ一シヨンシステム</修飾語>
<修飾語/>2モデル</修飾語>
<接続語/>と、</接続語>
<主語/>「Bシリ一ズ」</主語>
<修飾語/>高性能<接続語/>ながら</接続語>
</修飾語>
<修飾語/>普及価格</修飾語>
<接続語/>を実現した</接続語>
<修飾語/>DVDカ一ナビゲ一シヨンシステム</修飾語>
<修飾語/>2モデル</修飾語>
<接続語/>の</接続語>
<主語/>合計4モデル</主語>
<接続語/>を</接続語>
<修飾語/>4月20日より</修飾語>
<述語/>発売します</述語>
<接続語/>ので</接続語>
</補語>
<述語/>お知らせします。</述語>
</文章構造>
([表1]译文<文章结构/>
<主语/>○○株式会社</主语>
<连接词/>は、</连接词>
<补语/>
<主语/><A系列></主语>
<修饰语/>汽车导向产业初<连接词/>で</连接词>
<修饰语/>Java(登录商标)TM应用</修饰词>
与<连接词/>对应的</连接词>
</修饰语>
<修饰语/>DVD汽车导向系统</修饰语>
<修饰语/>2种型号</修饰语>
<连接词/>と、</连接词>
<主语/>[B系列]</主语>
<修饰语/>高性能<连接词/>ながら</连接词>
</修饰语>
<修饰语/>普及价格</修饰语>
实现<连接词/>后的</连接词>
<修饰语/>DVD汽车导向系统</修饰语>
<修饰语/>2种型号</修饰语>
<连接词/>的</连接词>
<主语/>合计4种型号</主语>
<连接词/>を</连接词>
<修饰语/>从4月20日</修饰语>
<谓语/>销售</谓语>
<连接词/>ので</连接词>
</补语>
<谓语/>特此告知</谓语>
</文章结构>)将在该文章结构解析单元13中生成的结构化的文章送至要素性质处理单元15。要素性质处理单元15将来自文章结构解析单元13的结构化的文章输入,一面参照在数据存储单元14中形成的数据库,一面进行附加标记的处理,生成下述表2所示的对有意义的词汇进行标记处理的标记文章。将在该要素性质处理单元15中生成的标记文章,存入标记文章存储单元16中。
<文章/>
<主語/>○○株式会社<Position/>
<緯度/>+35.676666</緯度>
<経度/>+139.766666</緯度>
</Position>
<Peculiar Name/>
<名称/>○○株式会社<ふりがな/>まるまるかぶしきがいしや</ふりがな>
<Name/>MARUMARU CORPORATION</Name>
</名称>
<役員/>
<URI/>
ttp//www.marumaru.co.jp/keireki/pdf/2001/p6.pdf</URI>
</役員>
<組織/>
<URI/>
http//www.marumaru.co.jp/keireki/pdf/2001/p4.pdf</URI>
</組織>
<住所/>
<郵便番号/>100-1234</郵便番号>
<広域地方自治体/>東京都</広域地方自治体>
<地方自治体/>千代田区</地方自治体>
<町名/>丸の内二丁目</町名>
<住居表示/>2-3</住居表示>
</住所>
<連絡先/>
<URI/>http//www.marumaru.co.jp</URI>
<TEL/>03-3218-****</TEL>
<FAX/>03-3218-****</FAX>
</連絡先>
</Peculiar Name>
</主語>
<接続語/>は、</接続語>
<補語/>
<主語/>「Aシリ一ズ」<Peculiar Name/>
<URI/>http//www.marumaru.co.jp/carele/carnavi/</URI>
</Peculiar Name>
</主語>
<修飾語/>カ一ナビ業界<Peculiar Name/><Peculiar Name/>
<修飾語/>初<Times/>1</Times>
</修飾語>
<接続語/>で</接続語>
<修飾語/>Java(登録商標)TMアプリ<Peculiar Name/>
<URL/>http//www.sun.co.jp/software/java/</URL>
</Peculiar Name>
</修飾語>
<接続語/>に对応した</接続語>
</修飾語>
<修飾語/>DVDカ一ナビゲ一シヨンシステム<Peculiar Name/></Peculiar Name>
</修飾語>
<修飾語/>2モデル</修飾語>
<接続語/>と、</接続語>
<主語/>「Bシリ一ズ」<Peculiar Name/>
<URI/>http//www.marumaru.co.jp/carele/carnavi/</URI>
</Peculiar Name>
</主語>
<修飾語/>高性能<接続語/>ながら</接続語>
</修飾語>
<修飾語/>普及価格</修飾語>
<接続語/>を実現した</接続語>
<修飾語/>DVDカ一ナビゲ一シヨンシステム<Peculiar Name/></Peculiar Name>
</修飾語>
<修飾語/>2モデル</修飾語>
<接続語/>の</接続語>
<主語/>合計4モデル</主語>
<接続語/>を</接続語>
<修飾語/>4月20日より<Time/>
<From/>
<DATE/>2002-04-20</DATE>
</From>
</Time>
</修飾語>
<述語/>発売します<Act/></Act>
</述語>
<接続語/>ので</接続語>
</補語>
<述語/>お知らせします。
<Act/></Act>
</述語>
</文章>
([表2]译文<文章/>
<主语/>○○株式会社<Position/>
<纬度/>+35.676666</纬度>
<经度/>+139.766666</经度>
</Position>
<Peculiar Name/>
<名称/>○○株式会社<注假名/>まるまるかぶしきがいしや</注假名>
<Name/>MARUMARU CORPORATION</Name>
</名称>
<负责人/>
<URI/>
Http//www.marumaru.co.jp/keireki/pdf/2001/p6.pdf</URI>
</负责人>
<组织/>
<URI/>
Http//www.marumaru.co.jp/keireki/pdf/2001/p4.pdf
</URI>
</组织>
<地址/>
<邮政编码/>100-1234</邮政编码>
<大范围地方自治体/>东京都</大范围地方自治体>
<地方自治体/>千代田区</地方自治体>
<街道名/>丸の内二丁目</街道名>
<门牌号/>2-3</门牌号>
</地址>
<通讯处/>
<URI/>Http//www.marumaru.co.jp</URI>
<TEL/>03-3218-****</TEL>
<FAX/>03-3218-****</FAX>
</通讯处>
</Peculiar Name>
</主语>
<连接词/>は、</连接词>
<补语/>
<主语/>[Aシリ一ズ]<Peculiar Name/>
<URI/>http//www.marumaru.co.jp/carele/carnavi/</URI>
</Peculiar Name>
</主语>
<修饰语/>汽车导向产业<Peculiar Name/></Peculiar Name>
<修饰语/>初<Times/>1</Times>
</修饰语>
<连接词/>で</连接词>
<修饰语/>Java(登录商标)TM应用<Peauliar Name/>
<URL/>http//www.sun.co.jp/software/java/</URL>
</Peculiar Name>
</修饰语>
<连接词/>に对応した</连接词>
</修饰语>
<修饰语/>DVDカ一ナビゲ一シヨンシステム<Peculiar Name/></Peculiar Name>
</修饰语>
<修饰语/>2モデル</修饰语>
<连接词/>と、</连接词>
<主语/>[Bシリ一ズ]<Peculiar Name/>
<URI/>http//www.mammaru.co.jp/carele/carnavi/</URI>
</Peculiar Name>
</主语>
<修饰语/>高性能<连接词/>ながら</连接词>
</修饰语>
<修饰语/>普及价格</修饰语>
<连接词/>を实现した</连接词>
<修饰语/>DVDカ一ナビゲ一シヨンシステム<Peculiar Name/></Peculiar Name>
</修饰语>
<修饰语/>2モデル</修饰语>
<连接词/>の</连接词>
<主语/>合计4モデル</主语>
<连接词/>を</连接词>
<修饰语/>4月20日より<Time/>
<From/>
<DATE/>2002-04-20</DATE>
</From>
</Time>
</修饰语>
<谓语/>销售<Act/></Act>
</谓语>
<连接词/>ので</连接词>
</补语>
<谓语/>お知りせします。
<Act/></Act>
</谓语>
</文章>)通过这样在要素性质处理单元15进行标记处理,生成对文章的有意义的词汇将其意义或内容进行标记处理的标记文章。所谓有意义的单词或词组的标记,在上述表1及表2所示的例子中,是对“○○株式会社”附加了“位置”、“名称”、“负责人”、“组织”、“地址”、“联络方式”等内容,对各内容附加了说明语句或进行了元(日文メタ)定义。另外,标记的对象是别的目标时,可以将各要素作为元定义的URI(Uniform Resource Identifier,统一资源标识)进行定义。
上述的输入单元1如图2所示,可以由将上述的预先发表原稿那样的文本构成的普通文章输入的文本文章输入单元1a构成,文本文章输入单元1a可以由例如键盘或外部存储媒体等能够生成普通文本文章的各种设备构成。另外,输出单元3可以由例如显示器装置或打印机装置等能够使文章可视化的各种装置构成。在这种情况下,输出单元3也可以由图3~图5所示那样的将标记文章向外部发送的例如由通信设备组成的外部通信输出单元3a构成。
另外,输入单元1可以如图3所示,由从外部通信设备将上述的预先发表原稿那样的普通文章输入的外部通信输入单元1b构成。另外,输出单元3,可以由将标记文章向外部发送的例如通信设备组成的外部通信输出单元3a构成。
另外,输入单元1,可以如图4所示,由将例如互联网上使用的HTML(HyperText Markup Language,超文本标记言语)那样的进行标记处理的文章输入的外部通信输入单元1c;以及解析来自该外部通信输入单元1c的文章后除去标记、并生成普通文章的标记文章解析单元1d构成。另外,输出单元3,可以由将标记文章向外部发送的例如通信设备组成的外部通信输出单元3a构成。
再有,输入单元1,可以如图5所示,由将电子邮件那样的结构化文章输入的外部通信输入单元1e;以及解析从该外部通信输入单元1e输入的文章结构、并一边保持信头部分与正文部分的关联性一边变换为普通文章的电子邮件结构解析单元1f构成。另外,输出单元3,可以由将标记文章向外部发送的例如通信设备组成的外部通信输出单元3a构成。
在电子邮件的信头部分,包含表示协议类型(X-STMP-Result),发送日期(Date)、发送人(From)、收信人地址(To、CC、BCC)、标题(Subject)、邮件ID(Message-Id)、MIME类别(MIME-Version1.0)、邮件软件类别(X-Mailer)、优先级(X-Priority)、信息优先级(X-MSMail-Priority)、正文类型(Content-Type)、正文格式(Content-Transfer-Encoding)等的数据。
正文部分是信息的本体,由普通文章构成。电子邮件结构解析单元1f,参照信头部分所包含的正文类型(Content-Type),判断正文部分是否是文本,在是文本时,照原样作为普通文章输出,在不是文本时,则删除标记,变换为普通文章后输出。另外,电子邮件结构解析单元1f,将发送日期(Date)、发信人(From)、收信人地址(To、CC、BCC)、标题(Subject)等信息存入在数据存储单元14中形成的数据库中。
现在考虑朋友(山田太郎)给我(川上花子)在2002年12月25日20时00分发送「明日の午後7時に、あなたの家に行く。(译文明天晚上7点去你家。)」的信息的情况。在这种情况下,在信头部分作为发信人记载了山田太郎的电子邮件地址,作为收信人地址记载了川上花子的电子邮件地址,作为发送日期记载了2002年12月25日20时00分。
该电子邮件若用图5所示的外部通信输入单元1e来接收,在用电子邮件结构解析单元1f变为普通文章后,经由普通文章输入单元10输入至形态要素解析单元12,则形态要素解析单元12一边参照辞典存储单元11中存储的辞典,一边进行形态要素解析,输出以下用引号包围所示的进行了记号分解的数据。
“/「/明日/の/午後/7/时/に/、/あなた/の/家/に/行く/。/」”将从该形态要素解析单元12输出的进行了记号分解的数据送至文章结构解析单元13。文章结构解析单元13接受来自形态要素解析单元12的数据,一面参照辞典存储单元11中存储的辞典,一面进行文章结构解析,输出下述表3所示的结构化文章。
<文章構造/>
<主語/></主語>
<補語/>
<修飾語/>明日の午後7時に</修飾語>
<修飾語/>あなたの家に</修飾語>
</補語>
<述語/>行く。</述語>
</文章構造>
([表3]译文<文章结构/>
<主语/></主语>
<补语/>
<修饰语/>明日の午□7□に</修饰语>
<修饰语/>あなたの家に</修饰语>
</补语>
<谓语/>行く。</谓语>
</文章结构>)将在该文章结构解析单元13中生成的结构化文章送至要素性质处理单元15。要素性质处理单元15,将来自文章结构解析单元13的结构化文章输入,一面参照数据存储单元14中存储的数据,一面进行附加标记的处理,生成下述表4所示那样的对有意义的词汇进行标记处理的标记文章。将在该要素性质处理单元15中生成的标记文章存储在标记文章存储单元16中。
<文章/>
<主語/>
<Peculiar Name/>
<名称/>山田太郎<ふりがな/>やまだたろう</ふりがな>
<Name/>YAMADA TARO</Name>
</名称>
<住所/>
<郵便番号/>100-1234</郵便番号>
<広域地方自治体/>東京都</広域地方自治体>
<地方自治体/>千代田区</地方自治体>
<町名/>丸の内二丁目</町名>
<住居表示/>2-3</住居表示>
</住所>
<連絡先/>
<URI/>yamada taro@malco.com</URI>
<TEL/>03-3218-****</TEL>
<FAX/>03-3218-****</FAX>
</連絡先>
</Peculiar Name>
</主語>
<補語/>
<修飾語/>明日の午後7時に<Time/>
<At/>
<DATE/>2002-12-26T19:00Z</DATE>
</At>
</Time>
</修飾語>
<修飾語/>あなたの家に<Peculiar Name/>
<名称/>川上花子<ふりがな/>かわかみはなこ</ふりがな>
<Name/>KAWAKAMI HANAKO</Name>
</名称>
<住所/>
<郵便番号/>669-5678</郵便番号>
<広域地方自治体/>兵庫県</広域地方自治体>
<地方自治体/>三田市</地方自治体>
<町名/>三輪二丁目</町名>
<住居表示/>3-33</住居表示>
</住所>
<連絡先/>
<URI/>kawano hanako@malco.com</URI>
<TEL/>079-559-****</TEL>
<FAX/>079-559-****</FAX>
</連絡先>
</Peculiar Name>
</修飾語>
</補語>
<述語/>行く。
<Act/></Act>
</述語>
</文章>
([表4]译文<文章/>
<主语/>
<Peculiar Name/>
<名称/>山田太郎<注假名/>やまだたろう</注假名>
<Name/>YAMADA TARO</Name>
</名称>
<地址/>
<邮政编码/>100-1234</邮政编码>
<大范围地方自治体/>东京都</大范围地方自治体>
<地方自治体/>千代田区</地方自治体>
<街道名/>丸の内二丁目</街道名>
<门牌号/>2-3</门牌号>
</地址>
<通讯处/>
<URI/>yamada taro@malco.com</URI>
<TEL/>03-3218-****</TEL>
<FAX/>03-3218-****</FAX>
</通讯处>
</Peculiar Name>
</主语>
<补语/>
<修饰语/>明日の午□7□に<Times/>
<At/>
<DATE/>2002-12-26T19:00Z</DATE>
</At>
</Time>
</修饰语>
<修饰语/>あなたの家に<名称/>川上花子<注假名/>かわかみはなこ</注假名>
<Name/>KAWAKAMI HANAKO</Name>
</名称>
<地址/>
<邮政编号/>669-5678</邮政编号>
<大范围地方自治体/>兵库县</大范围地方自治体>
<地方自治体/>三田市</地方自治体>
<街道名/>三轮二丁目</街道名>
<门牌号/>3-33</门牌号>
</地址>
<通讯处/>
<URI/>kawano hanako@malco.com</URI>
<TEL/>079-559-****</TEL>
<FAX/>079-559-****</FAX>
</通讯处>
</Peculiar Name>
</修饰语>
</补语>
<谓语/>
<Act/></ Act>
</谓语>
</文章>)这样电子邮件的信息对有意义的词汇、将其意义或内容进行标记处理。所谓有意义的词汇,在上述的例子中,是作为信息中没有载明的主语附加“名称”、“地址”、“通讯处”等数据,对各数据附加说明文或元定义。另外,在标记的对象是别的目标时,可以将各要素作为元定义的URI进行定义。
下面详细说明构成上述标记处理单元2的一部分的要素性质处理单元15。
要素性质处理单元15,如图6所示,由要素关系解析单元20、固有名要素处理单元21、时间要素处理单元22、位置要素处理单元23、行为要素处理单元24及数据采集单元25构成。
现在位置推定单元30、时刻处理单元31及上述的数据存储单元14与数据采集单元25连接。数据采集单元25,从这些现在位置推定单元30、时刻处理单元31及数据存储单元14取得数据,然后提供给固有名要素处理单元21、时间要素处理单元22、位置要素处理单元23及行为要素处理单元24进行处理。
现在位置推定单元30,推定文章作者及文章所表示的位置要素的现在位置,送至要素性质处理单元15的数据采集单元25。另外,时刻处理单元31,根据现在的日期时间计算与时刻要素(见后述)相对应的日期时间,送至要素性质处理单元15的数据采集单元25。
要素性质处理单元15,对于从文章结构解析单元13送来的文章结构解析完成的文章所包含的各词汇,按照图7的流程图所示的顺序进行处理。即,在要素性质处理单元15中,首先检查从文章结构解析单元13送来的文章结构解析完成的文章所包含的词汇是否是名词要素(步骤ST10)。然后,若判断为是名词要素,则起动要素关系解析单元20,进行要素关系解析处理(步骤ST11)。
另外,在上述步骤ST10中,若判断为不是名词要素,则接下来检查上述词汇是否是动词要素(步骤ST12)。然后,若判断为是动词要素,则起动要素关系解析单元20,进行要素关系解析处理(步骤ST11)。另外,若判断为上述词汇也不是动词要素,则知道该词汇不是意义要素,结束对该词汇的处理,转移至下一个词汇的处理。接着,重复步骤ST10~ST12的处理,一直到对从文章结构解析单元13送来的文章结构解析完成的文章所包含的全部词汇的处理结束为止。
要素关系解析单元20在上述的要素性质处理单元15中判断为文章结构解析完成的文章所包含的词汇是名词要素或动词要素时,还进一步判断是位置要素、时间要素、固有名要素及动词要素等意义要素的哪一个要素,然后进行与各意义要素相对应的处理。
具体来说,要素关系解析单元20按照图8的流程图所示的顺序进行处理。即,在要素关系解析单元20中,首先检查文章结构解析完成的文章所包含的词汇是否是名词要素(步骤ST20)。然后,若判断为是名词要素,则接下来检查该名词要素是否是位置要素(步骤ST21)。位置要素中包含文章作者的位置及文章所表示的位置。这里,若判断是位置要素,则将控制转移至位置要素处理单元23,进行位置要素处理(步骤ST22)。然后,流程返回至上述的要素性质处理单元15的处理。
在上述步骤ST21中,若判断为不是位置要素,则接下来检查名词要素是否是时间要素(步骤ST23)。在时间名要素中包含文件写成的时间及文章的表示的时间。这里,若判断为是时间要素,则将控制转移至时间要素处理单元22,进行时间要素处理(步骤ST24)。然后,流程返回至上述的要素性质处理单元15的处理。
在上述步骤ST23中,若判断为不是时间要素,则接下来检查名词要素是否是固有名要素(步骤ST25)。因固有名要素中包含文章作者的固有名及文章所表示的固有名。这里,若判断为是固有名要素,则将控制转移至固有名要素处理单元21,进行固有名要素处理(步骤ST26)。然后,流程返回至上述的要素性质处理单元15的处理。在步骤ST25中,在判断为不是固有名要素时,流程也返回至上述的要素性质处理单元15的处理。
在上述步骤ST20中,若判断为文章结构解析完成的文章所包含的词汇不是名词要素,则接下来检查该词汇是否是动词要素(步骤ST27)。然后,若判断为是动词要素,则将控制转移至行为要素处理单元24,进行行为要素处理(步骤ST28)。然后,流程返回至上述的要素性质处理单元15的处理。在步骤ST27中,在判断为不是动词要素时,流程也返回至上述的要素性质处理单元15的处理。
固有名要素处理单元21对固有名要素进行标记处理。具体来说,固有名要素处理单元21按照图9的流程图所示的顺序进行处理。即,在固有名要素处理单元21中,首先采集固有名要素的标记要素数据(步骤ST30)。具体来说,固有名要素处理单元21,从数据存储单元14中形成的数据库,通过数据采集单元25,采集与该固有名要素相关的数据。
然后,进行赋予固有名要素标记(步骤ST31)。即,固有名要素处理单元21对固有名要素相对应附加用上述步骤ST30采集的数据。然后,进行内部数据与该文本的相关标记处理(步骤ST32)。具体来说,固有名要处理单元21将采集的数据作为标记收容在文章结构内。通过这样,例如如表2所示,作为「○○株式会社」的标记,其中包括用标签Peculiar Name包围的带标签的「位置(Position)」、「名称」、「负责人」、「组织」、「地址」、「通讯处」等。然后,流程返回至要素关系解析单元20的处理。
位置要素处理单元23对位置要素进行标记处理。具体来说,位置要素处理单元23,按照图10的流程图所示的顺序进行处理。即,在位置要素处理单元23中,首先采集位置要素的标记要素数据(步骤ST40)。具体来说,位置要素处理单元23从现在位置推定单元30,通过数据采集单元25,收集与该位置要素相对应的现在位置,再从数据存储单元14中形成的数据库,通过数据采集单元25,采集与该采集的现在位置相关的数据。
然后,进行赋予位置要素标记(步骤ST41)。即,位置要素处理单元23与位置要素相对应附加用上述步骤ST40采集的数据。然后,进行内部数据与该文本的相关标记处理(步骤ST42)。具体来说,位置要素处理单元23将采集的数据作为标记放置在文本文章结构内。通过这样,例如如表2所示,作为「○○株式会社」的标记,其中包括用标签Position包围的带标签的「经度」、「纬度」等数据。然后,流程返回至要素关系解析单元20的处理。
时间要素处理单元22对时间要素进行标记处理。具体来说,时间要素处理单元22按照图11的流程所示的顺序进行处理。即,在时间要素处理单元22中,首先进行时间要素的标记要素数据的采集(步骤ST50)。具体来说,时间要素处理单元22从时刻处理单元31,通过数据采集单元25,采集与该时间要素相对应的日期时间。
接着,进行赋予时间要素标记(步骤ST51)。即,时间要素处理单元22在表4所示的例子中,将在上述步骤ST50采集的日期时间与时间要素相对应。然后,进行内部数据与该文本的相关标记处理(步骤ST52)。具体来说,时间要素处理单元22将采集的日期时间作为标记收容在文本文章结构内。通过这样,例如如表4所示,作为「明日の午□7时に(译文明天晚上7点)」的标记,其中包括用标签Time包围的带标签的「2002-12-26T19:00Z」的数据。然后,流程返回至要素关系解析单元20的处理。
行为要素处理单元24对行为要素进行标记处理。具体来说,行为要素处理单元24按照图12的流程图所示的顺序进行处理。即,在行为要素处理单元24中,首先进行行为要素的标记要素数据的采集(步骤ST60)。具体来说,行为要素处理单元24通过数据采集单元25,从数据存储单元14中形成的数据库,采集与该行为相关的数据。
接着,进行赋予行为要素标记(步骤ST61)。即,行为要素处理单元24,将在上述步骤ST60采集的数据与行为要素相对应。然后,进行内部数据与该文本的相关标记处理(步骤ST62)。具体来说,行为要素处理单元24将采集的数据作为标记收容在文本文章结构内。通过这样,例如如表4所示,作为「行く(译文去)」的标记,其中包括用标签Act包围的空要素。然后,流程返回至要素关系解析单元20的处理。
如上所述,根据本实施形态1有关的文章信息处理装置,由于将各种各样的文字信息或文章分解成词汇(单词或词组),再根据词类进行分类,并根据文章结构及信息设备终端中存储的数据库,对分类的词汇施加带意义或带内容用的标记,通过这样对文章所包含的词汇自动附加意义或内容,因此对文章的收件人能够消除单词或词组在意义上的模糊不清,能够进行意义、内容的正确传递。其结果,能够用文字信息顺利地进行意向传递。
另外,进行标记处理的单词或词组的意义或内容不仅以文章来表现,还能够表现声音或图像等的目标。因而,在各种各样的文字信息及文章交换时,能够顺利进行意向传递。
另外,在上述的实施形态1中,文章信息处理装置是作为在信息处理装置上构成的装置进行说明的,当然能够由独立的硬件来构成。
发明的效果如上所述,根据本发明,由于将文字信息或文章分解成词汇,再根据词类进行分类,并根据文章结构及存储的数据,对分类的词汇施加带意义或带内容用的标记,通过这样对文章所包含的词汇自动附加意义或内容,因此对文章的收件人能够消除词汇在意义上的模糊不清,能够正确传递意义及内容。
权利要求
1.一种文章信息处理装置,其特征在于,具有将普通文章输入的普通文章输入单元、存储形态要素解析及文章结构解析使用的辞典的辞典存储单元、通过对从所述普通文章输入单元输入的普通文章用所述辞典存储单元中存储的辞典进行形态要素解析来分解为记号的形态要素解析单元、根据所述普通文章的文章结构对所述形态要素解析单元得到的记号的词类进行解析并生成包含有意义的词汇的结构化文章的文章结构解析单元、存储对标记所使用的数据的数据存储单元、对于在所述文章结构解析单元生成的结构化文章中所包含的有意义的词汇读出并附加所述数据存储单元中与该有意义的词汇相关存储的数据而进行标记处理的要素性质处理单元、以及将在所述要素性质处理单元生成的标记文章进行输出的标记文章输出单元。
2.如权利要求1所述的文章信息处理装置,其特征在于,还具有生成普通文本文章后送至普通文章输入单元的文本文章输入单元。
3.如权利要求1所述的文章信息处理装置,其特征在于,还具有从外部利用通信将普通文章输入后送至普通文章输入单元的外部通信输入单元。
4.如权利要求1所述的文章信息处理装置,其特征在于,还具有从外部利用通信将进行标记处理的文章输入的外部通信输入单元、以及将来自所述外部通信输入单元的进行标记处理的文章通过解析除去标记后生成普通文章并送至普通文章输入单元的标记文章解析单元。
5.如权利要求1所述的文章信息处理装置,其特征在于,还具有从外部利用通信将电子邮件输入的外部通信输入单元、以及将来自所述外部通信输入单元的电子邮件的结构进行解析后生成普通文章并送至标记文章输入单元的电子邮件结构解析单元。
6.如权利要求2至权利要求5中的任一项所述的文章信息处理装置,其特征在于,还具有将来自标记文章输出单元的标记文章利用通信向外部送出的外部通信输出单元。
7.如权利要求1所述的文章信息处理装置,其特征在于,要素性质处理单元,具有对在文章结构解析单元中所生成的结构化文章所包含的有意义的词汇、使其与表示意义的内容的意义要素相关的要素关系解析单元。
8.如权利要求7所述的文章信息处理装置,其特征在于,还具有对表示固有名的固有名要素附加标记的固有名要素处理单元,要素关系解析单元在意义要素是固有名要素时,起动所述固有名要素处理单元。
9.如权利要求7所述的文章信息处理装置,其特征在于,还具有对表示时刻的时间要素附加标记的时间要素处理单元,要素关系解析单元在意义要素是时间要素时,起动所述时间要素处理单元。
10.如权利要求9所述的文章信息处理装置,其特征在于,还具有计算与时间要素对应的日期时间的时刻处理单元,时间要素处理单元将来自所述时刻处理单元的日期时间作为标记附加于所述时间要素。
11.如权利要求7所述的文章信息处理装置,其特征在于,还具有对表示位置的位置要素附加标记的位置要素处理单元,要素关系解析单元在意义要素是位置要素时,起动所述位置要素处理单元。
12.如权利要求11所述的文章信息处理装置,其特征在于,还具有推定与位置要素相对应的现在位置的现在位置推定单元,位置要素处理单元将来自所述现在位置推定单元的现在位置作为标记附加于所述位置要素。
13.如权利要求7所述的文章信息处理装置,其特征在于,还具有对表示行为的行为要素附加标记的行为要素处理单元,要素关系解析单元在意义要素是行为要素时,起动所述行为要素处理单元。
全文摘要
本发明提供能够可靠传递文章的意义及内容的文章信息处理装置。具有将从普通文章输入单元(10)输入的普通文章用辞典存储单元中存储的辞典进行形态要素解析来分解为记号的形态要素解析单元(12)、对该形态要素解析单元(12)得到的记号的词类进行解析并生成包含有意义的词汇的结构化文章的文章结构解析单元(13)、对于在该文章结构解析单元(13)中所生成的结构化文章中所包含的有意义的词汇将与该词汇相关存储的数据附加于数据存储单元(14)中来进行标记处理的要素性质处理单元(15)、以及将在要素性质处理单元(15)中所生成的标记文章输出的标记文章输出单元(17)。
文档编号G06F17/28GK1604076SQ200410032449
公开日2005年4月6日 申请日期2004年4月9日 优先权日2003年4月10日
发明者三次达也 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1