智能机器人交互系统在投融资领域的应用

文档序号:8258493阅读:421来源:国知局
智能机器人交互系统在投融资领域的应用
【技术领域】
[0001]本发明属于智能机器人技术领域,尤其涉及一种智能机器人交互系统在投融资领域的应用。
【背景技术】
[0002]中文分词指的是将一个汉字序列切分成一个一个单独的词。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。对于所有的智能聊天机器人,简单地说,就是基于人工智能原理、通过对聊天文本进行分析后给出应答的一类程序。世界上最早的聊天机器人诞生于20世纪80年代,而由于中文对“词”划分的模糊及歧义繁多等等原因,中文聊天机器人发展得相对较慢。
[0003]现有存在的中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词语之间没有分隔,古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要,而现代汉语中双字或多字词居多,一个字不再等同于一个词。在中文里,“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。例如对随地吐痰者给予处罚”,“随地吐痰者”本身是一个词还是一个短语,不同的人会有不同的标准,同样的“海上” “酒厂”等等,即使是同一个人也可能做出不同判断,如果汉语真的要分词书写,必然会出现混乱,难度很大。
[0004]中文分词对于智能聊天机器人来说,最重要的并不是找到所有结果,因为在上千万的应答库中找到所有结果没有太多的意义,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,智能聊天机器人的分词算法不同,词库的不同都会影响应答库的返回结果。在中文分词过程中,有两大难题一直没有完全突破。
[0005]第一个问题是歧义识别:主要的歧义有两种:交集型歧义和组合型歧义,例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”。这种称为交集型歧义(交叉歧义)。像这种交集型歧义十分常见,前面举的“和服”的例子,其实就是因为交集型歧义引起的错误。“化妆和服装”可以分成“化妆和服装”或者“化妆和服装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
[0006]交集型歧义相对组合型歧义来说是还算比较容易处理,组合型歧义就必须根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
[0007]如果交集型歧义和组合型歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
[0008]第二个问题是新词识别:命名实体(人名、地名)、新词,专业术语称为未登录词。也就是那些在分词词典中没有收录,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解。句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项既不划算又巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
[0009]除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。如何解决让电脑理解句中的语义成为现阶段中文人工智能的难题。

【发明内容】

[0010]为了克服上述现有技术的不足,本发明的目的是提供一种智能机器人交互系统在投融资领域的应用,可以很好的解决中文聊天中的问题,同时利用大数据自训练学习功能不断提高应答匹配度,能很好的达成聊天客服的基本功能。
[0011]为了实现上述目的,本发明采用如下技术方案:
[0012]一种智能机器人交互系统在投融资领域的应用,其特征在于该系统的功能及业务处理步骤为:
[0013]用户发送聊天内容:用户通过招财猫手机APP发送聊天内容给聊天顾问;
[0014]敏感词过滤:服务器接受到用户发送的聊天内容,执行敏感词过滤;
[0015]智能分词:将执行完敏感词过滤后的用户聊天内容,进行分成处理;
[0016]查找应答库返回应答内容:检查当前用户是否有顾问,如果没有则查找应答库返回应答内容,如果有且当前顾问并未与该用户聊天,则查找应答库返回应答内容。
[0017]所述智能分词步骤包括分词处理系统和语义处理系统,所述分词处理系统通过短语的长短进行分词,所述语义处理系统利用树形语义容器对语义指向进行判断分析,以期达到电脑理解语义的目的。
[0018]所述语义处理系统的处理步骤具体为:最大名词的处理,定位为短语,利用中文分词确定最大名词,即为主要语义,聊天过程中配合下文带入名词;唯一语义的处理,给短语认定为单一语义,不对多语义进行判断,以第一语义为准;辅词容器的处理,对语义中的辅词进行定义,比如动词、形容词、量词等,建立树形辅词容器,比如多久、多长时间、多快时间、时间等作为时间容器,让电脑方便理解语义。
[0019]所述最大名词的处理的处理步骤中,定位的短语一般不超过20个字。
[0020]所述分词处理系统包括主分析器、词元处理子单元、词典配置管理模块,所述词元处理子单元包括主词处理、辅词处理、其他词处理,所述词典配置管理模块包括词典数据、词典加载管理、词典检索算法单元。
[0021]所述分词器选用正向迭代最细粒度切分算法和歧义分析算法。
[0022]本发明的有益效果是:采
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1