一种根据文字语意控制空调的方法及系统的制作方法_2

文档序号：9272971阅读：来源：国知局

元包括地区词库建立单元，地区相似度计算单元和地区关键字过滤单元，
[0042] 所述地区词库建立单元用于建立地区词库，所述地区词库按照不同的地点划分为 y个类别，记为（类别1，类别2,……类别y)，每个类别均记录了与所述地点相关联的若干地点词汇；
[0043] 所述地区相似度计算单元用于分别计算所述控制语句拆分成的各个词语与所述地区词库的各个类别的地区相似度，生成所述词语的地区相似度集合，所述地区相似度集合表示为（类别1 :地区相似度1，类别2 :地区相似度2,……类别y :地区相似度y);
[0044] 所述地区关键字过滤单元用于选择每个词语的地区相似度1~地区相似度y中的最大值作为该词语的第二相似度；比较所有词语的第二相似度大小，并选择第二相似度最大值所对应的地区相似度集合作为所述控制语句的地区相似度集合，将所述第二相似度最大值对应的词语作为所述控制语句的地区代表性关键词。
【附图说明】
[0045] 图1为本发明一种根据文字语意控制空调的方法的流程示意图；
[0046] 图2为本发明步骤2中生成空调运行参数值的过程的流程示意图；
[0047] 图3为本发明一种根据文字语意控制空调的系统的结构示意图。
【具体实施方式】
[0048] 以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。
[0049] 如图1所示，为本发明一种根据文字语意控制空调的方法的流程示意图，包括以下步骤：
[0050] 步骤1，通过交互界面获取用户输入的控制语句；
[0051] 步骤2,分析所述控制语句的语意，生成与所述控制语句相对应的空调运行参数值；
[0052] 步骤3,控制空调按照所述空调运行参数值运行。
[0053] 以下将以空调温度作为本实施例的空调运行参数，详细描述本发明的步骤，在本发明的其他实施例中，其他空调运行参数，例如空调湿度、空调风量等可以通过本发明的方法量化成数值的空调功能，都可以根据本发明的方法，计算出与控制语句的语意相对应的空调运行参数值，计算过程在此不分别进行详细说明。
[0054] 如图1所示，步骤1中，通过交互界面获取用户输入的控制语句；本发明中，用户可通过多种方式输入控制语句，比如通过手写输入或者语音输入的方式输入控制语句，控制语句为长度不限的文字，且控制语句的形式也多种多样，比如观看多媒体时，影片的字幕或者影像处理、即时辨识文字可以作为控制语句；微信朋友圈的文字心情可以作为控制语句；其他的，比如诗词、歌词、网络新闻、文章、用户语音文件转换的文字、即时通讯工具的文字对话、客服留言等等，均可以作为本发明的控制语句。本实施例以"我想吃芒果双皮奶"作为控制语句进行详细说明。
[0055] 如图2所示，步骤201中，将所述控制语句拆分为若干个词语，即进行中文分词。中文分词是将一个句子自动拆分为多个词语，例如控制语句"美的，中国家电行业领导者"通过中文分词后，会产生：[美的、中国、家电、行业、领导者]五个词；控制语句"创新科技美的空调"通过中文分词后，会产生：[创新、科技、美的、空调]四个词；控制语句"秋天站在门外轻轻敲我的门"通过中文分词后，会产生：[秋天、站在、门外、轻轻、敲、我的、门]七个词。中文分词常被应用于搜索引擎（Search Engine)上，通过将使用者输入的语句拆分为若干个词语，再一一比对数据库，即可返回搜索结果。中文分词方法通常包括基于字典、词库匹配的分词方法、基于词频度统计的分词方法和基于知识理解的分词方法三大类。
[0056] 第一类方法，即"基于字典、词库匹配的分词方法"，又叫机械分词方法，它按照一定策略将待分析的控制语句与一个"充分大的"机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功；根据扫描方向的不同分为正向匹配和逆向匹配，根据不同长度优先匹配的情况，分为最大（最长）匹配和最小（最短）匹配，具体可以分为最大正向匹配法、最大逆向匹配法、最少切分法、双向匹配法等等。这类中文分词方法简单且分词效率较高。
[0057] 第二类方法，即"基于词频度统计的分词方法"，是基于字和词的统计信息，如把相邻字间的信息、词频及相应的共现信息等应用于分词，由于这些信息是通过调查真实语料而取得的，因此基于统计的分词方法具有较好的实用性。
[0058] 第三类方法，即"基于知识理解的分词方法"，主要基于句法、语法分析，并结合语意分析，通过对上下文内容所提供信息的分析对词进行定界，因此需要使用大量的语言知识和信息。
[0059] 以上三种中文分词方法均可以应用到本发明中，本实施例以"基于字典、词库匹配的分词方法"中的最大正向匹配法为例来进行详细说明，但是要注意的是，本发明的保护范围并不局限于该方法。
[0060] 本实施例的最大正向匹配法包括以下步骤：
[0061] 假定分词词库中的最长词有i个汉字字符，则用被处理的控制语句的前i个字作为匹配字段，查找分词词库；
[0062] 若分词词库中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词语切分出来；如果分词词库中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理……；
[0063] 重复上述步骤，直到匹配成功，即切分出一个词或剩余字串的长度为零为止。
[0064] 本实施例中，以"我想吃芒果双皮奶"为例，假定分词词库包含有词汇"芒果"、"双皮奶"，且分词词库中最长词有5个字符，则用"我想吃芒果"作为匹配字段，在分词词库中进行查找，查找结果为没有找到，匹配失败；然后去掉匹配字段的最后一个字"果"，以剩下的"我想吃芒"作为匹配字段，在分词词库中进行查找，仍旧没有找到，匹配失败；重复上述过程，直到在分词词库中匹配到"我"，即可将"我"切分出来，对剩下的"想吃芒果双"，重复上述过程。最后可以得到分词结果为[我、想、吃、芒果、双皮奶]五个词。实际上，本实施例通过其他方法，比如基于文章字词频率统计的分词方法，也可以得到相同的分词结果。
[0065] 本发明中，"基于字典、词库匹配的分词方法"需要一个关键字词库，此关键字词库，可透过撷取网络上的文章透过统计的方式，分析词频与前后文关系，建立出高频率的新词，从而对所述关键词词库自动更新，从而使分词拆分结果更加准确。
[0066] 如图2所示，步骤202中，从所述若干个词语中选择一个作为所述控制语句的时间代表性关键词，并将所述时间代表性关键词转换为所述控制语句的语意所对应的时间点。在本实施例中，所述步骤202具体为：
[0067] 建立时间词库，所述时间词库按照不同的时间点划分为n个类别，记为（类别1，类别2,……类别n)，每个类别均记录了与所述时间点相关联的若干时间词汇；
[0068] 分别计算所述控制语句拆分成的各个词语与所述时间词库的各个类别的时间相似度，生成所述词语的时间相似度集合，所述时间相似度集合表示为（类别1 :时间相似度 1，类别2 :时间相似度2，……类别n :时间相似度n);
[0069] 选择每个词语的时间相似度1~时间相似度n中的最大值作为该词语的第一相似度；比较所有词语的第一相似度大小，并选择第一相似度最大值所对应的时间相似度集合作为所述控制语句的时间相似度集合，将所述第一相似度最大值对应的词语作为所述控制语句的时间代表性关键词。
[0070]在具体实施例中，所述不同的时间点可以为季节、节日、月份或者时刻，相对应的，所述时间词库可以是季节词库，节日词库，月份词库或者时刻词库，所述时间词库的每个类别下均记录了与所述季节相关联的若干时间词汇，词汇的数量没有限制，且词汇可通过人工建立，亦可通过新闻、网络、网页等方式选择，通常被选择的目标词汇都是与所述季节、节日、月份、时间等相关联的高频词汇。如表1所示，为本实施例的时间词库，本实施例以季节词库为例，所述季节词库根据季节不同，划分为春夏秋冬4个类别，记为（春，夏，秋，冬），所述季节词库的每个类别下均记录了与所述季节相关联的五个词汇。
[0071] 表1本实施例的季节词库
[0073] 如表1所示，本实施例的分词结果为[我、想、吃、芒果、双皮奶]五个词语，由于「芒果」具有固定产季。夏天时通过社交网络或文章，可学习到芒果这两个字的出现比例明显优于其他季节，因此可自动将「芒果」

完整全部详细技术资料下载

当前第2页1 2 3 4 5