获取符号串的方法和装置的制造方法_2

文档序号:8380531阅读:来源:国知局
第一符号串或为第一符号串的 子符号串;将第二符号串和第三符号串组成第四符号串。本发明能够根据用户输入的第一 符号串,生成第四符号串,从而能够自动生成和实现符号库中所没有的表情符号,满足用户 的个性化需求。
[0061] 实施例2
[0062] 本发明实施例提供了一种获取符号串的方法,该方法的执行主体为终端,终端可 以为移动终端、固定终端或者服务器等;该获取符号串的方法可以通过软件、硬件或者两者 的结合实现成为终端的部分或者全部。
[0063] 参见图2-1,其中,该方法包括:
[0064] 步骤201 :获取输入的信息中包含的第一符号串;
[0065] 用户输入信息给终端,终端获取用户输入的信息,并检测该信息中是否包含符号 串,如果包含,获取信息中包含的符号串,为了便于说明,将获取的符号串作为第一符号串。
[0066] 用户可以通过键盘、鼠标、触屏、手写、或光学字符识别输入、或者以文件的形式或 其他形式输入信息给终端;用户还可以通过语音输入方式输入信息给终端;通过语音输入 方式输入信息给终端时,终端接收用户输入的语音信息,通过语音识别软件将该语音信息 转换为文字信息。
[0067] 其中,符号串可以为由字母、数字、标点、拼音、假名、字形、种类、个数或长度、以 及2个或2个以上的符号组成的具有特定意义的子串及其文字、语义、图像、语音、情感 类别等属性特征中的一种或一种以上。用户输入的信息可以为任何一种自然语言,如英 语、汉语、日语、法语等,也可以使多国语言混合输入方式,此时终端可以采用UTF(Unicode Transformation Format,Unicode转换格式)编码,该UTF编码是一种能够存储多国语言 的编码方式。
[0068] 其中,获取输入的信息中包含的第一符号串的步骤可以通过以下步骤(1)和(2) 实现,包括:
[0069] (1):对输入的信息进行分词,得到输入的信息包括的分词,输入的信息包括的各 分词的位置顺序与各分词在输入的信息中的位置顺序一致;
[0070] 其中,对输入的信息进行分词时,根据输入的信息的语种,获取该语种对应的分词 方法;根据获取的分词方法对输入的信息进行分词,得到输入的信息包括的分词。例如,当 输入的输入的信息为英语时,可简单地以空格输入的输入的信息进行分词;当输入的输入 的信息为汉语时,可以使用汉语分词工具,如中科院计算所的分词工具ICTCLAS(http:// ictclas. nlpir. org/)、清华大学的分词工具 THULAC(http://nlp. csai. tsinghua. edu. cn/ thulac/)、或者斯坦福大学的分词器等;当输入的输入的信息是日语时,可以使用日语分词 工具,如 Chasen、(http://chasen. naist. jp/hiki/ChaSen/)、Mecab (http://code, google, com/p/mecab/)或 JUMAN(http://nip. ist. i. kyoto-u. ac. jp/EN/index. php ? JUMAN)等日 语形态素解析工具进行分词处理。本实施例对输入输入的信息的语种及分词方式不作具体 限定。
[0071] 例如,以输入的输入的信息为汉语,且以文件形式的输入为例进行说明;如用户输 入的输入的信息为"这件事情让她(Θ ο Θ ),非常
[0072] 利用清华大学的分词工具THULAC进行分词处理,得到分词结果;当分词结果不带 词性标注信息时,分词结果为如下分词结果1所示;当分词结构带词性标注信息时,分词结 果为如下分词结果2所示。
[0073] 分词结果1 :这件事情让她(Θ ο Θ ),非常(*'_'*) !
[0074] 分词结果 2 :这 /r 件 /q 事情 /n 让 /p 她 /r (/w Θ /w ο/χ Θ /w)/w,/w 非常 /d(/ w*/w"/w-/x"/w*/w)/w ! /w〇
[0075] 其中,清华大学分词工具THULAC的词性标注集合信息如表1所示:
[0076] 表 1
[0077]
【主权项】
1. 一种获取符号串的方法,其特征在于,所述方法包括: 获取输入的信息中包含的第一符号串; 根据第二符号串生成与所述第二符号串具有对称性结构的第三符号串,所述第二符号 串为所述第一符号串或为所述第一符号串的子符号串; 将所述第二符号串和所述第三符号串组成第四符号串。
2. 如权利要求1所述的方法,其特征在于,所述根据第二符号串生成与所述第二符号 串具有对称性结构的第三符号串,包括: 在所述第二符号串中确定一对称中心; 从所述第二符号串中获取位于所述对称中心左边的第五符号串; 参照所述第五符号串,生成与所述第五符号串相同或形状相反的第三符号串。
3. 如权利要求2所述的方法,其特征在于,所述对称中心为所述第二符号串的最右边 字符或所述最右边字符的结尾处。
4. 如权利要求1所述的方法,其特征在于,所述将所述第二符号串和所述第三符号串 组成第四符号串之后,还包括: 获取所述第四符号串的对称度,如果所述第四符号串的对称度满足预设条件,则显示 所述第四符号串。
5. 如权利要求1所述的方法,其特征在于,所述将所述第二符号串和所述第三符号串 组成第四符号串之后,还包括: 从预设的符号库中获取所述第四符号串对应的相关信息,所述相关信息至少包括所述 第四符号串对应的词语和表情图像。
6. 如权利要求5所述的方法,其特征在于,所述从预设的符号库获取所述第四符号串 对应的相关信息之后,还包括: 获取词语集合,所述词语集合中包括所述第四符号串对应的词语的同义词和近义词, 根据所述词语集合中的每个词语,从所述符号库中获取对应的表情图像。
7. 如权利要求1所述的方法,其特征在于,所述获取输入的信息中包含的第一符号串 之后,还包括: 从预设符号库中获取包含所述第二符号串的第六符号串,并显示所述第六符号串。
8. 如权利要求1至7任一项权利要求所述的方法,其特征在于,所述第二符号串、所述 第三符号串和所述第四符号串都是由字符或表情图像组成的符号串。
9. 一种获取符号串的装置,其特征在于,所述装置包括: 第一获取模块,用于获取输入的信息中包含的第一符号串; 生成模块,用于根据第二符号串生成与所述第二符号串具有对称性结构的第三符号 串,所述第二符号串为所述第一符号串或为所述第一符号串的子符号串; 组成模块,用于将所述第二符号串和所述第三符号串组成第四符号串。
10. 如权利要求9所述的装置,其特征在于,所述生成模块包括: 确定单元,用于在所述第二符号串中确定一对称中心; 获取单元,用于从所述第二符号串中获取位于所述对称中心左边的第五符号串; 生成单元,用于参照所述第五符号串,生成与所述第五符号串相同或形状相反的第三 符号串。
【专利摘要】本发明公开了一种获取符号串的方法和装置,属于自然语言处理研究领域。所述方法包括:获取输入的信息中包含的第一符号串;根据第二符号串生成与所述第二符号串具有对称性结构的第三符号串,所述第二符号串为所述第一符号串或为所述第一符号串的子符号串;将所述第二符号串和所述第三符号串组成第四符号串。所述装置包括:第一获取模块,生成模块,和组成模块。本发明中能够根据用户当前输入的第一符号串第三符号串,将第二符号串和第三符号串组成第四符号串,从而自动生成和实现符号库中所没有的表情符号,满足用户的个性化需求。
【IPC分类】G06F3-023
【公开号】CN104699263
【申请号】CN201510120023
【发明人】徐金安, 呼啸, 黄天立, 张子兴, 闫麟阁, 马文嘉, 徐乾舜, 陈钰枫
【申请人】北京交通大学
【公开日】2015年6月10日
【申请日】2015年3月18日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1