识别整体符号串的方法和装置的制造方法_2

文档序号：8380922阅读：来源：国知局

词的位置顺序与各分词在文本信息中的位置顺序一致；
[0076] 根据预设的正则表达式，从文本信息包括的分词中提取与正则表达式匹配的符号串。
[0077] 进一步地，确定该符号串为整体符号串之后，还包括：
[0078] 在文本信息中对整体符号串的两个边界字符和位于两个边界字符之间的中间字符进行标注。
[0079] 在本发明实施例中，提取文本信息中包含的符号串；从该符号串中获取具有对称性的符号对；根据获取的符号对计算该符号串的对称度；如果该符号串的对称度满足预设条件，则确定该符号串为整体符号串。由于本发明能够计算符号串的对称度，根据符号串的对称度确定符号串是否是整体符号串，不需要依赖表情符号字典，即使不在表情符号字典内的符号串，本发明也能够确定出该符号串是否是整体符号串，从而解决了表情符号等符号串信息识别精度低下、容易造成文本信息缺失等问题，达到了提高文本信息处理系统的性能的效果。
[0080] 实施例2
[0081] 本发明实施例提供了一种识别整体符号串的方法，该方法的执行主体为终端，终端可以为移动终端、固定终端或者服务器等；该识别整体符号串的方法可以通过软件、硬件或者两者的结合实现，并且该识别整体符号串的方法可以为终端的部分或者全部。
[0082] 参见图2,其中，该方法包括：
[0083] 步骤201 :提取文本信息中包含的符号串；
[0084] 用户可以向终端输入文本信息，终端获取用户输入的文本信息，检测文本信息中是否包含符号串，如果包含符号串，则提取文本信息中包含的符号串。用户也可以直接向终端输入符号串。
[0085] 其中，符号串可以为由字母、数字、标点、拼音、假名、字形、种类、个数或长度、以及 2个或2个以上的符号组成的具有特定意义的子串及其文字、语义、图像、语音、情感类别等属性特征中的一种或一种以上。
[0086] 用户可以以文件的形式或者其他形式向终端输入文本信息，在本发明实施例中对文本信息的输入形式不作具体限定。并且，文本信息可以为任何一种自然语言，如英语、汉语、日语、法语等，也可以使多国语言混合输入方式，此时终端可以采用UTF(Unicode Transformation Format, Unicode转换格式）编码，该UTF编码是一种能够存储多国语言的编码方式。
[0087] 其中，提取文本信息中包含的符号串的步骤可以通过以下步骤（1)和（2)实现，包括：
[0088] (1):对文本信息进行分词，得到文本信息包括的分词，文本信息包括的各分词的位置顺序与各分词在文本信息中的位置顺序一致；
[0089] 其中，对文本信息进行分词时，根据文本信息的语种，获取该语种对应的分词方法，根据获取的分词方法对文本信息进行分词，得到文本信息包括的分词；例如，当输入的文本信息为英语时，可简单地以空格输入的文本信息进行分词；当输入的文本信息为汉语时，可以使用汉语分词工具，如中科院计算所的分词工具ICTCLAS (http://ictclas. nlpir. org/)、清华大学的分词工具 THULAC(http://nlp. csai. tsinghua. edu. cn/thulac/)、或者斯坦福大学的分词器等；当输入的文本信息是日语时，可以使用日语分词工具，如Chasen、 (http: //chasen. naist. jp/hiki/ChaSen/) > Mecab (http: //code, google, com/p/mecab/) 或 JUMAN(http://nlp. ist. i. kyoto-u. ac. jp/EN/index. php ? JUMAN)等日语形态素解析工具进行分词处理。本实施例对输入文本信息的语种及分词方式不作具体限定。
[0090] 例如，以输入的文本信息为汉语，且以文件形式的输入为例进行说明；如用户输入的文本信息为"这件事情让她（O O O )，非常
[0091] 利用清华大学的分词工具THULAC进行分词处理，得到分词结果；当分词结果不带词性标注信息时，分词结果为如下分词结果1所示；当分词结构带词性标注信息时，分词结果为如下分词结果2所示。
[0092] 分词结果1 :这件事情让她（Θ ο Θ )，非常（* A A *) !
[0093] 分词结果 2 :这/r 件/q 事情 /n 让/p 她/r(/w0 /wo/x Θ /w)/w，/w 非常 /d(/
【主权项】
1. 一种识别整体符号串的方法，其特征在于，所述方法包括：提取文本信息中包含的符号串；从所述符号串中获取具有对称性的符号对；根据所述获取的符号对计算所述符号串的对称度；如果所述符号串的对称度满足预设条件，则确定所述符号串为整体符号串。
2. 如权利要求1所述的方法，其特征在于，所述从所述符号串中获取具有对称性的符号对，包括：确定所述符号串的中心位置；根据所述中心位置，从所述符号串中获取位置对称的两个字符；如果所述两个字符具有对称性，则将所述两个字符组成具有对称性的符号对。
3. 如权利要求2所述的方法，其特征在于，所述将所述两个字符确定具有对称性的符号对之前，还包括：确定所述两个字符是否相同或形状反向，如果所述两个字符相同或形状反向，则判断出所述两个字符具有对称性。
4. 如权利要求1所述的方法，其特征在于，所述提取文本信息中包含的符号串之后，还包括：获取所述符号串中具有对称性的子符号串；从所述子符号串中获取具有对称性的符号对；根据所述获取的符号对计算所述子符号串的对称度；如果所述子符号串的对称度满足预设条件，则确定所述子符号串为整体符号串。
5. 如权利要求4所述的方法，其特征在于，所述获取所述符号串中具有对称性的子符号串，包括：从所述符号串中获取任意相同或形状反向的两个字符或两个字符串；从所述符号串中获取由所述两个字符分别作为开始字符和结束字符的子字符串，或者获取由所述两个字符串分别作为开始字符串和结束字符串的子符号串；将所述获取的子符号串确定为具有对称性的子符号串。
6. 如权利要求1所述的方法，其特征在于，所述提取文本信息中包含的符号串，包括：对文本信息进行分词，得到所述文本信息包括的分词，所述文本信息包括的各分词的位置顺序与所述各分词在所述文本信息中的位置顺序一致；根据预设的正则表达式，从所述文本信息包括的分词中提取与所述正则表达式匹配的符号串。
7. 如权利要求1至6任一项权利要求所述的方法，其特征在于，所述确定所述符号串为整体符号串之后，还包括：在所述文本信息中对所述整体符号串的两个边界字符和位于所述两个边界字符之间的中间字符进行标注。
8. -种识别整体符号串的装置，其特征在于，所述装置包括：提取模块，用于提取文本信息中包含的符号串；获取模块，用于从所述符号串中获取具有对称性的符号对；计算模块，用于根据所述获取的符号对计算所述符号串的对称度；确定模块，用于如果所述符号串的对称度满足预设条件，则确定所述符号串为整体符号串。
9. 如权利要求8所述的装置，其特征在于，所述获取模块包括：第一确定单元，用于确定所述符号串的中心位置；第一获取单元，用于根据所述中心位置，从所述符号串中获取位置对称的两个字符；组成单元，用于如果所述两个字符具有对称性，则将所述两个字符组成具有对称性的符号对。
10. 如权利要求8或9所述的装置，其特征在于，所述提取模块，还用于获取所述符号串中具有对称性的子符号串；所述获取模块，还用于从所述子符号串中获取具有对称性的符号对；所述计算模块，还用于根据所述获取的符号对计算所述子符号串的对称度；所述确定模块，还用于如果所述子符号串的对称度满足预设条件，则确定所述子符号串为整体符号串。
【专利摘要】本发明公开了一种识别整体符号串的方法和装置，属于自然语言处理研究领域。所述方法包括：提取文本信息中包含的符号串；从所述符号串中获取具有对称性的符号对；根据所述获取的符号对计算所述符号串的对称度；如果所述符号串的对称度满足预设条件，则确定所述符号串为整体符号串。所述装置包括：提取模块，获取模块，计算模块和确定模块。由于本发明能够计算符号串的对称度，根据符号串的对称度确定符号串是否是整体符号串，不需要依赖表情符号字典，即使不在表情符号字典内的符号串，也能够确定出该符号串是否是整体符号串，从而解决了表情符号等符号串信息识别精度低下、容易造成文本信息缺失等问题，达到了提高文本信息处理系统的性能的效果。
【IPC分类】G06F17-22, G06F17-30
【公开号】CN104699662
【申请号】CN201510120020
【发明人】徐金安, 张子兴, 呼啸, 马文嘉, 黄天立, 闫麟阁, 徐乾舜, 陈钰枫
【申请人】北京交通大学
【公开日】2015年6月10日
【申请日】2015年3月18日

完整全部详细技术资料下载

当前第2页1 2