一种微博信息的压缩编码和解码的方法及装置的制作方法

文档序号:6434641阅读:262来源:国知局
专利名称:一种微博信息的压缩编码和解码的方法及装置的制作方法
技术领域
本发明涉及通信技术领域,更具体地说,涉及一种微博信息的压缩编码和解码的方法及装置。
背景技术
目前,在各类微博终端中,微博中的文字的编码主要有三种标准-J位(bit)的美国信息互换标准代石马(ASCII, American Standard Code for Informationlnterchange)、 统一码Unicode的16位编码方式-通用字符集(UCS-2,UnicodeCharacter Set-2)和长度 1-6 个字节可变的 Unicode 变长字符编码(UTF_8,UCS Transformation Format-8-bit)。这三种编码都是以字符(汉字或英文字母)为单位的编码标准,每条中文微博长度一般限制为140个16位的汉字(即2240位),英文微博长度一般限制为140个8位字符(即1120 位)。所以,每条中文微博采用ASCII编码可以发送320个英文字符,用UCS-2可以发送140 个汉字或英文字符,用UTF-8则可以平均发送93个汉字。对中国用户而言,微博主要用汉字书写,当一条微博中包含了汉字,那么整体微博将全部以UCS-2或UTF-8的编码模式发送, 而使用UCS-2或UTF-8编码方法,一般需要采用4个以上的字节来表示中文词组或英文单词。可以看出,由于UCS-2或UTF-8编码方法需要采用4以上的字节数来表示中文词组或英文单词,因此在每条微博长度受限制的情况下,通过UCS-2或UTF-8编码的每条微博的可写字数少,而且通过UCS-2或UTF-8编码传输的微博,需要传输较多的字符数,其传输效率低并且传输的网络流量高。

发明内容
有鉴于此,本发明的目的在于提供一种微博信息的压缩编码和解码的方法及装置,以解决现有技术存在的由于UCS-2或UTF-8编码需要4个以上字节数来表示中文词组或英文单词,而造成的中文微博传输效率低、传输网络流量高以及每条微博可写字数少的问题。为实现上述目的,本发明提供如下技术方案一种微博信息的压缩编码的方法,步骤包括A.识别UCS-2编码文本中各UCS-2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;B.对于所述中文字符段,根据中文词典,对所述中文字符段进行分词操作,生成包含至少一个切分单元的切分中文字符段,根据所述中文词典和中文符号表,将所述切分单元压缩再编码成用2个字节表示,生成压缩编码中文字符段;对于所述英文字符段,根据英文字符间的空格符,将所述英文字符段切分成包含至少一个单词的切分英文字符段,所述空格符为所述单词之一,判断所述单词是否在英文字典中,若是,则根据英文字典,将所述单词压缩再编码成用2个字节表示,若否,则将所述单词的各英文字符压缩再编码成用1个字节表示,生成压缩编码英文字符段;C.根据步骤B生成的每个压缩编码字符段在微博中的顺序,生成压缩编码微博。一种微博信息的压缩编码的装置,包括微博分割模块,用于识别UCS-2编码文本中各UCS-2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;中文字符压缩编码模块,用于根据中文词典对所述中文字符段进行分词操作,生成包含至少一个切分单元的切分中文字符段,根据所述中文词典和中文符号表,将所述切分单元压缩再编码成用2个字节表示,生成压缩编码中文字符段;英文字符压缩编码模块,用于根据英文字符间的空格符,将所述英文字符段切分成包含至少一个单词的切分英文字符段,所述空格符为所述单词之一,判断所述单词是否在英文字典中,若是,则根据英文字典,将所述单词压缩再编码成用2个字节表示,若否,则将所述单词的各英文字符压缩再编码成用1个字节表示,生成压缩编码英文字符段;压缩编码微博生成模块,用于根据生成的每个压缩编码字符段在微博中的顺序, 生成压缩编码微博。一种微博信息的解码的方法,步骤包括a.从压缩编码微博中获取压缩编码系列,根据所述压缩编码系列中各编码的属性,从所述压缩编码系列中区分中文编码、英文单词编码和英文字符编码;b.对于中文编码,根据中文词典和中文符号表,用与所述中文编码对应的UCS-2 编码,编码并替换所述中文编码;对于英文单词编码,根据英文字典,用与所述英文单词编码对应的UCS-2编码,编码并替换所述英文单词编码;对于英文字符编码,用与所述英文字符编码对应的UCS-2编码,编码并替换所述英文字符编码。一种微博信息的解码的装置,包括编码识别模块,用于从压缩编码微博中获取压缩编码系列,根据所述压缩编码系列中各编码的属性,从所述压缩编码系列中区分中文编码、英文单词编码和英文字符编码;中文编码解码模块,用于根据中文词典和中文符号表,用与所述中文编码对应的 UCS-2编码,编码并替换所述中文编码;英文单词解码模块,用于根据英文字典,用与所述英文单词编码对应的UCS-2编码,编码并替换所述英文单词编码;英文字符解码模块,用于用与所述英文字符编码对应的UCS-2编码,编码并替换所述英文字符编码。从上述技术方案可以看出,本发明实施例中,通过设置中文词典、中文符号表和英文字典,对中文字符段中的切分单元的UCS-2编码进行压缩再编码,使各切分单元只需用 2个字节表示;对英文字符段中能在英文字典中查找到的单词的UCS-2编码进行压缩再编码,使原来用4个以上字节表示的单词,如今只需用2个字节表示;对英文字符段中没有在英文字典中找到的单词,将该单词的各英文字符的UCS-2编码转换为与其UCS-2编码对应的只需用1个字节表示的ASCII编码。本发明实施例用2个字节表示能在中文词典中查找到的中文词组、用2个字节表示能在英文字典中查找到的英文单词,与使用UCS-2或UTF-8 编码相比,本发明实施例节省了微博传输的字符数,提高了传输效率,降低了网络流量,增加了每条微博的可写字数。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图Ia为本发明一种微博信息的压缩编码和解码的方法及装置的中文词典的结构图;图Ib为本发明一种微博信息的压缩编码和解码的方法及装置的中文符号表的结构图;图Ic为本发明一种微博信息的压缩编码和解码的方法及装置的英文字典的结构图;图2为本发明一种微博信息的压缩编码的方法的实施例一的流程图;图3为本发明一种微博信息的压缩编码的方法的实施例二的流程图;图4为与图2所示方法相对应的微博信息的压缩编码的装置示意图;图5为与图3所示方法相对应的微博信息的压缩编码的装置示意图;图6为图3所示方法的细化的流程图;图7为本发明的微博信息经压缩编码后各类字符的码位分布图;图8为与图2和图3所示微博信息的压缩编码的方法相对应的微博信息的解码方法的流程图;图9为与图8所示微博信息的解码方法相对应的装置示意图;图10为图8所示微博信息的解码方法的细化流程图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。图Ia为本发明实施例提供的中文词典的结构图,该中文词典收录了 11520个微博常用的中文词组和断句,该中文词典中的词组都用2个字节表示;图Ib为本发明实施例提供的中文符号表的结构图,该中文符号表收录了微博常用的256个中文符号;图Ic为本发明实施例提供的英文字典的结构图,该英文字典收录了 8192个字母个数大于3的微博常用英文词组,该英文字典中的单词都用2个字节表示。需要说明的是,上述图Ia-图Ic中示出的中文词典、中文符号表和英文字典仅仅是特别的例子,实际上可以根据实际需要灵活调整中文词典、中文符号表和英文字典中的内容。以下公开的实施例都是根据该中文词典、中文符号表和英文字典,对微博信息进行压缩编码和解码。图2为本发明一种微博信息的压缩编码的方法的实施例一的流程图,如图2所示, 该方法包括以下步骤步骤S10、识别UCS-2编码文本中各UCS-2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;其中,UCS-2编码文本的字符类型包括3种情况1、UCS_2编码文本的字符类型全为中文字符;2、UCS-2编码文本的字符类型全为英文字符;3、UCS-2编码文本的字符类型包括中文字符和英文字符;其中,对已识别的字符类型将进行标记;当UCS-2编码文本的字符类型全为中文字符时,将整个UCS-2编码文本视为一个中文字符段;当UCS-2编码文本的字符类型全为英文字符时,将整个UCS-2编码文本视为一个英文字符段;当UCS-2编码文本的字符类型包括中文字符和英文字符时,根据识别的中文字符和英文字符,将UCS-2编码文本分成至少一个中文字符段和至少一个英文字符段,每个中文字符段包括一段连续存放的中文字符,每个英文字符段包括一段连续存放的英文字符;步骤S11、对于中文字符段,根据中文词典,对所述中文字符段进行分词操作,生成包含至少一个切分单元的切分中文字符段,根据所述中文词典和中文符号表,将所述切分单元压缩再编码成用2个字节表示,生成压缩编码中文字符段;其中,根据中文词典,可采用通用的前向最大匹配法对中文字符段进行分词操作, 得到分割成为至少一个切分单元的中文字符段;将切分单元压缩再编码成用2个字节表示的过程具体为若切分单元为中文词典中存在的词组,则用该词组在中文词典中的序号+0x8000,对该词组的UCS-2编码进行编码和替换;若切分单元为汉字,则用该汉字的UCS-2编码+0x6000,对该汉字的UCS-2编码进行编码和替换;若切分单元为中文符号,则用该中文符号在中文符号表中的序号+OxADOO, 对该中文符号的UCS-2编码进行编码和替换;经过上述对中文字符段的压缩再编码,根据中文词典,可用2个字节来表示原来用4个以上字节表示的中文词组。在传输相同内容的微博时,本发明实施例大大节省了微博传输的字符数,提高了传输效率,降低了网络流量,增加了每条微博的可写字数;步骤S12、对于英文字符段,根据英文字符间的空格符,将所述英文字符段切分成包含至少一个单词的切分英文字符段,所述空格符为所述单词之一,判断所述单词是否在英文字典中,若是,则根据英文字典,将所述单词压缩再编码成用2个字节表示,若否,则将所述单词的各英文字符压缩再编码成用1个字节表示,生成压缩编码英文字符段;其中,若英文字符段中的单词能在英文字典中查找到,则用该单词在英文字典中的序号,编码并替换该单词的UCS-2编码;若单词不能在英文字典中查找到,则用与该单词 USC-2编码对应的ASCII码,对该单词的UCS-2编码进行编码和替换;通过上述对英文字符段的压缩再编码,根据英文字典,可用2个字节来表示原来用4个以上字节表示的英文单词。在传输相同内容的微博时,本发明实施例大大节省了微博传输的字符数,提高了传输效率,降低了网络流量,增加了每条微博的可写字数;这里需要说明的是,步骤Sll和步骤S12是对步骤SlO分成的中文字符段和英文字符段分别作出的处理,步骤Sll是针对中文字符段的情况作出的处理,步骤S12是针对英文字符段的情况作出的处理,步骤Sll与步骤S12不存在步骤顺序先后的问题;步骤S13、根据上述生成的每个压缩编码字符段在微博中的顺序,生成压缩编码微博;其中,当步骤SlO中识别的各UCS-2编码的字符类型全为中文字符时,步骤Sll生成的压缩编码中文字符段为压缩编码微博;当步骤SlO中识别的各UCS-2编码的字符类型全为英文字符时,步骤S12生成的压缩编码英文字符段为压缩编码微博;当步骤SlO中识别的各UCS-2编码的字符类型包括中文字符和英文字符时,根据每个中文字符段和英文字符段在微博中的顺序,将步骤Sii生成的每个压缩编码中文字符段和步骤S12生成每个的压缩编码英文字符段合并为压缩编码微博;其中,为了便于解码,可将每个16位的编码采用高位在前,低位在后的存放方式。图3为本发明一种微博信息的压缩编码的方法的实施例二的流程图,与图2所示方法相比,图3所示方法在步骤SlO之前还包括步骤S09、判断微博的文字编码中是否有非UCS-2编码,若是,则调用转换函数将所述非USC-2编码转换为UCS-2编码。图4为与图2所示方法相对应的微博信息的压缩编码的装置示意图,该装置包括微博分割模块10,用于识别UCS-2编码文本中各UCS-2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;微博分割模块10的功能与图2所示方法的步骤SlO相对应;中文字符压缩编码模块11,用于根据中文词典对所述中文字符段进行分词操作, 生成包含至少一个切分单元的切分中文字符段,根据所述中文词典和中文符号表,将所述切分单元压缩再编码成用2个字节表示,生成压缩编码中文字符段;中文字符压缩编码模块11的功能与图2所示方法的步骤Sll相对应;英文字符压缩编码模块12,用于根据英文字符间的空格符,将所述英文字符段切分成包含至少一个单词的切分英文字符段,所述空格符为所述单词之一,判断所述单词是否在英文字典中,若是,则根据英文字典,将所述单词压缩再编码成用2个字节表示,若否, 则将所述单词的各英文字符压缩再编码成用1个字节表示,生成压缩编码英文字符段;英文字符压缩编码模块12的功能与图2所示流程的步骤S12相对应;压缩编码微博生成模块13,用于根据生成的每个压缩编码字符段在微博中的顺序,生成压缩编码微博;压缩编码微博生成模块13的功能与图2所示方法的步骤S13相对应。该微博信息的压缩编码的装置,根据中文词典和英文字典,可用2个字节来表示原来用4个以上字节表示的中文词组和英文单词。在传输相同内容的微博时,本发明实施例大大节省了微博传输的字符数,提高了传输效率,降低了网络流量,增加了每条微博的可写字数。图5为与图3所示方法相对应的微博信息的压缩编码的装置示意图,与图4所示装置相比,图5所示装置还包括编码转换模块09,用于判断微博的文字编码中是否有非UCS-2编码,若是,则调用转换函数将所述非USC-2编码转换为UCS-2编码;编码转换模块09的功能与图3所示方法的步骤S09相对应。图6为图3所示方法的细化的流程图,现以微博“我今天下午2:40去Wallmart, 买了超cool的裙子。”为例,结合图6,详细说明该方法的具体流程,包括以下步骤步骤S101、判断微博的文字编码中是否有非UCS-2编码,若是,则调用转换函数将所述非USC-2编码转换为UCS-2编码;步骤S102、判断UCS-2编码文本中的各字符编码是否大于0X7F,若是,执行步骤 S103,若否,执行步骤S104 ;步骤S103、标记该字符为中文字符,添加中文字符标记,执行步骤S105 ;步骤S104、标记该字符为英文字符,添加英文字符标记;以上述微博内容“我今天下午2:40去Wallmart,买了超cool的裙子。”为例,则字符“我今天下午去,买了超的裙子。”标记为中文字符,字符“2:40WallmartCOOl”标记为英文字符;需要说明的是,步骤S103和步骤S104是针对不同的字符类型情况所作出的处理, 步骤S103与步骤S104不存在步骤顺序先后的问题;步骤S105、根据上述的字符标记,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;上述微博分割得到7个不同的字符段,中文字符段有“我今天下”、“去”、“,买了超”和“的裙子。”,英文字符段有"2:40,,、"ffalImart,,和“cool";步骤S106、对于中文字符段,根据中文词典,采用通用的前向最大匹配法对所有的中文字符段进行分词操作,得到包含至少一个切分单元的切分中文字符段;上述微博中的中文字符段分词后得到的切分单元共11个,为“我/今天/下午”、 “去”、“,/买/ 了 /超”和“的/裙子/。,,;步骤S107、判断上述切分单元的长度值是否大于1,若是,则该切分单元为词组, 执行步骤S108,若否,执行步骤S109 ;中文字符段“我/今天/下午”、“去”、“,/买/ 了 /超”和“的/裙子/。,,中,“今天”、“下午”和“裙子”的长度值都大于1,因此“今天”、“下午”和“裙子”为词组,执行步骤 S108,而“我”、“去”、“,,,、“买”、“ T,,、“超”、“的”和“。,,长度值均不大于1,执行步骤S109 ;步骤S108、将该词组的UCS-2编码,用该词组在中文词典中序号+0x8000进行编码和替换,执行步骤S112;例如,词组“今天”和“下午”在中文词典中的序号为0x0A12和0x0CA5,则词组“今天,,的 UCS-2 编码(0x4ECA,0x5929,32 位)和“下午”的 UCS-2 编码(0x4E0B,0x5:348,32 位)分别转换为"0x8A12" (16位)和"0x8CA5" (16位);步骤S109、判断该切分单元的UCS-2编码是否在0x4E00至0x9FFF之间,若是,则为汉字,执行步骤S110,若否,则为中文符号,执行步骤Slll ;
切分单元“我”、“去”、“,”、“买”、“了”、“超”、“的”和“。”中,“我”、“去”、“买”、“了”、
“超”和“的”为汉字,执行步骤S110,“,,,和“。”为中文符号,执行步骤Slll ;步骤Sl 10、把该汉字的UCS-2编码,用该汉字的UCS-2编码+0x6000进行编码和替换,执行步骤S112 ;例如,汉字“我”(UCS-2编码为0x6211)和“的”(UCS-2编码为0x7684)的编码转换为 “0xC211” 和 “0xD684” ;步骤S111、把该中文符号的UCS-2编码,用该中文符号在中文符号表中的序号 +OxADOO进行编码和替换,执行步骤S112 ;例如,中文符号“。”在中文符号表中的序号为“0x01”,中文符号“。”的编码将由原来的UCS-2编码转换为“OxADOl” ;步骤S112、判断所有切分单元的UCS-2编码是否全部转换,若是,执行步骤S118, 若否,执行步骤S107 ;其中,可设置计数器来判断是否所有切分单元都已转换,上述微博中有11个单元,可在计数器中设置初始数为11,每编码替换一个切分单元的UCS-2编码,则初始数减1, 最后计数器值为0,则切分单元全部转换;步骤S113、以英文字符间的空格符为间隔符,将英文字符段切分成包含至少一个单词的切分英文字符段,其中,英文字符间的空格符本身也是一个单词;英文字符段"2:40”、“WalImart,,和 “cool” 中,“240”、“WalImart,,和 “cool” 均为切分出的单词;需要说明的是,步骤S113为步骤S105后针对英文字符段所作的处理,,步骤S113 与步骤S106为分别针对英文字符段和中文字符段所作的处理,步骤S113与步骤S106不存在顺序先后的问题;步骤S114、判断上述单词是否能在英文字典中查找到,若是,则执行步骤S115,若否,则执行步骤S116;“cool”可在英文字典中查找到,执行步骤S115,“2:40”和“Wallmart”在英文字典中查找不到,执行步骤S116;步骤S115、将该单词的UCS-2编码,用该单词在英文字典中的序号进行编码和替换,执行步骤S117;例如,“cool”在英文字典中的序号为“0x07DE”,“cool”的UCS-2编码(0x0063, 0x006F, 0x006F, 0x6C,共 64 位)将转换为 “0x07DE” (16 位);步骤S116、将该单词的每个英文字符的UCS-2编码,用与该英文字符对应的ASCII 码进行编码和替换,执行步骤S117 ;例如,“Wallmart”的 UCS-2 编码(0x0057,0x0061,0x006C,0x0060,0x006D, 0x0061,0x0072,0x0074,共 128 位)转换为“0x57,0x61,0x6C,0x60,x6D,0x61,0x72,0x74”, 共64位;步骤S117、判断所有单词的UCS-2编码是否全部转换,若是,执行步骤S118,若否, 执行步骤Sl 14;其中,可设置计数器来判断是否所有单词都已转换;步骤S118、合成压缩编码微博;
其中,根据每个中文字符段和英文字符段在微博中的顺序,把压缩再编码后的中文字符段和英文字符段合并成为压缩编码微博,为了便于解码,可对每个16位的编码采用高位在前,低位在后的存放方式。上述流程是以微博内容包括中文字符和英文字符的情况为例,对该微博的压缩再编码的具体流程所作的说明;显然,微博内容全为中文字符或微博内容全为英文字符的情况,可通过对上述实施例的描述,推导出具体流程,这里不再赘述。微博“我今天下午2:40去Wallmart,买了超cool的裙子。”的现有UCS-2编码与
本发明实施例的压缩编码如下表所示
权利要求
1.一种微博信息的压缩编码的方法,其特征在于,步骤包括A.识别UCS-2编码文本中各UCS-2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;B.对于中文字符段,根据中文词典,对所述中文字符段进行分词操作,生成包含至少一个切分单元的切分中文字符段,根据所述中文词典和中文符号表,将所述切分单元压缩再编码成用2个字节表示,生成压缩编码中文字符段;对于英文字符段,根据英文字符间的空格符,将所述英文字符段切分成包含至少一个单词的切分英文字符段,所述空格符为所述单词之一,判断所述单词是否在英文字典中,若是,则根据英文字典,将所述单词压缩再编码成用2个字节表示,若否,则将所述单词的各英文字符压缩再编码成用1个字节表示,生成压缩编码英文字符段;C.根据步骤B生成的每个压缩编码字符段在微博中的顺序,生成压缩编码微博。
2.根据权利要求1所述的微博信息的压缩编码的方法,其特征在于,所述步骤B中生成压缩编码中文字符段的具体步骤包括Bll.根据中文词典,采用前向最大匹配法对所述中文字符段进行分词操作,生成包含至少一个切分单元的切分中文字符段;B12.判断所述切分单元的长度值是否大于1,若是,则所述切分单元为词组,执行步骤 B13,若否,执行步骤B14;B13.用所述词组在所述中文词典中的序号+0x8000,对所述词组的UCS-2编码进行编码并替换,执行步骤B17;B14.判断所述切分单元的值是否在0x4E00至0x9FFF之间,若是,则所述切分单元为汉字,执行步骤B15,若否,则所述切分单元为中文符号,执行步骤B16 ;B15.用所述汉字的UCS-2编码+0x6000,对所述汉字的UCS-2编码进行编码并替换,执行步骤B17 ;B16.用所述中文符号在中文符号表中的序号+OxADOO,对所述中文符号的UCS-2编码进行编码并替换,执行步骤B17 ;B17.判断所有切分单元的UCS-2编码是否全部转换,若是,执行步骤C,若否,执行步骤B12。
3.根据权利要求2所述的微博信息的压缩编码的方法,其特征在于,所述步骤B中生成压缩编码英文字符段的具体步骤包括B21.根据英文字符间的空格符,将所述英文字符段切分成包含至少一个单词的切分英文字符段,所述空格符为所述单词之一;B22.在英文字典中查找所述单词,若能找到所述单词,则执行步骤B23,若不能找到所述单词,则执行步骤B24;B23.用所述单词在所述英文字典中的序号,对所述单词的UCS-2编码进行编码并替换,执行步骤B25;B24.用与所述单词的UCS-2编码对应的ASCII码,对所述单词的UCS-2编码进行编码并替换,执行步骤B25;B25.判断所有单词的UCS-2编码是否全部转换,若是,执行步骤C,若否,执行步骤B22。
4.根据权利要求3所述的微博信息的压缩编码的方法,其特征在于,所述步骤C具体为当步骤A中识别的各UCS-2编码的字符类型全为中文字符时,所述压缩编码中文字符段为压缩编码微博;当步骤A中识别的各UCS-2编码的字符类型全为英文字符时,所述压缩编码英文字符段为压缩编码微博;当步骤A中识别的各UCS-2编码的字符类型包括中文字符和英文字符时,根据每个所述中文字符段和所述英文字符段在微博中的顺序,将每个所述压缩编码中文字符段和所述压缩编码英文字符段合并为压缩编码微博。
5.根据权利要求1所述的微博信息的压缩编码的方法,其特征在于,所述步骤A中“识别UCS-2编码文本中各UCS-2编码的字符类型”具体为判断UCS-2编码文本各字符的UCS-2编码是否大于0x7F,若是,则标记所述字符为中文字符,若否,则标记所述字符为英文字符。
6.根据权利要求1-5任一项所述的微博信息的压缩编码的方法,其特征在于,所述步骤A前还包括步骤判断微博的文字编码中是否有非UCS-2编码,若是,则调用转换函数将所述非USC-2编码转换为UCS-2编码。
7.一种微博信息的压缩编码的装置,其特征在于,包括微博分割模块,用于识别UCS-2编码文本中各UCS-2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;中文字符压缩编码模块,用于根据中文词典对所述中文字符段进行分词操作,生成包含至少一个切分单元的切分中文字符段,根据所述中文词典和中文符号表,将所述切分单元压缩再编码成用2个字节表示,生成压缩编码中文字符段;英文字符压缩编码模块,用于根据英文字符间的空格符,将所述英文字符段切分成包含至少一个单词的切分英文字符段,所述空格符为所述单词之一,判断所述单词是否在英文字典中,若是,则根据英文字典,将所述单词压缩再编码成用2个字节表示,若否,则将所述单词的各英文字符压缩再编码成用1个字节表示,生成压缩编码英文字符段;压缩编码微博生成模块,用于根据生成的每个压缩编码字符段在微博中的顺序,生成压缩编码微博。
8.根据权利要求7所述的微博信息的压缩编码的装置,其特征在于,还包括编码转换模块,用于判断微博的文字编码中是否有非UCS-2编码,若是,则调用转换函数将所述非USC-2编码转换为UCS-2编码。
9.一种微博信息的解码的方法,其特征在于,步骤包括a.从压缩编码微博中获取压缩编码系列,根据所述压缩编码系列中各编码的属性,从所述压缩编码系列中区分中文编码、英文单词编码和英文字符编码;b.对于中文编码,根据中文词典和中文符号表,用与所述中文编码对应的UCS-2编码, 编码并替换所述中文编码;对于英文单词编码,根据英文字典,用与所述英文单词编码对应的UCS-2编码,编码并替换所述英文单词编码;对于英文字符编码,用与所述英文字符编码对应的UCS-2编码,编码并替换所述英文字符编码。
10. 一种微博信息的解码的装置,其特征在于,包括编码识别模块,用于从压缩编码微博中获取压缩编码系列,根据所述压缩编码系列中各编码的属性,从所述压缩编码系列中区分中文编码、英文单词编码和英文字符编码;中文编码解码模块,用于根据中文词典和中文符号表,用与所述中文编码对应的UCS-2 编码,编码并替换所述中文编码;英文单词解码模块,用于根据英文字典,用与所述英文单词编码对应的UCS-2编码,编码并替换所述英文单词编码;英文字符解码模块,用于用与所述英文字符编码对应的UCS-2编码,编码并替换所述英文字符编码。
全文摘要
本发明实施例公开了微博信息的压缩编码和解码的方法及装置,本发明实施例通过设置中文词典、中文符号表和英文字典对使用UCS-2编码的微博进行压缩再编码,其中压缩编码的方法概括为识别UCS-2编码文本中各UCS-2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;根据中文词典和中文符号表,对中文字符段进行压缩再编码;根据英文字典,对英文字符段进行压缩再编码;生成压缩编码微博。根据本发明实施例,可用2个字节表示原来用4个以上字节表示的中文词组和英文单词,节省了微博传输的字符数,提高了传输效率,降低了网络流量,增加了每条微博的可写字数。
文档编号G06F17/30GK102508824SQ201110298118
公开日2012年6月20日 申请日期2011年9月29日 优先权日2011年9月29日
发明者刁红军, 张玉华, 朱巧明, 朱晓旭, 李培峰 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1