自Windows NT开始,Windows的所有版本都完全使用Unicode来构建。Windows的所以核心函数(创建窗口、显示文本、进行字符串处理等)都需要Unicode字符串。调用Windows函数时,如果想他传入1个ANSI字符串(有单字节组成的1个字符串),那末函数首先把字符串转换为Unicode,再把结果传给操作系统。如果希望函数返回ANSI字符串,那末希望寒素返回ANSI字符串,那末操作系统会把Unicode字符串转换为ANSI字符串,再把结果返回给我们的利用程序。所有这些转换都是在幕落后行的。为了履行这些字符串转换,系统会产生时间和内存上的开消。
关于字符的编码:
在Windows Vista中,每一个字符都使用UTF⑴6编码,UTF的全称是Unicode Transformation Format(Unicode格式转换)。
UTF⑴6将每一个字符编码为两个字节(或说16bit);
UTF⑻ 将1些字符编码为1个字节,将1些字符编码为2个字节,将1些字符编码为3个字节,将1些字符编码为4个字节。 UTF⑻是1种比较流行的编码格式,但不如UTF⑴6高效;
UTF⑶2将每一个字符都编码为4个字节。如果打算写1个简单的算法来遍历字符(任何语言中使用的字符),但又不想处理字符不定的字符,这类编码方式就非常有用。
下一篇 JPA 大文本