Wetts's blog

Stay Hungry, Stay Foolish.

0%

字符集

1字节=2的8次方 1字符=2字节

  • ASCII:7位字符集

  • ISO 8859-1:Latin-1,8位字符集

  • Unicode(统一码、万国码、单一码):1990年开始研发,1994年正式公布。

  • UTF-8:1到4字节的变长编码, 英文与ascII一致,中文3个字节。

  • GBK:中文编码是GB2312的超集, 1-2变长编码, 英文与ASCII一致, 中文2个字节。

按照GBK18030、GBK、GB2312的顺序,3种编码是向下兼容

台湾,香港等地使用的是BIG5编码

日本:SJIS编码

Charset.defaultCharset()返回操作系统字符集

Java的class文件采用utf8的编码方式

Java的字符串是unicode编码的。

JVM运行时采用utf16