  
- UID
- 1
- 帖子
- 738
- 精华
- 28
- 积分
- 14247
- 金币
- 2414
- 威望
- 1647
- 贡献
- 1362
|
HTML语言:什么是Unicode 什么是UTF-8
Unicode和UTF-8在制作网页中对于很多人不是很了解,到底是什么样的概念希望通过本文可以让大家了解,首先说明一下现在常用的一些编码方案:
; W( b$ o; s1 ]/ p5 F9 O1 g. j9 k m7 A7 c+ p: {+ X
1、在中国,大陆最常用的就是GBK18030编码,除此之外还有GBK,GB2312,这几个编码的关系是这样的。
# e7 Z% L5 u8 P6 o8 q; f2 _5 K
$ v& l" y1 j! l 最早制定的汉字编码是GB2312,包括6763个汉字和682个其它符号;95年重新修订了编码,命名GBK1.0,共收录了21886个符号。之后又推出了GBK18030编码,共收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字,现在WINDOWS平台必需要支持 GBK18030编码。按照GBK18030、GBK、GB2312的顺序,3种编码是向下兼容,同一个汉字在三个编码方案中是相同的编码。7 H% B" \: i% _& ^7 U2 h
8 u& C( A, o9 k7 r) W( ^# m: H 2、台湾,香港等地使用的是BIG5编码8 l6 G% _0 ]1 P+ [' l4 D) a
0 u# m* W8 w3 ?7 p# p 3、日本:SJIS编码3 o, G2 D0 N" C2 j6 `
* I% ]4 x* D/ i$ y$ c 如果把各种文字编码形容为各地的方言,那么Unicode就是世界各国合作开发的一种语言。
- y, Y' |- i6 q7 h @" k" a
# Z' B5 k/ R6 u; E% M0 O5 O 在这种语言环境下,不会再有语言的编码冲突,在同屏下,可以显示任何语言的内容,这就是Unicode的最大好处。那么Unicode是如何编码的呢? 其实非常简单。就是将世界上所有的文字用2个字节统一进行编码。可能你会问,2个字节最多能够表示65536个编码,够用吗?韩国和日本的大部分汉字都是从中国传播过去的,字型是完全一样的。 比如:“文”字,GBK和SJIS中都是同一个汉字,只是编码不同而已。那样,像这样统一编码,2个字节就已经足够容纳世界上所有的语言的大部分文字了。& ~) z" M8 U- z" G& G9 J
. w3 }3 W8 a+ G* [+ s, g, c
Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS。+ k1 k8 m3 d. a# g7 y$ N7 y# T
( N! }; q1 j# f. \" B, k c 现在用的是UCS-2,即2个字节编码,而UCS-4是为了防止将来2个字节不够用才开发的。UCS-2也称为基本多文种平面,转换到UCS-4只是简单的在前面加2个字节0。UCS-4则主要用于保存辅助平面,例如Unicode 4.0中的第二辅助平面# T( ^2 C7 b; l7 e5 a" N& A/ ~
; j F% t% |, I& q 20000-20FFF - 21000-21FFF - 22000-22FFF - 23000-23FFF - 24000-24FFF - 25000-25FFF - 26000-26FFF - 27000-27FFF - 28000-28FFF - 29000-29FFF - 2A000-2AFFF - 2F000-2FFFF7 p: W) J, ]- t
% D6 b$ r( v4 v Q 总共增加了16个辅助平面,由原先的65536个编码扩展至将近100万编码。那么既然统一了编码,如何兼容原先各国的文字编码呢?这个时候就需要codepage了。 w6 g: f! u& v
# k- ?7 a% k T% i7 O: g5 p+ c7 g( G
什么是codepage?codepage就是各国的文字编码和Unicode之间的映射表。
6 ^) W2 F1 H. m$ p2 ?5 m" o" V( f; `+ C) s5 u0 b* o& n0 q
比如简体中文和Unicode的映射表就是CP936,点这里查看官方的映射表;以下是几个常用的codepage,相应的修改上面的地址的数字即可。
9 q: Y$ k4 H- L; N2 ] J* F' ~2 T9 f9 }4 Q
codepage=936 简体中文GBK% T5 ~4 }& Y+ j1 `
* R4 C% e: U( M, {) J, w
codepage=950 繁体中文BIG5' E# x9 B# O. A$ w( t
) B3 P5 R6 ?( H codepage=437 美国/加拿大英语
$ f5 w1 f% O. W6 n2 o# @2 h) h8 k9 S1 W
codepage=932 日文. V8 {. O! W; X8 U
$ B9 G$ u5 |' M& p$ D( N1 `( ^
codepage=949 韩文
0 r% f* k8 V, k+ A- K$ `+ s2 |
9 R6 m1 h, g0 |! u- w codepage=866 俄文% }% R6 q7 L$ `5 I6 ~
! |& n- p4 F' z9 _ codepage=65001 unicode UFT-87 _. b) b6 p' C
" x" g5 X$ g, f* i0 Z& ~! {
最后一个65001,据个人理解,应该只是一个虚拟的映射表,实际只是一个算法而已。) G6 \, v) R" _% m' f5 D5 h( U
2 _+ }6 {0 o) v) N. S& ~
从936中随意取一行,例如:
% }- d' k" g' q, {8 q6 w7 h+ A* d% T) |2 b
0x9993 0x6ABD #CJK UNIFIED IDEOGRAPH: Y# M( n; h' H2 _
+ ]1 a+ T5 T! L1 n$ @
前面的编码是GBK的编码,后面的是Unicode。通过查这张表,就能简单的实现GBK和Unicode之间的转换。& f) L' ?/ `( S; U8 _" R( x
: U: I) ^, e5 U4 k$ l1 S1 I' r7 |
现在明白了Unicode,那么UTF-8又是什么呢?又为什么会出现UTF-8呢?( g. U3 s# g$ G# _1 I
$ W: y! E9 G. Y i5 o, ?3 r ASCII转换成UCS-2,只是在编码前插入一个0x0。用这些编码,会包括一些控制符,比如 或 /,这在UNIX和一些C函数中,将会产生严重错误。因此可以肯定,UCS-2不适合作为Unicode的外部编码。因此,才诞生了UTF-8。那么 UTF-8是如何编码的?又是如何解决UCS-2的问题呢?, _) F! ?3 R3 X3 |
2 A9 h! o4 r9 v, ] ^, L0 G 例:
# K* E% d; ~/ Y" t& E/ N" q
8 y. s7 e' l$ p- j9 ^ E4 BD A0 11100100 10111101 10100000
' e' k* Y' N! N0 w6 H8 T+ [9 V- o( j
这是“你”字的UTF-8编码3 P) @% M4 |3 I% u
$ H5 @+ C+ i0 o3 A* t; a! `7 @# ~
4F 60 01001111 01100000
5 N! k7 w3 b+ S5 h6 u9 g0 Y
H2 y/ r. |6 V- [. @ 这是“你”的Unicode编码& l4 m7 R4 S% P' X
; p: |( D0 \5 P 按照UTF-8的编码规则,分解如下:xxxx0100 xx111101 xx100000,把除了x之外的数字拼接在一起,就变成“你”的Unicode编码了。注意UTF-8的最前面3个1,表示整个UTF-8串是由3个字节构成的。经过UTF-8编码之后,再也不会出现敏感字符了,因为最高位始终为1。1 Q. w* H/ H$ v2 b1 W
* }) }7 F q- p
以下是Unicode和UTF-8之间的转换关系表:
* {3 h6 r- S* g& ^5 z; p+ j( c/ _& D9 E
U-00000000 - U-0000007F: 0xxxxxxx! G/ U# E: j) Z' ~
- {7 s: ], d1 C/ Z# W U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
4 R5 M# ~, Y- O% N: `- I2 j2 y3 ~
1 }! j/ \$ z" u0 ]. `0 e U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx# f! t7 h% i1 o- H+ V
7 b- s3 Z( b1 X. ]$ u$ p
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
: T( g- o: c6 y1 n( f, U' {5 \/ i# n' M4 _* }! E
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx$ T7 c# Z5 X F, k8 a
2 C: n- A; H& m
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
" f6 o8 f4 J% h6 }) I* V8 f0 M( D+ h4 I- J
Unicode编码转换到UTF-8,简单的把Unicode字节流套到x中就变成UTF-8了。 |
|