这是个不错的问题,想解释清楚可不容易。很多人没弄清Unicode与UTF - 8的关系就批判提问者。简单来说,Unicode是一种字符集,它现在已经收录了超过14万个字符。UTF - 8则是将这个字符集编码成二进制数据的一种编码结构,从理论上讲,UTF - 8也能够对其他非Unicode的字符集进行编码。Unicode还有许多其他的编码实现形式,像是UTF - 7、UTF - 16、UTF - 32、Punycode、CESU - 8、SCSU、GB18030等。GBK同样是一个字符集,包含21886个字符。GBK也存在多种实现形式,其常见编码结构是在EUC - CN基础上拓展而来。EUC - CN是GBK的前身GB2312的一种实现。在浏览器里看到的GBK选项,实际上就是依据EUC - CN标准对GBK字符集进行解码。晕了吗?举个例子,字符集如同楼房效果图,编码结构则是将楼房建造出来的施工图。那么问题在于,当初为何设计GBK字符集,而非类似Unicode那样的字符集?道理说来简单,主要有两点。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号