UTF-16,如何做到支持「百万」字符?
lipiwang 2024-11-03 15:56 9 浏览 0 评论
UTF-16 是UTF(Unicode Transformation Format)中最常用转换格式之一,它主要用于信息存储与传递,与UTF-8可谓并驾齐驱。在目前所有的主流平台,只要是unicode编码,由于UTF-32空间问题(太浪费),不是选择UTF-8,那就是UTF-16。
一、编码
UTF-16把 Unicode 字符集的抽象码位映射为 16 位长的整数序列 (2Byte 或 1Word,下文用WORD表示)。目前Unicode字符集分为 17 个平面(Plane),每个平面拥有65536个码位,共计1114112个,编码范围:0x000000 至 0x10FFFF。为了支持所有字符,故其编码采用 1 个或 2 个 WORD 来表示,因此它也是一种变长编码。
1、编码规则
编码主要分2段:U+0000 - U+FFFF、U+10000 - U+10FFFF,分别对应1个WORD 和2个WORD 。处理规则详解如下:
说明:
a、当编码值小于0x10000时,用1个WORD表示,直接记录其值即可。
b、当编码值大于或等于0x10000时,用2个WORD表示,用其码值减去0x10000,然后差值的高10bit | 0xD800 = HWord,低10bit | 0xDC00 = LWord。
这里可能有人会有疑惑,解码时,那又怎么区分一个Unicode码值对应的是1个WORD还是2个WORD呢?
【能有此问,说明您不仅有认真在看,还有思考。。。
】
其实在设计Unicode编码规范时,做了预留,某些特殊编码或编码段,就用来干这些特殊事情。如下图示:
说明:当遇到WORD值在这个编码范围时(分大小端),则表示一个Unicode码值对应2个WORD,否则就是1个WORD。
2、编码转换
特别针对辅助平面字符(U >= 0x10000,2个WORD) ,必须先转换成实际编码,才能工作正常。
2.1、UTF-16 转 UTF-32
#define UTF16_HIGH_HALF_ZONE_MIN 0xD800
#define UTF16_HIGH_HALF_ZONE_MAX 0xDBFF
#define UTF16_LOW_HALF_ZONE_MIN 0xDC00
#define UTF16_LOW_HALF_ZONE_MAX 0xDFFF
#define UNICODE_PLANE00_MIN 0x000000
#define UNICODE_PLANE00_MAX 0x00FFFF
#define UNICODE_PLANE01_MIN 0x010000
#define UNICODE_PLANE10_MAX 0x10FFFF
#define IS_UTF16_TWO_WORD(x) (x >= UTF16_HIGH_HALF_ZONE_MIN && x <= UTF16_LOW_HALF_ZONE_MAX)
#define IS_UTF16_HIGH_HALF_ZONE(x) (x >= 0xD800 && x <= 0xDBFF)
#define IS_UTF16_LOW_HALF_ZONE(x) (x >= 0xDC00 && x <= 0xDFFF)
static uint32 convert_to_utf32(unsigned short u16High, unsigned short u16Low)
{
if(IS_UTF16_HIGH_HALF_ZONE(u16High) && IS_UTF16_LOW_HALF_ZONE(u16Low))
return ((uint32)((u16High & 0x3FF) << 10) | (u16Low & 0x3FF)) + UNICODE_PLANE01_MIN;
else /*Invalid UTF-16 code*/
return 0;
}
// 返回转换后utf32的长度
int utf16_to_utf32(unsigned short * u16str, uint32 * u32str)
{
int i = 0, nLen = 0;
if(u16str == NULL|| u32str == NULL)
return 0;
for(i = 0; u16str[i] != 0; i++)
{
if(IS_UTF16_HIGH_HALF_ZONE(u16str[i]))
{
u32str[nLen] = convert_to_utf32(u16str[i], u16str[i+1]);
if(u32str[nLen] == 0) /*Invalid UTF-32 code*/
break;
i++;
nLen++;
}
else
u32str[nLen++] = u16str[i];
}
return nLen;
}
2.2、UTF-32 转 UTF-16
static void convert_from_utf32(unsigned short * u16str, int * index, uint32 u32)
{
int i = *index;
if(u32 >= UNICODE_PLANE01_MIN)
{
uint32 uTmp = u32 - UNICODE_PLANE01_MIN;
*index = i + 2;
u16str[i] = (uTmp >> 10)|UTF16_HIGH_HALF_ZONE_MIN;
u16str[i+1] = (uTmp & 0x3FF)|UTF16_LOW_HALF_ZONE_MIN;
}
else
{
*index = i + 1;
u16str[i] = u32;
}
}
// 返回转换后utf16的长度
int utf32_to_utf16(uint32 * u32str, unsigned short * u16str)
{
int i = 0, nLen = 0;
if(u32str == NULL || u16str == NULL)
return 0;
do {
convert_from_utf32(u16str, &nLen, u32str[i]);
} while (u32str[i++] != 0);
return nLen;
}
说明:若是考虑 UTF-16 与 UTF-8 互转,由于涉及辅助平面编码(0x010 000-0x10FFFF),可用UTF-32作为中间编码过渡。
二、BOM
BOM(byte-order mark)即字节序标记,主要针对文件存储,有了BOM便能很快识别出文件的编码格式,及字节序。由于UTF-16考虑到不同的场景需求,分大小端:UTF16-LE(小端),UTF16-BE(大端)。故其BOM也分2种: FF FE,FE FF。详见如下图示:
说明:可以借助辅助软件(如:UltraEdit,WinHex等)查看文件标识头前2个字节(即BOM)来判断。
前面说过UTF-16是16位长码值,也就是2个字节,在数据存储或传递过程中, 会存在先后问题。例如:0x1122,那是先处理0x11,还是0x22呢?由于不同的场景,需求不同 ,故UTF-16 引入了【大小端】概念。
1、UTF16-LE
UTF16-LE 表示 UTF-16 Litter Endian (小端字节序),是指数据的高字节保存在内存的高地址,而数据的低字节保存在内存的低地址。Microsoft,Linux 默认小端字节序。
2、UTF16-BE
UTF16-BE 表示 UTF-16 Big Endian (大端字节序),是指数据的高字节保存在内存的低地址,而数据的低字节保存在内存的高地址。Mac 默认大端字节序。
针对不同(字节序)的处理器,选用不同字节序,会显著提高处理效率,当然越来越多的处理器,支持大小端切换设置。
3、大小端验证
// 说明:返回1,则表示小端字节序,否则大端字节序。
int is_little_endian(void)
{
short int x = 0x1122;
char x0 =((char*)&x)[0]; // 低地址单元 x0 = *((char *)(&x)); // 此种方式也可以
if(0x22 == x0)
return 1;
else// if(0x11 == x0)
return 0;
}
4、大小端转换宏
#define swap16(x) ((WORD)((((WORD)(x)&(WORD)0x00ffU)<<8)|(((WORD)(x)&(WORD)0xff00U)>>8)))
三、与UCS-2的关系
UCS-2(Universal Character Set coded in 2 octets)即以 2 个八位字节编码的通用字符集,表达范围: 0x0000-0xFFFF。UTF-16可看作是UCS-2的升级版。在没有辅助平面字符(Surrogate Code Points)前,UTF-16与UCS-2所指的是相同字符,即对于小于0x10000的UTF-16编码就等于UCS-2。但当引入辅助平面字符后,就称为UTF-16。现在若有软件声称自己支持UCS-2编码,那其实是暗指它不能支持UTF-16中超过2字节的辅助平面字符。
四、与UTF-8的比较
以后再有人问:UTF-16是等长编码吗?应该知道怎么回答了吧!!!
相关推荐
- 前端入门——css 网格轨道详细介绍
-
上篇前端入门——cssGrid网格基础知识整体大概介绍了cssgrid的基本概念及使用方法,本文将介绍创建网格容器时会发生什么?以及在网格容器上使用行、列属性如何定位元素。在本文中,将介绍:...
- Islands Architecture(孤岛架构)在携程新版首页的实践
-
一、项目背景2022,携程PC版首页终于迎来了首次改版,完成了用户体验与技术栈的全面升级。作为与用户连接的重要入口,旧版PC首页已经陪伴携程走过了22年,承担着重要使命的同时,也遇到了很多问题:维护/...
- HTML中script标签中的那些属性
-
HTML中的<script>标签详解在HTML中,<script>标签用于包含或引用JavaScript代码,是前端开发中不可或缺的一部分。通过合理使用<scrip...
- CSS 中各种居中你真的玩明白了么
-
页面布局中最常见的需求就是元素或者文字居中了,但是根据场景的不同,居中也有简单到复杂各种不同的实现方式,本篇就带大家一起了解下,各种场景下,该如何使用CSS实现居中前言页面布局中最常见的需求就是元...
- CSS样式更改——列表、表格和轮廓
-
上篇文章主要介绍了CSS样式更改篇中的字体设置Font&边框Border设置,这篇文章分享列表、表格和轮廓,一起来看看吧。1.列表List1).列表的类型<ulstyle='list-...
- 一文吃透 CSS Flex 布局
-
原文链接:一文吃透CSSFlex布局教学游戏这里有两个小游戏,可用来练习flex布局。塔防游戏送小青蛙回家Flexbox概述Flexbox布局也叫Flex布局,弹性盒子布局。它决定了...
- css实现多行文本的展开收起
-
背景在我们写需求时可能会遇到类似于这样的多行文本展开与收起的场景:那么,如何通过纯css实现这样的效果呢?实现的难点(1)位于多行文本右下角的展开收起按钮。(2)展开和收起两种状态的切换。(3)文本...
- css 垂直居中的几种实现方式
-
前言设计是带有主观色彩的,同样网页设计中的css一样让人摸不头脑。网上列举的实现方式一大把,或许在这里你都看到过,但既然来到这里我希望这篇能让你看有所收获,毕竟这也是前端面试的基础。实现方式备注:...
- WordPress固定链接设置
-
WordPress设置里的最后一项就是固定链接设置,固定链接设置是决定WordPress文章及静态页面URL的重要步骤,从站点的SEO角度来讲也是。固定链接设置决定网站URL,当页面数少的时候,可以一...
- 面试发愁!吃透 20 道 CSS 核心题,大厂 Offer 轻松拿
-
前端小伙伴们,是不是一想到面试里的CSS布局题就发愁?写代码时布局总是对不齐,面试官追问兼容性就卡壳,想跳槽却总被“多列等高”“响应式布局”这些问题难住——别担心!从今天起,咱们每天拆解一...
- 3种CSS清除浮动的方法
-
今天这篇文章给大家介绍3种CSS清除浮动的方法。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。首先,这里就不讲为什么我们要清楚浮动,反正不清除浮动事多多。下面我就讲3种常用清除浮动的...
- 2025 年 CSS 终于要支持强大的自定义函数了?
-
大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发!1.什么是CSS自定义属性CSS自...
- css3属性(transform)的一个css3动画小应用
-
闲言碎语不多讲,咱们说说css3的transform属性:先上效果:效果说明:当鼠标移到a标签的时候,从右上角滑出二维码。实现方法:HTML代码如下:需要说明的一点是,a链接的跳转需要用javasc...
- CSS基础知识(七)CSS背景
-
一、CSS背景属性1.背景颜色(background-color)属性值:transparent(透明的)或color(颜色)2.背景图片(background-image)属性值:none(没有)...
- CSS 水平居中方式二
-
<divid="parent"><!--定义子级元素--><divid="child">居中布局</div>...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- maven镜像 (69)
- undefined reference to (60)
- zip格式 (63)
- oracle over (62)
- date_format函数用法 (67)
- 在线代理服务器 (60)
- shell 字符串比较 (74)
- x509证书 (61)
- localhost (65)
- java.awt.headless (66)
- syn_sent (64)
- settings.xml (59)
- 弹出窗口 (56)
- applicationcontextaware (72)
- my.cnf (73)
- httpsession (62)
- pkcs7 (62)
- session cookie (63)
- java 生成uuid (58)
- could not initialize class (58)
- beanpropertyrowmapper (58)
- word空格下划线不显示 (73)
- jar文件 (60)
- jsp内置对象 (58)
- makefile编写规则 (58)