博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
UTF-8具体解释
阅读量:5226 次
发布时间:2019-06-14

本文共 782 字,大约阅读时间需要 2 分钟。

UTF-8是一种变长字节的编码方式。它以8位(1字节)为单位对进行编码。

UTF-8理论上最多能够达到6字节长。但眼下全世界的字符仅仅须要4字节就能够表示完。

UTF-8规定,对于某一字符的UTF-8编码。假设仅仅有一个字节则其最高位为0。假设是多字节,则其第一字节的开头由N位连续的1加一位0组成,其它字节开头以“10”开头。剩余字节将Unicode的二进制表示从左向右填充。首字节连续的1的个数表示字符编码所需的字节数。例如以下所看到的,

Unicode UTF-8
00 00 ~ 00 7F 0xxxxxxx
00 80 ~ 07 FF 110xxxxx 10xxxxxx
08 00 ~ FF FF 1110xxxx 10xxxxxx 10xxxxxx
1 00 00 ~ 1F FF FF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
20 00 00 ~ 3 FF FF FF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
400 00 00 ~ 7F FF FF FF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
如上表所看到的,汉字“文”的Unicode编码为0x6587,在0800~FFFF之间。所以UTF-8须要用3字节(1110xxxx 10xxxxxx 10xxxxxx)来表示,x使用0x6587的二进制表示来填充。终于,"文"的UTF-8编码为
11100110
10010110
10000111。

UTF-8兼容ASCII。

UTF-8中英文通常占3个字节。

P.S. PHP代码演示样例

转载于:https://www.cnblogs.com/jzssuanfa/p/6729403.html

你可能感兴趣的文章
servlet 简单登录
查看>>
HDU 3081 最大流+并查集
查看>>
关于做题记录的说明
查看>>
禁止删除、修改共享文件,防止局域网用户私自复制共享文件到本地的方法
查看>>
深度学习之语义分割中的度量标准
查看>>
ZOJ 3603 Draw Something Cheat
查看>>
洛谷P2016——战略游戏(树形)
查看>>
测者的性能测试手册:Web压力测试工具webbench
查看>>
java_函数手册_String_1.5_compareTo_比较两个字符串
查看>>
PHP 类与对象 全解析( 二)
查看>>
C#调用用户控件combox下拉值
查看>>
Docker的基本使用
查看>>
Hive
查看>>
Perl 基于OOP的数据库链接(增删改查)
查看>>
数据存储——远程服务器存储——JDK的get请求方式
查看>>
Unitless line-heights
查看>>
svn的使用详细说明
查看>>
项目配置文件项目搭架子
查看>>
搜索图片paip.图片搜索工具总结
查看>>
验证码类[置顶] SSO单点登录系列5:cas单点登录增加验证码功能完整步骤
查看>>