HTML 字符集学习笔记

什么是字符集?

字符集是一种将数字代码与字符相对应的方式,以使计算机能够识别、存储和显示文本。HTML 中使用的字符集编码方式有 UTF-8 和 GBK 等多种。

UTF-8 编码

UTF-8 是一种可变长度的 Unicode 编码,它使用 1~4 个字节来表示一个字符。UTF-8 编码可以表示几乎所有的字符,因此成为了目前最常用的字符集编码方式。

下面是一些示例:

  • 中文字符 "你好" 的 UTF-8 编码为:E4 BD A0 E5 A5 BD
  • 英文字母 "A" 的 UTF-8 编码为:41
  • 特殊字符 "$" 的 UTF-8 编码为:24

在 HTML 中使用 UTF-8 编码时,需要在 <meta> 标签中指定编码方式,如下:

htmlCopy Code
<meta charset="UTF-8">

GBK 编码

GBK 是汉字内码扩展规范的一部分,是一种双字节编码方式。在 GBK 编码中,每个字符占据两个字节,可表示 21003 个中文字符和符号。

下面是一些示例:

  • 中文字符 "你好" 的 GBK 编码为:C4 E3 BA C3
  • 英文字母 "A" 的 GBK 编码为:41
  • 特殊字符 "$" 的 GBK 编码为:24

在 HTML 中使用 GBK 编码时,需要在 <meta> 标签中指定编码方式,如下:

htmlCopy Code
<meta charset="GBK">

总结

HTML 中使用的字符集编码方式有 UTF-8 和 GBK,其中 UTF-8 是目前最常用的编码方式。在使用字符集时,需要在 <meta> 标签中指定编码方式,以确保页面能够正确显示中英文和特殊字符等内容。