HTML 编码(字符集)

HTML charset 属性

为了正确显示 HTML 页面,网络浏览器必须知道使用哪种字符集。

字符集在 <meta> 标签中指定:

<meta charset="UTF-8">

HTML 规范鼓励 Web 开发人员使用 UTF-8 字符集。

UTF-8 涵盖了世界上几乎所有的字符和符号!

Web 上的 Unicode 使用增长

了解更多:

完整的 UTF-8 参考

ASCII 字符集

ASCII 是第一个用于 Web 的字符编码标准。

它定义了 128 种可以在互联网上使用的不同拉丁字符

  • 英文字母(a-z 和 A-Z)
  • 数字(0-9)
  • 一些特殊字符:! $ + - ( ) @ < > . # ?

ANSI 字符集

ANSI(Windows-1252)是第一个 Windows 字符集

  • 前 127 个字符与 ASCII 相同
  • 第 128 到 159 个是特殊字符
  • 第 160 到 255 个字符与 UTF-8 相同
<meta charset="Windows-1252">

ISO-8859-1 字符集

HTML 4 的默认字符集是 ISO-8859-1

它支持 256 个字符

  • 前 127 个字符与 ASCII 相同
  • 不使用第 128 到 159 个字符
  • 第 160 到 255 个字符与 ANSI 和 UTF-8 相同

HTML 4 示例

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

HTML 5 示例

<meta charset="ISO-8859-1">

UTF-8 字符集

  • 对于值 0 到 127 与 ASCII 相同
  • 不使用第 128 到 159 个字符
  • 对于值 160 到 255 与 ANSI 和 ISO-8859-1 相同
  • 从值 256 开始继续到 10,000 个字符
<meta charset="UTF-8">

了解更多:

完整的 UTF-8 参考

HTML UTF-8 字符

基本拉丁字母

ABCD abcd 0123 ?#$%

拉丁字母扩展-A

ĀĂĄ ĆĈĊ ĒĔĖĘ

拉丁字母扩展-B

ƀƁƂƃƄƅ ƆƇƈ ƉƊƋƌ

拉丁字母扩展-C

ⱠⱡⱢ ⱣⱤ ⱥⱦ ⱧⱨⱩ

拉丁字母扩展-D

Ꜧꜧ ꜨꜩꜪꜫ ꜬꜭꜮꜯ

拉丁字母扩展-E

ꬰꬱ ꬲꬳꬴ ꬵꬶ ꬷꬸꬹ

国际音标扩展

ɖɜɣ ɘɫɛ ɱɷɞ

间距修饰符

pʰ pʱ pʲ pʳ

变音符号

àáâã èéêẽ òóôõ

通用标点

‰ ‱ ⁒ ‼ ⁇ ⁈ ⁉ ⁎ ⁑ ⁂

上标和下标

C⁰ Cⁱ C⁴ C⁵ C₆ C₇ C₈

盲文

⠓⠑⠇⠇⠕ ⠺⠕⠗⠇⠙