Unicode 趣事录：那些因为字符编码翻车的名场面

万物皆可编码，但不是万物都能显示

如果你从未被字符编码折磨过，那你可能还没有写过足够多的代码。Unicode 是人类试图用一套标准收录世界上所有文字的宏伟工程——截至 2025 年已收录超过 15 万个字符，从英文字母到甲骨文，从数学符号到 emoji。但在这个看似完美的系统背后，藏着无数令人哭笑不得的故事。

在大多数语言中，大写的 "i" 是 "I"，小写的 "I" 是 "i"。但在土耳其语中，情况不同：

这导致了一个经典的 bug：如果你的代码用 toUpperCase() 来做字符串比较，在土耳其语 locale 下，"wifi".toUpperCase() 不等于 "WIFI"，而是 "WİFİ"（注意 İ 上面有个点）。

无数应用因此在土耳其市场崩溃。Java 的 String.equalsIgnoreCase() 为此做了特殊处理，而这个问题至今仍然是编程面试的经典考题。

教训：永远不要用 locale-sensitive 的字符串操作来做逻辑判断。用 toUpperCase(Locale.ROOT) 或者 toLowerCase(Locale.ENGLISH)。

Unicode 中有一组肉眼完全看不见的字符：

这些字符有合法的用途（比如控制阿拉伯文和印度文的连写行为），但也被用于各种骚操作：

水印追踪：在文档中插入不同组合的零宽字符，可以标记每份文档的接收者。泄密后通过零宽字符的模式就能定位泄密者。
绕过审查：在敏感词中间插入零宽字符，"sensitive" 看起来和正常一样，但关键词过滤器匹配不到。
恶作剧：把零宽字符塞进变量名。代码看起来完全正常，但编译器报"未定义的标识符"——因为 name 和 name（中间有个零宽空格）是两个不同的标识符。

教训：如果你的代码"看起来完全正确"但就是不工作，试试用 hex editor 看看是不是混进了隐形字符。

问一个看似简单的问题：字符串 "👨‍👩‍👧‍👦" 的长度是多少？

答案取决于你怎么定义"长度"：

为什么 JavaScript 说是 11？因为 "👨‍👩‍👧‍👦" 实际上是 4 个独立的 emoji（👨、👩、👧、👦）通过 3 个零宽连接符 U+200D 粘合在一起的。每个 emoji 在 UTF-16 中占 2 个代码单元，连接符各占 1 个，总共 4×2 + 3×1 = 11。

这就是为什么你在文本框里限制"最多 10 个字符"时，用户输入两个家庭 emoji 就超限了。

教训：处理 emoji 时永远用字素簇（grapheme cluster）计数，不要依赖语言内置的 .length。

Unicode 在处理中日韩文字时做了一个影响深远的决定：CJK 统一表意文字（CJK Unified Ideographs）。简单来说，如果中文、日文、韩文里的一个字"看起来一样"，就给它分配同一个码点。

比如"骨"字，在中文和日文中写法有细微差异（日文的"骨"下半部分略有不同），但 Unicode 认为它们是同一个字，只给了一个码点 U+9AA8。实际显示时的差异交给字体来处理。

这个决定至今仍有争议。支持者认为它节省了码点空间，反对者认为它忽视了文化差异。最实际的影响是：你用日文字体显示中文，或者用中文字体显示日文时，某些字会"看起来怪怪的"。

Unicode 是计算机科学中最伟大的标准化工程之一，也是最让人头疼的工程之一。它试图用一套数字系统表达人类几千年的文字多样性——这本身就是一个注定不完美但不得不做的事情。

下次你遇到乱码时，请对 Unicode 标准委员会的志愿者们多一分理解。他们正在认真讨论"热狗 emoji 的芥末应该从哪个方向挤"这样的问题，为了让你在聊天时能发一个 🌭。