博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
将 NCR(Numeric Character Reference) 字符转换为真实字符的方法
阅读量:7119 次
发布时间:2019-06-28

本文共 1411 字,大约阅读时间需要 4 分钟。

开发过程中遇到一种奇怪的编码格式:

每日一色|蓝白~

使用decode/unescape/decodeURI解码均无效.研究一番,总结一下.

实际上上面这种奇怪的编码格式并不是编码,而是一种叫做 NCR(Numeric Character Reference) 的标记结构.

Numeric Character Reference

看看维基百科的解释:

A numeric character reference (NCR) is a common markup construct used in SGML and other SGML-related markup languages such as HTML and XML. It consists of a short sequence of characters that, in turn, represent a single character from the Universal Charact

NCR是一种常见的标记结构,用于SGML和其他SGML相似的标记语言,如HTML和XML。它由一个短的字符序列组成,代表一个字符(全球的文字字符)。

NCR编码是由一个与号(&)跟着一个井号(#), 然后跟着这个字符的Unicode编码值, 最后跟着一个分号组成的, 如:

&#dddd;&#xhhhh;&#name;

其中, dddd是字符编码的十进制表示, 而hhhh是字符的16进制表示.

以 HTML 为例,这三种转义序列都称作 character reference:

前两种是 numeric character reference(NCR),数字取值为目标字符的 Unicode code point;以「」开头的后接十进制数字,以「」开头的后接十六进制数字。
后一种是 character entity reference,后接预先定义的 entity 名称,而 entity 声明了自身指代的字符。
从 HTML 4 开始,NCR 以 Unicode 为准,与文档编码无关。

「中国」二字分别是 Unicode 字符 U+4E2D 和 U+56FD,十六进制表示的 code point 数值「4E2D」和「56FD」就是十进制的「20013」和「22269」。所以——

中国中国

——这两种 NCR 写法都会在显示时转换为「中国」二字。

如何将 NCR 字符转换成真实字符

方法如下:

var regex_num_set = /&#(\d+);/g;var str = "Here is some text: 每日一色|蓝白~"str = str.replace(regex_num_set, function(_, $1) {  return String.fromCharCode($1);});document.write('
'+JSON.stringify(str,0,3));

以上例子使用了 String.prototype.replace() 和 String.fromCharCode() 方法. 思路为将字符串中的 NCR 字符逐个获取到 ""和";"间的 Unicode 字符编码值, 然后利用 String.fromCharCode() 方法, 将 Unicode 编码转为真实字符.

博客文章地址:

参考资料

转载地址:http://zusel.baihongyu.com/

你可能感兴趣的文章
系统状态检测 及进程控制
查看>>
xen-tools创建虚拟机找不到root fs的解决办法
查看>>
IBM X3650 M4 服务器
查看>>
备份和归档的区别
查看>>
linux每日命令(1):which
查看>>
Bolt XML和JQBolt Lua代码自动补全插件配置教程
查看>>
我的友情链接
查看>>
剑指offer:调整数组顺序使奇数位于偶数前面
查看>>
mysql参数优化和硬件优化等分享
查看>>
Create superuser in Django
查看>>
Mysql主从复制配置
查看>>
rsync服务器
查看>>
使用Hexo+Github一步步搭建属于自己的博客(基础)
查看>>
数据库优化资料整理
查看>>
tomcat 原理与使用资料
查看>>
报此错错解决办法:java.lang.NoSuchMethodError: javax.persistence.OneToMany.orphanRemoval()Z
查看>>
c#.net利用RNGCryptoServiceProvider产生任意范围强随机数的办法
查看>>
旅游网站进行邮件订阅的七大步骤讲解
查看>>
shell基础
查看>>
linux 文件类型 时间戳 ls bash特性四 文件查看命令 cp move echo
查看>>