ascii 识得庐山真面目—详解ASCII编码
大家好。热量来了,和天气一样热。我们爬虫俱乐部每天都有新鲜出炉的推文。今天,我们要介绍我们的老朋友——ASCII码。江湖规矩,首先简单介绍一下什么是ASCII。
【ascii 识得庐山真面目—详解ASCII编码】在计算机中,所有数据在存储和操作时都应该用二进制数来表示,而ASCII编码统一规定了应该用哪些二进制数来表示公共符号。分为标准ASCII码128个字符和扩展ASCII码128个字符两组。标准ASCII码用于表示美式英语中使用的所有大小写字母、数字0到9、标点符号和特殊控制字符,如空大小写“SPACE”为32(二进制0010000),大写字母A为65(二进制0100001)。英语用128个符号编码就够了,但不足以代表其他语言,所以有扩展ASCII码,其扩展符号包括表符号、希腊字母和特殊拉丁符号。
另外附上一个小小的友好提醒:从stata14开始使用UNICODE (Unicode,Universal Code),而stata13及更低版本存在ASCII。关于它们之间的转换,我们在前面的文章中已经详细介绍了“”。
二、如何快速找到ASCII编码
Ascii编码总共对应256个字符,包括字母数字符号等。似乎不可能一一记住他们。那么当我们需要使用ASCII编码的时候,有什么方法可以让我们快速得到它们呢?机智的stata为我们提供了一个解决方案:ASCII命令
此时,您只需要在命令框中直接输入:ascii
可以得到下图:
学过ascii这个命令,你觉得如果ASCII编码以表格的形式更简洁方便,那么asciiplot命令会派上用场吗?
首先,我们需要安装asciplot命令:ssc安装asciplot图
这个命令的用法很简单。在命令框中直接输入:asciiplot
利用它,我们可以在stata13中快速得到ASCII字符映射表。另外需要注意的是,如果在stata14及更高版本中执行此命令,表中代码127-160对应的字符为空白色,读者可以自行尝试。stata13中的执行结果如下:
还有一种情况是我们想直接知道某个特定代码对应的字符。这时候char()函数就可以发挥作用了,可以把括号里的ASCII码转换成相应的字符。例如:
di char (110)
也就是说,ASCII码110对应的字符是小写字母n,需要注意的是,如果函数char()括号内的数字是128-255,在stata14及更高版本中是无法正常显示的(但如果使用stata13,仍然可以正常显示)。我们可以从帮助char()中了解到,从stata14开始,我们使用的所有编码都是UTF-8(UTF-8(UNICODE编码)的一种实现形式),如果char()函数括号中的数字是128-255,那么它将成为一个无效的UTF-8序列,可以通过uchar()函数求解。让我们举个例子:
di char(110)
di uchar(110)
di char(254)
di uchar(254)
运行结果如下:
关于我们
微信微信官方账号“Crawler Club”分享实用stata命令,欢迎转载和奖励。爬虫俱乐部是由李春涛教授带领的研究生和本科生组成的大数据分析和数据挖掘团队。
提交要求:
1)必须是原创,禁止抄袭;
2)一定要准确,详细,有举例和截图;
注意事项:
1)所有投稿都会经过微信官方账号运营团队成员审核,审核通过后才能录用。一旦被录用,作者将在推特上签名,并获得奖励。
2)请在邮件中注明提交,邮件名称为“提交”+“推文名称”。
3)应读者要求,现提供付费问答服务。如果遇到关于stata分析数据的问题,可以在微信官方账号里问,只需要付一点小报酬。我们会在后面的推文中回答他们。
推荐阅读
- 每日辟谣|小心这个“隐形杀手”!预防一氧化碳中毒,这些常识得知道
- 大耳窿粤语 越嚟越少人用嘅粤语“老词”,你仲识得几多?
- 恐狼其实不是“狼”?揭开美洲猛“犬”的庐山真面目
- 不识庐山真面目只缘身在此山中 不识庐山真面目,只缘身在此山中!13幅图带你一窥庐山仙境
- 程序员表白代码 程序员ASCII码花式表白:73 76 79 86 85成功追到女方
- 路过宠物店发现一只“海豹”,靠近后发现庐山真面目