Go语言核心手册-1.字符串 - 哈喽比特

515次阅读 | 发布于3年以前

1.1 基础概念

ASCII是英文“American Standard Code for Information Interchange”的缩写，中文译为美国信息交换标准代码，它是由美国国家标准学会（ANSI）制定的单字节字符编码方案，它使用单个字节（byte）的二进制数来编码一个字符。

Unicode编码规范为世界上现存的所有自然语言中的每一个字符，都设定了一个唯一的二进制编码。它以ASCII 编码集为出发点，并突破了ASCII只能对拉丁字母进行编码的限制。Unicode编码规范通常使用十六进制表示法来表示Unicode代码的整数值，并提供了三种不同的编码格式，即：UTF-8、UTF-16 和 UTF-32。

UTF-8以8个比特（一个字节）作为一个编码单元，它是一种可变宽的编码方案，它会用一个或多个字节的二进制数来表示某个字符，最多使用四个字节。对于一个英文字符，它仅用一个字节的二进制数就可以表示，而对于一个中文字符，它需要使用三个字节才能够表示。

rune是Go语言特有的一个基本数据类型，它的一个值就代表一个Unicode字符，比如'吕'、'M'。一个rune类型的值会由四个字节宽度的空间来存储，它的存储空间总是能够存下一个UTF-8编码值。

1.2 字符串编码

一个rune类型的值在底层其实就是一个UTF-8编码值，前者是（便于我们人类理解的）外部展现，后者是（便于计算机系统理解的）内在表达，请看下面代码：


str := "Go爱好者"
fmt.Printf("The string: %q\n", str)
fmt.Printf("runes(char): %q\n", []rune(str))   //['G' 'o' '爱' '好' '者']
fmt.Printf("runes(hex): %x\n", []rune(str))    //[47 6f 7231 597d 8005]
fmt.Printf("bytes(hex): [% x]\n", []byte(str)) //[47 6f e7 88 b1 e5 a5 bd e8 80 85]

对于第3行输出，前面解释的比较清楚，就不赘述。对于第4行输出，就是通过UTF-8编码，3个字节的16进制展现。第5行输出，把每个字符的UTF-8编码值都拆成相应的字节序列。

一句话总结一下：一个string类型的值在底层就是一个能够表达若干个UTF-8编码值的字节序列。

1.3 遍历字符串

range遍历：


str := "Go爱好者"
fmt.Printf("range 遍历:\n")
for i, c := range str {
 fmt.Printf("%d: %q [% x]\n", i, c, []byte(string(c)))
}
fmt.Printf("for 遍历:\n")
for i :=0; i < len(str); i++ {
 fmt.Printf("%d: [%c] [%x]\n", i, str[i], str[i])
}

输出如下：

range 遍历:
0: 'G' [47]
1: 'o' [6f]
2: '爱' [e7 88 b1]
5: '好' [e5 a5 bd]
8: '者' [e8 80 85]
for 遍历:
0: [G] [47]
1: [o] [6f]
2: [ç] [e7]
3: [] [88]
4: [±] [b1]
5: [å] [e5]
6: [¥] [a5]
7: [½] [bd]
8: [è] [e8]
9: [] [80]
10: [] [85]

由此可以看出，通过range方式的遍历，是以rune为单位，但是相邻字符的索引值并不一定是连续的；通过for方式的遍历，是以byte为单位。

1.4 类型转换

字符串是不能直接修改的，如果需要修改，需要转换为可变类型（[]rune和[]bype），待修改完后再转换回来。但不管如何转换，都需要重新分配内存，并复制数据.


str := "hello, world!"
bs := []byte(str)  // string转byte
str2 := string(bs) // byte转string
rs := []rune(str)  // string转rune
str3 := string(rs) // rune转string

前面已经讲解string、rune和byte的区别和联系，这里再理解他们的转换，是不是就轻松很多了呢。

1.5 总结

Go语言的代码是由Unicode字符组成的，它们都必须由Unicode编码规范中的UTF-8编码格式进行编码并存储，Unicode编码规范中的编码格式定义的是：字符与字节序列之间的转换方式。其中的UTF-8是一种可变宽的编码方案，它会用一个或多个字节的二进制数来表示某个字符，最多使用四个字节。

Go语言中的一个string类型值会由若干个Unicode 字符组成，每个 Unicode 字符都可以由一个rune类型的值来承载。这些字符在底层都会被转换为UTF-8编码值，而这些UTF-8编码值又会以字节序列的形式表达和存储。因此，一个string类型的值在底层就是一个能够表达若干个UTF-8 编码值的字节序列。

对于通过for range方式遍历字符串，会先把被遍历的字符串值拆成一个字节序列，然后再试图找出这个字节序列中包含的每一个UTF-8编码值，或者说每一个Unicode 字符。相邻的 Unicode 字符的索引值并不一定是连续的，这取决于前一个Unicode 字符是否为单字节字符，一旦我们清楚了这些内在机制就不会再困惑了。

对于 Go 语言来说，Unicode编码规范和UTF-8编码格式算是基础之一，我们应该了解到它们对 Go 语言的重要性，这对于正确理解Go语言中的相关数据类型以及日后的相关程序编写都会很有好处。