聊聊C语言和指针的本质

499次阅读  |  发布于1年以前

今天我们聊一聊C语言的指针,以及和指针相关的一些东西。C语言在当今计算机体系中有着举足轻重的地位。

很多编程语言都以 “没有指针” 作为自己的优势来宣传,然而,对于C语言,指针却是与生俱来的,灵魂般的存在。

指针

那么,什么是指针,为什么大家都想避开指针。

指针是内存地址的一种抽象,当一个内存地址作为一个变量存在时,它就被叫做指针,该变量的类型,就是指针的类型,但指针本身是一个特定内存空间,其大小取决于计算机系统的体系结构。在32位系统中,指针通常占用4个字节(32位),而在64位系统中,指针通常占用8个字节(64位)。指针的大小决定了计算机可以访问的最大内存空间。例如,在32位系统中,最大寻址空间为2^32字节(4GB),而在64位系统中,最大寻址空间为2^64字节(16EB,1EB等于10亿GB)。指针的值保存的是另外一个变量或者函数等的内存地址。

指针的泛化能力

给指针定义类型只是为了后续读取内存,所有指针大小都是一样,指针实际上可以指万物。在冯·诺依曼系结构的计算机中,一起变量和函数都是内存地址,指针可以指向任何一个,在中间传递过程中,指针可以把值传给任何其他指针(我们可以定义void*指针),我们只需要读取时候对齐类型进行解析(因为有虚拟内存机制存在,跨进程一般不能直接传递指针,每个进程都有自己内存空间,相同地址可能是不一样内容,直接传递指针可能导致数据错误或程序崩溃),这个和TCP端到端通信原理很类似,我们在传输时候,中间传输节点可以是路由器或者交换机或者其他任何设备都可以,只要能传输就行,我们只需要在两端(起点和终点)对齐类型就可以了。

指针的泛化能力,给c语言带来无穷想象力(抽象能力)和编程的扩展性(泛型编程),比如glibc一些通用函数实现:

函数指针是指向函数的指针,可以用于将函数作为参数传递给其他函数,或者从函数中返回。这使得我们可以实现高阶函数和灵活的控制流,甚至函数式编程。

比如C++多态实现(虚函数):

Linux内核用C语言指针实现了大量OOP编程:

Java异常处理机制通常使用指针来实现:

Go的切片也用指针来实现:

还可以实现异步编程(回调函数),引用计数(GC),各种高级数据结构等等,可以说指针是C语言的灵魂。

指针和内存关系

谈到指针,肯定需要理解内存原理:

来自深入理解计算机系统

内存中的每一个字节都是有一个编号的,这个编号就是“地址”,且内存空间是线性的。如果我们在程序中定义了一个变量,在对这个程序进行编译或者运行的时候,系统会自动给这个变量分配内存单元,并确定其地址。变量有两个固定属性:一个变量的内存地址。一个变量的值。

指针变量就是存放变量内存地址的一个变量。指针变量的运算(+,-,++,--等)就是内存地址的计算(偏移),指针解引用就是访问或者修改指针指向的内存地址处的数据,内存大小由指针类型决定,我们平时通常会把指针变量称作指针,由于指针本身也是一个变量,我们就可以根据自相似性(self-similarity,类似递归属性),用指针指向自己,从而扩展到多级指针(多维指针),用一个变量来描述多个维度。

指针的作用

指针的作用就是,给出一个指针,取出该指针指向地址处的值。为了理解本质,我们从计算机模型说起。宏观看来,计算机可以分为两类:

存储-执行计算机(冯·诺依曼结构)

这类机器典型的例子就是我们平时使用的计算机,有一个CPU,有一个内存,CPU仅包含运算逻辑,所有的指令和数据都在内存中,内存仅供存储,不包含任何运算组件。

现场编程计算机

这类机器的典型例子就是ASCI电路,FPGA这种。直接针对特定的需求构建逻辑电路,然而,FPGA则采用并行计算和查找表(LUT)等技术,更适合执行特定的任务。此外,FPGA的编程难度较高,需要专门的编程技能和工具,以及设计和实现的成本较高等问题,不太适合通用计算, 通常是作为特定任务硬件加速。

我们看我们平时使用的存储-执行模型(**冯·诺依曼结构**)的计算机工作模式

CPU在地址总线上发射一个地址到内存。内存把特定地址对应的数据返回到数据总线。看起来,通用计算机就是通过指针完成所有工作的。CPU没有能力直接操作内存里的值,它必须做以下的操作以迂回:

从特定地址A0取出值V0。对V0进行加工运算生成V1。将V1存入特定地址A1。

最开始人们就是按照以上的这么个逻辑编程的,这就是汇编语言:

mov    -0x4c(%rbp),%ebx

然而,这样太麻烦了,C语言随着简单通用的UNIX操作系统而生,下面的语句看起来更加方便:

int a = 10;
char *p = &a;
*p = 13;

C语言直接映射了CPU的工作方式,而且是用极其简单的方式,这就是C语言的艺术

这就是C指针的背景。在那个年代,人们还没有渴望计算机帮助完成更复杂的业务逻辑,人们只是希望用一种更加简单的方式抽象出计算机的行为,最终的结晶,就是C语言。

于是,我们说,C语言的精华就是指针,指针是C语言的一切。我们可以没有if-else语言,我们可以没有switch-case语句,我们可以不要while,我们不要for,但我们必须有指针。

是的,我们可以用指针函数的状态矩阵代替if-else之类:

int (*routine)[...]();
...
condition = calc(...);
routine[condition](argv);

我们用状态矩阵成功规避了if-else…可以看到,还是用的指针。指针是存储-执行模型的计算机工作的必要条件!

我们再看存储-执行模型的计算机的工作方式:

这意味着什么?

只要想让CPU正常工作,就必须暴露整个内存地址空间给CPU,否则CPU就是一堆毫无用处的门电路,换句话说,CPU的数据一切来自内存!操作内存就必然要用指针!

其实,C语言就是简化版的汇编语言。最终,C语言接力汇编用指针创造了世界。

不管怎么样,C语言是面向计算机的编程语言,而不是面向业务的编程语言,它映射了计算机的工作方式而不太善于描述业务逻辑,因此,C语言深受黑客,编程手艺人这种计算机本身的爱好者喜爱,却不被业务程序员待见,因为摆弄指针确实太繁琐复杂了,一不小心就会出错。

存储-执行模型的问题在于,要设计复杂的带外机制防止内存被任意访问,由此而来的就是复杂的分段,分页,访问控制,MMU等机制,当然,这些机制和CPU依靠指针访问内存的工作方式并不冲突。

把C语言指针用的最绝的应该就是Linux内核的嵌入式链表 struct list_head 了:

struct list_head {
struct list_head *next, *prev;
};

它可以代表一切,它通过C指针完美诠释了OOD/OOP,list_head是世界的基类!

通过container_of宏,list_head可以转换为任意对象:

/**
 * container_of - cast a member of a structure out to the containing structure
 * @ptr:        the pointer to the member.
 * @type:       the type of the container struct this is embedded in.
 * @member:     the name of the member within the struct.
 *
 */
#define container_of(ptr, type, member) ({                              \
void *__mptr = (void *)(ptr);                                   \
        BUILD_BUG_ON_MSG(!__same_type(*(ptr), ((type *)0)->member) &&   \
                         !__same_type(*(ptr), void),                    \
"pointer type mismatch in container_of()");    \
        ((type *)(__mptr - offsetof(type, member))); })

这个转换背后的依赖,正是指针,通过链表节点地址可以反推数据节点地址,链表是基类,不需要存储数据,只需要任何一个结构"继承"(嵌入链表节点)就可以有链表功能:

然而,C语言依然对业务编程不友好,前面说了,C语言映射的就是计算机工作方式本身,若想用好C语言,就必须要懂计算机原理,这并不是业务程序员的菜,业务程序员只是编写业务逻辑,并不在乎计算机是如何工作的。

曾经,计算机还是一群痴迷于技术本身的极客们的玩具,计算机是属于他们的,他们用C编程,用Perl/Python/Bash粘合二进制程序。进入互联网时代,随着越来越复杂的业务逻辑出现,越来越多的职业程序员开始成了多数派,他们开始使用更加业务友好的语言,Java,Go便成功了。

不能说这些业务编程语言没有指针,只是它们隐藏了指针而已,它们对程序员暴露了更加对业务友好的编程接口和语法,自己在底层处理指针问题,仅此而已。指针是客观存在的,只要你使用的是存储-执行模型的计算机,指针就是一切。

参考

Copyright© 2013-2020

All Rights Reserved 京ICP备2023019179号-8