进程、线程与协程傻傻分不清?一文带你吃透!

378次阅读  |  发布于3年以前

前言

欢迎来到操作系统系列,依然采用图解 + 大白话的形式来讲解,让小白也能看懂,帮助大家快速科普入门

本篇开始介绍进程、线程、协程,相信很多小白们对这几个概念理解的不清晰,这里全部给你们安排的明明白白,我们开始进入正文吧

内容大纲

小故事

小明(操作系统)创办了一家互联网小公司,因为准备同时开发A与B两个软件,所以小明请了两个开发团队来做这件事情,分别是小王开发团队与小李开发团队,可是公司特别小,只有一个房间(C P U),而且房间(C P U)只能容纳一个开发团队,为了能两个软件开发不被耽误,小明(操作系统)决定,上午小王团队开发,下午小李团队开发(这个过程称为调度)。

小李(进程)与小王(进程)身为团队负责人,他们要操心的事情比较多,需要对软件进行分析整理,做架构设计,最后再把任务细化分配给团队的每个开发人员(线程),在团队交换房间的时候,还需要把整个软件开发进度记录下来,方便下次接着开发,相比开发人员就轻松多了,每个人只负责一小块,需要记录的也只有一小块。

通过这个小故事,大伙也看出来了,一个进程管理着多个线程,就像团队负责人(进程)管理着多个开发人员(线程)一样。

进程

什么是进程

你打开网易云音乐会产生一个进程 ,你打开QQ会产生一个进程 ,你电脑上运行的程序都是进程 ,进程就是这么简单暴力。

现在我们思考一个问题,有一个进程读取硬盘里的文件,这个文件特别大,需要读取很长时间,如果 C P U 一直傻傻的等硬盘返回数据,那 C P U 的利用率是非常低的。

就像烧开水,你会傻傻等水烧开吗?很明显,这段时间完全可以去做其他的事情(比如玩玩赛博朋克2077),水烧开了再过来把水倒入水杯中,这样不香吗?

C P U 也是一样,它发现 进程 在读取硬盘文件,不需要阻塞等待硬盘返回数据,直接去执行其他进程 ,当硬盘返回数据时,C P U 会收到 中断 的信号,于是 C P U 再回到之前的 进程 继续运行

这种多程序 交替执行 的方式,就是 C P U 管理多进程初步思想。

可能会有人问了, 交替执行会不会很慢,这个不用担心,因为 C P U 的执行速度与切换速度非常的快,可能就是几十或几百毫秒,超出了人类的感知,一秒钟内可能就交替运行了多个进程,所以给我们产生 并行 的错觉,其实这叫并发。

单核 多进程交替执行 就是并发,多进程在多核运行就是并行。

进程的控制结构

创造任何东西的时候,都要先有形,才有物,你造房子、造汽车或造其他东西,都要有设计图(结构),再根据设计图来创造, 进程也不例外,它也有属于自己的设计图,那就是 进程控制块(process control block,PCB),后面就简称 P C B 好了

P C B的结构信息

P C B是 进程 存在的唯一标识,这意味一个 进程 一定会有对应的PCB,进程消失,P C B也会随之消失

P C B组成的队列

P C B通过链表的方式进行组织,把具有相同状态的进程链在一起,组成各种队列

进程的状态

通过观察,我们发现进程执行的过程遵循这样的 运行-暂停-运行 规律,虽然看起来十分简单,但是它的背后涉及到了进程状态的转换

进程三态

进程的执行期间,至少具备三种基本状态,即运行态、就绪态、阻塞态。

上图状态的意义

上图状态转换流程

  1. C P U 调度绪态进程执行,进入运行状态,时间片使用完了,回到就绪态,等待 C P U 调度
  2. C P U 调度绪态进程执行,进入运行状态,执行IO请求,进入阻塞态,IO请求完成,CPU收到 中断 信号,进入就绪态,等待 C P U 调度

进程五态

在三态基础上,做一次细化,出现了另外两个基本状态,创建态和结束态。

上图状态的意义

状态的变迁

进程七态

其实进程还有一种状态叫挂起态,挂起态代表该进程不会占用内存空间,它会被换出到硬盘空间保存,当需要使用它的时候,会被换入,加载到内存,挂起态可以分为下面两种

结合上述的两种挂起态,就组成了进程七态

从上图我们发现,创建态、就绪态、运行态,阻塞挂起态、阻塞态都可以转入挂起态,这时问题就产生了,什么情况会转入 挂起态 ,什么情况又会从 挂起态 转入到 非挂起态(就绪态与阻塞态), 操作系统会根据当前资源状况和性能要求、进程的优先级来进行挂起与激活操作,没有固定的说法。

进程的上下文切换

C P U把一个进程切换到另一个进程运行的过程,称为进程上下文切换。

在说进程上下文切换之前,先来聊聊 C P U 上下文切换

C P U上下文 是指 C P U 寄存器 和 程序计数器

C P U 上下文切换 就很好理解了,就是把前一个任务的 C P U上下文 保存起来,然后在加载当前任务的 C P U上下文,最后再跳转到 程序计数器 所指的新位置,运行任务。

上面说到所谓的「任务」,主要包含进程、线程和中断。所以,可以根据任务的不同,把 CPU 上下文切换分成:进程上下文切换、线程上下文切换和中断上下文切换。

进程的上下文是怎么切换的

首先进程是由内核管理与调度的,所以 进程上下文切换 发生在内核态,进程上下文切换的内容包含用户空间资源(虚拟内存、栈、全局变量等)与内核空间资源(内核堆栈、寄存器等)。

在做上下文切换的时候,会把前一个 进程 的上下文保存到它的 P C B 中,然后加载当前 进程 的 P C B 上下文到 C P U 中,使得 进程 继续执行

发生进程上下文切换的场景

线程

什么是线程

在早期操作系统都是以 进程 为独立运行的基本单位,直到后面,计算机科学家又提出了更小的能独立运行的基本单位,它就是线程。

在现代操作系统,进程是最小的资源分配单位,线程是最小的运行单位,一个进程下面能有一个或多个线程,每个线程都有独立一套的寄存器和栈,这样可以确保线程的控制流是相对独立的。

线程带来的好处有以下几点

线程带来的坏处有以下几点

线程与进程的对比

线程比进程不管是时间效率,还是空间效率都要高

线程的上下文切换

当进程只有一个线程时,可以认为进程等于线程,线程上下文的切换分两种情况

  1. 不同进程的线程,切换的过程就跟进程上下文切换一样
  2. 两个线程是属于同一个进程,因为虚拟内存是共享的,所以在切换时,虚拟内存这些资源就保持不动,只需要切换线程的私有数据、寄存器等不共享的数据

所以线程的上下文切换相比进程,开销要小很多

线程的模型

在说线程模式之前,先介绍3个概念

内核线程

因为内核线程是由内核空间管理,所以它的 结构线程控制块(Thread Control Block, TCB) 在内核空间,操作系统对 T C B 是可见的

内核线程

内核线程有什么优点

内核线程有什么缺点

用户线程

因为 用户线程 在用户空间,是由 用户态 通过线程库来管理,所以它的 结构线程控制块(Thread Control Block, TCB) 也是在线程库里面,对于操作系统而言是看不到 T C B 的,它只能看到整个进程的 P C B(内核无法管理用户线程,也感知不到用户线程)

用户线程有什么优点

用户线程有什么缺点

轻量级进程(Light-weight process,LWP)

轻量级进程(Light-weight process,LWP)可以理解成内核线程的高级抽象,一个 进程 可以有一个或多个L W P ,因为每个 L W P 与 内核线程 一对一映射,所以 L W P 都是由一个 内核线程 支持(用户线程关联L W P,即成为内核支持的用户线程)。

在大多数系统中,L W P与 普通进程 的区别也在于它只有一个最小的执行上下文和调度程序所需的统计信息。一般来说,一个进程 代表程序的一个实例,而 L W P 代表程序的执行线程,因为一个 执行线程 不像进程那样需要那么多状态信息,所以 L W P 也不带有这样的信息。

一对一模型(内核级线程模型)

L W P就是一对一模型,即 进程 只需要创建使用L W P ,因为一个 L W P 由一个 内核线 程支持,所以最终是内核管理线程,可以调度到其他处理器上(再简单点解释,直接使用内核线程)

一对一模型(1:1)的优缺点就不多说了,上面介绍内核线程的时候已经说过了,但是值得一提的是,jvm采用该模型实现线程,所以在Java中启动一个线程需要谨慎

一对多模型(用户级线程模型)

一对多模型,即多个用 户级线程 对用到同一个 L W P 上实现,因为是用户态通过用户空间的线程库对线程管理,所以速度特别快,不会涉及到用户态与内核态的转换

一对多模型(n:1)的优点缺点体现在用户级线程上面,用户线程的优缺点前面说过,这里不做概述,值得一提的是 Python 中的协程就是通过该模型实现。

多对多模型(两级线程模型)

多对多模型是集各家所长诞生的产物,它充分吸收前两种线程模型的优点且尽量避免它们的缺点。

首先它区别于多对一模型,多对多模型进程内的 多用户线程 可以绑定不同的内核线程 ,这点与 一对一模型 类似,其次又区别于一对一模型,进程内的 多用户线程 与 内核线程 不是一对一绑定,而是动态绑定,当某个 内核线程 因绑定的 用户线程 执行阻塞操作,让出 C P U 时,绑定该 内核线程 的其他 用户线程 可以解绑,重新绑定到其他 内核线程 继续运行。

所以多对多模型(m:n),即不是多对一模型完全靠自己实现的线程库调度,也不是一对一模型完全靠操作系统调度,而是一个中间态系统(负责自身调度与操作系统调度的协同工作),最后提一句Go语言使用的是多对多模型,这也是其高并发的原因,它的线程模型与Java中的ForkJoinPool非常类似。

多对多模型优点

多对多模型缺点

调度

调度原则

CPU 利用率

系统吞吐量

周转时间

等待时间

响应时间

总之就是 要快!

调度算法

不同的算法适用不同的场景,下面介绍几个单核中常见的调度算法

先来先服务算法(First Come First Severd, FCFS)

先来先服务算法简称 F C F S,顾名思义,谁先来,谁先被 C P U 执行,后到的就乖乖排队等待,十分简单的算法,C P U每次调度 就绪队列 的第一个进程,直到进程退出或阻塞,才会把该进程入队到队尾,然后接着继续调度第一个进程,依此类推。

F C F S算法看似很公平,但是当一个长作业先运行了,后面的短作业等待的时间就会很长,所以不利于短作业,会降低系统吞吐量。

F C F S对长作业有利,适用于 C P U 繁忙型作业的系统,而不适用于 I/O 繁忙型作业的系统。

最短作业优先算法(Shortest Job First, SJF)

同样也是顾名思义,它会优先选择运行时间最短的进程,有助于提高系统吞吐量。但是对长作业不利,所以很容易造成一种极端现象。比如,一个 长作业 在就绪队列等待运行,而这个就绪队列有非常多的短作业,最终使得 长作业 不断的往后推,周转时间变长,致使长作业长期不会被运行(适用于 I/O 繁忙型作业的系统)。

高响应比优先算法 (Highest Response Ratio Next, HRRN)

因为前面的「先进先出算法」和「最短作业优先算法」都没有很好的权衡短作业和长作业,所以高响应比优先算法主要是权衡了短作业和长作业。

每次进行进程调度时,先计算「响应比优先权」,然后把「响应比优先权」最高的进程投入运行。

从上面的公式,可以发现:

如果两个进程的「等待时间」相同时,「要求的服务时间」越短,「优先权」就越高,这样短作业的进程容易被选中运行(如果等待时间较短,进程的运行时间越短,优先权就会越高 => 等待时间较短的短作业进程)

如果两个进程「要求的服务时间」相同时,「等待时间」越长,「优先权」就越高,这就兼顾到了长作业进程,因为进程的响应比可以随时间等待的增加而提高,当其等待时间足够长时,其响应比便可以升到很高,从而获得运行的机会(如果要求服务时间比较长,进程的等待时间越长,优先权就会越高 => 等待时间较长的长作业进程)

时间片轮转(Round Robin, RR)算法

时间片轮转是最古老、最简单、最公平且使用最广的算法,给每个进程分配相同时间片(Quantum),允许进程在该时间段中运行。

需要注意的是,如果时间片设置的太短,会导致CPU上下文切换态频繁,太长又可能引起对短作业进程的响应时间变长,所以时间片设为 20ms~50ms 通常是一个比较合理的折中值

最高优先级(Highest Priority First,HPF)算法

前面的「时间片轮转算法」让所有的进程同等重要,不偏袒谁,大家的运行时间都一样。但是,对于多用户计算机系统就有不同的看法了,它们希望调度是有优先级的,希望调度程序能从就绪队列中选择最高优先级的进程运行,这就是最高优先级(Highest Priority First,HPF)算法。

进程的优先级可以分为:

有两种处理优先级高的方法:

但是依然有缺点,可能会导致低优先级的进程永远不会运行。

多级反馈队列(Multilevel Feedback Queue)算法

多级反馈队列(Multilevel Feedback Queue)算法 是基于「时间片轮转算法」和「最高优先级算法」演进而来,如同它的名字一样,根据优先级分组成多个队列,在算法中涉及两个概念:

工作流程:

可以发现,对于短作业可能可以在第一级队列很快被处理完。对于长作业,如果在第一级队列处理不完,可以移入下次队列等待被执行,虽然等待的时间变长了,但是运行时间也会更长了,很好的兼顾了长短作业,同时有较好的响应时间。

Copyright© 2013-2020

All Rights Reserved 京ICP备2023019179号-8