计算机原理探险系列(八)继续探索,进程和线程

541次阅读  |  发布于3年以前

前段时间整理了一整个系列关于计算机原理相关的内容点,感觉还是蛮有意思的。后边歇了一段时间,现在继续回顾这个专题,希望后续自己能够继续坚持维护下去。

之前的文章中有提及过什么是进程,既可以说进程是程序运行的一个表现,也可以说它是CPU分配虚拟内存空间的一个基本单元。

之前还提及过如果在操作系统中频繁地做进程之间的切换,其实是一个非常消耗资源的行为。因为不同进程之间的数据保存在不同的PCB中,当切换到新的进程的时候,需要将原先进程的PCB数据保存,然后重新加载新的PCB中的数据。

进程在执行的时候,CPU的一些寄存器,栈指针都需要和进程的执行情况做绑定,所以当进程进行切换的时候,需要将这些执行状态的信息寄存到PCB中。整体流程如下所示:

渐渐地人们开始提出一种设想,能否设计一种技术,能实现多个任务执行的时候可以并发地执行,并且切换执行的时候开销比切换进程要小。

于是这个时候便诞生了线程这么一个概念。

线程是什么

从使用角度来看,线程可以看作是进程中的一条执行流程。

从运作资源的层面来看,进程将一组资源统一管理了起来,然后通过自身定义的一些基础函数实现线程并发执行的过程。(这里说的一组资源环境中包含了地址空间,代码段,数据段,程序运行期间需要使用的各种资源数据。)

线程包含有了自己的一些专属数据区域,例如说自己的程序计数器,线程栈等。进程PCB内部的主要存储也就是各种线程和一个公共的资源管理模块。当线程需要创建的时候由进程分配指定的资源空间供其运作。

各个进程共享相同的资源空间弊端:

造成资源的竞争激烈,有时候一个线程的崩溃,可能会导致其他线程的崩溃。

多线程和多进程的应用场景

多线程应用场景

1.十个线程同时下载一份大文件,最终对多个小文件块进行合并。

2.项目中使用的线程池,多线程并发处理任务,提高消费速率。

3.异步计算任务,例如JDK内部的Future等。

4.Tomcat服务器调配线程数,提升系统的并发吞吐量。

多进程应用场景

1.例如k8s集群中,多个进程同时在机器上运作。

2.谷歌浏览器每打开一个页面就开启一个进程。(这样设计是因为进程之间的资源隔离,不会导某一异常网页对资源过度消耗影响到其他页面的使用情况)

线程的上下文切换

之前本系列的[第一篇文章CPU] 中有提到过线程在进行内核函数调用的时候需要从用户态切换到内核态,其中需要执行一个叫做80中断的这么一个过程,比较消耗性能。除此之外,线程在进行上下文切换的环节也是需要通知到内核态,做相应的80中断操作,但是是否说线程的上下文切换就一定要经过内核呢?

线程实现的三种方式

用户线程

在操作系统的用户空间中实现的线程机制,当线程之间进行切换的时候不需要通知系统内核,切换的工作由进程内部的一组函数操作,支持每个进程自定义自己的线程调度函数,多线程切换的效率较高。

用户线程这种机制在一些比较早期的操作系统,例如 Mach, Solaris 中受到支持。

Mach是一个由卡内基梅隆大学开发的用于支持操作系统研究的操作系统内核。

Solaris 是Sun Microsystems研发的计算机操作系统。它被认为是UNIX操作系统的衍生版本之一。

不足点

内核线程 下边这里有一张图简单地描述了内核线程的资源管控结构。

PCB和TCB的管控由内核空间管理,所以线程的上下文切换,终端等都是由操作系统处理,一次切换就需要一次用户态到内核态的调用。常见的Windows,XP操作系统都是采用的内核线程设计机制。

好处

不足点

轻量级进程LWP

轻量级进程(LWP)是建立在内核之上并由内核支持的用户线程,它是内核线程的高度抽象,每一个轻量级进程都与一个特定的内核线程关联。内核线程只能由内核管理并像普通进程一样被调度。如下图所示:

轻量级进程由clone()系统调用创建,参数是CLONE_VM,即与父进程是共享进程地址空间和系统资源。

与普通进程区别:LWP只有一个最小的执行上下文和调度程序所需的统计信息。

轻量级线程(LWP)是一种由内核支持的用户线程。它是基于内核线程的高级抽象,因此只有先支持内核线程,才能有LWP。每一个进程有一个或多个LWPs,每个LWP由一个内核线程支持。这种模型实际上就是恐龙书上所提到的一对一线程模型。在这种实现的操作系统中,LWP就是用户线程。

由于每个LWP都与一个特定的内核线程关联,因此每个LWP都是一个独立的线程调度单元。即使有一个LWP在系统调用中阻塞,也不会影响整个进程的执行。

局限性

其实在Linux系统内核中并没有线程这一概念,本质上内核是用一个叫做task_struct的结构体来作为这些任务执行的载体,只是后边提出了轻量级进程的技术之后,人们开始将其称之为线程,所以才会导致今天那么多人都喜欢称之为linux内核线程。

Linux内部几个核心内核函数介绍

fork函数

//
// Created by idea on 2021/5/15.
//
#include <unistd.h>
#include <stdio.h>

int main ()
{
    pid_t fpid; //fpid表示fork函数返回的值
    int count = 0;
    fpid = fork();
    if (fpid < 0)
        printf("error in fork!");
    else if (fpid == 0)
    {
        printf("i am the child process, my process id is %d/n", getpid());
        printf("我是爹的儿子/n");//对某些人来说中文看着更直白。
        count++;
    }
    else
    {
        printf("i am the parent process, my process id is %d/n", getpid());
        printf("我是孩子他爹/n");
        count++;
    }
    printf("统计结果是: %d/n", count);
    return 0;
}

运行结果:

在linux内核中,fork函数的作用是创建一个和原进程一样的相同进程,这两个进程可以做相同的事情。例如上方的代码中,父进程A创建了子进程B,子进程中调用的fork函数返回的数值为0,所以执行的结果打印如图所示。

fork调用的一个奇妙之处就是它仅仅被调用一次,却能够返回两次,它可能有三种不同的返回值: 1)在父进程中,fork返回新创建子进程的进程ID; 2)在子进程中,fork返回0; 3)如果出现错误,fork返回一个负值;

wait函数

有时需要让一个进程等待另一个进程,最常见的是父进程等待自己的子进程,或者父进程回收自己的子进程资源包括僵尸进程。wait函数的主要作用就是让父进程等待子进程的执行结果。

父进程一旦调用了wait就立即阻塞自己,由wait自动分析是否当前进程的某个子进程已经退出,如果让它找到了这样一个已经变成僵尸的子进程,wait就会收集这个子进程的信息,并把它彻底销毁后返回;如果没有找到这样一个子进程,wait就会一直阻塞在这里,直到有一个出现为止。

Copyright© 2013-2020

All Rights Reserved 京ICP备2023019179号-8