文章目录
🎪 进程的描述组织
进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配的基本单位,是操作系统结构的基础。在早期面向进程设计的计算机结构中,进程是程序的基本执行实体;在当代面向线程设计的计算机结构中,进程是线程的容器。程序是指令、数据及其组织形式的描述,进程是程序的实体,简单来说,进程就是一个正在运行的程序,是担当分配系统资源的实体
🚀1.什么是进程
我们前面说了进程是一个正在运行的程序,我们上一篇博客(博客链接:冯诺依曼体系结构和操作系统概念理解)中说到:操作系统诞生的意义就是对计算机软硬件资源进行管理,而管理的本质就是先描述,在组织,每个进程包含它对应的代码和数据,而描述进程的就是数据结构叫PCB(进程控制块),而每个PCB里面包含着进程相关的信息,每款操作系统都有自己的PCB,而Linux自己的PCB是task_struct,task_struct的相关信息如下:
- 标示符: 描述本进程的唯一标示符,用来区别其他进程
- 状态: 任务状态,退出代码,退出信号等
- 优先级: 相对于其他进程的优先级
- 程序计数器: 程序中即将被执行的下一条指令的地址
- 内存指针: 包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针
- 上下文数据: 进程执行时处理器的寄存器中的数据[休学例子,要加图CPU,寄存器]
- I/ O状态信息: 包括显示的I/O请求,分配给进程的I/ O设备和被进程使用的文件列表
- 记账信息: 可能包括处理器时间总和,使用的时钟数总和,时间限制,记账号等。
- 其他信息
🚀2.进程的形成
当我们打开一个程序(本质上也是文件),实际上它是被加载到了内存中,也就变成了进程。我们之前任何启动并运行程序的行为,都会有操作系统帮助我们将程序转换成进程,完成特定的任务。
我们启动应用程序的时候,OS会将对应的程序的代码和数据加载到内存,并且会形成当前程序对应的PCB,将其链接。总之:进程 = 内核中关于程序对应的数据结构 + 对应的代码和数据
🚀3.进程标识符 *
进程标识符(PID)是大多数操作系统的内核用于唯一标识进程的一个数值。(简言之,就是进程的绰号。)这一数值可以作为许多函数调用的参数,以使调整进程优先级、kill(命令)进程之类的进程控制行为成为可能。
⭐3.1 PS命令查看PID
这里我们先写一个C程序,命名为process1.c.
process1.c
#include<stdio.h>#include<unistd.h>intmain(){while(1){printf("我是一个进程,我叫process1.\n");sleep(2);}return0;}
这里为了便于观察我们加上sleep函数,让它休眠2s,
sleep()
函数的头文件为
<unistd.h>
,在通过make自动化构建:
Makefile
process1:process1.c
gcc process1.c -o process1
.PHONY:clean
clean:
rm -f process1
这里我们为了便于观察,复制一个ssh渠道
我们开始运行我们的程序process1(每2s循环打印)
命令:
ps -axj
功能:查看当前所有进程
我们通过管道过滤出process1:输入
ps -axj | grep process1
我们找到了进程,可是它前面那串数字是什么呢?我们键入命令:
ps -axj | head 1
查看它的第一行.
另外我们查看我们自己的process1进程的时候,发现它下面还有一个含有关键字process1的进程,那么它是什么呢?我们之前说过Linux每一个命令实际上也是一个可执行文件,那么我们用的grep当然也是进程,所以说显示的当然是grep的进程,我们将它过滤掉即可:ps -axj | head -1 && ps -axj | grep process1 | grep -v grep
这样我们就找到了process1的PID为20824
⭐3.2 /proc目录查看进程属性
在 Linux 系统中,/proc 目录是一个位于内存中的伪文件系统。该目录下保存的并不是真正的文件和目录,而是一些【运行时】的信息,如 CPU 信息、负载信息、系统内存信息、磁盘 IO 信息等。/proc目录是内核提供给我们的查询中心,通过查询该目录下的文件内容,可以获取到有关系统硬件及当前运行进程的信息。
./proc存放的是进程相关的所有信息,在硬盘上并不存在,在操作系统开机后才会创建.每新建一个进程,操作系统都会在/proc目录下新建一个以进程PID命令的目录,我们可以通过这个目录来查看该进程属性.
我们进入该目录,即可查看process1进程相关信息。
当process1这个进程被杀死,那么该PID目录将不复存在:
命令:
kill -9 PID
功能:杀死PID对应的进程
杀死该进程后,该PID所对应的目录也将不复存在。
🚀4.父子进程
所谓父子进程,就是在一个进程的基础上创建出另一条完全独立的进程,这个就是子进程,相当于父进程的副本。
⭐4.1 系统调用获取PID
我们可以利用函数
getpid()
,
getppid()
分别获取子进程,父进程的PID,头文件为
<sys/types.h>
和
<unistd.h>
process2.c
#include<stdio.h>#include<sys/types.h>#include<unistd.h>intmain(){while(1){printf("我是子进程process1,我的PID是%d,我的父进程PID是%d\n",getpid(),getppid());sleep(2);}return0;}
那么我们创建这个进程的父进程是什么呢?我们停止程序。再次启动
由于每次启动,操作系统都会给我们的进程分配一个唯一的PID,但是我们的父进程的PID一直都没变,说明它是个常驻进程,我们利用PS命令来揭开这个进程的面纱
竟然是bash,bash是我们Linux的shell程序,我们默认创建的进程,只要没有指定父进程,默认它的父进程都是我们的bash,如果把bash给kill掉,那么我们的机器就只能重启了.
小科普:vim注释代码
ctrl + v
:进入视图模式 视图模式下我们只能根据vim的光标选中,H(左),L(右),J(下),K(上),选中区域后键入大写的I,然后输入//
(注释符),然后esc
退出即可完成对选中部分的注释- 同样的,删除注释也在视图模式下进行,用光标选中要删除的注释部分,然后键入
d
,即可删除注释
⭐4.2 fork创建子进程
我们可以通过
pid_t fork()
函数创建当前进程的子进程,我们使用fork()后会变成两个执行流,父子进程谁执行由操作系统决定,同时fork()函数会有两个返回值(具体原因后续说明,创建子进程成功的话,会在父进程中返回子进程PID,会在子进程中返回0,若创建失败,则返回-1.
所以我们可以用if…else函数来让父子进程分别执行不同的代码.
process3.c
#include<stdio.h>#include<assert.h>#include<unistd.h>#include<sys/types.h>intmain(){
pid_t ret =fork();//assert(ret != -1);if(ret ==0){//子进程while(1){printf("我是子进程, 我的pid是: %d, 我的父进程是: %d,\n",getpid(),getppid());sleep(2);}}elseif(ret >0){//父进程while(1){printf("我是父进程, 我的pid是: %d, 我的父进程是: %d,\n",getpid(),getppid());sleep(2);}}else{printf("创建失败\n");}return0;}
执行代码,发现父子进程交替打印
⭐4.3 fork双返回值问题
我们通过查看fork函数源码得知,fork函数的执行大概分为三个阶段:
1.调用_CREATE函数,也就是进程创建部分
2.调用_CLONE函数,也就是资源拷贝部分
3.进程创建成功,return 0; 失败,return -1
前两步中,会由父进程来执行创建子进程的过程,也就是拷贝代码和栈框等,比如在copy_thread()函数里会复制父进程struct pt_regs栈框的全部内容到子进程的栈框里,这个栈框描述内核栈上保存寄存器的全部信息。在执行完第二步之后,父进程会得到一个返回值即为子进程PID。
然后最后一步剩余的代码会由子进程继续执行,在执行这段代码的时copy_thread()函数还会修改子进程的栈框中X0寄存器的值为0,因此在返回用户空间时子进程的返回值就是0,通过X0寄存器来传递返回值。
总之,父子进程会在fork函数中执行不同的代码段,并获得不同的返回值
⭐4.4 写时拷贝与虚拟内存
我们来观察一下相同变量分别在父子进程中的地址块分布:
#include<stdio.h>#include<sys/types.h>#include<unistd.h>intmain(){int a =520;
pid_t ret =fork();if(ret ==0){while(1){printf("I am child, my PID is %d,子进程中a的值是 %d 地址是 %p\n",getpid(), a,&a);sleep(2);}}elseif(ret >0){while(1){printf("I am father, my PID is %d,父进程中a的值是 %d 地址是 %p\n",getpid(), a,&a);sleep(2);}}else{printf("创建子进程失败\n");}return0;}
父子进程的变量刚开始是共享地址空间的,而子进程在修改变量的值之前,会发生写时拷贝:即等到修改数据时才真正分配内存空间,这是对程序性能的优化,可以延迟甚至是避免内存拷贝,当然目的就是避免不必要的内存拷贝。
当子进程的数据块被修改后,OS会检查被修改数据是否有多个进程指向(比如父子进程),用count记录进程数,如果有多个进程修改,这时候子进程会重新找一块空间把数据拷贝,然后再去修改对应的数据,这样父子进程就指向了不同的地址空间。这就是写时拷贝
当我们在子进程中修改a的值时,我们在运行看到如下结果:
可以看到我们修改子进程中a的值后,a的地址是一样的,但是值却不一样,这又是为什么呢?不是发生了写时拷贝吗?这是因为Linux上的地址并不是物理地址,而是虚拟地址,父子进程的虚拟地址相同,但是映射到内存上的物理地址可能不同,
下图是映射过程:
总之,对于父子进程,代码共享,数据独有,修改变量时,子进程会发生写时拷贝,并且变量都存在虚拟地址空间
⭐4.5 子进程执行部分代码
子进程并不是执行父进程的全部代码,若是执行全部代码,子进程就会陷入无限创建子进程的死循环中无法自拔,实际的执行如下:
🎪 进程状态
进程状态反映进程执行过程的变化。这些状态随着进程的执行和外界条件的变化而转换。在三态模型中,进程状态分为三个基本状态,即运行态,就绪态,阻塞态。在五态模型中,进程分为新建态、终止态,运行态,就绪态,阻塞态.
🚀1.五状态模型
- 创建状态:进程在创建时需要申请一个空白PCB,向其中填写控制和管理进程的信息,完成资源分配。如果创建工作无法完成,比如资源无法满足,就无法被调度运行,把此时进程所处状态称为创建状态
- 就绪状态:进程已经准备好,已分配到所需资源,只要分配到CPU就能够立即运行
- 执行状态:进程处于就绪状态被调度后,进程进入执行状态
- 阻塞状态:正在执行的进程由于某些事件(I/O请求,申请缓存区失败)而暂时无法运行,进程受到阻塞。在满足请求时进入就绪状态等待系统调用
- 终止状态:进程结束,或出现错误,或被系统终止,进入终止状态。无法再执行
如果进程运行时间片使用完也会进入就绪状态, 其中就绪状态跟阻塞状态我们需要区分一下:
由于CPU是非常昂贵的,所以说进程只有在凑齐所有资源后才会进入就绪队列等待CPU的服务,不会出现进程占用着CPU资源,而还在等待着其它临界资源的情况
除了上述几种状态之外,其实还存着挂起状态:机器的资源是有限的,在资源不足的情况下,操作系统对在内存中的程序进行合理的安排,其中有的进程被暂时调离出内存,当条件允许的时候,会被操作系统再次调回内存,重新进入等待被执行的状态即就绪态,系统在超过一定的时间没有任何动作。简单来说就是:挂起状态就是当阻塞队列太大时,会给内存造成压力,此时操作系统会将进程的代码和数据挂到磁盘上,将PCB指针保留在内存,需要时在将进程调回内存
🚀2.Linux中进程状态的划分
Linux的PCB(task_struct)中含有进程状态这个结构体,源码中是这样定义这个结构体的:
/*
* The task state array is a strange "bitmap" of
* reasons to sleep. Thus "running" is zero, and
* you can test for combinations of others with
* simple bit tests.
*/staticconstchar*const task_state_array[]={"R (running)",/* 0 */"S (sleeping)",/* 1 */"D (disk sleep)",/* 2 */"T (stopped)",/* 4 */"t (tracing stop)",/* 8 */"X (dead)",/* 16 */"Z (zombie)",/* 32 */};
简单来说,Linux进程有以下七种状态:
- R 运行状态(running) : 并不意味着进程一定在运行中,它表明进程要么是在运行中要么在运行队列里。
- S 睡眠状态(sleeping): 意味着进程在等待事件完成(这里的睡眠有时候也叫做可中断睡眠(interruptible sleep))。
- D 磁盘休眠状态(Disk sleep)有时候也叫不可中断睡眠状态(uninterruptible sleep),在这个状态的进程通常会等待IO的结束。
- T 停止状态(stopped): 可以通过发送 SIGSTOP 信号给进程来停止(T)进程。这个被暂停的进程可以通过发送 SIGCONT 信号让进程继续运行。
- t 追踪状态:本质上也是一种停止状态
- X 死亡状态(dead):这个状态只是一个返回状态,你不会在任务列表里看到这个状态
- Z 僵尸状态:这个状态是一种特殊的状态,进程已经杀死,但是进程资源还保留着.
其实Linux的R状态包含了进程的就绪/执行态,而S,D,T,t状态都是阻塞状态的一种,Z状态被称为僵尸状态,是Linux的一种特殊状态。
🚀3.Linux七状态
我们可以用PS命令查看Linux中正在运行进程的状态。
⭐3.1 R状态 和 X状态
Linux中的R状态包含就绪/运行状态。我们想要观察到R状态,必须在保证不使用任何其它资源,只使用CPU的情况下观察,不然观察到的将可能不是R状态。
process5.c
#include<stdio.h>intmain(){while(1){//观察R状态,死循环即可}return0;}
小科普:前台进程与后台进程
在我们用PS命令查看进程状态时,进程状态通常会有R+,S+,R,S…之类的情况,其中:
STAT +
:表示前台进程,可以用Ctrl + c
杀死前台进程STAT
:表示后台进程,不能用Ctrl + c杀死,可以用kiil -9 PID
杀死该进程
Linux的
X
状态表示该进程已被完全杀死,无法在任务列表中看到该状态
⭐3.2 S状态 和 D状态
Linux的
S
状态表示可中断睡眠状态,我们随便打开一个进程,比如前面的process4
为什么该进程明明在运行,为啥观察到的会是S状态呢?这是因为该进程要打印,那么就需要显示器这种资源,由于CPU的运行速度极快,我们很难观察到该进程正在CPU上运行的R状态,而显示器的速度相对于CPU就会慢很多,所以我们只能观察到S状态。
Linux的
D
状态表示不可中断睡眠状态,此状态下操作系统无法杀死该进程,那么这种状态在哪种场景下会出现呢?
设计者发现会有这样的情况存在,所以给进程新增了一个D状态,该状态下操作系统无法将该进程杀死.
⭐3.3 T状态 和 t状态
Linux下的
T
和t状态都属于进程停止状态(也是一种阻塞),我们可以用
kill -19 PID
来暂停一个进程,比如进程process2
暂停后该进程依然存在,我们可以用
kill -18 PID
将该进程唤醒:
注意:暂停后在启动的进程属于后台进程,得用kill -9 PID才能杀死
小科普:kill信号表:
命令:
kill -l
功能:查看kill命令信号表
Linux的
t
状态跟T状态差不多,我们可以在调试的时候观察到,因为调试本身也是一个进程,打断点相当于暂时中断调试进程,有兴趣的小伙伴可以试试。
⭐3.4 Z:僵尸状态
- 僵死状态(Zombies)是一个比较特殊的状态。当进程退出并且父进程(使用wait()系统调用,在后续博客中说明)没有读取到子进程退出的返回代码时就会产生僵死(尸)进程僵死进程会以终止状态保持在进程表中,并且会一直在等待父进程读取退出状态代码。
- 所以,只要子进程退出,父进程还在运行,但父进程没有读取子进程状态,子进程进入Z状态
我们可以用杀死子进程process4来观察到
Z
状态:
这是子进程就会处于Z状态.
那么僵尸进程存在的意义是什么呢?意义是让父进程读取子进程的进程退出码,如何查看?
命令:
echo $?
功能:查看当前进程的进程退出码
那么如果说父进程一致不读取僵尸子进程的进程退出码呢?那么岂不是子进程会一直占用资源?
僵尸进程的危害:
- 进程的退出状态必须被维持下去,因为他要告诉关心它的进程(父进程),你交给我的任务,我办的怎么样了。可父进程如果一直不读取,那子进程就一直处于Z状态?是的!
- 维护退出状态本身就是要用数据维护,也属于进程基本信息,所以保存在task_struct(PCB)中,换句话说, Z状态一直不退出, PCB一直都要维护?是的!那一个父进程创建了很多子进程,就是不回收,是不是就会造成内存资源的浪费?是的! 因为数据结构对象本身就要占用内存,想想C中定义一个结构体变量(对象),是要在内存的某个位置进行开辟空间!
- 内存泄漏?是的
版权归原作者 爱打酱油的新一 所有, 如有侵权,请联系我们删除。