0


Linux笔记---进程:初识进程

1. 进程的概念

进程是操作系统中的一个核心概念,它代表了正在运行的程序的实例。每个进程都有自己的内存空间、代码、数据和系统资源。进程是操作系统进行资源分配和调度的基本单位。

进程具有以下几个主要特征:

  • 独立性:每个进程都有自己独立的内存空间,进程之间互不干扰。一个进程的崩溃通常不会影响其他进程。
  • 动态性:进程是动态的,它从创建到终止经历一系列状态变化。
  • 并发性:多个进程可以同时运行,操作系统通过调度算法在多个进程之间切换,实现并发执行。
  • 资源分配:操作系统为每个进程分配必要的资源,如CPU时间、内存、文件和I/O设备。

1.1 进程的本质

我们知道,程序要运行,首先其代码和数据需要被加载到内存当中。

既然进程代表了正在运行的程序的实例,那么进程到底是以什么形式存在于内存中的呢?他是如何代表一个正在运行的程序的实例的?操作系统是如何对其进行管理与资源分配的?

操作系统是一个软件,软件能做的无非就是对数据进行管理,无论什么概念或事物,操作系统都需要先将其数据化,才能进行统一的管理。

由于操作系统是C语言写的,所以其数据化概念或事物并进行管理的方式必然也是按照C语言的方式来实现的,即利用数据结构来描述(数据化),再利用数据结构来管理。

我们称之为 "先描述,再组织" ,操作系统对计算机中的一切的管理本质上都是通过这样的方式。

所以,进程 = 程序的数据和代码 + 描述并组织进程信息的数据结构!

1.2 PCB与task_struct

在操作系统中,进程信息被放在一个叫做进程控制块的数据结构中,可以理解为进程属性的集合。

课本上称之为PCB(process control block,通常以结构体的方式实现),Linux操作系统下的PCB是:task_struct(进程有时也被称作任务,例如windows下的任务管理器)。

task_struct通常会包括如下的信息:

  • 标识符(PID):描述本进程的唯一标识符,用来区别其他进程。
  • 状态:任务状态,退出代码,退出信号等。
  • 优先级:相对于其他进程的优先级。
  • 程序计数器:程序中即将被执行的下一条指令的地址。
  • 内存指针:包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针。
  • 上下文数据:进程执行时处理器的寄存器中的数据。
  • I/O状态信息:包括显示的I/O请求,分配给进程的I∕O设备和被进程使用的文件列表。
  • 记账信息:可能包括处理器时间总和,使用的时钟数总和,时间限制,记账号等。
  • 其他信息。

内核0.11版本的task_struct定义如下:

struct task_struct {
    long state;         // 任务的运行状态(-1不可运行, 0可运行(就绪), >0已停止)
    long counter;       // 任务运行时间计数(递减)(滴答数), 运行时间片
    long priority;      // 运行优先数, 任务开始运行时counter=priority, 越大运行越长
    long signal;        // 信号, 是位图, 每个比特位代表一种信号, 信号值=位偏移值+1
    struct sigaction sigaction[32]; // 信号执行属性结构, 对应信号将要执行的操作和标志信息
    long blocked;       // 进程信号屏蔽码(对应信号位图)
    int exit_code;      // 任务执行停止的退出码, 其父进程会取
    unsigned long start_code;   // 代码段地址
    unsigned long end_code;     // 代码长度(字节数)
    unsigned long end_data;     // 代码长度 + 数据长度(字节数)
    unsigned long brk;          // 总长度(字节数)
    unsigned long start_stack;  // 堆栈段地址
    long pid;            // 进程标识号(进程号)
    long father;         // 父进程号
    long pgrp;           // 父进程组号
    long session;        // 会话号
    long leader;         // 会话首领
    unsigned short uid;  // 用户标识号(用户id)
    unsigned short euid; // 有效用户id
    unsigned short suid; // 保存的用户id
    unsigned short gid;  // 组标识号(组id)
    unsigned short egid; // 有效组id
    unsigned short sgid; // 保存的组id
    long alarm;          // 报警定时值(滴答数)
    long utime;          // 用户态运行时间(滴答数)
    long stime;          // 系统态运行时间(滴答数)
    long cutime;         // 子进程用户态运行时间
    long cstime;         // 子进程系统态运行时间
    long start_time;     // 进程开始运行时刻
    unsigned short used_math; // 标志: 是否使用了协处理器
    int tty;            // 进程使用tty的子设备号, -1表示没有使用
    unsigned short umask; // 文件创建属性屏蔽位
    struct m_inode *pwd; // 当前工作目录i节点结构
    struct m_inode *root; // 根目录i节点结构
    struct m_inode *executable; // 执行文件i节点结构
    unsigned long close_on_exec; // 执行时关闭文件句柄位图标志
    struct file *filp[NR_OPEN]; // 文件结构指针表, 最多32项, 表项号即是文件描述符的值
    struct desc_struct ldt[3]; // 任务局部描述符表, 0-空, 1-代码段cs, 2-数据和堆栈段ds&ss
    struct tss_struct tss; // 进程的任务状态段信息结构
};

task_struct的组织方式

task_struct对一个进程的信息进行管理,而在操作系统层面上,一个个的task_struct又通过链表的形式(双向的链表,链式栈,链式队列等)被管理起来,因为进程会经历频繁的增删查改。

task_struct中包含的信息十分多,想要将其管理好,一种数据结构肯定是不够的,task_struct常常会被放到多种数据结构中。

为了方便管理,以及信息的同步,肯定不能拷贝多个task_struct以放到多个数据结构中。

那么,要将同一个task_struct结点放到不同数据结构中,task_struct内部就必然需要多组prev和next指针,在Linux源代码中我们会看到一种巧妙的组织方式:

struct list_head{
    struct list_head *next, *prev;  
};

注意,进程在各个数据结构中的位置顺序是不一样的,只是在二维平面上不好画出来,就画成了上面这样,大家能理解就好。

通过list_head结构体来存储next/prev对,这样就解除了多种数据结构之间的耦合,还确保了同一个task_struct被多个数据结构管理。

假设队列结点在task_struct中被定义为links,当需要访问task_struct中存储的信息时,只需要按照下面的公式计算出task_struct的首地址即可:

offset = (struct\ task\_struct^{*})0->links

\&task\_struct = \&links - offset

上面的公式可以被设计成宏,个人认为这个设计十分有参考学习价值。


2. 进程的基本操作

2.1 查看进程

查看系统中目前正在运行的进程有两种方式:通过文件查看、通过指令查看。

通过文件查看

我们之前说过,在Linux中一切皆文件,进程也不例外。当进程被创建之后,"/proc/"目录下会同步生成对应的文件,我们就可以通过查看文件的方式来查看进程:

这些数字目录就代表了进程,数字值就是其对应进程的PID。

每个目录中记载了进程的相关信息。

**通过指令查看 **

ps命令

ps

命令用于报告当前系统的进程状态。它可以显示瞬间行程(process)的动态,包括进程ID、用户ID、CPU和内存使用率等信息。

ps

命令的参数非常多,常用的参数包括:

  • -A:列出所有的进程
  • -a:显示一个终端的所有进程,除了会话引线
  • -u:显示进程的归属用户及内存的使用情况
  • -x:显示没有控制终端的进程
  • -e:显示所有进程,等同于-A
  • -f:使用完整格式显示信息,包括PPID、UID等

例如,

ps -aux

命令可以显示所有用户的所有进程,包括其他使用者的行程,并且显示各个命令的详细路径。

ps

命令的输出通常包括以下列信息:

  • USER:进程的所有者用户名
  • PID:进程的唯一标识符,即进程ID
  • %CPU:进程的CPU占用率
  • %MEM:进程的内存占用率
  • VSZ:进程所使用的虚存的大小(Virtual Size)
  • RSS:进程使用的驻留集大小或者是实际内存的大小(Kbytes字节)
  • TTY:与进程关联的终端(tty)
  • STAT:进程的状态,如R(运行)、S(睡眠)、Z(僵尸)等
  • START:进程启动时间和日期
  • TIME:进程使用的总CPU时间
  • COMMAND:正在执行的命令行命令

top命令

top

命令是一个实时的系统监视工具,用于查看系统的整体性能和进程的运行情况。它可以动态显示进程的资源使用情况,即可以通过用户按键来不断刷新当前状态。

top

命令的输出信息分为两部分:顶部的信息和进程的详细列表。

顶部信息(系统统计)

  • top - 15:47:39 up 10 days, 2:45, 3 users, load average: 0.05, 0.12, 0.09:当前时间、系统运行时间、登录用户数以及过去1分钟、5分钟和15分钟的系统负载平均值。
  • Tasks: 187 total, 1 running, 186 sleeping, 0 stopped, 0 zombie:总进程数、正在运行的进程数、睡眠的进程数、停止的进程数和僵尸进程数。
  • %Cpu(s): 2.5 us, 0.3 sy, 0.0 ni, 97.1 id, 0.0 wa, 0.0 hi, 0.1 si, 0.0 st:CPU使用情况,包括用户态、系统态、空闲、等待输入输出等的百分比。
  • MiB Mem : 7863.5 total, 1242.2 free, 3185.4 used, 3435.9 buff/cache:内存使用情况,包括总内存、空闲内存、已使用内存和缓存内存。
  • MiB Swap: 2048.0 total, 2048.0 free, 0.0 used. 3897.5 avail Mem:交换空间使用情况,包括总交换空间、空闲交换空间和可用内存。

进程列表(详细进程信息)

  • PID:进程ID
  • USER:进程所有者
  • PR:进程优先级(Priority)
  • NI:进程的nice值,用于调整进程优先级
  • VIRT:进程占用的虚拟内存大小(包括已交换到磁盘的部分)
  • RES:进程使用的物理内存(常驻内存)
  • SHR:共享内存
  • S:进程状态(如S=SleepingR=RunningZ=ZombieT=Stopped
  • %CPU:进程占用的CPU百分比
  • %MEM:进程占用的内存百分比
  • TIME+:进程使用的总CPU时间
  • COMMAND:进程的执行命令
top

命令还允许用户通过键盘命令进行交互操作,例如:

  • M:按内存占用排序
  • P:按CPU占用排序
  • T:按运行时间排序
  • k:杀死一个进程
  • q:退出top命令
  • r:修改进程的优先级(即nice值)
  • 1:显示每个CPU核心的使用情况

↑来自天工大模型。

2.2 C语言中的进程相关函数

这些函数都是Linux中的系统调用,依赖于操作系统而存在,C语言标准并没有定义。

2.2.1 getpid和getppid

顾名思义,就是获取当前进程的pid和ppid(父进程pid,parent pid)。

2.2.1 fork函数

该函数可以在一个进程中创建子进程。

pid_t fork(void);

该函数被调用之后立即启动一个子进程,子进程与父进程共享代码和数据,所以子进程会从其被创建的位置处开始执行父进程的代码。

如果进程创建失败,fork返回"-1";

如果进程创建成功,fork给父进程返回子进程的pid,给子进程返回0。

举个例子:

#include <stdio.h>
// fork函数包含在下面两个头文件中
#include <sys/types.h>
#include <unistd.h>

int main()
{
    printf("我是一个进程,我的pid=%d,我即将创建子进程...\n", getpid());
    int id = fork();
    if(id == 0)
    {
        printf("我是一个子进程,我的pid=%d,我父进程的pid=%d,我得到的id=%d,&id=%p\n", getpid(), getppid(), id, &id);
    }
    else
    {
        printf("我是一个父进程,我的pid=%d,我子进程的pid=%d,我得到的id=%d,&id=%p\n", getpid(), id, id, &id);
    }
    return 0;
}

1. 为什么fork可以给父子进程返回不同的值呢?

这是因为在fork函数执行结束之前,子进程就已经被创建好了,所以在fork函数内部,子进程就已经开始与父进程分别运行了,只要在返回之前根据pid等信息就可以区分二者,并控制返回的值。

2. 父子进程不是共享数据吗,为什么id既可以是0又可以是2500559?

父子进程确实共享数据,但是当某个数据被写入时,对该数据的共享就会结束,子进程会为自己拷贝一份,这种技术被称作写时拷贝。

fork函数在返回时,id就发生了写入,所以子进程拷贝了一份自己的id变量。

3. 既然子进程拷贝了id,那为什么两个id的地址是相同的?

这种现象的原因在于虚拟内存系统。虚拟内存允许操作系统为每个进程创建一个独立的虚拟地址空间,使得每个进程都认为它在使用整个计算机的内存。但实际上,物理内存被分割和共享。

所以这里我们看到的地址其实是虚拟地址,这意味着在父子进程中,变量的地址看起来是相同的,但实际上它们可能指向不同的物理内存位置。

标签: linux 笔记 服务器

本文转载自: https://blog.csdn.net/2302_80372340/article/details/143867107
版权归原作者 大筒木老辈子 所有, 如有侵权,请联系我们删除。

“Linux笔记---进程:初识进程”的评论:

还没有评论