0


【Linux】基础IO_文件描述符与重定向

环境:centos7.6,腾讯云服务器
Linux文章都放在了专栏:【Linux】欢迎支持订阅

相关文章推荐:

【Linux】冯.诺依曼体系结构与操作系统

【C/进阶】如何对文件进行读写(含二进制)操作?

【Linux】基础IO_文件操作


前言

在前文中学习了open函数,我们知道open函数的返回值就是文件描述符,本章将对文件描述符进行详细讲解。

文件描述符

文件描述符是什么?

在前文一开始我们已经提到了,我们是通过创建进程,然后让进程底层通过系统调用,从而让OS打开文件。而一个进程是可以打开多个文件。内存中一定是存在多个被打开的文件的,那么如何知道哪些文件是哪个进程打开的呢?这里就谈到了文件描述符。如下:

简单来说:文件描述符就是一个进程与该进程所打开文件建立索引关系的数组(文件描述符表)下标。通过文件描述符,也就是该进程对应的的文件描述符表所对应的下标。就可以找到该进程所打开的各个文件。

我们再来看如下现象:

为什么文件描述符是从3开始的呢?

  1. Linux系统下进程会默认打开三个文件,即标准输入、标准输出、标准错误,分别对应文件描述符0 1 2。这也是为什么我们打开文件时,返回的文件描述符是从3开始,因为前面的0 1 2已经被占用了
  2. 一个文件可以在同一个进程中被打开对此,也就意味着不同的文件描述符,可能会指向同一个文件。

文件描述符分配规则

  • 文件描述符的分配规则为从0开始,扫描文件描述符表中,没有被使用的数值最小的下标,作为新打开文件的文件描述符。

我们也可以通过代码来验证一下:

 #include<stdio.h>
 #include<unistd.h>                                                                                                                         
 #include<sys/types.h>                                                                                                                      
 #include<sys/stat.h>                                                                                                                       
 #include<fcntl.h>                                                                                                                          
 
 #define LOG "log.txt"
 int main()                                                                                                                                   
 {         
   int fd1=open(LOG,O_CREAT| O_WRONLY|O_TRUNC,0666);
   int fd2=open(LOG,O_CREAT| O_WRONLY|O_TRUNC,0666);
   printf("fd1:%d\n",fd1);                          
   printf("fd2:%d\n",fd2);
                          
   close(2);
   int fd3=open(LOG,O_CREAT| O_WRONLY|O_TRUNC,0666);
   printf("fd3:%d\n",fd3);                          
   return 0;              
 }   

文件操作实现的底层原理

在此之前,我们要知道,ANSIC 标准采用“缓冲文件系统”来处理数据文件,所谓缓冲文件系统,其实就是OS会为每一个正在使用的文件开辟一个文件缓冲区。文件缓冲区的存在会提升IO的效率。(就好比你一个一个的拿快递(无缓冲区),和你从快递点一次性拿很多快递(有缓冲区))

*write原理(***ssize_t write(int fd, const void *buf, size_t count);**

对于write函数来说,会通过文件描述符fd,在该进程中找到文件描述符表的下标,从而找到被打开文件的struct file,再从而找到OS给该文件开辟的文件缓冲区,然后通过参数buf,结合count,将buf的数据拷贝count大小的数据到文件缓冲区,最后OS根据自己的刷新策略,将文件缓冲区内的数据刷新到磁盘。

*read原理(***ssize_t read(int fd, void *buf, size_t count);**

对于read函数来说也是如此,OS通过文件描述符先将磁盘的数据拷贝到该文件对应的缓冲区,然后通过read函数的参数中的buf,将文件缓冲区的数据拷贝到buf缓冲区,再根据count来决定读取buf缓冲区的数据的大小。

因此,我们也可以将这些所谓的read与write函数看成是一种拷贝函数。

语言级别的文件操作原理

对于我们C语言中,提到的这些读写函数(fputs、fgets等),它们的底层一定是调用了系统级别的函数,从而实现对文件内容的读写,而调用read、write这种系统级别的函数,文件描述符是必不可少的存在,本质上来说,访问文件都是通过文件描述符来进行访问。

因此,我们也可以推测:在C语言级别提供的文件结构体FILE中,一定存在文件描述符!我们可以来通过简单的代码进行验证我们的猜测:

重定向的原理

重定向定义

了解文件描述符的特点后,我们知道一个进程会默认打开三个文件,那么假如我们在打开新文件之前,将1号文件描述符对应的文件(即标准输出)关闭,会发生什么现象呢?我们通过如下代码来试验一下:

#include<stdio.h>
#include<unistd.h>
#include<sys/types.h>
#include<sys/stat.h>
#include<fcntl.h>
#include<stdlib.h>

int main()
{
    //关闭1号文件描述符对应的文件,即标准输出
    close(1);

    pid_t fd=open("log.txt",O_WRONLY | O_CREAT |O_TRUNC);
    if(fd == -1)
    {
        printf("open fail\n");
        return -1;
    }
    //直接printf,看看会出现什么现象
    printf("can you see me???\n");
    printf("can you see me???\n");
    printf("can you see me???\n");
    printf("can you see me???\n");

    fflush(stdout);//刷新缓冲区

    //关闭
    close(fd);
    return 0;
}

按理来说,这是一段平平无奇的代码,应该会在显示器上打印出四串文字,但是我们关闭1号文件描述符对应的文件后,会发生什么呢?运行结果如下:

** 这是为什么呢?**

原因在于我们关闭1号文件,也就是进程默认打开的标准输出文件,而当我们再次打开log.txt文件时,由于文件描述符分配规则,1是没有被使用的最小的下标,此时1号文件描述符对应的文件就变为了log.txt文件,而printf函数,是默认向1号文件里输出内容,所以我们在显示器看不到printf打印的信息,而在log.txt文件可以看到。

** 这就是重定向的原理,即:在上层无法感知的情况下,修改底层进程的文件描述符表中,特定下标的指向。**

dup2函数实现重定向

上面我们这种close一个文件,再打开一个文件,以此来更改文件描述符对应的文件指向,这种方法多多少少有一些不方便,而且也挺挫的。因此有一种更好的方法,即系统提供了一个函数——dup2函数。

#include<unistd.h>
int dup2(int oldfd, int newfd);

对于该函数:我们要注意的是,这里很容易被名字混淆,实际上这里最终文件描述符对应的文件都会被修改为oldfd。也就是将newfd重定向为oldfd如果重定向失败,则返回-1。

所以假如我们要将1号文件描述符的指向的文件修改为fd对应的文件,应该这样来写:**dup2(fd,1),这就是输出重定向,当然输入重定向就是:dup2(fd,0)**。
dup2原理:

dup2函数的原理实际上就是通过拷贝的方式,修改原来文件描述符表中特定下标所指向的文件,这里需要注意一点的是,dup2函数在实现重定向时,会先将原有的文件描述符指向的对应的文件关闭,这样避免内存泄漏问题的出现。

缓冲区的理解

缓冲区是什么?

缓冲区实际上就是对数据做临时存储的一个“容器”(可以理解为临时存储快递的驿站),最主要的目的就是为了提高IO效率(一个一个拿快递,与从驿站一次性拿很多快递的区别)。

现象:

像我们的一些比如printf、fprintf函数,它们内部就存在一个缓冲区,也就是说,我们在进行printf打印时,并不是直接将数据打印出来,而是先将数据存放到缓冲区,再结合一定的刷新策略,刷新到外设。当然,我们也可以验证一下:

**缓冲区的刷新策略 **

在上面提到了缓冲区的刷新策略一词,这里主要分为以下几种:

  • 无缓冲 不存在缓冲区
  • 行缓冲:遇到换行符‘\n’,才将数据从缓冲区刷新(诸如printf、fprintf等)
  • 全缓冲:缓冲区满时,才将数据从缓冲区刷新(诸如普通文件)

因此,对于上面printf,假如我们后面加上一个\n,就会立刻看到运行结果,而不是5秒后才看到。

用户/内核 级缓冲区

我们上面所说的缓冲区都是属于用户级缓冲区,实际上OS为了提升整体性能,也会存在内核级缓冲区(这里不过多讨论),而我们用户级的缓冲区在哪里呢?实际上是由C语言标准库提供,在我们进行fopen打开文件时,缓冲区在FILE结构体内。

其它

了解缓冲区后,我们来看这么一段有意思的代码:

#include<iostream>
#include<cstdio>
#include<unistd.h>
#include<cstring>
using namespace std;

int main()
{
    fprintf(stdout,"%s","hello fprintf\n");
    const char* str="hello write\n";
    write(1,str,strlen(str));

    fork();
    return 0;
}

直接运行:

重定向到普通文件:

我们发现,为什么重定向后,会显示三个打印结果。重定向之前只有两个?

这是因为:

  • 首先在重定向之前,我们是向显示器(stdout对应的外设)打印内容,而显示器的刷新策略为行刷新,所以fprintf缓冲区内的内容会被立刻冲刷到显示器,而write这种系统调用函数不存在缓冲区的概念。所以write函数也直接打印在显示器。
  • 而在fork之后,创建子进程,但是此时fprintf对应的缓冲区的内容已经被冲刷掉了,所以重定向之前只有两个打印结果
  • 而在重定向后,是向普通文件打印内容,而普通文件的刷新策略为全缓冲,只有缓冲区满了,才会冲刷数据。所以在fork之前,fprintf缓冲区的内容不会被冲刷掉,而fork创建子进程后,该缓冲区的数据依然还在(也就是说,父子进程各自的fprintf缓冲区都存在数据),所以此时return时,程序运行结束,冲刷缓冲区就会出现两个hello fprintf,和一个hello write!

当然,假如我们将fprintf的\n去除后,由于显示器的刷新策略,所以不会冲刷缓冲区,被子进程继承后,程序运行结束对缓冲区进行刷新,也会看到三条打印信息:


end.

生活原本沉闷,但跑起来就会有风!🌹

标签: linux 运维 服务器

本文转载自: https://blog.csdn.net/qq_60192898/article/details/130002052
版权归原作者 诺诺的包包 所有, 如有侵权,请联系我们删除。

“【Linux】基础IO_文件描述符与重定向”的评论:

还没有评论