详细分析Linux中的core dump异常（附 Demo排查）

1. 基本知识

Core dump 是指在程序异常终止时，操作系统将程序的内存映像保存到磁盘上的一种机制。
在 Linux 系统中，core dump 提供了一种调试程序错误的重要方式，它记录了程序在崩溃时的内存状态，可以帮助开发人员定位问题

常见的 core dump 错误通常是程序在运行过程中发生了严重的错误或异常，导致操作系统强制终止了程序并生成了 core dump 文件。以下是一些常见的导致 core dump 的错误：

一、怎么生成 core dump？

使用 ulimit 命令来控制生成 core dump 的条件，比如通过

ulimit -c unlimited

命令来设置允许生成任意大小的 core dump

先查看系統默认：

ulimit -c

命令用于显示当前用户的 core dump 文件的大小限制。输出结果的含义如下：

截图如下：

在这里插入图片描述

核心转储文件的大小通常受到操作系统或系统管理员配置的限制，可以使用 ulimit 命令来调整生成 core dump 文件的最大大小

二、core文件含义以及相关参数？

要排查 core dump，通常需要分析 core 文件以及程序的源代码。以下是排查 core dump 的一般步骤：

获取 core 文件：程序发生 core dump 时，会在当前工作目录下生成一个 core 文件（除非已经配置了不同的路径）。首先要做的是获取这个 core 文件
分析 core 文件：使用 GDB 命令查看堆栈跟踪、变量值等信息，从而确定程序崩溃的位置和原因
定位问题：根据分析结果，确定程序崩溃的具体原因（）内存访问错误、空指针引用、数据结构损坏等）分析代码，找出导致错误的代码段。
修复问题：根据定位到的问题，修改程序代码以修复错误（涉及到修复内存管理错误、增加错误检查和处理逻辑等）
测试和验证：各种测试技术，如单元测试、集成测试等，以确保程序的稳定性和可靠性

下面是一个简单的示例，演示如何排查一个导致 core dump 的 C 程序：

#include<stdio.h>voidcause_crash(){char*ptr =NULL;*ptr ='A';// 尝试在空指针上进行写操作，导致段错误}intmain(){cause_crash();return0;}

(gdb) bt
#0  0x00005555555546e8 in cause_crash () at demo.c:6#1  0x0000555555554701 in main () at demo.c:11

通过分析堆栈跟踪，可以发现问题出现在 cause_crash 函数的第 6 行，即空指针引用导致了段错误。在这个示例中，问题相对简单，修复方法可能是在写操作前添加对指针的空指针检查

无法生成一个core-dump文件，有好些原因
在这里插入图片描述

一开始以为是被限制的文件大小或者不让他输出导致

查看core file size的大小
在这里插入图片描述
此处更改为无限制看看

在这里插入图片描述

后续发现此类问题还有一种原因：（挂载点的内存无可用，导致一直写入不进）

推荐阅读：【Linux】详细分析/dev/loop的基本知识 | 空间满了的解决方法

标签： linux core dump Bug

本文转载自: https://blog.csdn.net/weixin_47872288/article/details/136978468
版权归原作者 码农研究僧 所有，如有侵权，请联系我们删除。