内存对齐：C语言中的隐藏规则

郎哥
C语言
6天前
63热度
0评论

内存对齐规则

在 C 语言中，内存对齐主要涉及结构体（struct）、联合体（union）等自定义数据类型。

规则1：第一个成员的偏移量

结构体的第一个成员总是对齐到结构体变量起始位置偏移量为0的地址处。这是内存对齐的基础，为后续成员的存储确定了起点。例如：

struct Example {
char a; // 第一个成员a，从偏移量0处开始存储
int b;
char c;
};

在这个结构体Example中，成员a就会被放置在结构体变量起始地址偏移量为 0 的位置。

规则2：对齐数的缺点

其他成员变量要对齐到某个数字（对齐数）的整数倍的地址处。这里的对齐数是编译器默认的一个对齐数与该成员变量大小的较小值。在 Visual Studio 编译器中，默认对齐数是 8；在 Linux 下的 GCC 编译器中，没有默认对齐数，此时对齐数就是成员自身的大小。
例如，在上述Example结构体中，对于成员b（int类型，大小为 4 字节），在 VS 编译器下，它的对齐数是 4（4 和 8 的较小值），所以它会对齐到偏移量为 4 的整数倍的地址处，也就是偏移量 4 开始存储；对于成员c（char类型，大小为 1 字节），它的对齐数是 1（1 和 8 的较小值），由于前面已经占用了 8 个字节（a占 1 字节，b占 4 字节，中间填充 3 字节），所以c会从偏移量 8 开始存储。

结构体总大小

结构体总大小必须为最大对齐数（结构体中每个成员变量都有一个对齐数，所有对齐数中最大的）的整数倍。还是以上述Example结构体为例，最大对齐数是 4（成员b的对齐数），当前结构体已经占用了 9 个字节（a占 1 字节，b占 4 字节，中间填充 3 字节，c占 1 字节），为了满足总大小是最大对齐数 4 的整数倍，需要在c后面填充 3 个字节，最终结构体Example的大小为 12 字节。

嵌套结构体的对齐

如果结构体中嵌套了其他结构体，那么嵌套的结构体成员要对齐到自己的成员中最大对齐数的整数倍处，而整个结构体的大小就是所有最大对齐数（含嵌套结构体中成员的对齐数）的整数倍。例如：

struct Inner {
char x;
double y;
};

struct Outer {
int m;
struct Inner n;
char o;
};

在这个例子中，Inner结构体中最大对齐数是 8（double类型的大小），Outer结构体中成员m（int类型，大小为 4 字节）的对齐数是 4，n（Inner结构体类型）的对齐数是 8，o（char类型，大小为 1 字节）的对齐数是 1。所以，m从偏移量 0 开始存储，n要对齐到偏移量 8 的整数倍处，也就是偏移量 8 开始存储，o从偏移量 16 + 8 = 24 处开始存储。最后，Outer结构体的总大小要为最大对齐数 8 的整数倍，此时已经占用了 25 个字节（m占 4 字节，n占 16 字节，o占 1 字节），所以需要在o后面填充 7 个字节，最终Outer结构体的大小为 32 字节。

内存对齐的原因

内存对齐主要涉及到平台和性能两个原因。

平台原因

一、硬件要求

某些硬件平台对内存访问有严格的对齐要求。如果数据不对齐，可能会导致硬件异常或崩溃。例如，某些处理器每次只能从特定的地址（如偶数地址）开始读取特定类型的数据‌1。

二、性能优化

现代计算机系统中的处理器在访问内存时，通常是以特定的字节数（如4字节、8字节等）为单位进行访问的。如果数据在内存中的存储位置不对齐，处理器可能需要额外的时钟周期来访问这些数据，从而降低了访问速度。通过内存对齐，可以确保数据按处理器的访问单位存储，从而提高访问效率。

三、简化指令集

许多处理器为了简化指令集，会假设所有数据都是对齐的。这使得编译器可以生成更简单的机器码，提高执行效率‌。

四、减少内存碎片

内存对齐有助于减少内存碎片，使得内存分配和释放更加高效。当数据按对齐要求存储时，可以减少因数据不连续存储而产生的内存间隙。

性能原因

CPU 在访问内存时，不是一个字节一个字节地慢慢读取，而是以块为单位进行读取，这个块的大小可以是 2、4、8、16 字节等。当数据按照特定的规则对齐存储时，CPU 就可以更高效地访问内存，减少不必要的内存访问次数。例如一些平台每次读操作都是从偶地址开始。如果一个int型数据（假设为 32 位系统，大小为 4 字节）存放在偶地址开始的地方，那么 CPU 一个读周期就可以读出这 32 位数据。若数据存放在奇地址开始的地方，就需要 2 个读周期，并对两次读出的结果的高低字节进行拼凑才能得到该 32bit 数据。此外，内存对齐还能减少缓存未命中（cache miss）的概率。CPU 大多使用缓存来加速数据访问，缓存通常是按行组织的（如 64 字节）。若数据未对齐，可能会导致多个缓存行的读取，这不仅额外耗费带宽，还增加了缓存未命中的概率。

内存对齐的应用

诸如大型数组的遍历、数据库的查询操作等，利用内存对齐来优化数据结构的布局，可以显著提升程序的性能。以数据库系统为例，数据库中的数据通常以结构化的形式存储在磁盘上，当需要读取数据时，会先将数据加载到内存中。如果数据在内存中是对齐存储的，数据库引擎就可以更高效地读取数据，减少磁盘 I/O 操作的次数，从而提高整个数据库系统的响应速度。再如在图形处理中，对于图像数据的处理常常涉及大量的像素点访问。如果将像素数据按照内存对齐的方式组织，图形处理器（GPU）就能更快速地读取和处理这些数据，加速图形渲染的过程。
在跨平台开发中，确保内存对齐是非常关键的，它能保证程序在不同硬件平台上的正常运行。不同的硬件平台，如 x86 架构和 ARM 架构，对内存对齐的要求可能不同。如果在开发过程中忽视了内存对齐，当程序从一个平台移植到另一个平台时，可能会出现数据读取错误、程序崩溃等问题。例如，在开发一个同时支持桌面电脑和移动设备的应用程序时，由于桌面电脑多采用 x86 架构，而移动设备大多基于 ARM 架构，这两种架构对内存对齐的规定存在差异。如果在编写代码时没有遵循内存对齐的规则，那么当应用程序在移动设备上运行时，就可能因为内存访问异常而无法正常工作。因此在跨平台开发中，一定要遵循内存对齐规则。

开发者如何应用内存对齐规则

合理设计结构体

在定义结构体时，要根据成员变量的类型和大小，合理安排成员顺序，以减少内存填充。一般来说，将占用字节数较小的成员放在前面，占用字节数较大的成员放在后面，可以减少不必要的填充。
例如，对比以下两个结构体定义：

// 不合理的布局
struct BadLayout {
double largeValue;
char smallChar;
int mediumInt;
};
// 合理的布局
struct GoodLayout {
char smallChar;
int mediumInt;
double largeValue;
};

在BadLayout结构体中，double类型的largeValue首先存储，为了满足后续成员的对齐要求，在largeValue之后会有较多的填充字节。而在GoodLayout结构体中，先存储char类型的smallChar，再存储int类型的mediumInt，最后存储double类型的largeValue，这样可以减少填充，提高内存利用率。

使用编译器特定的指令

许多编译器提供了特定的指令来控制内存对齐。例如在 GCC 编译器中，可以使用__attribute__((aligned(n)))来指定结构体或变量的对齐方式。n表示对齐数，必须是 2 的幂次方。
例如：

struct __attribute__((aligned(8))) SpecialData {
char a;
int b;
double c;
};

这个结构体将按照 8 字节对齐，即使在默认对齐数不是 8 的情况下，也能保证满足特定的对齐要求。

计算结构体实际大小

在编写代码时，要准确计算结构体的实际大小，避免因内存对齐导致的大小差异引发错误。可以使用sizeof运算符来获取结构体的实际大小。
例如：

struct Example {
char x;
int y;
};
int size = sizeof(struct Example);

这里size的值将是 8，而不是简单的1 + 4 = 5，因为存在内存对齐导致的填充字节。

检查和优化现有代码

对于已经存在的代码，可以通过工具或手动检查结构体的内存对齐情况。一些编译器提供了相关的警告信息，可以开启这些警告来发现潜在的内存对齐问题。对于发现的问题，按照上述方法进行优化。
例如，在 GCC 编译器中，可以使用-Wall等编译选项来开启警告信息。如果代码中存在未正确对齐的结构体，编译器可能会给出类似 “padding added” 的警告，提示开发者进行检查和优化。