C语言：内存编址与寻址

郎哥
C语言
8天前
67热度
0评论

当你编写一个 C 语言程序时，每一个变量的声明、每一次函数的调用，都是数据在内存中的流动和操作。例如定义一个整型变量int num = 10，编译器就会在内存中划出一块区域来存放这个num变量及其值。若程序需要处理大型数组、链表、树等数据结构时，此时需要大量的内存，内存的合理分配和管理就比较重要。若内存管理不当，就可能引发一系列问题，如内存泄漏，就像一个不断漏水却无人修理的水桶，随着程序运行，内存被逐渐耗尽，最终导致程序崩溃。
因此，了解 C 语言中内存编址和寻址技术，对于编写高效、稳定、健壮的C 语言程序至关重要。

内存编址基本概念

内存编址就是给内存中的每一个存储单元分配一个唯一的编号，就如同给图书馆里的每一本书都贴上一个独一无二的标签，方便图书管理员快速找到想要的书籍。计算机内存就像是一个巨大的格子间，每个格子就是一个存储单元，而地址就是这些格子的编号。
这些地址不能随意分配，而是按照一定的顺序和规则排列，就像街道上的门牌号，从一端开始，依次递增。通过这些地址，CPU就能准确无误地找到存储在内存中的数据和指令，进行各种运算和操作。
由于内存芯片中的存储单元是按照字节来组织和管理的，因此内存编址以字节为单位。而且，大多数计算机系统的指令集和数据处理逻辑也都是基于字节来设计的。
从数据类型的角度来看，C语言中的各种数据类型，无论是字符型（char）、整型（int）、浮点型（float）等，它们在内存中的存储和访问都是以字节为基础的。例如，一个char类型的数据占用 1 个字节的内存空间，一个int类型的数据在 32 位系统中通常占用 4 个字节的内存空间。这就意味着，当我们要访问一个int类型的变量时，需要通过它的起始地址，按照字节顺序依次读取 4个字节的数据。

内存编址与数据类型的关系

在C语言中，不同的数据类型占用的内存空间大小是不同的，这也就决定了它们在内存中的存储方式和编址方式。
以int类型为例，在 32 位系统中，一个int类型的变量占用 4 个字节的内存空间。假设定义一个int类型的变量num，当计算机为这个变量分配内存时，会从内存的某个空闲区域中划出连续的 4 个字节，并将这 4 个字节的起始地址作为num的内存地址。而在访问num时，CPU 会根据这个起始地址，一次性读取 4 个字节的数据，然后按照int类型的解析规则，将这 4 个字节的数据转换为相应的整数值。
再如char类型，它只占用 1 个字节的内存空间。如果我们定义一个char类型的变量ch，那么计算机只会为其分配 1 个字节的内存，并将这个字节的地址作为ch的内存地址。在访问ch时，CPU 只需读取 1 个字节的数据即可。
开发者在编写 C 语言程序时，必须清楚地了解不同数据类型的内存占用情况，以便正确地进行内存分配和数据访问，避免出现内存越界、数据截断等错误。同时，也要根据需求合理地选择数据类型，提高程序的内存使用效率和运行性能。例如在处理一些只需要表示 0 或 1 的逻辑值时，使用char类型（占用 1 个字节）比使用int类型（占用 4 个字节）更加节省内存空间。

内存寻址

内存寻址是指CPU根据内存地址找到存储在内存中的数据和指令，寻址主要涉及逻辑地址、线性地址和物理地址这三个概念。

逻辑地址

逻辑地址，也称为相对地址。是由编译器根据规则生成的程序内部的地址。它就像是你在自己的房间里给各个物品标注的相对位置，比如你把卧室的衣柜称为 “位置 1”，书桌称为 “位置 2”，这些位置都是相对于你在卧室中的活动范围而言的。在计算机程序中，逻辑地址是程序产生的与段相关的偏移地址。
C语言指针指向的内存地址就是逻辑地址，当我们定义一个指针变量时，通过&操作符获取的变量地址就是逻辑地址。例如：

#include <stdio.h>
int main() {
int num = 10;
int *ptr = &num;
printf("逻辑地址：%p\n", ptr);
return 0;
}

在上述例子中，ptr存储的就是num变量的逻辑地址。逻辑地址是相对于当前进程数据段的地址，它与绝对物理地址并无直接关联。在早期的计算机系统中，逻辑地址和物理地址是相同的，现在的计算机系统可以同时运行多个程序，为了防止程序之间的相互干扰，就采用了基址寻址的方法，此时逻辑地址与物理地址便不再一致。开发人员在编写程序时，无需关心数据在物理内存中的实际存储位置，只需要关注程序内部的逻辑结构和数据访问即可，逻辑地址与物理地址的映射由操作系统完成。

线性地址

线性地址是逻辑地址到物理地址变换之间的中间地址，它起到了一个桥梁的作用，连接着程序的逻辑世界和内存的物理世界。
程序代码产生的逻辑地址，加上相应段的基地址就生成了一个线性地址。例如，在一个分段的程序中，代码段的基地址是0x1000，而某个变量在代码段中的偏移地址是0x0010，那么这个变量的线性地址就是0x1000 + 0x0010 = 0x1010。
当前计算机系统一般会采用分页机制来管理内存，当启用分页机制时，线性地址会进一步被转换为物理地址。以 32 位系统为例，线性地址是一个 32 位的无符号整数，可以表示 4GB 的地址空间。在分页机制下，线性地址被划分为不同的部分，用于定位页目录和页表中的相应项。例如在 4KB 分页模式下，线性地址的高10 位代表页目录项在页目录表中的编号，中间 10 位表示页表中的页号，低位 12 位则是偏移地址。通过这种方式，CPU可以根据线性地址快速找到对应的物理内存页。具体的转换过程如下：首先，CPU 从控制寄存器cr3中获取当前进程的页目录地址；然后，根据线性地址的前 10 位在页目录中查找对应的索引项，得到页表的地址；接着，根据线性地址的中间 10 位在页表中查找页的起始地址；最后，将页的起始地址与线性地址的后 12 位相加，得出所需的物理地址。
物理地址
物理地址，是内存中存储单元的实际地址，是数据在内存中真实的存储位置。物理地址是出现在CPU外部地址总线上的寻址物理内存的地址信号。
当CPU需要读取或写入内存中的数据时，最终使用的就是物理地址。在没有启用分页机制的情况下，线性地址直接就是物理地址，而在启用分页机制后，线性地址需要通过页目录和页表中的项变换成物理地址。物理地址由硬件控制器直接访问，用于实际的数据存储和访问。
例如，当我们在 C 语言中定义一个变量并赋值时，数据最终会被存储到对应的物理地址所指向的内存单元中。假设我们定义一个int类型的变量num并赋值为10，在内存中，10这个值会被存储到num变量对应的物理地址所标识的 4 个字节的内存空间中。

内存寻址方式

在C语言中，有直接寻址、寄存器间接寻址、寄存器相对寻址等寻址方式。
直接寻址就是在指令中直接给出操作数的内存地址。例如，假设我们定义一个整型数组int arr[10] = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10};，如果要访问数组中的第 3 个元素（数组下标从 0 开始，所以第 3 个元素的下标为 2），可以使用直接寻址方式int num = arr[2]; 。这里arr[2]就是直接寻址，它直接指定了内存中存储第 3 个元素的地址。在这个例子中，编译器会根据数组arr的起始地址和元素的偏移量（2 * sizeof (int)，因为每个int类型元素占用 4 个字节），计算出具体的内存地址，然后从该地址中读取数据。
直接寻址的优点是简单直观，寻址速度快，因为它直接访问内存地址，不需要进行额外的计算。但是它的灵活性相对较差，因为地址是固定的，如果需要访问不同位置的数据，就需要修改指令中的地址。
在 C 语言中，当我们使用指针变量时，就涉及到寄存器间接寻址。例如：

#include <stdio.h>
int main() {
int num = 10;
int *ptr = &num;
int result = *ptr;
printf("result: %d\n", result);
return 0;
}

在上述例子中，ptr是一个指针变量，它存储了num变量的地址。通过*ptr可以间接访问num变量的值，这就是寄存器间接寻址。ptr寄存器中存放的是num变量的内存地址，CPU 首先从ptr寄存器中读取地址，然后根据这个地址去内存中获取num变量的值。
寄存器间接寻址的优点是灵活性高，因为可以通过修改寄存器中的地址值，来访问不同位置的数据。它适用于需要动态访问内存的场景，如链表、树等数据结构。在链表中，每个节点的指针域存储了下一个节点的地址，通过寄存器间接寻址，可以方便地遍历链表中的每个节点。
在 C 语言中，假设有一个结构体数组，每个结构体表示一个学生的信息，包括姓名、年龄和成绩。我们可以使用寄存器相对寻址来访问每个学生的成绩。示例代码如下：


#include <stdio.h>

struct Student {
char name[20];
int age;
float score;
};

int main() {
struct Student students[3] = {
{"Alice", 20, 85.5},
{"Bob", 21, 90.0},
{"Charlie", 22, 78.0}
};

struct Student *ptr = students; // ptr指向数组的起始地址
int index = 1; // 要访问的学生索引

float score = (ptr + index)->score; // 寄存器相对寻址，访问第二个学生的成绩
printf("The score of the second student is: %f\n", score);

return 0;
}

在上述例子中，ptr是一个指向结构体数组起始地址的指针（可以看作是基址寄存器），index是一个变量，表示要访问的学生在数组中的索引（可以看作是偏移量）。通过(ptr + index)->score，可以计算出第二个学生成绩的内存地址，并访问该地址中的数据。
寄存器相对寻址在处理数组和结构体等数据结构时非常方便，它可以通过改变偏移量来灵活地访问不同元素的数据。