内存机制及其相关内容(x86)

写在前面

内存机制也是一个算是比较早就接触的东西了。就我个人认为，对内存机制的理解应是对理解整个系统的一个很重要的基石，同时对于动态调试也有很大的帮助。在这段时间我总算是对这个有一个比较详细的了解。故写一篇博文，将其记录下来。

一些基础概念

实模式与保护模式

我们都知道，在8086下，我们可以直接控制实际地址的数值，看起来贼方便，但这会带来非常多的安全问题。所以保护模式应运而生。通过对内存的段页式管理，提高了安全性。

虚拟地址

我们时常会讨论所谓虚拟地址(线性地址)。顾名思义，虚拟地址就是"虚假的地址"。我们知道，在x86下，每个进程都会认为自己有0x0 - 0xffffffff的一段空间。但我们开动我们的猪猪脑袋一想就知道，在现在这是不可能的。这时，进程所认为自己拥有的这块内存的某一个地址就称之为虚拟地址。

逻辑地址

逻辑地址这个概念，我相信接触过汇编语言都不会陌生。在8086汇编中，逻辑地址是这样表示的:xx:yyyy 通过段选择器 * 16 + 偏移地址这就达到了虚拟地址。这也体现了一种分段的思想。但是linux皮啊，觉得你这个分段思想很菜，但是这是intel标准咋办？**把段选择器变成0不就好了吗！**那么在linux下，我们就可以近似的认为，逻辑地址==虚拟地址(尽管二者概念并不一样且linux下还是有段属性的)但在windows下还是严格遵守的。具体的转化规则后面提。

物理地址

所谓物理地址，就是内存真正的地址啦！

具体的转化过程

逻辑地址 -> 虚拟地址

前文提到，在8086下，逻辑地址 -> 线性地址就是一个偏移的事情。但是在x86下，这个事情就变得没这么简单了。就是前文提到的"段页式管理"。先从段的角度出发。作为一个段，它有着这么几个特性:段基址，段限长和段属性。这边只做简单了解。段基址，顾名思义，这个段的基地址。段限长就决定了这个段的上限/下限，而段属性则是如rwe这样的。包括这些特性的一个东西我们就称之为段描述符。这里放一个具体的分布情况

具体里面的这些东西是啥，我也不大清楚。这里贴上一篇文章(我个人认为写的非常的好，很翔实。有兴趣再进一步了解的可以看看这篇文章)
总而言之，通过这个图片我们就可以清楚地了解了:假如我们要描述一个段，我们需要64位。但cs,ds这些只有16位呀，这可咋办？很简单，将这些段描述符都在一个地方用数组的形式存起来形成一个表单，然后cs/ds/…作为索引，不就可以完成这样的操作了吗？
在操作系统下有两个这样的表单:GDT和LDT。GDT是全局描述符表，其可以作用在整个系统中，而LDT是局部描述符表，一个线程就可以对应一个LDT。那么又一个问题来了:我们如何找到这个段描述符表的地址呢？这时候就要了解两个寄存器了:GDTR和LDTR。GDTR里面存放了GDT的基址，通过它，CPU就可以快速的找到GDT的地址，而LDTR里面存放的是某个线程的LDT"基址"。这里需要注意的是LDT其实是包括在GDT里面的，相当于LDTR里面存放的其实是GDT的偏移。具体的我们后面再说。
想要了解这个转化过程，我们还需要知道一个东西，就是段选择子，也就是以前我们所谓的段寄存器，它是长啥样的

可以看见，前面是描述符的索引，中间有一个TI位，若TI为为0，说明这个地址处于GDT下，若为1则是在LDT下。最后的RPL是这个程序的特权级。
好了，有了这些知识后，我们就可以开始说明转化过程了。首先我们拿到了一个逻辑地址:xx:yyyyyyyy,这时候就要先看xx的TI位是0还是1。如果是0的话，说明这个段是在全局描述符表里的，所以我们就可以直接将xx作为index，通过GDTR里面保存的GDT的基址，在GDT中拿出那个段描述符，再通过这个段描述符里保存的基址，加上后面yyyyyyyy的偏移，最终得到一段虚拟地址。
如果是1的话过程会稍微复杂一点。1则说明这个段描述符在LDT中。那么在这里首先还是通过GDTR获得GDT的基址，然后用LDTR作为偏移，获得这个LDT的地址，再通过xx找到段描述符，最后再将基址取出，加上偏移得到虚拟地址。

虚拟地址 -> 物理地址

假如没有分页机制的话，到这一步其实已经结束了。但是很残酷的是分页机制是有的。那么这时候，我们还得做一次转换。
那么首先，什么是分页呢？分页就是将物理地址以4k的大小分成很多个段，再通过一些管理机制就叫做分页机制。但是我们明明已经有了分段机制了啊，非常安全呀！为啥还需要分页机制？这时候你就得从内存的角度上想问题了。如果都按分段机制来，内存被硬性分成一个一个段，段这个东西对于内存来说还是太大了，就很容易造成留下一些缝隙没法被使用，也就是我们说的内存碎片的问题。辣么为了解决这个问题，分页机制就诞生啦。我以4k作为一个单位，映射到你所需要的虚拟地址上，既节省内存也能解决内存碎片的问题。还非常的灵活！那问题又来啦，如何管理这些页呢？
一个很直接的想法是，用类似于数组的方法，每个单元都存放一个页的地址不就好了？但如果这样，其占用的空间就是4mb。总而言之过去不能接受！太大了！
那有没有更好的办法呢？
通过各种索引。将32位的地址分成10 + 10 + 12。这样我们就将2^32的大小减少成了2^10 + 2^10 + 2^12。而前面的两个东西我们就称之为页目录和页表(注意:不是所有操作系统都是只用三个索引来找到页的，分的更过分的有许多)
其实到了这一步，整个转化的流程就基本出来了。最后再介绍一个寄存器:CR3。CR3保存了某个线程的页目录地址，我们之前获得的32位虚拟地址被分割成三个段:10 + 10 + 12。前十位作为在页目录的索引，获得页表的地址，中间十位为在页表中的索引，最后的12位则可以直接表示在一个页中的任意地址了。可以看下图帮助理解:

这样整个地址转化的过程就结束啦！

一些没啥用的添加

我们可以想这样一个问题:CPU一个时间片结束后切换进程，其所对应的虚拟地址也会改变，这时候该怎么变化？
通过刚才说的，我相信你应该能想出来。只要将CR3寄存器和LDTR寄存器的值更改，就可以成功的切换进程了。所以其实所谓的"映射"，就是一个分页的逆推而已。希望这篇文章能对你有所帮助。