【北邮操作系统】第十二章文件系统实现-海口c网

一、文件的物理结构

1.1 文件块、磁盘块

类似于内存分页，磁盘中的存储单元也会被分为一个个“块/磁盘块/物理块”。很多操作系统中，磁盘块的大小与内存块、页面的大小相同
内存与磁盘之间的数据交换(即读/写操作、磁盘I/0)都是以“块”为单位进行的。即每次读入一块，或每次写出一块
在内存管理中，进程的逻辑地址空间被分为一个一个页面，同样的，在外存管理中，为了方便对文件数据的管理，文件的逻辑地址空间也被分为了一个一个的文件块,于是文件的逻辑地址也可以表示为(逻辑块号，块内地址)的形式。
用户通过逻辑地址来操作自己的文件，操作系统要负责实现从逻辑地址到物理地址的映射

1.2 连续分配

连续分配方式要求每个文件在磁盘上占有一组连续的块

用户通过逻辑地址来操作自己的文件，(逻辑块号，块内地址)→(物理块号，块内地址)。只需转换块号就行，块内地址保持不变。
文件目录中记录存放的起始块号和长度(总共占用几个块)
用户给出要访问的逻辑块号，操作系统找到该文件对应的目录项(FCB)，物理块号=起始块号+逻辑块号，当然，还需要检查用户提供的逻辑块号是否合法(逻辑块号之长度就不合法)
可以直接算出逻辑块号对应的物理块号，因此连续分配支持顺序访问和直接访问(即随机访问)
优点：连续分配的文件在顺序读/写时速度最快，支持顺序访问和直接访问(即随机访问)
缺点：物理上采用连续分配的文件不方便拓展；物理上采用连续分配，存储空间利用率低，会产生难以利用的磁盘碎片。可以用紧凑来处理碎片，但是需要耗费很大的时间代价。

1.3 链接分配

链接分配采取离散分配的方式，可以为文件分配离散的磁盘块。分为隐式链接和显式链接两种。

1.3.1 隐式链接

链接分配采取离散分配的方式，可以为文件分配离散的磁盘块。分为隐式链接和显式链接两种。
如何实现文件的逻辑地址到物理块号的转变:

1) 用户给出要访问的逻辑块号i，操作系统找到该文件对应的目录项(FCB)

2) 从目录项中找到起始块号(即0号块)，将0号逻辑块读入内存，由此知道1号逻辑块存放的物理块号，于是读入1号逻辑块，再找到2号逻辑块的存放位置..….以此类推。

3) 因此，读入i号逻辑块，总共需要i+1次磁盘I/0
缺点：采用链式分配(隐式链接)方式的文件，只支持顺序访问，不支持随机访问，查找效率低。另外，指向下一个盘块的指针也需要耗费少量的存储空间。
优点：采用隐式链接的链接分配方式，很方便文件拓展。另外，所有的空闲磁盘块都可以被利用，不会有碎片问题，外存利用率高。

1.3.2 显示链接

FAT：把用于链接文件各物理块的指针显式地存放在一张表中。即文件分配表(FAT, File Allocation Table )
假设某个新创建的文件“aaa”依次存放在磁盘块2->5->0->1；假设某个新创建的文件“bbb”依次存放在磁盘块4->23->3
注意：一个磁盘仅设置一张FAT。开机时，将FAT读入内存，并常驻内存。FAT的各个表项在物理上连续存储，且每一个表项长度相同，因此“物理块号”字段可以是隐含的。
如何实现文件的逻辑地址到物理块号的转变:

1) 用户给出要访问的逻辑块号i，操作系统找到该文件对应的目录项(FCB).

2) 从目录项中找到起始块号，若i>0，则查询内存中的文件分配表FAT，往后找到i号逻辑块对应的物理块号。

3) 逻辑块号转换成物理块号的过程不需要读磁盘操作。
优点：很方便文件拓展，不会有碎片问题，外存利用率高，并且支持随机访问。相比于隐式链接来说，地址转换时不需要访问磁盘，因此文件的访问效率更高。
缺点：文件分配表的需要占用一定的存储空间。

1.4 索引分配

索引分配允许文件离散地分配在各个磁盘块中，系统会为每个文件建立一张索引表，索引表中记录了文件的各个逻辑块对应的物理块(索引表的功能类似于内存管理中的页表--建立逻辑页面到物理页之间的映射关系)。索引表存放的磁盘块称为索引块。文件数据存放的磁盘块称为数据块。

假设某个新创建的文件“aaa”的数据依次存放在磁盘块2->5->13->9。7号磁盘块作为“aaa”的索引块，索引块中保存了索引表的内容。
注意：在显式链接的链式分配方式中，文件分配表FAT是一个磁盘对应一张。而索引分配方式中，索引表是一个文件对应一张。
可以用固定的长度表示物理块号(如:假设磁盘总容量为1TB=2^40B，磁盘块大小为1KB，则共有 2^30个磁盘块，则可用4B表示磁盘块号)，因此，索引表中的“逻辑块号”可以是隐含的。
如何实现文件的逻辑地址到物理块号的转变:

1) 用户给出要访问的逻辑块号i，操作系统找到该文件对应的目录项(FCB)

2) 从目录项中可知索引表存放位置，将索引表从外存读入内存，并查找索引表即可知i号逻辑块在外存中的存放位置。
可见，索引分配方式可以支持随机访问文件拓展也很容易实现(只需要给文件分配一个空闲块，并增加一个索引表项即可)，但是索引表需要占用一定的存储空间

若每个磁盘块1KB，一个索引表项4B，则一个磁盘块只能存放 256 个索引项,如果一个文件的大小超过了256块，那么一个磁盘块是装不下文件的整张索引表的，如何解决这个问题?

解：①链接方案②多层索引③混合索引

【1.链接方案】

如果索引表太大，一个索引块装不下，那么可以将多个索引块链接起来存放。

假设磁盘块大小为1KB，一个索引表项占4B，则一个磁盘块只能存放256个索引项。

若一个文件大小为 256*256KB =65,536 KB=64MB

该文件共有256x256个块，也就对应256x256个索引项，也就需要256个索引块来存储，这些索引块用链接方案连起来。

若想要访问文件的最后一个逻辑块就必须找到最后一个索引块(第256个索引块)，而各个索引块之间是用指针链接起来的，因此必须先顺序地读入前255个索引块。

这显然是很低效的。如何解决呢? :scream:

【2.多层索引】

建立多层索引(原理类似于多级页表)。使第一层索引块指向第二层的索引块。还可根据文件大小的要求再建立第三层、第四层索引块。

假设磁盘块大小为1KB，一个索引表项占4B，则一个磁盘块只能存放256个索引项。

若某文件采用两层索引，则该文件的最大长度可以到2562561KB=65,536KB=64MB

可根据逻辑块号算出应该查找索引表中的哪个表项。

如:要访问1026号逻辑块，则1026/256=4，1026%256=2

因此可以先将一级索引表调入内存，查询4号表项,将其对应的二级索引表调入内存，再查询二级索引表的2号表项即可知道 1026号逻辑块存放的磁盘块号了。

访问目标数据块，需要3次磁盘I/O，

若采用三层索引，则文件的最大长度为256x256x256x1KB=16GB

类似的，访问目标数据块，需要4次磁盘I/0

采用K层索引结构，且顶级索引表未调入内存，则访问一个数据块只需要K+1次读磁盘操作

【3.混合索引】

多种索引分配方式的结合。例如，一个文件的顶级索引表中，既包含直接地址索引(直接指向数据块)，又包含一级间接索引(指向单层索引表)、还包含两级间接索引(指向两层索引表)。

优点:对于小文件来说，访问一个数据块所需的读磁盘次数更少。

二、文件存储空间管理

2.1 存储空间的划分与初始化

安装 Windows操作系统的时候，一个必经步骤是 -- 为磁盘分区(C:盘、D: 盘、E:盘等)

存储空间的划分: 将物理磁盘划分为一个个文件卷(逻辑卷、逻辑盘)
存储空间的初始化: 将各个文件卷划分为目录区、文件区
目录区主要存放文件目录信息(FCB)、用于磁盘存储空间管理的信息
文件区用于存放文件数据
有的系统支持超大型文件，可支持由多个物理磁盘组成一个文件卷

2.2 存储空间管理

2.2.1 空闲表法

如何分配磁盘块: 与内存管理中的动态分区分配很类似，为一个文件分配连续的存储空间。同样可采用首次适应、最佳适应、最坏适应等算法来决定要为文件分配哪个区间。
如何回收磁盘块:与内存管理中的动态分区分配很类似，当回收某个存储区时需要有四种情况 -- ①回收区的前后都没有相邻空闲区; ②回收区的前后都是空闲区; ③回收区前面是空闲区; ④回收区后面是空闲区。总之，回收时需要注意表项的合并问题

2.2.2 空闲链表法

空闲盘块链：

操作系统保存着链头、链尾指针。

如何分配: 若某文件申请K个盘块，则从链头开始依次摘下K个盘块分配，并修改空闲链的链头指针。

如何回收: 回收的盘块依次挂到链尾，并修改空闲链的链尾指针。

适用于离散分配的物理结构。为文件分配多个盘块时可能要重复多次操作
空闲盘区链：

操作系统保存着链头、链尾指针。

如何分配: 若某文件申请K个盘块，则可以采用首次适应、最佳适应等算法，从链头开始检索，按照算法规则找到一个大小符合要求的空闲盘区分配给文件。若没有合适的连续空闲块，也可以将不同盘区的盘块同时分配给一个文件，注意分配后可能要修改相应的链指针、盘区大小等数据。

如何回收: 若回收区和某个空闲盘区相邻，则需要将回收区合并到空闲盘区中。若回收区没有和任何空闲区相邻，将回收区作为单独的一个空闲盘区挂到链尾。

离散分配、连续分配都适用。为一个文件分配多个盘块时效率更高

2.2.3 位示图法

位示图: 每个二进制位对应一个盘块。在本例中，“0”代表盘块空闲“1”代表盘块已分配。位示图一般用连续的“字”来表示，如本例中个字的字长是16位，字中的每一位对应一个盘块。因此可以用(字号，位号)对应一个盘块号。当然有的题目中也描述为(行号，列号)
重要重要重要: 要能自己推出盘块号与(字号,位号)相互转换的公式。

(字号,位号)=(i,j)的二进制位对应的盘块号b=ni+j；

b号盘块对应的字号i=b/n，位号j=b%n
如何分配：

若文件需要K个块，

①顺序扫描位示图，找到K个相邻或不相邻的“0”;

②根据字号、位号算出对应的盘块号，将相应盘块分配给文件;

③将相应位设置为“1”
如何回收：

①根据回收的盘块号计算出对应的字号、位号;

②将相应二进制位设为“0”

2.2.4 成组链表法(难理解)

空闲表法、空闲链表法不适用于大型文件系统，因为空闲表或空闲链表可能过大。UNIX系统中采用了成组链接法对磁盘空闲块进行管理。

文件卷的目录区中专门用一个磁盘块作为“超级块”，当系统启动时需要将超级块读入内存。并且要保证内存与外存中的“超级块”数据一致。
如何分配：

Eg:需要1个空闲块

①检查第一个分组的块数是否足够。1<100，因此是足够的。

②分配第一个分组中的1个空闲块，并修改相应数据

Eg:需要100个空闲块

①检查第一个分组的块数是否足够。100=100，是足够的。

②分配第一个分组中的100个空闲块。但是由于300号块内存放了再下一组的信息，因此300号块的数据需要复制到超级块中。
如何回收：

Eg:假设每个分组最多为100个空闲块，此时第一个分组已有99个块，还要再回收一块

将回收的空闲块查到第一个分组中

Eg:假设每个分组最多为100个空闲块，此时第一个分组已有100个块，还要再回收一块。

新回收的空闲块作为新的分组，将超级块中的内容复制到新回收的块中，超级块中的内容做一下修改，指向新回收的分组，超级块中只有一个空闲块