第1章
CHAPTER1
计算机系统漫游
计算机系统是由硬件和系统软件组成的,它们共同工作来运行应用程序。虽然系统的具体实现方式随着时间不断变化,但是系统内在的概念却没有改变。所有计算机系统都有相似的硬件和软件组件,它们又执行着相似的功能。一些程序员希望深入了解这些组件是如何工作的以及这些组件是如何影响程序的正确性和性能的,以此来提高自身的技能。本书便是为这些读者而写的。
现在就要开始一次有趣的漫游历程了。如果你全力投身学习本书中的概念,完全理解底层计算机系统以及它对应用程序的影响,那么你会步上成为为数不多的“大牛"的道路。
你将会学习一些实践技巧,比如如何避免由计算机表示数字的方式引起的奇怪的数字错误。你将学会怎样通过一些小窍门来优化自己的C代码,以充分利用现代处理器和存储器系统的设计。你将了解编译器是如何实现过程调用的,以及如何利用这些知识来避免缓冲区溢出错误带来的安全漏洞,这些弱点给网络和因特网软件带来了巨大的麻烦。你将学会如何识别和避免链接时那些令人讨厌的错误,它们困扰着普通的程序员。你将学会如何编写自己的Unixshell、自己的动态存储分配包,甚至于自己的Web服务器。你会认识并发带来的希望和陷阱,这个主题随着单个芯片上集成了多个处理器核变得越来越重要。
在Kernighan和Ritchie的关于C编程语言的经典教材[61]中,他们通过图1-1中所示的hello程序来向读者介绍C。尽管hello程序非常简单,但是为了让它实现运行,系统的每个主要组成部分都需要协调工作。从某种意义上来说,本书的目的就是要帮助你了解当你在系统上执行hello程序时,系统发生了什么以及为什么会这样。
codelintrolhello.c
#include <stdio.h>
int main()
{
printf(“hello, world\n”); return O;
}
code/intro/he/lo .c
图 1-1 he ll o 程序(来源: [60])
我们通过跟踪hello程序的生命周期来开始对系统的学习——从它被程序员创建开始,到在系统上运行,输出简单的消息,然后终止。我们将沿着这个程序的生命周期,简要地介绍一些逐步出现的关键概念、专业术语和组成部分。后面的章节将围绕这些内容展开。
1.1 #
信息就是位+上下文 #
hello程序的生命周期是从一个源程序(或者说源文件)开始的,即程序员通过编辑器创
建并保存的文本文件,文件名是hello.c。源程序实际上就是一个由值0和1组成的位(又称为比特)序列,8个位被组织成一组,称为字节。每个字节表示程序中的某些文本字符。
大部分的现代计算机系统都使用ASCII标准来表示文本字符,这种方式实际上就是用一个唯一的单字节大小的整数值e来表示每个字符。比如,图1-2中给出了hello.c程序的ASCII码表示。
# | i | n | C | 1 | u | d | e | SP | < | s | t | d | i | 。 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
35 | 1 05 | 11 0 | 9 9 | 108 | 11 7 | 1 00 | 1 0 1 | 32 | 60 | 1 15 | 116 | 1 00 | 105 | 111 | 46 |
h | > | \ n | \n | i | n | t | SP | m | a | i | n | ( | ) | \n | { |
10 4 | 62 | 10 | 1 0 | 105 | 11 0 | 116 | 32 | 109 | 97 | 105 | 110 | 40 | 41 | 10 | 123 |
\ n | SP | SP | SP | SP | p | r | i | n | t | f | ( II h e 1 | ||||
1 0 | 32 | 32 | 3 2 | 3 2 | 112 | 114 | 105 | 110 | 116 | 10 2 | 40 | 34 | 104 | 101 | 108 |
1 。 SP `, 。 r 1 d \ n II ) \n SP
108 111 44 32 119 111 114 108 32
\n
图 1- 2 he ll o . c 的 ASCII 文本表示
hello.c程序是以字节序列的方式储存在文件中的。每个字节都有一个整数值,对应千某些字符。例如,第一个字节的整数值是35,它对应的就是字符"#"。第二个字节的整数值为105,它对应的字符是’i’‘依此类推。注意,每个文本行都是以一个看不见的换行符’\n’来结束的,它所对应的整数值为10。像hello.c这样只由ASCII字符构成的文件称为文本文件,所有其他文件都称为二进制文件。
hello.c的表示方法说明了一个基本思想:系统中所有的信息-—-包括磁盘文件、内存中的程序、内存中存放的用户数据以及网络上传送的数据,都是由一串比特表示的。区分不同数据对象的唯一方法是我们读到这些数据对象时的上下文。比如,在不同的上下文中,一个同样的字节序列可能表示一个整数、浮点数、字符串或者机器指令。
作为程序员,我们需要了解数字的机器表示方式,因为它们与实际的整数和实数是不同的。它们是对真值的有限近似值,有时候会有意想不到的行为表现。这方面的基本原理将在第2章中详细描述。
豆日C编程语言的起源
C语言是贝尔实验室的DennisRitchie于1969年~1973年间创建的。美国国家标准学会(AmericanNationalStandardsInstitute,ANSI)在1989年颁布了ANSIC的标准,后来C语言的标准化成了国际标准化组织(InternationalStandardsOrganization,ISO)的责任。这些标准定义了C语言和一系列函数库,即所谓的C标准库。Kernighan和Ritchie在他们的经典著作中描述了ANSIC,这本著作被人们满怀感情地称为"K&R"[61]。用凡tchie的话来说[92],C语言是“古怪的、有缺陷的,但同时也是一个巨大的成功”。为什么会成功呢?
-C语言与Unix操作系统关系密切。C从一开始就是作为一种用于Unix系统的程序语言开发出来的。大部分Unix内核(操作系统的核心部分),以及所有支撑工具和函数库都是用C语言编写的。20世纪70年代后期到80年代初期,Unix风行于高等院校,许多人开始接触C语言并喜欢上它。因为Unix几乎全部是用C编写的,它可以很方便地移植到新的机器上,这种特点为C和Unix嬴得了更为广泛的支持。
e有其他编码方式用于表示非英语类语言文本。具体讨论参见2.1.4节的旁注。
圈嗣严l
笫1章计算机系统漫游3
-C语言小而简单。C语言的设计是由一个人而非一个协会掌控的,因此这是一个简洁明了、没有什么冗赘的设计。K&.R这本书用大量的例子和练习描述了完整的C语言及其标准库,而全书不过261页。C语言的简单使它相对而言易于学习,也易于移植到不同的计算机上。 -C语言是为实践目的设计的。C语言是设计用来实现Unix操作系统的。后来,其他人发现能够用这门语言无障碍地编写他们想要的程序。
C语言是系统级编程的首选,同时它也非常适用于应用级程序的编写。然而,它也并非适用于所有的程序员和所有的情况。C语言的指针是造成程序员困惑和程序错误的一个常见原因。同时,C语言还缺乏对非常有用的抽象的显式支持,例如类、对象和异常。像C++和Java这样针对应用级程序的新程序语言解决了这些问题。
2程序被其他程序翻译成不同的格式 #
hello程序的生命周期是从一个高级C语言程序开始的,因为这种形式能够被人读懂。然而,为了在系统上运行hello.c程序,每条C语句都必须被其他程序转化为一系列的低级机器语言指令。然后这些指令按照一种称为可执行目标程序的格式打好包,并以二进制磁盘文件的形式存放起来。目标程序也称为可执行目标文件。
在Unix系统上,从源文件到目标文件的转化是由编译器驱动程序完成的:
linux> gee-o hello hello.e
在这里,GCC编译器驱动程序读取源程序文件hello.c,并把它翻译成一个可执行目标文件hello。这个翻译过程可分为四个阶段完成,如图1-3所示。执行这四个阶段的程序(预处理器、编译器、汇编器和链接器)一起构成了编译系统(compilationsystem)。
printf.o
图1-3 编译系统
- 预处理阶段。预处理器(cpp)根据以字符#开头的命令,修改原始的C程序。比如hello.c中第1行的五nclude<s七dio.h>命令告诉预处理器读取系统头文件stdio.h的内容,并把它直接插入程序文本中。结果就得到了另一个C程序,通常是以.i作为文件扩展名。
编译阶段。编译器(eel)将文本文件hello.i翻译成文本文件hello.s,它包含一个汇编语言程序。该程序包含函数main的定义,如下所示:
main:
2 | subq | $8, %rsp |
---|---|---|
3 | mo v l | $ . LCO, %edi |
4 | ca ll | puts |
5 | movl | $0, %eax |
6 | addq | $8, %rsp |
7 | ret |
定义中2~7行的每条语句都以一种文本格式描述了一条低级机器语言指令。汇编语言是非常有用的,因为它为不同高级语言的不同编译器提供了通用的输出语
言。例如,C编译器和Fortran编译器产生的输出文件用的都是一样的汇编语言。
- 汇编阶段。接下来,汇编器(as)将hello.s翻译成机器语言指令,把这些指令打包成一种叫做可重定位目标程序(relocatableobjectprogram)的格式,并将结果保存在目标文件hello.o中。hello.o文件是一个二进制文件,它包含的17个字节是函数main的指令编码。如果我们在文本编辑器中打开hello.o文件,将看到一堆乱码。 -链接阶段。请注意,hello程序调用了printf函数,它是每个C编译器都提供的标准C库中的一个函数。printf函数存在于一个名为printf.o的单独的预编译好了的目标文件中,而这个文件必须以某种方式合并到我们的hello.o程序中。链接器Cid)就负责处理这种合并。结果就得到hello文件,它是一个可执行目标文件
(或者简称为可执行文件),可以被加载到内存中,由系统执行。
田日GNU项目
GCC是GNU(GNU是GNU’sNotUnix的缩写)项目开发出来的众多有用工具之一。GNU项目是1984年由RichardStallman发起的一个免税的慈善项目。该项目的目标非常宏大,就是开发出一个完整的类Unix的系统,其源代码能够不受限制地被修改和传播。GNU项目已经开发出了一个包含Unix操作系统的所有主要部件的环境,但内核除外,内核是由Linux项目独立发展而来的。GNU环境包括EMACS编辑器、GCC编译器、GOB调试器、汇编器、链接器、处理二进制文件的工具以及其他一些部件。GCC编译器已经发展到支持许多不同的语言,能够为许多不同的机器生成代码。支持的语言包括C、C++、Fortran、Java、Pascal、面向对象C语言(Objective-C)和Ada。
GNU项目取得了非凡的成绩,但是却常常被忽略。现代开放源码运动(通常和Linux联系在一起)的思想起源是GNU项目中自由软件(freesoftware)的概念。(此处的free为自由言论(freespeech)中的“自由”之意,而非免费啤酒(freebeer)中的“免费”之意。)而且,Linux如此受欢迎在很大程度上还要归功于GNU工具,它们给Linux内核提供了环境。
3了解编译系统如何工作是大有益处的 #
对于像hello.c这样简单的程序,我们可以依靠编译系统生成正确有效的机器代码。但是,有一些重要的原因促使程序员必须知道编译系统是如何工作的。
- 优化程序性能。现代编译器都是成熟的工具,通常可以生成很好的代码。作为程序员,我们无须为了写出高效代码而去了解编译器的内部工作。但是,为了在C程序中做出好的编码选择,我们确实需要了解一些机器代码以及编译器将不同的C语旬转化为机器代码的方式。比如,一个switch语句是否总是比一系列的辽-else语句高效得多?一个函数调用的开销有多大?while循环比for循环更有效吗?指针引用比数组索引更有效吗?为什么将循环求和的结果放到一个本地变量中,会比将其放到一个通过引用传递过来的参数中,运行起来快很多呢?为什么我们只是简单地重新排列一下算术表达式中的括号就能让函数运行得更快?
在第3章中,我们将介绍x86-64,最近几代Linux、Macintosh和Windows计算机的机器语言。我们会讲述编译器是怎样把不同的C语言结构翻译成这种机器语言的。在第
5章中,你将学习如何通过简单转换C语言代码,帮助编译器更好地完成工作,从而调整C程序的性能心在第6章中,你将学习存储器系统的层次结构特性,C语言编译器如何将数组存放在内存中,以及C程序又是如何能够利用这些知识从而更高效地运行。
-理解链接时出现的错误。根据我们的经验,一些最令人困扰的程序错误往往都与链接器操作有关,尤其是当你试图构建大型的软件系统时。比如,链接器报告说它无法解析一个引用,这是什么意思?静态变量和全局变量的区别是什么?如果你在不同的C文件中定义了名字相同的两个全局变量会发生什么?静态库和动态库的区别是什么?我们在命令行上排列库的顺序有什么影响?最严重的是,为什么有些链接错误直到运行时才会出现?在第7章中,你将得到这些问题的答案。 -避免安全漏洞。多年来,缓冲区溢出错误是造成大多数网络和Internet服务器上安全漏洞的主要原因。存在这些错误是因为很少有程序员能够理解需要限制从不受信任的源接收数据的数量和格式。学习安全编程的第一步就是理解数据和控制信息存储在程序栈上的方式会引起的后果。作为学习汇编语言的一部分,我们将在第3章中描述堆栈原理和缓冲区溢出错误。我们还将学习程序员、编译器和操作系统可以用来降低攻击威胁的方法。
1.4处理器读并解释储存在内存中的指令
此刻,hello.c源程序已经被编译系统翻译成了可执行目标文件hello,并被存放在磁盘上。要想在Unix系统上运行该可执行文件,我们将它的文件名输入到称为shell的应用程序中:
linux\> ./hello hello, world linux\>
shell 是一个命令行解释器, 它输出一个提示符, 等待 输入一 个命令行, 然后执行 这个命令。如果该命令行的 第一个单词不是 一个内置的 s hell 命令, 那么 shell 就会假设这是一个可执行文件的名字, 它将加载并运行这个文件。所以在此 例中, s hell 将加载并运行he ll o 程序 , 然后等待程序终止。he ll o 程序在屏 幕上输出它的消息,然 后终止。s hell 随后输出一个提示符,等待下一个输入的命令行。
4. 1 系统的硬件组成
为了理解运行 he ll o 程序时发 生了什么, 我们需 要了解一个典型系统的硬 件组织 , 如图 1-4 所示。这张图是近期 In tel 系统产品族的模型, 但是所有其他系统也有相同的外观和特性。现在不要担心这张图很复杂 我们将 在本书分阶段对其进行详尽的介绍 。
总线
贯穿整个系统的是一组电子管道,称作总线,它携带信息字节并负责在各个部件间传 递。通常总线被设计成传 送定长的字节块, 也就是宇( w or d ) 。字 中的字节数(即字长)是一个基本的系统参 数, 各个系统中都不尽相同。现在的大多数机器字长要么是 4 个字节( 32 位), 要么是 8 个字节( 64 位)。本书中, 我们不对字长做任何固定的假设。相反,我们 将在 需要明确定义的上下文中具 体说明一个 ”字” 是多大。
2. 1/ 0 设 备
1/ 0 ( 输入/输出)设备是系统与外部世界的联 系通道。我们的示例系统 包括四个 1/ 0 设备:作为用户输入的键盘和鼠标,作为用户输出的显示器,以及用于长期存储数据和程序 的磁盘驱动器(简单地说就是磁盘)。最开始, 可执行 程序 he l l o 就存放在磁盘上。
每个 1/ 0 设备都通过一个控制 器或适配器与 1/ 0 总线相连。控制器 和适配器之间的区
别主要在千它们的封装方式 。控制器是 1/ 0 设备本身或者系统的主印制电路板(通常称作主板)上的芯片组。而适配器则是一块插在主板插槽上的卡。无论如何,它们的功能都是 在 1/ 0 总线和 1/ 0 设备之间传递信息 。
图 1-4 一个典型系统的硬件组成
CPU: 中央处理单元; ALU: 算木/逻样单元; PC, 程序计数器; USB: 通用串行总线
第 6 章会更多地说明 磁盘之类的 1/ 0 设备是如何工作的。在第 10 章中, 你将学习如何在应用程序中利用 Unix 1/ 0 接口访问设备。我们将特别关注网络类设备, 不过这些 技术对于其他设备来说也是通用的。
3. 主存
主存是一个临时存储设备,在处理器执行程序时,用来存放程序和程序处理的数据。从 物理上来说,主 存是由一组动态随机存取存储器( DRAM) 芯片组成的。从逻辑上来说 , 存储器是一个线性的字节数组,每 个字节都有其 唯一的地址(数组索引), 这些地址是从 零开始的。一般来说,组成程序 的每条机器指令都由不同数量的字节构成。与 C 程序变量相对应的数据项的大小是根据类型变化的。比如, 在运行 Linux 的 x86-64 机器上, s hor t 类型的数据 需要 2 个字节, i 工 和 fl oa t 类型需要 4 个字节 , 而 l ong 和 doubl e 类型需要 8 个字节。
第 6 章将具体介绍存储器技术, 比如 DRAM 芯片是如何工作的, 它们又是 如何组合起来构成主存的。
4 处理器
中央处理 单元 (CPU ) , 简称处理器,是解释(或执行)存储在主存中指令的引擎。处理器的核心是一个大小为一个字的存储设备(或寄存器),称为程序计数 器 ( PC) 。在任何时刻, PC 都指向主存中的某条机器语言指令(即含有该条指令的地址)e。
从系统通电开始,直到系统断电,处理器一直在不断地执行程序计数器指向的指令, 再更新程序计数器, 使其指向下一条指令。处 理器看上去 是按照一个非常简单的指令 执行模型来操作的,这个模型是由指令集架构决定的。在这个模型中,指令按照严格的顺序执 行,而执行一条指令包含执行一系列的步骤。处理器从程序计数器指向的内存处读取指
8 PC 也普遍地被用来作为“个 人计算机” 的 缩写。然而,两者之间的 区别应该 可以很 清楚地从上下文中看出来 。
令, 解释指令中的位 , 执行该指令指示的简单操作 , 然后更新 PC , 使其指向下一条指令, 而这条指令并 不一定和在内存中刚刚 执行的指令相邻 。
这样的简单操作并 不多, 它们围绕着主存、 寄存 器文件 ( reg is ter fi le ) 和算术/逻辑单元( ALU ) 进行。寄存器文件是一个小的存储设备, 由一些单个字长的寄存器组成, 每个寄存器都有 唯一的名字。ALU 计算新的数据和地址值。下面是一些简单操作的例子,
CPU 在指令的要求下 可能会执行这些操作 。
加载: 从主存复 制一个字节或者一个 字到寄存 器, 以覆盖寄存器原来的内容。
存储: 从寄存器复制一 个字节或者一个 字到主存的 某个位置,以 覆盖这个位置上原来的内容 。
操作: 把两个寄存器的内 容复制到 ALU , ALU 对这两个字做算术运算,并 将结果存放到一个寄存器中,以覆盖该寄存器中原来的内容。
跳转: 从指令本身中抽取一个字, 并将这个字复制到程序计数器( PC) 中, 以覆盖
PC 中原来的值。
处理器看上去是它的 指令集架构的简单实现 , 但是实际上 现代处理 器使用了非常复杂的机制来加速程序的执行。因此,我们将处理器的指令集架构和处理器的微体系结构区分 开来:指令集架构描述的是每条机器代码指令的效果;而微体系结构描述的是处理器实际 上是如何实现的 。在第 3 章研究机器代码时 , 我们考虑的是 机器的指令 集架构所提供的抽象性。第 4 章将更详 细地介绍处 理器实际上是 如何实现的。第 5 章用一个模型说明现代处理器是 如何工作的, 从而能预测和优化机器语言程序的性能 。
1. 4. 2 运行 he l l o 程序
前面简单描述了系统的硬件组成和操作,现在开始介绍当我们运行示例程序时到底发 生了些什么 。在这里必须省略很多 细节 , 稍后会做补充, 但是现在我们 将很满意千这种整体上的描述。
. 初始时, shell 程序执行它的指令 , 等待我们输入一个命令。当我们在键盘上输入字符串
" . / he l l o" 后, s hell 程序将字符逐一 读入寄存器, 再把它存放到内存中, 如图 1- 5 所示。
CPU
寄存器文件
二三
1 系统总线
`七-石,..•.•. #
`` hello',
g:矿飞广 ooo 凡
鼠标 键盘用户输入
“h e l l o”
显 示器
扩展槽, 留待
言
图 1 - 5 从键盘上读取 he ll o 命令
当我们在键 盘上敲回车键时, s h ell 程序就知道我们巳经结束了命令的输入。然后s hell 执行一系列指令来加载可执行的 he l l o 文件 , 这些指令将 h e 荨 o 目标文件中的代码和数据从磁盘复制到 主存。数据包括最终 会被输出的字符串 " h e l l o , wor l d \ n" 。
利用直接存储 器存 取CDMA , 将在第 6 章中讨论)技术, 数据可以 不通过处理器而直接从磁盘到达主存 。这个步骤如图 1-6 所示。
CPU
兰 #
总线接口
“hello, wor l d\ n” he l l o 代码
.f.
鼠标 键盘 显示器 存储在磁盘上的he l l o
可执行文件
图 1-6 从磁盘加载可执行文件到主存
一旦目标文件 h e l l o 中的代码和数 据被加载到 主存 ,处 理器就开始执行 h e ll o 程序的 ma i n 程序中的机器语 言指令。这些指令将 " he l l o , wor l d \ n" 字符串中的字节从 主存复制到寄存器文件,再从寄存器文件中复制到显示设备,最终显示在屏幕上。这个步骤如 图 1-7 所示。
CPU
“hello, wo r l d \ n” he l l o 代码
鼠标
图 1-7 将输出字符串从存储器写到显示器
1. 5 高速缓存至关重要
这个简单的示 例揭元了一个重要的问题, 即系统花费了大 量的时间把信息从一个地方挪到另一个地方。 he l l o 程序的机器指 令最初是存 放在磁 盘上, 当程序 加载时 , 它们被复制到主存 ; 当处理器运行 程序时, 指令又从 主存复制到处理器。相似地, 数据串 " h e l lo, wor l d / n" 开始时 在磁盘上,然 后被复制到主存, 最后从主存上复制到显示设备。从程序员的角度来看,这些复制就是开销,减慢了程序“真正”的工作。因此,系统设计者 的一个主要目标就是使这些复制操作尽可能快地完成。
根据机械原理,较大的存储设备要比较小的存储设备运行得慢,而快速设备的造价远高 于同类的低速设备。比如说 , 一个典型系统上的 磁盘驱动器可能 比主存大 1000 倍, 但是对处理器而言,从磁盘驱动器上读取一个字的时间开销要比从主存中读取的开销大 1000 万倍。类似地 ,一个典型的寄存器文 件只存储几百字节的信息,而 主存里可存放几十亿字
节。然而 ,处 理器从寄存器文件中读数据比从主存中 读取几 乎要快 100 倍。更麻烦的是, 随着这些年半导体技术的进步,这种处理器与主存之间的差距还在持续增大。加快处理器 的运行速度比加快主存的运行速度要容易和便宜得多。
针对这种处理器与主存之间的差异,系统设计者采用了更小更快的存储设备,称为高速缓存存储 器( ca ch e memory, 简称为 cache 或高速缓存), 作为暂时的 集结 区域, 存放处理器近期可能会需 要的信息 。图 1-8 展示了一个典型系统中的 高速缓存 存储器。位于处理器芯片上的 Ll 高速缓存的容量可以达到 数万字节, 访问速度几 乎和访问 寄存器文件一样快。一个容量为数十万 到数百万 字节的更大的 L2 高速缓 存通过一 条特殊的 总线连接到处理器。进程访问 L2 高速缓存的时间要比访问 Ll 高速缓存的时间 长 5 倍, 但是这仍然比访问主存的时间 快 5 ~ 10 倍。Ll 和 L2 高速缓存是用一种叫做 静态随 机访问存储 器( S R AM ) 的硬件技术实现的。比较新的、处理能力更强大的系统甚至有 三级高速缓存: Ll 、 L 2 和
L3。系统可以 获得一个很大的存储器 , 同时访问速度也很快 ,原 因是利用了高速缓存的 局部性原理,即程序具有访问局部区域里的数据和代码的趋势。通过让高速缓存里存放可能 经常访间的数据,大部分的内存操作都能在快速的高速缓存中完成。
CPU 芯片
图 1-8 高速缓存存储骈
本书得出的重要结论之一就是,意识到高速缓存存储器存在的应用程序员能够利用高速缓 存将程序的 性能提高一个数量级。你将在第 6 章里学习这些重要的设备以及如何利用它们。
6 存储设备形成层次结构
在处理器和一个较大较慢的设备(例如主存)之间插入一个更小更快的存储设备(例如高速缓存)的想法已经成为一个普遍的观念。实际上,每个计算机系统中的存储设备都被
组织成了一个存储器层 次结构, 如 图 1 - 9 所示 。在这个层 次结 构 中 , 从 上 至 下 , 设 备 的 访间速度越来越慢、容量越来越大,并且每字节的造价也越来越便宜。寄存器文件在层次结 构中位于最顶部, 也 就 是 第 0 级 或记为 LO。 这 里 我 们 展 示 的 是 三 层 高 速 缓 存 Ll 到 L3 , 占 据 存 储 器 层 次 结 构 的 第 1 层 到 第 3 层 。 主存在第 4 层 ,以 此 类 推 。
更小更快
( 每字节)
更贵的
存储设备
更大
更慢
(每字节)
L4:
L2 : L 2高速缓存( SRAM )
L3: L3高速缓存(SRAM)
主存
( D RAM )
} CP U寄存器保存来自高速缓存存储器的字
} LI 高速缓存保存取自L2高速缓存的高速缓存行
} L2 高速缓存保存取自L3高速缓存的高速缓存行
} L3 高速缓存保存取自主存的高速缓存行
} 主存保存取自本地磁盘
更便宜的
存储设备
L6:
L5:
本地二级存储
( 本地磁盘)
远程二级存储
(分布式文件系统,Web服务器)
图 1-9 一个存储器 层次结构的示例
的磁盘块
本地磁盘保存取自远程网络服务器上磁盘的文件
存储 器层次结构的 主要思 想 是 上一 层 的存 储 器 作 为低一层存储器的高速缓存。因此, 寄 存 器 文 件 就 是 L1 的 高 速 缓 存 , L1 是 L 2 的 高 速 缓 存 , L 2 是 L3 的高速缓存, L3 是 主存的高速缓存, 而 主存又是磁盘的高速缓存。在某些具有分布式文件系统的网络系统中, 本地 磁 盘 就 是 存 储 在 其 他 系 统 中 磁 盘 上 的 数 据 的 高 速 缓 存 。
正 如 可以运用不同的高速缓存的知识来提高程序性能一样, 程 序 员 同 样 可 以 利 用 对 整个 存 储 器 层 次 结 构 的 理 解 来 提 高 程序性能。第 6 章 将 更 详 细 地 讨 论 这个问 题 。
7 操作系统管理硬件 #
让我们回到 hell o 程序的例子。当 shell 加载和运行 he ll o 程序时,以 及 he l l o 程 序 输出 自 己的 消息时, she ll 和 he ll o 程 序 都 没 有
应用程序
直 接 访 问 键 盘 、显 示 器 、 磁 盘 或 者 主存。取而
操作系统
代 之 的 是 ,它 们 依 靠 操 作 系统 提 供 的 服 务 。 我
}软件
们可以把操作系统看成是应用程序和硬件之间
处理器 I 主存 I I /0 设备 }硬件
插入的一层软件,如 图 1 - 1 0 所 示 。 所 有 应 用 图 1-10 计算机系统的分层视图程序对硬件的操作尝试都必须通过操作系统 。 进程
操作系统有两个基本功能: (1 ) 防止硬
件被失控的应用程序滥用; ( 2 ) 向应用程序
虚拟内存
提供简单一致的机制来控制复杂而又通常大 文件不 相 同 的 低 级 硬 件 设 备 。 操 作 系 统 通 过 几 个
基 本 的 抽 象 概 念(进 程 、 虚拟 内存 和 文件)来 处理器 主存 I/ 0 设备
实 现 这 两 个 功 能 。 如 图 1-11 所 示 ,文 件 是 对 图 1-11 操作系统提供的抽象表示
1/0 设备的抽象表示, 虚拟内存是对主存和磁盘 1/ 0 设备的抽象表示, 进程则是对处理器、主存 和 1/ 0 设备的抽象表示。我们将依次讨论每种抽象表示。
m Uni x、Pos ix 和标准 Uni x 规范
20 世 纪 60 年代是大型 、复杂操 作 系统 盛行的年代,比 如 IB M 的 OS/ 360 和 Honey well 的 Multics 系统 。 OS / 36 0 是历 史上 最成功的软件项目之 一, 而 Mult ics 虽 然持 续存在了多年 ,却 从 来没 有被广 泛应 用过。 贝 尔 实验 室曾 经是 Mult ics 项 目的最初参与 者, 但是因为 考虑到该项目的 复杂性和缺乏进展而 于 1 969 年退出。 鉴于 M utics 项目 不愉 快的 经历 ,一 群贝 尔 实验室的 研 究人 员——- Ken T hompson 、Dennis Ritch 比、 Do ug Mell
roy 和 J oe Ossanna, 从 1969 年开始在 DEC PDP-7 计算机上完全 用机 器语 言编写 了一个简单得 多的操作系统。这个新 系统 中的很 多思想,比 如 层次文件 系统、作为 用 户级 进 程的 she ll 概念,都 是来自 于 Multics , 只不过 在一个更 小、 更简单 的程序 包里 实现 。 1 970 年, Brian Kernighan 给新系统 命 名为 " U nix" , 这也是 一个双关语 , 暗指 " Multics" 的复杂性 。1973 年用 C 重新 编写其内核 , 1 974 年, U nix 开始正式对外发布[ 93] 。
贝 尔实 验室以 慷 慨的条件向学校 提 供源代码, 所以 U nix 在 大专院校里获得 了很 多支持并得以 持续发 展 。最有影响的工作发 生在 20 世 纪 70 年代晚期到 80 年代早期,在 美国 加州大 学伯 克利分校 ,研 究人 员在 一 系列发 布版本中增加了虚拟内存 和 Internet 协议, 称为 Unix 4. xBSD(Berkeley Software Dist ribution ) 。与 此同 时, 贝 尔 实验 室也 在发布自己 的版本, 称为 S ystem V U nix 。 其他厂 商的版本, 比 如 S un Micros ystems 的
Solaris 系统,则是 从 这些原 始的 BSD 和 Syst em V 版本中衍 生而来。
20 世 纪 80 年代中期 , U nix 厂 商试 图通 过加入新的、往往不兼容的特性来使 它们 的程序 与众不 同 ,麻 烦也 就随之而来了。 为 了 阻止这种趋势, IE E E ( 电 气和电子工程师协会)开始努力标 准化 U nix 的开发 , 后来由 Richard S tallm an 命名为 " Posix" 。结果就得到 了一 系列 的标准, 称作 Posix 标准。 这套标准 涵盖 了很 多 方 面, 比如 Unix 系统调用的 C 语言接口、s hell 程序和工具、线程及网络 编程。最近, 一个被 称为 “ 标准 U nix 规范” 的独立标 准化工作 已经与 P osix 一起创 建了统 一的 Unix 系统标准。这些标准化 工作的结果是 U nix 版本之间的 差异已经基本消失。
1. 7. 1 进程 #
像 he ll o 这样的程序在现代系统上运行时,操作 系统会提供一种假象, 就好像系统上只有这个程序在运行。程序看上去是独占地使用处理器、主存和 I/ 0 设备。处理器看上去就像在不间断地一条接一条地执行程序中的指令,即该程序的代码和数据是系统内存中唯一的对 象。这些假象是通过进程的概念来实现的, 进程是计算机科学中最重要和最成功的概念之一。
进程是操作系统对一个正在运行的程序的一种抽象。在一个系统上可以同时运行多个 进程 , 而每个进程都好像在独占地使用硬件。而并发运行,则 是 说 一 个 进程的指令和另一个进程的 指令是交错执行的。在大多数系统中, 需 要 运行的进程数是多于可以运行 它们的CPU 个数的。传统系统在一个时刻只能执行一个程序, 而先进的 多核处理器同时能够执行多个程序。无论是在单核还是多核系统中, 一个 CP U 看上去都像是在并发地执行多个进程 , 这是通过处理器在进程间切换来实现的。操作系统实现这种交错执行的机制称为上下文切换。为了简化讨论,我 们 只 考虑包含一个 CPU 的单处理器 系统的情况。我们会在
- 9. 2 节中讨论多 处理 器系统。
操作系统保持跟踪进 程运行所需 的所有状态信息。这种状态,也 就是上下文, 包括许多信息 , 比如 PC 和寄存器文件的 当前值, 以及主存的内 容。在任何 一个时刻, 单处理器系统都只能执行一个进程的代码。当操作系统决定要把控制权从当前进程转移到某个新进 程时,就会进行上下文切换,即保存当前进程的上下文、恢复新进程的上下文,然后将控 制权传递到新进程。新进程就 会从它上次停止的地方开始。图 1-1 2 展示了示例 he l l o 程序运行场景的基本理念。
示例场景中有两个并发的进程: s hell 进程和 he ll o 进程。最 开始,只 有 s hell 进程在
运行, 即等待命令行上的输入。当我们让 它运行 he l l o 程序时 , s hell 通过调用一个专门的函数,即系统调用,来执行我们的请求,系统调用会将控制权传递给操作系统。操作系 统保存 s hell 进程的上下 文, 创建一个新的 he ll o 进程及其上下文, 然后将控制权 传给新的 h e l l o 进程。 he ll o 进程终止后 ,操 作系统恢 复 s hell 进程的上下文, 并将控制权传回给它, s hell 进程会继续 等待下一个命令行 输入。
如图 1-1 2 所示, 从一个进程到另 一个进程的转换是由操作 系统内核 ( kern el) 管理的。内核是操作系统代码常驻主存的部分。当应用程序需要操作系统的某些操作时,比如读写 文件, 它就执行一条特殊的 系统调 用 ( s ys t em call) 指令, 将控制权传递给内核。然后内核执行被请求的操作并返回应用程序。注意,内核不是一个独立的进程。相反,它是系统管 理全部进程所用代码和数据结构的集合。
, #
进程A I 进程B
I
- - -
read - -►- -
- -—’: -
-- 产 二/内用核户代码
磁盘中断–► - – -夕- — 十,一 _J
用户_代码
从 r e a d 返回 - -► 一 –’t
呾 嘎 _ } 上下文切换
I, 用户代码
-- : - –·- —–
图1-21进程的上下文切换
实现进程这个抽象 概念需要低级硬件 和操作 系统软件之间的紧密合 作。我们将在第 8
章中揭示这项工作的原理,以及应用程序是如何创建和控制它们的进程的。
1. 7. 2 线程
尽管通常我们认 为一个进程只有单 一的控制流,但 是在现代系统中 , 一个进程实际 上可以由多个称为线程的执行单元组成,每个线程都运行在进程的上下文中,并共享同样的 代码和全局数据。由于网络服务器中对并行处理的需求,线程成为越来越重要的编程模 型,因为多线程之间比多进程之间更容易共享数据,也因为线程一般来说都比进程更高 效。当有多处理器可用的时候,多线程也是一种使得程序可以运行得更快的方法,我们将 在 1. 9. 2 节中讨论这个问 题。在第 1 2 章中, 你将学习并发的基本概念, 包括如何写线 程化的程序。
7. 3 虚拟内存
虚拟内存是一个抽象概念,它为每个进程提供了一个假象,即每个进程都在独占地使用 主存。每个进程看到的内存都是一致的 , 称为虚拟地址空间。图 1-13 所示的是 Linux 进程的
虚拟地址空间(其他 Unix 系统的设计也与此类似)。在Linux 中, 地址空间最上 面的区域是保留给操作系统中的代码和数据的 , 这对所有进程来说都是一样。地址 空间的底部区域存放用户进程定义的代码和数据。请注意,图中的地址是从下往上增大的。
内核虚拟内存 f用户代码不 可见的内存
pr i n t f 函数
运行时堆
( 在运行时由ma l l oc 创 建的)
读泻数据
只读的代码和数据
图 1-13 进程的虚拟地址空间
每个进程看到的虚拟地址空间由大僵准确定义的区构成 , 每个 区都有专门的功能。在本书的后续章节你将学到更多有关这些区的知识,但是先简单了解每一个区是非常有益 的。我们从最低的地址 开始, 逐步向上介绍 。
·程序代码和数据。对所有的进程来说,代码是从同一固定地址开始,紧接着的是和 C 全局变量相对应的数据位置。代码和数据 区是直接按照可执行目标文件的内容初始化的 , 在示例中就是可执行 文件 h e ll o。在第 7 章我们研究链接和加载时, 你会学习更多有关地址空间的内容。
- 堆。代码和数据区后紧随着的是运行时堆。代码和数据区在进程一开始运行时就被 指定了大小 , 与此不同, 当调用像 ma l l o c 和 fr e e 这样的 C 标准库函数时, 堆可以在运行时动态地 扩展和收缩。在第 9 章学习管理虚拟内存时, 我们将 更详细地研究堆。
- 共享库。大约在地址空间 的中间部分是一块用来存放像 C 标准库和数学库这样的共享库的代码和数据的 区域。共享库的概念非常强大 , 也相当难懂。在第 7 章 介绍动态链接时,将学习共享库是如何工作的。
- 栈。位 千用户虚拟地址空间 顶部的是用 户栈, 编译器用它来实 现函数调用。和堆一样,用 户栈在程序执行期间 可以动态地扩展和收缩。特别地 , 每次我们调用一个函数时, 栈就会增长; 从一个函数返回时 ,栈就会 收缩。在第 3 章中将学习编译器是如何使用栈的 。
- 内核虚拟 内存。地址空间 顶部的区域是为内核保留的。不允许应用程序读写这个区域的内容或者直接调用内核代码定义的函数。相反,它们必须调用内核来执行这些 操作。
虚拟内存的运作需要硬件和操作系统软件之间精密复杂的交互,包括对处理器生成的每 个地址的硬件翻译。基本思想是把一个进程虚拟内存的内容存储在磁盘上,然后 用主存作为磁盘的高速缓存。第 9 章将解 释它如何工作,以 及为什么对现代系统的运行如此重要。
1. 7. 4 文件 #
文件就是字节序列,仅 此 而巳。每个 1/ 0 设备, 包括磁盘、键盘、显示器, 甚至网络, 都可以 看成是文件。系统中的所有输入输出都是通过使用一小组称为 Unix 1/ 0 的系统函数调用读写文件来实现的。
文件这个简单而精致的概念是非常强大的,因为它向应用程序提供了一个统一的视 图,来 看待系统中可能含有的所有各式各样的 1/ 0 设备。例如,处 理 磁 盘文件内容的应用程序员可以非常幸福,因为他们无须了解具体的磁盘技术。进一步说,同一个程序可以在 使用不同磁盘技术的不同系统上运行。你将在第 10 章中学习 U nix 1/ 0 。
田日Linu x 项目
1991 年 8 月 , 芬兰研 究生 Linus T or valds 谨慎地发布了一个新的 类 U nix 的操作 系统内核, 内容如 下。
来自: tor valds@ klaava. H elsinki. Fl ( Linus Benedict T orvalds)
新闻 组: comp. os. minix
主题 : 在 minix 中你最想看 到什么? 摘要: 关于我的 新操作系统的 小调查
时间: 1 991 年 8 月 25 日 20 : 57 : 08 GMT
每个使 用 minix 的朋 友, 你们好。
我 正在做一个(免费的)用在 386 (486) AT 上的操作系统(只是 业余爱 好, 它 不会像GNU 那样庞大和专业)。这个想法 自 4 月份就开始酝酿, 现在快要完成 了。 我 希望得到各位对 minix 的任何反馈 意见 , 因为 我的操作系统在 某 些 方 面 与 它相 类似(其 中包 括相同的文件系统的物理设计(因为某些实际的原因))。
我 现在巳 经移植了 bas h(1. 08) 和 gcc( l. 40 ) , 并且看上去能运行。这意味着我需要
几个月的 时间 来让它 变得 更实用 一些, 并且, 我想 要知 道大 多数 人想要什 么特 性。 欢迎任何建议, 但是我无法保 证 我能 实现它们。:-)
Linus (t or val ds@kr uuna. hel s i nki . f i )
就像 Tor valds 所说的, 他 创建 Linux 的起点是 Minix , 由 Andrew S. T anen baum 出
于教 育目的 开发 的一个操作系统[ 113]。
接下来,如 他 们所说, 这就成了历 史。 Lin ux 逐 渐发展 成 为 一个技 术和文化现象。通过和 G NU 项 目 的 力 量结合, L inux 项 目 发 展 成 了 一 个 完整 的、符合 Posix 标准的Unix 操作 系统 的版本, 包括内核 和所有 支撑的基础设施。从 手持 设备到 大型 计算机,
Linux 在 范围如此广 泛的 计算机上得到 了应 用。 IBM 的一个工作 组 甚至把 Linux 移植到了一块腕表中!
1. 8 系统之间利用网络通信
系统漫游至此, 我们一直是把系统视为一个孤立的硬件和软件的集合体。实际上,现
代系统经常通过网络 和其 他系统 连接到一起。从一个单独的 系统来看,网 络可视为一个I/ 0 设备, 如图 1-14 所示。当系统从 主存复制 一串字节到网络适 配器时 , 数据流经过网络到达另一台机器,而不是比如说到达本地磁盘驱动器。相似地,系统可以读取从其他机器 发送来的数据,并把数据复制到自己的主存。
,CPU 芯片
寄存器文件
系统总线 内存总线
已 、心- i 主存储器
寸""’. I
, 扩展槽
‘;
名 忒 夺 f ’ ‘-“711守 你郓心; ;
VO 总线 粗
怂 .怂Y
二勹 三三三l
图 1-14 网络也是一种 1/0 设备
随着 I n t e r n e t 这样的全球网络的出现 , 从一台主机复制信息 到另外 一台主机已经成为计算机系统最重要的用途之一 。比如, 像电子邮件、即时通信 、万维网、FTP 和 t e l n e t 这样的应用都 是基千网络复 制信息的功能。
回到 h e ll o 示例, 我们可以使用熟悉的 t e ln e t 应用 在一个远程主机上 运行 h e l l o 程序。.假设用本地主机上的 t e ln et 客户端连接远 程主机上的 t e ln e t 服务器。在我 们登录到远程主机并运行 s h e ll 后, 远端的 s h e ll 就在等待接收输入命令 。此后在远端运行 h e l l o 程序包括如图 1-15 所示的五个 基本步骤。
I. 用户在键盘上输人 “he l l o”
5. 客户端在显示器上打印"hello world\n” 字符串
2. 客户端向 telnet服务器发送字符串 “he l l o”
——————–
4. telnet服务器向客户端发送字符串 “he l l o wor l d \ n”
- 服务器向 shell发送字符串 "hello , she ll 运行he ll o程序并将输出发送给telnet服务 器
图 1- 15 利用 telnet 通过 网络远程运行 he l l o
当我们在 t e ln e t 客户端键入 " h e l l o " 字符串并 敲下 回车键后 ,客 户端软件就会将这个字符串发送到 t e ln e t 的服务器。te ln e t 服务器从 网络上 接收到这个字符串后, 会把它传递给远端 s h e ll 程序。接下来 ,远 端 s h e ll 运行 h e l l o 程序 , 并将输出行返回 给 t e l n e t 服务器。最后, t e ln e t 服务器通过网络 把输出串转发给 t e ln e t 客户端 , 客户端就将输出串输出到我们的本 地终端上 。
这种客户端 和服务器之间交 互的类型在所 有的 网络应用中 是非常典型的。在第 11 章中, 你将学会如何构造网络应用 程序 , 并利用这些知识创建 一个简单的 Web 服务器。
9 重要主题
在此,小结一下我们旋风式的系统漫游。这次讨论得出一个很重要的观点,那就是系 统不仅仅只是硬件。系统是硬件和系统软件互相交织的集合体,它们必须共同协作以达到 运行应用程序的最终目的。本书的余下部分会讲述硬件和软件的详细内容,通过了解这些 详细内容,你可以写出更快速、更可靠和更安全的程序。
作为本章的结束,我们在此强调几个贯穿计算机系统所有方面的重要概念。我们会在 本书中的多处讨论这些概念的重要性。
9. 1 Amda hl 定 律
Gene Amdahl, 计算领域的早期先锋之一,对 提 升系统 某一部分性能所带来的效果做出了简单却有见地的观察。这个观察被称为 Amdahl 定律CAmdahl’s law) 。该定律的主要思想是,当我们对系统的某个部分加速时,其对系统整体性能的影响取决于该部分的重要 性和加速程度。若系统执行某应用程序需要时间为 Told 。 假设系统某部分所需执行时间与该时间的比例为 a , 而该部分性能提升比例为 K 。 即 该 部 分 初 始 所 需 时 间 为 a Told, 现在所
需 时 间 为Ca T01d) / k。 因 此,总 的 执 行 时间应为
Tnew = 0-a)Told + (aTold) / k = T otd[ O - a ) + a / k]
由 此 ,可 以计算加速比 S = T0 1d/ T new为
s = ,. 1 (1. 1)
举个例子, 考虑这样一种情况, 系统的某个部分初始耗时 比例为 60% (a=O. 6), 其加速比例因子为 3Ck= 3)。则我们可以获 得的加速比为 1/ [ 0. 4+0. 6/ 3] = 1. 67 倍。虽然我们对系统的一个主要部分做出了重大改进,但是获得的系统加速比却明显小于这部分的加速比。这就是
Amdahl 定律的主要观点一— 要想显著加速整个系统,必须 提升全系统中相当大的部分的速度。
田 日 表示相对性能
性能提升最好的表示方法就 是用比 例的形式 T old/ T new , 其中, T old 为原始 系统 所需时间 , T new为修 改后的 系统 所需时间。如 果 有所改进, 则 比 值应 大 于 1 。 我们 用后缀" X " 来表示比 例, 因此, " 2. 2 X " 读作 " 2. 2 倍"。
表示相对变化更传统的方法是用百分比,这种方法适用于变化小的情况,但其定义 是模糊的。应该等于 100 • ( Told - T new ) / T new, 还是 100 • ( T old - T new) / T old , 还是其他的值? 此外, 它对较大的 变化也 没有太大意 义。与 简单地说性能提升 2. 2 X 相比,“性能提升了 1 20 %" 更难理解。
练习题 1. 1 假设你是个卡 车 司机, 要将土豆从爱达荷州 的 Boise 运送到 明尼 苏 达州的 Minnea polis , 全程 2500 公里。 在限速范围 内, 你估计平 均速度为 1 00 公里/小时, 整个行程需要 25 个小时。
你听到 新闻说蒙大拿 州刚 刚取消 了限 速, 这使得行 程中 有 1500 公 里卡 车的 速度可
以为 150 公里/小时。 那么这 对整个行程的加速比是多少?
- 你可以在
www. fasttrucks. com 网站 上为 自 己 的卡车买个 新的 涡轮增 压器。 网站现货供应各种型号,不过速度越快,价格越高。如果想要让整个行程的加速比为
- 67 X , 那么你必须以多快的速度通过蒙大拿州?
- 你可以在
www. fasttrucks. com 网站 上为 自 己 的卡车买个 新的 涡轮增 压器。 网站现货供应各种型号,不过速度越快,价格越高。如果想要让整个行程的加速比为
练习题 1. 2 公司的 市场部 向你的客户 承诺, 下 一个 版本的 软件性 能 将改进 2 X 。这项任务被 分配给你。 你已 经 确 认只 有 80 % 的 系统 能 够被改进, 那 么, 这部 分需 要被改进 多少(即 k 取何值)才能 达到整体性能目标?
Amdahl 定律一个有趣的特殊情况是考虑 K 趋向千00 时的效果。这就意味着, 我们可以取系统的 某一部分将其加速到一个点, 在这个点上,这 部 分 花费的时间可以忽略不计。于是我们得到
s= =
Cl -a)
(1. 2)
举个例子 , 如果 60 %的系统能够加速到不花时间的程度, 我们获得的净加速比将仍只有
1/ 0. 4=2. 5 X 。
Amdah l 定律描述了改善任何过程的一般原则。除了可以用在加速计算机系统方面之外,它还可以用在公司试图降低刀片制造成本,或学生想要提高自己的绩点平均值等方 面。也 许它在计算机世界里是最有意义的,在 这里我们常常把性能提升 2 倍 或更高的比例因子。这么高的比例因子只有通过优化系统的大部分组件才能获得。
9. 2 并发和并行
数字计算机的整个历史中,有两个需求是驱动进步的持续动力:一个是我们想要计算 机做得更多,另一个是我们想要计算机运行得更快。当处理器能够同时做更多的事情时, 这两个因素都会 改进。我们用的术语并发 ( co ncurr ency) 是一个通用的概念,指一 个同时具有多个活动的系统;而术 语 并行 ( para ll elis m ) 指的是用并发来使一个系统运行得更快。并行可以在计算机系统的多个抽象层次上运用。在此,我们按照系统层次结构中由高到低的 顺序重点强调三个层次。
线程级并发
构建在进程这个抽象之上,我们能够设计出同时有多个程序执行的系统,这就导致了 并发。使用线程, 我们甚至能够在一个进程中执行多个控制流。自 20 世纪 60 年代初期出现时间共享以来,计算 机 系统中就开始有了对并发执行的支持。传统意义上, 这种并发执行只是模拟出来的,是 通过使一台计算机在它正在执行的进程间快速切换来实现的, 就好像一个杂耍艺人保待多个球在空中飞舞一样。这种并发形式允许多个用户同时与系统交 互, 例如, 当许多人想要从一个 Web 服务器获取页面时。它还允许一个用户同时从事多个任务, 例如,在 一 个 窗 口 中 开启 Web 浏览器, 在 另一窗口中运行字处理器,同 时 又播放音乐。在以前 ,即 使 处 理 器必须在多个任务间切换, 大多数实际的计算也都是由一个处
理器来完成的。这种配置称为单处理 器 系统 。
当构建一个由单操作系统内核控制的多处理 器组成的系统时, 我们就得到了一个多 处理 器 系统。其实从 20 世纪 80 年代开始,在 大规模的计算中就有了这种系统,但是直到最近,随着多核 处理器和超线程 ( h ypert hr eading ) 的出现, 这 种系统 才变得常见。图 1-16 给出了这些不同处理
器类型的分类。
所有的处理器
单处理器
多处理器
多核处理器是将多个 CP U ( 称为“核")集成到一个集成电路芯片上。图 1-17 描 述的是一个
图 1- 1 6 不同的处理器配置分类 。随着多 核
处理器和超线程的出现,多处理器
变得普遍了
典型多核处理器的组织结 构, 其中微处理器芯片 有 4 个 CP U 核, 每个核都有自己的 Ll 和
L2 高速缓存 , 其中的 Ll 高速缓存分 为两个部分一 一个保存最 近取到的指令,另一个存放数据。这些核共享更高层次的高速缓存,以及到主存的接口。工业界的专家预言他们能 够将几十个、最终会是上百个核做到一个芯片上。
处理器封装包
俨· 一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一
1 核0 核3 I
L3统一的高速缓存(所有的核共享)
I_ - - - - - - 宁 ——
图1-17 多 核处理器的组织结构。4 个处理器核集成 在一个芯片上
超线程 , 有时称为同时多 线程 ( simultaneo us multi-threading), 是一项允 许一个 CP U 执行多个控制流的技术。它涉 及 CPU 某些硬件有多 个备份, 比如程序计数器 和寄 存器文件, 而其他的硬件部分只有一份, 比如执行浮点算术运算的 单元。常规的处理器需 要大约20 000 个时钟周期做不同 线程间的转换 ,而超线程 的处理器可以在单个周期的 基础上决定要执行哪一个线 程。这使得 CP U 能够更好地利用它的处理资源。比 如, 假设一个线程必须等到某些数 据被装载到高速缓存中 , 那 CPU 就可以继续去执行另一 个线程。举 例来说, Intel Core i7 处理器可以让每个核执行两个 线程, 所以一个 4 核的系统实际上可以并 行地执行 8 个线程。
多处理器的使用可以从两方面提高系统性能。首先,它减少了在执行多个任务时模拟 并发的需要。正如前面提到的,即使是只有一个用户使用的个人计算机也需要并发地执行 多个活动。其次,它可以使应用程序运行得更快,当然,这必须要求程序是以多线程方式 来书写的 , 这些线程可以并行地高效 执行。因此, 虽然并发原理的 形成和研究已经超过 50 年的时间了,但是多核和超线程系统的出现才极大地激发了一种愿望,即找到书写应用程 序的方法利用硬件开发线程级并 行性。第 12 章 会更深入地探讨并发, 以及使用并发来提供处理器资源的共享,使程序的执行允许有更多的并行。
2 指令级井行
在较低的抽象层 次上, 现代处理器可以同时 执行多条指令的属性称为指令级 并行。早期的微处理器 , 如 1978 年的 In tel 8086, 需要多个(通常是 3~ 10 个)时钟周期来执行 一条指令。最 近的处理器可以保持 每个时 钟周期 2 ~ 4 条指令的执行速率。其实每条指令从开
始到结束需 要长得多的时间 , 大约 20 个或者更多周期, 但是处理器使用了非常多 的聪明技巧来同时处理多 达 100 条指令。在第 4 章中, 我们会研究 流水线 ( pi pelining ) 的使用。在流水线中,将执行一条指令所需要的活动划分成不同的步骤,将处理器的硬件组织成一系 列的阶段 , 每个阶段 执行一个步骤。这些 阶段可以并行地操作 ,用 来处理不同指令的不同部分。我们会看到一个 相当简单的硬件设计 , 它能够达到接近于一个时钟周期一条指令的执行速率。
如果处理器可以 达到比一个周期一条指令更快的执行 速率 , 就称之为超标 量 ( s uper scalar )处理器。大多 数现代处理器都支持超标量操作。 第 5 章中, 我们将描述 超标量处理器的高级模型。应用程序员可以用这个模型来理解程序的性能。然后,他们就能写出拥有 更高程度的指令级并行 性的程序代码 ,因而 也运行得更快 。
3 单指令、 多数据并行
在最低层次上,许多现代处理器拥有特殊的硬件,允许一条指令产生多个可以并行执 行的操作 , 这种方式称为 单指令、 多 数据, 即 SIMD 并行。例如, 较新儿代的 In tel 和
AMD 处理器都具有并行地对 8 对单精度浮点数 (C 数据类型 fl o a t ) 做加法的指令。
提供这些 SIMD 指令多是为了提高处理影像、声音 和视频数据应用 的执行速度。虽 然有些编译器会试图从 C 程序中自动抽取 SIMD 并行性,但是更可靠 的方法是用编译器支持的特殊的向量数据类型来写 程序, 比如 GCC 就支持向量数据类型。作 为对 第 5 章中比较通用的程序优化描述的 补充, 我们在网络旁 注 OPT :SIMD 中描述了这种 编程方式 。
9. 3 计算机系统中抽象的重要性
抽象的使用是计算 机科学中最 为重要的概念之一 。例如, 为一组函数规定一个简单的应用程序接口 ( APD 就是一个很好的编程习惯 , 程序员无须了解它内部的工作便可以使用这些代码。不同的 编程语言提供不 同形式 和等级的 抽象支持 , 例如 J a va 类的声明和 C 语言的函数原型。
. 我们已经介绍了计算 机系统中使用的几个抽象, 如图 1-18 所示。 在处 理器里 , 指令集架构提供了对实际处理器硬件的抽象。使用这个抽象,机器代码程序表现得就好像运行 在一个一次只执行一条指令的处理器上。底层的 硬件远比抽象 描述的要复杂精细, 它并行地执行多条指令,但又总是与那个简单有序的模型保持一致。只要执行模型一样,不同的 处理器实现也能执行同样的机器代码,而又提供不同的开销和性能。
虚拟机
进程
指令集架构 虚拟内存
文件
操作系统 处理器 主存 VO设备
图 1-18 计算机系统提供的 一些抽象。计算机系统中的一个 重大主题就是提供不同层次的抽象表示,来隐藏实际实现的复杂性
在学习操作系统时 , 我们介绍了三个抽象 : 文件是 对 I/ 0 设备的抽象, 虚拟内存是 对程序存储器的抽象 , 而进程是 对一个正在运行的程序的 抽象。我们再 增加一个新的抽象 :
虚拟机 , 它提供对整个计算机的抽象 , 包括操作系统、处理器和程序。虚拟机的思想是
IBM 在 20 世纪 60 年代提出来的 , 但是最近才显 示出其管理计算机方式 上的优 势, 因为一些计算机必须能够运行 为不 同的操作系统(例如, M icro s o f t W in d o w s 、M a cO S 和 L in u x ) 或同一操作系统的不同版本设计的程序。
在本书后续的章节中,我们会具体介绍这些抽象。
10 小结
计算机系统是由硬件和系统软件组成的,它们共同协作以运行应用程序。计算机内部的信息被表示 为一组组的 位,它 们依据上下文有不同的解释方式。程 序被其他程序 翻译 成不同的形式,开 始时是
ASCII 文本,然后 被编译器 和链接器 翻译成二进制可执行 文件。
处理器读取并解 释存放在主存里的二进制指 令。因 为计算 机花费了 大量的时间在内 存、1/0 设备和CP U 寄存器之间复制数据 , 所以将系统中的存储设 备划分成层次结构 CPU 寄存器在顶部 , 接着是多层的硬件高 速缓存存储器、 DRAM 主存和磁盘存储器。在层次模型中 , 位于更高层的存储设 备比低层的存储设备要更快,单位比特造价也更高。层次结构中较高层次的存储设备可以作为较低层次设备的高速 缓存。通过理解 和运用 这种存储层次结构的 知识, 程序员可以 优化 C 程序的性能 。
操作系统内 核是应用程序 和硬件之间的媒介 。它提供三个基本的抽象 : 1) 文件是对 1/ 0 设备的抽象;
- 虚拟内存是对 主存和磁盘的抽象 ; 3) 进程是处 理器、主存 和 1/ 0 设备的抽象。
最后,网络 提供了计算机系统之间通信的手段。从特殊 系统的 角度来看,网络就是一种 1/ 0 设备。
参考文献说明 #
Rit chie 写了关于早期 C 和 U nix 的有趣的第一手资 料[ 91 , 92] 。 Ritchie 和 T hompson 提供了最早 出版的 Unix 资料[ 93] 。Silberschatz 、Galvin 和 Gagne[ 102] 提供了关于 Unix 不同版本的详尽历 史。GNU ( www. gnu. org) 和 Linux( www. linux. org) 的网站上有大量的 当前信息 和历史资 料。Posix 标准可以 在线获得( www. unix. org) 。
练习题答案 #
- 1 该问题说明 Amdahl 定律不仅仅适用于计算机系统。
根据公 式 1. 1, 有 a = 0. 6 , k = l. 5。更直接地说, 在蒙大拿行驶的 1500 公里需要 10 个小时 , 而其他行程也需 要 10 个小时。则加速比 为 25 / ClO+ l O) = l. 25 X 。
根据公式 1. 1, 有 a= O. 6, 要求 S = l. 67, 则可算出 k。更直接地说,要使行程 加速度达到1. 67X, 我们必须把全程时间减少到 15 个小时。蒙大拿以外仍要求 为 10 小时, 因此, 通过 蒙大拿的时间就为 5 个小时。这就要求行驶速度为 300 公里/小时, 对卡车来说这个速度太快了!
1. 2 理解 Amdahl 定律最好的方法就是 解决一些 实例。本题要求你从 特殊的角度来看公 式 1. 1。本题是公式的简单应用。已知 5 = 2 , a=O. 8, 则计算 k :
2 =
O. 4 + 1. 6/ k = l. 0
k = 2. 67