阿里工程师详细讲解代码是如何编译成程序的?
lipiwang 2024-10-16 13:08 9 浏览 0 评论
这段程序应该是码农的入门曲:
#include<stdio.h>
int main(void)
{
printf("Hello,World!\n");
return 0;
}
我想大部分人都能闭着眼睛敲出来,连鼠标都不用移动。编译链接,运行结果如下:
$gcc -o hello hello.c
$./hello
Hello World!
很好,C语言基础很扎实。我们这里来分析一下这几行敲下gcc这一行命令之后到底发生了什么(Shell的运行机制下回探讨),来看看C语言翻译为机器码,看看可执行文件里都有哪些东东。
上面GCC的构建过程分为4个步骤,分别是预处理、编译、汇编和链接,如下图所示:
预编译
首先是对源文件hello.c中的预处理指令即#开头的指令,如#include、#define等进行展开替换删除等处理,被预编译成一个.i文件。预处理过程相当于如下编译命令:
$gcc -E -o hello.i hello.c
预处理完成之后,注释内容被删除,宏定义会被展开。
编译
预处理之后就需要对生成的预处理文件进行词法分析,语法分析,语义分析及优化后生成相应的汇编代码文件,也就是将高级语言翻译成机器码的最核心的部分。我们可以通过命令:
gcc -S -o hello.s hello.c
将源文件编译成汇编代码。
汇编
汇编是将汇编代码翻译成可执行的指令,每一条汇编语句基本对应一条机器指令,因此汇编器相对编译器较为简单,只需要按照汇编指令和机器指令的对照表进行一一翻译,这也是“汇编”一词的由来。可以用下面的命令获得汇编后的目标文件:
gcc -o hello.o -c hello.c
上述命令相当于:
as hello.s -o hello.o
目标文件格式跟可执行文件一样,都属于ELF文件。Linux系统下ELF类型文件还包括核心转储文件(core dump)、动态链接库(.so文件)。ELF文件包括文件头、代码段、数据段和.bss段(未初始化的全局变量),使用命令:objdump -h hello.o 可以查看目标文件的主要段,可以看到hello.o的代码段和数据段。
使用objdump -d hello.o命令查看目标文件hello.o的内容如下:
其中:
18: e8 00 00 00 00 callq 0 <_main+0x1d> 表示对函数printf的引用
可以看到,编译阶段,printf函数在外部定义,未定义函数printf的调用地址为0。这里啰嗦下,objdump是个很好用的工具,对于初学编译原理很有用。
链接
链接是将各个目标文件所需要的代码块收集在一起,生成最终的可执行文件。我们的helloworld里面调用了printf函数,但是并没有它的实现,其实现在libc.so(动态库)或者libc.a(静态库)中。所谓的库就是将一些比较常用的函数实现编译成目标文件并打包,因此我们使用ar命令就可以将库拆分成目标文件:
$ar -t libc.a
init-first.o
libc-start.o
sysdep.o
version.o
check_fds.o
libc-tls.o
elf-init.o
dso_handle.o
errno.o
init-arch.o
errno-loc.o
hp-timing.o
iconv_open.o
iconv.o
iconv_close.o
gconv_db.o
…………
查看链接后可执行文件hello的内容:
其中:
100000f78: e8 0d 00 00 00 callq 13 <dyld_stub_binder+0x100000f8a>
可以看到代码段调用地址已被赋值。我这里使用的iOS系统,实现与Linux略有不同,dyld_stub_binder 会在目标符号(例如 printf)被调用时,将其链接到指定的动态链接库 libSystem,再调用printf函数,printf符号位于在data段的lazy符号表中可获取。
静态链接过程包括:
- 空间与地址分配
符号解析和重定位
静态库链接
下面一一讲解。
空间地址的分配
刚才讲了,链接过程就是将多个目标加工后合并成一个可执行文件,对于有多个目标文件的链接情况,存在两种地址空间分配策略:按序叠加和相似段合并。
按序叠加很好理解,就是直接合并:
直接合并会造成一个问题,就是可执行文件会有很多零散的段,而每个段都需要地址和空间对齐,如x86硬件下对齐单位是页,也就是4096字节,零散段会造成空间浪费。
相似段合并就是将相同性质的段合并到一起:
这里.bss段存放的是未初始化的全局变量,因为没有内容,因此不占用文件空间只占用虚拟地址空间,即进程空间,参见文章《进程是如何使用内存的?》:
https://mp.weixin.qq.com/s?__biz=MzIxMjU2Nzk2Nw==&mid=2247483768&idx=1&sn=569985972dce471492ef419bc8b9abd2&chksm=97455388a032da9e258eefc52c9de7bed287d1de32d8c8548c806e287a602677f6cbf5aba08d&token=1460100433&lang=zh_CN#rd
符号解析和指令的修正
ELF文件中定义了一个重定位表段,里面定义了需要在链接阶段进行重定位的符号。hello.c编译成hello.o文件后,里面的printf函数并没有在hello.o中实现,因此会放在重定位段中。链接的时候,会在所有的.o文件中查找未定义符号表,并将符号定义的首地址相对引用地址求得偏移值后填入引用处。比如我们在main函数中引用的printf函数,编译阶段地址为0,链接阶段会填上0x2004。
如果存在未找到的符号,连接失败编译器报错,就是我们经常见到的:
undefined reference to "XXXX"
刚才我们看到libc.a文件打散之后是一堆.o文件,就包括printf.o文件,里面定义了printf函数的实现。经过迭代查找,设置好程序入口,链接工作就完成了。
链接过程比较复杂,包括绝对地址重定位和C++中重复代码处理等等,需要在项目中试错理解,后续有空再续写。
相关推荐
- 前端入门——css 网格轨道详细介绍
-
上篇前端入门——cssGrid网格基础知识整体大概介绍了cssgrid的基本概念及使用方法,本文将介绍创建网格容器时会发生什么?以及在网格容器上使用行、列属性如何定位元素。在本文中,将介绍:...
- Islands Architecture(孤岛架构)在携程新版首页的实践
-
一、项目背景2022,携程PC版首页终于迎来了首次改版,完成了用户体验与技术栈的全面升级。作为与用户连接的重要入口,旧版PC首页已经陪伴携程走过了22年,承担着重要使命的同时,也遇到了很多问题:维护/...
- HTML中script标签中的那些属性
-
HTML中的<script>标签详解在HTML中,<script>标签用于包含或引用JavaScript代码,是前端开发中不可或缺的一部分。通过合理使用<scrip...
- CSS 中各种居中你真的玩明白了么
-
页面布局中最常见的需求就是元素或者文字居中了,但是根据场景的不同,居中也有简单到复杂各种不同的实现方式,本篇就带大家一起了解下,各种场景下,该如何使用CSS实现居中前言页面布局中最常见的需求就是元...
- CSS样式更改——列表、表格和轮廓
-
上篇文章主要介绍了CSS样式更改篇中的字体设置Font&边框Border设置,这篇文章分享列表、表格和轮廓,一起来看看吧。1.列表List1).列表的类型<ulstyle='list-...
- 一文吃透 CSS Flex 布局
-
原文链接:一文吃透CSSFlex布局教学游戏这里有两个小游戏,可用来练习flex布局。塔防游戏送小青蛙回家Flexbox概述Flexbox布局也叫Flex布局,弹性盒子布局。它决定了...
- css实现多行文本的展开收起
-
背景在我们写需求时可能会遇到类似于这样的多行文本展开与收起的场景:那么,如何通过纯css实现这样的效果呢?实现的难点(1)位于多行文本右下角的展开收起按钮。(2)展开和收起两种状态的切换。(3)文本...
- css 垂直居中的几种实现方式
-
前言设计是带有主观色彩的,同样网页设计中的css一样让人摸不头脑。网上列举的实现方式一大把,或许在这里你都看到过,但既然来到这里我希望这篇能让你看有所收获,毕竟这也是前端面试的基础。实现方式备注:...
- WordPress固定链接设置
-
WordPress设置里的最后一项就是固定链接设置,固定链接设置是决定WordPress文章及静态页面URL的重要步骤,从站点的SEO角度来讲也是。固定链接设置决定网站URL,当页面数少的时候,可以一...
- 面试发愁!吃透 20 道 CSS 核心题,大厂 Offer 轻松拿
-
前端小伙伴们,是不是一想到面试里的CSS布局题就发愁?写代码时布局总是对不齐,面试官追问兼容性就卡壳,想跳槽却总被“多列等高”“响应式布局”这些问题难住——别担心!从今天起,咱们每天拆解一...
- 3种CSS清除浮动的方法
-
今天这篇文章给大家介绍3种CSS清除浮动的方法。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。首先,这里就不讲为什么我们要清楚浮动,反正不清除浮动事多多。下面我就讲3种常用清除浮动的...
- 2025 年 CSS 终于要支持强大的自定义函数了?
-
大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发!1.什么是CSS自定义属性CSS自...
- css3属性(transform)的一个css3动画小应用
-
闲言碎语不多讲,咱们说说css3的transform属性:先上效果:效果说明:当鼠标移到a标签的时候,从右上角滑出二维码。实现方法:HTML代码如下:需要说明的一点是,a链接的跳转需要用javasc...
- CSS基础知识(七)CSS背景
-
一、CSS背景属性1.背景颜色(background-color)属性值:transparent(透明的)或color(颜色)2.背景图片(background-image)属性值:none(没有)...
- CSS 水平居中方式二
-
<divid="parent"><!--定义子级元素--><divid="child">居中布局</div>...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- maven镜像 (69)
- undefined reference to (60)
- zip格式 (63)
- oracle over (62)
- date_format函数用法 (67)
- 在线代理服务器 (60)
- shell 字符串比较 (74)
- x509证书 (61)
- localhost (65)
- java.awt.headless (66)
- syn_sent (64)
- settings.xml (59)
- 弹出窗口 (56)
- applicationcontextaware (72)
- my.cnf (73)
- httpsession (62)
- pkcs7 (62)
- session cookie (63)
- java 生成uuid (58)
- could not initialize class (58)
- beanpropertyrowmapper (58)
- word空格下划线不显示 (73)
- jar文件 (60)
- jsp内置对象 (58)
- makefile编写规则 (58)