博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
面对20亿行代码,Google如何管理?
阅读量:5817 次
发布时间:2019-06-18

本文共 2176 字,大约阅读时间需要 7 分钟。

面对“Google 这家公司有多大?”这种问题,你可能会用收入、股票价格、客户数量或者是形而上学的影响力来回答这个问题。但是,这还不是全部。Google 作为全球最大的互联网公司,我们当然可以用“互联网思维”来思考这个问题,比如用代码数量来衡量它。

来自于 Google 的 Rachel Potvin,在周一举办的硅谷工程会议上给了我们一个可以参考的答案。她表示,运行所有 Google 互联网服务的软件,包括了 Google 搜索、Gmail、Google地图等,大约有20亿行代码。相比之下,从20世纪80年代就开始开发的 Windows 操作系统——有史以来为单一计算机所开发的最复杂的软件工具之一,只有5000万行代码。

所以简单一刀切的话,建立 Google 相当于建40个 Windows 系统。

当然,5000万行代码驱动的仅仅是 Windows 系统本身,而20亿行代码则是 Google 的全部。Google 的业务覆盖范围及其广,包含了搜索、地图、文档、社交、日历、邮件、视频,以及其他互联网服务,所有20亿行代码都存放在代码资源库中,提供给全部2.5万名 Google 工程师调用。在公司内部,Google 对待它的代码就像对待一个巨大的操作系统。Potvin 表示:“虽然不能证明这一点,但我认为这是全球最大的单一信息库。”

Google 是一个极端例子,但它展示了如今的软件在互联网时代有多复杂,以及我们如何改变使用的编码工具和理念,以适应这种复杂性。Google 的巨大资源库仅适用于内部程序员,但在某种程度上,它已经类似于Github——一个向所有公众开放的源代码库,工程师可以通过互联网共享代码。我们正在走向一个需要经常大规模合作代码的世界,也只有这样才能跟上现代互联网服务的发展。

GitHub 就表示:“Google 拥有2.5万名工程师,他们可以与内部拥有各种不同技能的人分享代码。但是小公司可以使用 GitHub 和开源,得到同样的优势。”

另一方面,建立并运行一个20亿行代码的庞大系统,并不简单。Lambert 表示:“这是一项技术挑战,也是一个巨大壮举,数字相当惊人。”

GitHub 可以让程序员轻松共享代码和协作,它涵盖了数以百万计的项目,但没有直接容纳软件项目。Google 则更进了一步,将很多项目合并成一个。鉴于涉及许多工程师以及同时应付如此多代码的难度,能做到这一点十分地疯狂。

Piper

Google 为了同时应付所有代码,已经建立了自己的“版本控制系统”:Piper。它在整个庞大的网络基础设施上运行,系统覆盖了10个不同的 Google 数据中心。

这一系统不仅将所有20亿行代码都存放在单一的系统内,并提供给公司内部工程师调用,更给工程师提供了更多自由,可以使用及合并横跨无数项目的代码。Potvin 表示:“当你开始一个新项目,Google 已经提供了有丰富资源的图书馆,几乎一切事情都已经帮你完成。更重要的是,工程师可以在所有 Google 服务中进行代码变更和立即部署。更新一件事,就能够更新一切。”

当然使用这个系统也有限制。Potvin 表示,某些高度机密的代码,如PageRank 搜索算法,被存储在一个单独的资源库中,只提供给特定员工。而且,由于Android 和 Chrome两个操作系统与那些在线服务有非常大的区别,Google 会将它们的代码存储在单独的版本控制系统中。但在大多数情况下,Google 代码都是一个整体。

机器程序员

Lambert 指出,构建和运行这样的一个系统,不仅需要知道如何做到这种事,还需要庞大的计算能力。Piper 每天需要处理大约85TB的数据(即85000GB),Google 的 2.5万名工程师每天会对资源库做出45000次提交(修改)。

与此同时,Piper 还必须能删去人类程序员所产生的大量冗余。它必须确保代码准确无误,程序员不会相互干涉,要能从资源库中删除错误和未使用的代码。而正是存在这一切困难,Piper不得不接手一些人类的工作。现在,Google 已经从之前的一个版本控制系统Perforce,切换到了 Piper,让机器来完成一部分工作。

这并不意味着 Google 要让机器人编写代码,但它们确实可以生成很多运行软件所需的数据和配置文件。程序员和机器人需要协调一致,维护代码健康。现在已经不只有人类在维护代码了。

让所有人受惠的 “Piper”

其他公司能否受益于同类系统呢?当然能,而且也确实有公司这样做了。Facebook 的主应用有2000万行以上代码,公司把整个事情作为一个单独的项目。还有一些公司以较小规模在做同样的事情,而当这些公司不断接近 Google 或 Facebook 的规模,也会做同样的事。但Google 和 Facebook 都在探索能够改变每个人的方法。

两家巨头正在开发一个开源的版本控制系统,任何人都可以用它来处理大规模代码。它基于现有系统Mercurial,Google正试图扩展 Mercurial 资源库,达到Google的规模。

原文发布时间为:2015-09-21

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

转载地址:http://mkhbx.baihongyu.com/

你可能感兴趣的文章
粤出"飞龙",打造新制造广东样本
查看>>
编玩边学获数千万元A轮融资,投资方为君联资本
查看>>
蓝图(Blueprint)详解
查看>>
Spark之SQL解析(源码阅读十)
查看>>
Android图片添加水印图片并把图片保存到文件存储
查看>>
比特币系统采用的公钥密码学方案和ECDSA签名算法介绍——第二部分:代码实现(C语言)...
查看>>
海贼王十大悲催人物
查看>>
BigDecimal 舍入模式(Rounding mode)介绍
查看>>
开源 免费 java CMS - FreeCMS1.2-标签 infoSign
查看>>
开源 免费 java CMS - FreeCMS1.9 移动APP生成栏目列表数据
查看>>
虚拟机新增加硬盘,不用重启读到新加的硬盘
查看>>
Java IO流详尽解析
查看>>
邮件服务系列之四基于虚拟用户的虚拟域的邮件系统(安装courier-authlib以及部分配置方法)...
查看>>
Linux VSFTP服务器
查看>>
DHCP中继数据包互联网周游记
查看>>
Squid 反向代理服务器配置
查看>>
Java I/O操作
查看>>
Tomcat性能调优
查看>>
项目管理心得
查看>>
Android自学--一篇文章基本掌握所有的常用View组件
查看>>