文介绍Git核心优点和实现思路,重点引申出对业务系统设计与开发的启示;由于篇幅有限,本文不详细介绍Git命令的具体执行细节,如果需要了解执行Git命令时,底层具体发生了什么, 请移步Git官方文档第十章 Git Internals。
Git作为一个前无古人,很可能后无来者的内容地址跟踪器, 席卷各大公司,深受所有程序员喜爱(觉得Git难用的除外), 肯定有他的过人之处。
先搬出互联网技术关键词标配:
分布式、去中心化、可靠性、容错性、可用性、数据一致性、性能是一个功能, 而不是一个优化等。
Git都满足有木有! Linus用两周就实现自举的Git十几年后依然健壮如初。假如我写一个接口或设计一个微服务或写一个小工具, 自带扩展技能,从来不挂,QPS暴增也无需推翻重构,外部依赖抖动时自动降级,数据量增大而没有拖垮性能, 能与Git有很多共同点,岂不很有成就感?
分布式:1)多人同一个分支不同地点不同时间并行开发;2)单人本地多分支并行开发。
性能: 速度要快。慢是Linus Torvalds本人无法接受的,因为linux内核每天有成百上千次提交。
安全与信任:即可靠性, 我push上去的代码pull下来一定还是我的代码, 没有丢失或被恶意篡改过。
插播一条语录:Bad programmers worry about the code. Good programmers worry about data structures and their relationships. - by Linus Torvarlds. (一般的程序员只关心代码,而优秀的软件工程师更关心数据结构以及他们之间的关系。)
Linus本人写C语言比较多,个人认为这里的data structures and their relationships 如果脱离C语言 的特定背景,可以泛指技术对场景或业务逻辑的抽象, 比如:面向对象建模,领域驱动, 甚至更宏观的架构设计或微服务怎样划分。
根据个人经验,如果系统设计的好, 代码稍微写low一点,整个系统的表现也不会太差, 而且代码的坑比较容易填;反之,再漂亮的代码也很难填上系统设计的坑, 只能面临重构。
对于Git内部结构可以简单的理解为: Git内部是一棵树, 每个节点都是一个指针(key), 这个指针(key)可能代表一个文件,或一次commit或一个分支起点或一次merge或一个tag, key对应的value就是内容, 如果key是代表一个文件, value就是文件内容;如果key是代表一次commit, value是一颗子树, 包含此次commit对整个项目的snapshot。
平时很多git操作都可以近似理解为: 在树上执行遍历查找O(lg(n)),切换指针O(1),然后根据指针取文件内容O(1))。这些操作速度都是很快的,只有在网络交互,文件压缩与解压和计算diff时,人肉可以感知到有时间等待。
对于Git,近期发生变化的数据属于热数据,Git假设这些数据会被频繁访问或使用到。其他数据为历史数据。对于热数据, 即使发生微小变化,Git也会全量冗余存储,提高访问效率。当热数据文件数量达到一定值时,会触发打包压缩逻辑, delta差异存储,节省空间。
对于不同的存储介质,例如db, redis, mq, 选用不同的存储逻辑或策略,以达到访问效率与存储空间的平衡。
Git对文件内容和项目整体snapshot都使用hash值表示,hash值与内容一一对应, 如果文件内容被篡改或硬盘损坏 导致数据丢失,hash值校验都会失败。此时Git设计时已经假设:1) 硬盘是随时崩溃的,即存储是不可靠的 2) 有人恶意引入Bug或偷偷修改代码
在分布式环境下,设计系统或接口,能否保持容错性,自带降级,建议多向自己提出假设:
先找出两个分支的公共祖先, 然后两个分支分别与公共祖先diff,指出有冲突的地方。Git merge并没有试图智能的去解决冲突,只是指出冲突,然后将merge交给最合适最高效的人去解决: 即引起冲突的开发者。
一般的代码, 用if else 判断边界值:
void remove_list_entry(entry)
{
prev = NULL;
walk = head;
// Walk the list
while (walk != entry){
prev = walk;
walk = walk->next;
}
//Remove the entry by updating the
//head or the previous entry
if(!prev)
head = entry->next;
else
prev->next = entry->next;
}
好的代码, 换一种写法,使正常处理逻辑可以兼容边界值:
void remove_list_entry(entry)
{
//The "indirect" pointer points to the
// *address* of the thing we'll update
indirect = &head;
//Walk the list,looking for the thing that
//points to the entry we want to remove
while ((*indirect) != entry)
indirect = &(*indirect)->next;
// .. and just remove it
*indirect = entry->next
}
平时编码中对边界值的处理是否优雅?
现在一个变量的传递会经过多种编程语言和中间件,中间过程一般有序列化和反序列化, 给空对象赋默认值等逻辑, 怎样保证实际结果与预想的完全一致?边界值处理不好,一是代码不好维护,二是容易引入Bug。日常碰到的边界值有: null, int默认值0等。
(如下为Linus Torvalds语录,仅供娱乐。Linus Torvalds以喷人闻名,网络上很多人指责他人品不行, 很少有人评价他的技术水平,可能是没有能力评价吧。)
Copyright© 2013-2020
All Rights Reserved 京ICP备2023019179号-8