分布式事务

发表于 2022-03-26 更新于 2025-03-27 分类于 Distributed System ， Consistency Waline：阅读次数：本文字数： 52 阅读时长 ≈ 1 分钟

在前面介绍了分布式系一致性模型，本文将介绍分布式事务(区别于单机事务，其实是基于单机事务的分布式协调)。

单机事务

发表于 2022-03-25 更新于 2025-03-27 分类于 Database ， Transaction Waline：阅读次数：本文字数： 22 阅读时长 ≈ 1 分钟

参考

[1] Consistency Models

分布式一致性模型

发表于 2022-03-24 更新于 2025-03-26 分类于 Distributed System ， Consistency Waline：阅读次数：本文字数： 5.9k 阅读时长 ≈ 10 分钟

在前面的分布式系统理论中，我们了解到网络分区是大概率会发生的。分布式系统需要考虑在面临分区分区问题时，选择一致性还是高可用。本文将展开介绍分布式一致性模型(并行计算不涉及事务)。

阅读全文 »

分布式系统理论-CAP

发表于 2022-03-21 更新于 2025-03-26 分类于 Distributed System ， Theorem Waline：阅读次数：本文字数： 7k 阅读时长 ≈ 12 分钟

CAP定理(CAP theorem)，又被称作布鲁尔定理(Brewer’s theorem)，它指出对于一个分布式计算系统来说，不可能同时满足以下三点:

一致性 (Consistency): 一个写操作返回成功，那么之后的读请求都必须读到这个新数据；如果返回失败，那么所有读操作都不能读到这个数据。所有节点访问同一份最新的数据。
可用性 (Availability): 保证每个请求都会收到关于它是成功还是失败的响应。无论您是要读取还是写入，您都会得到一些响应。
分区容错性 (Partition tolerance): 能容忍网络分区，在网络断开(不是延迟)的情况下，被分隔的节点仍能正常对外提供服务。

阅读全文 »

算法之MD5

发表于 2022-03-16 更新于 2024-06-27 分类于 Algorithm ， Hash Waline：阅读次数：本文字数： 4.7k 阅读时长 ≈ 8 分钟

MD5 即Message-Digest Algorithm 5 (信息-摘要算法5)。MD5 使用little-endian(小端模式)，输入任意不定长度信息，以 512-bit 进行分组，生成四个32-bit 数据，最后联合输出固定 128-bit 的信息摘要。

MD5 不是足够安全的。Hans Dobbertin在1996年找到了两个不同的512-bit 块,它们在MD5 计算下产生相同的hash 值。至今还没有真正找到两个不同的消息，它们的MD5 的hash 值相等。

阅读全文 »

log 性能优化

发表于 2022-03-01 更新于 2025-02-05 分类于 Log Waline：阅读次数：本文字数： 6.9k 阅读时长 ≈ 11 分钟

日志是服务中一个重要组成部分，当优化性能的时候，也要思考对日志的性能优化。

阅读全文 »

分布式追踪系统

发表于 2022-01-11 更新于 2024-06-27 分类于 MicroService ， Tracing Waline：阅读次数：本文字数： 12k 阅读时长 ≈ 20 分钟

随着微服务和云原生开发的兴起，越来越多应用基于分布式进行开发，大型应用拆分为微服务后，服务之间的依赖和调用变得越来越复杂。微服务提供了一个强大的体系结构，但也有面临了一些挑战，例如：

如何调试和观察跨复杂网络的分布式调用？
如何分析服务链路的瓶颈并对其进行调优？
如何快速进行服务链路的故障发现？
…

为了更好地维护这些服务，软件领域出现了 Observability 思想。

阅读全文 »

Dapper,大规模分布式系统的跟踪系统

发表于 2022-01-10 更新于 2024-06-27 分类于 Paper ， Tracing Waline：阅读次数：本文字数： 23k 阅读时长 ≈ 38 分钟

本篇是论文的中文简单翻译

概述

当代的互联网的服务，通常都是用复杂的、大规模分布式集群来实现的。互联网应用构建在不同的软件模块集上，这些软件模块，有可能是由不同的团队开发、可能使用不同的编程语言来实现、有可能布在了几千台服务器，横跨多个不同的数据中心。因此，就需要一些可以帮助理解系统行为、用于分析性能问题的工具。

Dapper–Google生产环境下的分布式跟踪系统，应运而生。那么我们就来介绍一个大规模集群的跟踪系统，它是如何满足一个低损耗、应用透明的、大范围部署这三个需求的。当然Dapper设计之初，参考了一些其他分布式系统的理念，尤其是Magpie³和X-Trace¹²，但是我们之所以能成功应用在生产环境上，还需要一些画龙点睛之笔，例如采样率的使用以及把代码植入限制在一小部分公共库的改造上。

自从Dapper发展成为一流的监控系统之后，给其他应用的开发者和运维团队帮了大忙，所以我们今天才发表这篇论文，来汇报一下这两年来，Dapper是怎么构建和部署的。Dapper最初只是作为一个自给自足的监控工具起步的，但最终进化成一个监控平台，这个监控平台促生出多种多样的监控工具，有些甚至已经不是由Dapper团队开发的了。下面我们会介绍一些使用Dapper搭建的分析工具，分享一下这些工具在google内部使用的统计数据，展现一些使用场景，最后会讨论一下我们迄今为止从Dapper收获了些什么。

阅读全文 »

第三方Buffer框架:Netty

发表于 2022-01-06 更新于 2025-01-17 分类于 Flink Waline：阅读次数：本文字数： 0 阅读时长 ≈ 1 分钟

第三方Buffer框架:Flink

发表于 2022-01-06 更新于 2025-03-26 分类于 Flink Waline：阅读次数：本文字数： 8.3k 阅读时长 ≈ 14 分钟

Flink是使用 JVM 的大数据开源计算框架，基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中，这就不得不面对 JVM 存在的几个问题：

Java 对象存储密度低。一个只包含 boolean 属性的对象占用了16个字节内存: 对象头占了8个,boolean 属性占了1个,对齐填充占了7个。而实际上只需要一个bit就够了。

Full GC 会极大地影响性能, 尤其是为了处理更大数据而开了很大内存空间的JVM来说, GC 会达到秒级甚至分钟级。
OOM 问题影响稳定性。OutOfMemoryError是分布式计算框架经常会遇到的问题, 当JVM中所有对象大小超过分配给JVM的内存大小时, 就会发生OutOfMemoryError错误, 导致JVM崩溃, 分布式框架的健壮性和性能都会受到影响。

对于第一个问题，如果采用基类存储就可以解决。而第二个问题，可以考虑是使用直接内存和内存池来解决 Full GC 的问题。OOM 问题需要支持内存数据溢写到磁盘，即支持内存数据的序列化和反序列化。这里不使用 JDK 原始 buffer 的原因是 JDK Buffer只支持存储相同固定类型的实例数据，而实际上流式数据处理的总是一行数据，且数据要支持可扩展的类系统。

因此，Flink 选择了实现自己管理的内存单元和可扩展的类型系统，也就是接下来介绍的 Buffer框架(Memory Segment) 和对应的 TypeSerializer。

阅读全文 »