View on GitHub

我的博客

杂七杂八啥都有

Bigtable 论文阅读笔记

姓名	学号
米家龙	18342075

论文选择为 Bigtable: A Distributed Storage System for Structured Data

Bigtable 论文阅读笔记

简介

Google 在2003年到2006年期间发布的三篇关于大规模数据储存和分析的论文，分别是：

MapReduce: Simplified Data Processing on Large Clusters
Bigtable: A Distributed Storage System for Structured Data
The Google File System

这“三驾马车”的存在，使得 google 在很长一段时间内担当着工业时代的大数据时代的领头羊的身份。

研究背景

在当时，由于技术和硬件性能的局限，大多数企业对大量的数据储存需求并没有很高的要求，但对于基于爬虫获取数据的 google 搜索引擎来说，互联网的快速发展带来的网页数量大规模膨胀，爬虫获取到的数据也随之大量增加，于是，gfs 顺理成章的诞生了；但由于解耦合的设计思路，gfs 只负责数据的存储，对于数据的具体内容不关心，因此无法提供基于内容的类似数据库的服务

为了满足内容相关的需求，google 后续开发了 Bigtable 作为数据库，为上层服务提供内容的各种功能

Bigtable 依托于 Google File System 、Chubby 和 SSTable 而诞生，主要用于解决内部产品在对数据储存的容量和响应时延需求的差异化，尽可能追求大容量数据的同时减少查询时间。

方法介绍

数据模型

一个 Bigtable 是一个稀疏的、分布式的、持久化的、多维的有序 Map ，Map 中含有若干个 table（表），表中的 cell（数据单元）通过行、列的键以及时间戳进行索引，形式如下：

\[(row: {\rm{string}}, \ column: {\rm{string}}, \ time: {\rm{int64}}) \rightarrow string\]

model

行 Row

行标识有如下特性：

行键是上限为 64kb 的字符串
任意单行的读写都是原子性的
能够按照关键字进行字典序排序
Bigtable 能根据行的关键字动态划分数据成相邻的 tablet（子表），并储存在不同的服务器上，从而实现负载均衡

列族 Column Family

传统的关系型数据库按照列为粒度进行权限管理，但在拥有较多列的情况下，管理难度很大，因此 Bigtable 作出了改进，使用 Column Family（列族）进行管理，具有如下特性：

列键的形式为 $(family: {\rm{qualifier}})$
用户使用前必须声明有哪些列族，声明完成后才能在对应的列族中创建对应的列
同一个列族中储存的数据通常属于同一类型
Bigtable 会对同属一个列族的数据进行合并压缩
Bigtable 允许用户以列族为单位，为其他用户设定数据访问权限

时间戳 timestamp

为了避免数据更新带来的版本冲突，Bigtable 按照时间关系给同行同列的数据赋予一个时间戳，并且：

时间戳以64位整数形式储存
时间戳可以通过客户端应用程序设置，也可以由时间的决定
默认降序排列
两种版本回收机制：
1. 保留最新的几个版本
2. 保留一定时间内的所有版本

架构

一个完整的 Bigtable 集群由两种节点组成：

Master 主服务器
Tablet Server 子表服务器

Master

主服务器不储存子表，也不提供子表的定位信息（这一点和 gfs 有所不同），主要负责：

子表服务器的分配组成、负载均衡
监控子表服务器的状态，包括加入和退出集群事件
子表服务器租约超时无回应时安排新的子表服务器替代
子表服务器中的子表过大时，重新划分并分配子表服务器
管理表（Table） 、列族的创建删除等修改操作

Tablet Server

子表服务器负责管理主服务器指定的子表（tablet），处理对应的读写请求，并在子表过大的时候进行切分

为了减小主服务器负载，数据请求不会经过主服务器而是直接到子表服务器上

并且子表服务器并不会直接储存数据，实际储存数据的其实是 gfs ，子表服务器只是进行分片管理

其他

SSTable

SSTable 是 Bigtable 内部使用的文件格式，有如下特点：

该文件提供了不变、有序的键值映射，键值都是任意字符串
SSTable 的默认块大小为64kb，这些块的索引存放在文件末尾
每个子表能够对应多个 SSTable

Chubby

Chubby 是 google 设计的锁服务，在 Bigtable 中起到非常关键的作用，以至于一旦服务失效，整个 Bigtable 都无法继续工作

Chubby 主要应用在：

子表服务器的定位
子表服务器的分配
表的权限控制等

优化

操作日志

一个还是多个日志文件

Bigtable 使用了 WAL 的做法来保证高可用性，但如果为不同的子表使用不同的日志，会出现大量日志同时写入的情况，从而使得底层硬盘的寻址时间大大增加；因此，Bigtable 使子服务器把接收到的所有子表写操作都写入到同一个 table log 中

重复读取

当一个子表服务器下线时，其负责的子表可能会被重新分配到其他的子表服务器上，当其他子表服务器在恢复 memtable 的过程中会重复读取上一个子表服务器产生的 table log ，从而消耗不必要的时间和性能

为了解决这个问题，Bigtable 进行了如下操作：

子表服务器在读取 table log 前会向主服务器发送信号，主服务器会对原 table log 进行排序操作
原 table log 会按照 64MB 的大小进行切分，每个块并发地按照 $(table, row, name, log \ sequence \ number)$ 的规则进行排序
完成排序后，子服务器只需要读取对应的部分即可

读缓存与布隆过滤器

Bigtable 使用的储存方式是 LSM 树，通过牺牲读取性能换取写操作性能的增加，因此需要通过其他方式来确保读性能

读缓存

Bigtable 的读缓存分为两层：

Block Cache：Block Cache 缓存 gfs 中读取的 SSTable 的块，用于提高客户端在读取某个数据附近的其他数据的效率
Scan Cache：Scan Cache 在 Block Cache 上，缓存 SSTable 返回给子服务器的键值对，在客户端重复读取时提高效率

布隆过滤器

Bigtable 允许用户开启布隆过滤器机制，通过消耗一定的内存保存为 SSTable 构建的布隆过滤器，以便在哭护短检索记录时快速排除无关 SSTable ，减少需要搜索的 SSTable 数

Locality Group

Bigtable 允许客户端为列族指定 Locality Group ，并以此为基础指定文件的储存格式和压缩方式

在进行 Compaction 操作时，Bigtable 给每个子表中的每个 Locality Group 生成独立的 SSTable 文件，因此可以将较少同时访问的列族放入不同的 Locality Group 中，从而提高查询效率

SSTable 压缩

Bigtable 对 SSTable 的压缩不是对整个文件进行压缩，而是针对 SSTable 中的块进行的，这使得用户在读取数据时只需要对特定的 SSTable 的块进行解压

这种压缩方式虽然提高了读操作的效率，但是会导致压缩率的下降，是一种取舍

总结

Bigtable 使用了排序大表的方式来设计数据库，使用 LSM 树将随机写操作转化为顺序写，并利用 gfs 提供数据冗余，为后续各种数据库的设计提供了思路

Chubby 的使用也证明了分布式协调组件的重要性，引导了后续相关组件的设计

上述两点是 Bigtable 对于工业界最有影响的两点，为现代工业分布式数据库的设计提供了方向与思路，阅读 Bigtable 论文能对分布式的历史与理解更加了解，受益匪浅