Mongodump 工作原理(代码解读)

MongoDB 在3.0 用Go 语言重写了所有的工具集。下面是对一个最常用的mongodump 备份工具做一些介绍。主要注意的地方:

  • mongodump可以使用多线程来进行并发dump
  • 单个集合还是只能单线程
  • 使用oplog选项可以实现Point In Time备份

源码地址: https://github.com/mongodb/mongo-tools/tree/master/mongodump

1. 主要类

  • main/mongodump.go 入口文件
  • mongodump.go 主要工作文件
  • oplog_dump.go Oplog 的dump实现

2. main/mongodump.go

  • 初始化并校验参数
  • 初始化logger
  • 创建 MongoDump实例并调用Dump() 方法 (下面3.1)

3. mongodump.go

3.1 Dump()

  1. 再次校验参数
  2. 检查是否需要dump 用户数据(默认为否)
  3. 检查是否有Archive标记
  4. 创建dump intents(dump 任务,以集合为单位)

    a. 所有库的所有集合

    b. 指定库的所有集合

    c. 某个集合

  5. 创建 system indexes 任务: DumpSystemIndexes()

  6. 创建oplog 任务: CreateOplogIntents()
  7. 执行dump user 和 roles: DumpUsersAndRoles()
  8. 记录当前oplog timestamp,如果指定了 oplog选项的话
  9. 执行 DumpIntents()

    9.1 根据 min(parallelCollection, 集合数) 决定job线程数

    9.2并发job个线程来执行DumpIntent(). 见下面3.2

  10. dump oplog, 从第7步记录的时间点开始 DumpOplogAfterTimestamp() – 见下面4.1

  11. 检查oplog没有overflow(如果有overflow就报错推出)

3.2 DumpIntent()

一个DumpIntent方法调用执行一个集合的dump。同一个集合只有一个线程执行:

  1. 创建一个mgo 客户端session (这里使用mgo客户端驱动,所以必须要有mongod实例在运行才可以,之前直接dump 数据库文件的方式不再支持)
  2. 取决于 query 参数的设置,决定文档扫描方式(query方式):
    a. 如果指定了query,那么执行一个普通的Find 语句来读取数据

    b. 如果制定了TableScan选项,那么使用非snapshot方式: Find()。

    c. 默认是使用snapshot方式: Find( ).snapshot() 。

  3. 执行 dumpQueryToWriter() – 下面3.3
    这里一些关于第二步扫描方式的进一步讨论:

Mongodump默认方式是使用snapshot,其实就是会通过扫描_id 索引,然后再读取实际的文档。这个性能会较之于TableScan选项会低一点,因为TableScan直接就按mongodb的物理存储顺序进行扫描,没有一个读index的过程。 但是TableScan的潜在问题是,如果一个文档在dump的过程中被移动(物理上),有可能会在最终输出中出现两次,因为是按物理顺序读取的。

3.3 dumpQueryToWriter()

  1. 执行 query
  2. 遍历query的游标,读一个,写一个到输出流

4. oplog_dump.go

4.1 DumpOplogAfterTimestamp()

  1. 在local库的oplog.rs上面执行 Find({ ts: {$gt: TIME_STAMP }})
  2. 调用 dumpQueryToWriter 把 oplog 的文档写到输出流

注意这里的TIME_STAMP 就是 步骤3.1.7 里记录的时间点,也即是包含了从Mongodump正式开始前到这个oplog查询结束位置所有的oplog记录。

发表评论