Docker 数据管理
在生产环境中使用 Docker, 往往需要对数据进行持久化,或者需要在多个容器之间进行数据共享,这必然涉及容器的数据管理操作。
容器中的管理数据主要有两种方式:
- 数据卷 (Data Volumes) :容器内数据直接映射到本地主机环境;
- 数据卷容器 (Data Volume Containers):使用特定容器维护数据卷。
数据是最宝贵的资源。 Docker 在设计上考虑到了这点,数据卷机制为数据管理提供了方便的操作支持。通过数据卷和数据卷容器对容器内的数据进行共享、备份和恢复等操作,即使容器在运行中出现故障,用户也不必担心数据发生丢失,只需要快速地重新创建容器即可。
在生产环境中,在使用数据卷或数据卷容器之外,定期将主机的本地数据进行备份,或者使用支持容错的存储系统,包括 RAID 或分布式文件系统,如 Ceph、GPFS、HDFS等。
另外,有些时候不希望将数据保存在宿主机或容器中,还可以使用 tmpfs 类型的数据卷,其中数据只存在于内存中,容器退出后自动删除。
- 如何在容器内创建数据卷,并且把本地的目录或文件挂载到容器内的数据卷中?
- 如何使用数据卷容器在容器和主机、容器和容器之间共享数据,并实现数据的备份和恢复?
一、数据卷
数据卷 (pata Volumes) 是一个可供容器使用的特殊目录,它将主机操作系统目录直接映射进容器,类似于 Linux 中的 mount 行为。
数据卷可以提供很多有用的特性:
- 数据卷可以在容器之间共享和重用,容器间传递数据将变得高效与方便
- 对数据卷内数据的修改会立马生效,无论是容器内操作还是本地操作
- 对数据卷的更新不会影响镜像,解耦开应用和数据
- 卷会一直存在,直到没有容器使用,可以安全地卸载它
1、创建数据卷
Docker 提供了 volume 子命令来管理数据卷,如下命令可以快速在本地创建一个数据卷:
$ docker volume create -d local test
test
此时,查看 /var/lib/docker/volumes 路径下,会发现所创建的数据卷位置:
$ ls -1 /var/lib/docker/volumes
drwxr-xr-x 3 roo root 4096 May 22 0·5: 02 test
除了 crea 子命令外, docker volume 还支持 inspect(查看详细信息)、 ls(列出已有数据卷)、 prune(清理无用数据卷)、rm(删除数据卷)等。
2、绑定数据卷
除了使用 volume 子命令来管理数据卷外,还可以在创建容器时将主机本地的任意路径挂载到容器内作为数据卷,这种形式创建的数据卷称为绑定数据卷。
在用 docker [container] run 命令的时候,可以使用 -mount 选项来使用数据卷。-mount 选项支持三种类型的数据卷,包括:
- volume:普通数据卷,映射到主机/var/lib/docker/volumes 路径下;
- bind: 绑定数据卷,映射到主机指定路径下;
- tmpfs: 临时数据卷,只存在于内存中。
下面使用 training/webapp 镜像创建一个 Web 容器,并创建一个数据卷挂载到容器的 /opt/webapp 目录:
$ docker run -d -P --name web --mount type=bind,source=/webapp,destination=/opt/webapp training/webapp python app.py
上述命令等同于使用旧的 -v 标记,可以在容器内创建一个数据卷:
$ docker run -d -P --name web -v /webapp:/opt/webapp training/webapp python app.py
这个功能在进行应用测试的时候十分方便,比如用户可以放置一些程序或数据到本地目录中实时进行更新,然后在容器内运行和使用。
另外,本地目录的路径必须是绝对路径,容器内路径可以为相对路径。如果目录不存在, Docker 会自动创建。
Docker 挂载数据卷的默认权限是读写 (rw) ,用户也可以通过 ro 指定为只读:
$ docker run -d -P --name web -v /webapp:/opt/webapp:ro training/webapp python app.py
加了: ro 之后,容器内对所挂载数据卷内的数据就无法修改了。
如果直接挂载一个文件到容器,使用文件编辑工具,包括 vi 或者 sed --in-place 的时候,可能会造成文件 inode 的改变。从 Docker 1.1.0 起,这会导致报错误信息。所以推荐的方式是直接挂载文件所在的目录到容器内。
二、数据卷容器
如果用户需要在多个容器之间共享一些持续更新的数据,最简单的方式是使用数据卷容器。数据卷容器也是一个容器,但是它的目的是专门提供数据卷给其他容器挂载。
首先,创建一个数据卷容器 dbdata, 并在其中创建一个数据卷挂载到 /dbdata:
$ docker run -it -v /dbdata --name dbdata ubuntu
root@3ed94f279b6f:/#
查看/dbda 目录:
root@3ed94f279b6f:/# ls
bin boot dbdata dev etc home lib lib64 media mnt opt proc root run sbin srv sys tmp usr var
然后,可以在其他容器中使用 --volumes:from 来挂载 dbdata 容器中的数据卷,如创建 dbl db2 两个容器,并从 dbdata 容器挂载数据卷:
$ docker run -it --volumes-from dbdata --name dbl ubuntu
$ docker run -it --volumes-from dbdata --name db2 ubuntu
此时,容器 dbl db2 都挂载同一个数据卷到相同的 /dbdata 目录,三个容器任何一方在该目录下的写入,其他容器都可以看到。
例如,在 dbdata 容器中创建一个 test 文件:
root@3ed94f279b6f:/# cd /dbdata
root@3ed94f279b6f:/dbdata# touch test
root@3ed94f279b6f:/dbdata# ls
test
dbl 容器内查看它:
$ docker run -it --volumes-from dbdata --name dbl ubuntu
root@412Bd2d804b4:/# ls
bin boot dbdata dev home lib lib64 media mnt opt proc root run sbin srv sys tmp usr var
root@4128d2d804b4:/# ls dbdata/
test
可以多次使用 --volumes-from 参数来从多个容器挂载多个数据卷,还可以从其他已经挂载了容器卷的容器来挂载数据卷:
$ docker run -d --name db3 --volumes-from dbl training/postgres
使用 --volumes-from 参数所挂载数据卷的容器自身并不需要保持在运行状态。
如果删除了挂载的容器(包括 dbdata、dbl、db2) ,数据卷并不会被自动删除。如果要删除一个数据卷,必须在删除最后一个还挂载着它的容器时显式使用 docker rm -v 令来指定同时删除关联的容器。使用数据卷容器可以让用户在容器之间自由地升级和移动数据卷。
三、利用数据卷容器来迁移数据
可以利用数据卷容器对其中的数据卷进行备份、恢复,以实现数据的迁移。
1、备份
使用下面的命令来备份 dbdata 数据卷容器内的数据卷:
$ docker run --volumes-from dbdata -v $(pwd):/backup --name worker ubuntu tar cvf /backup/backup.tar /dbdata
这个命令稍微有点复杂,具体分析下。
首先利用 ubuntu 镜像创建了一个容器 worker 。使用 --voiumes-from dbdata 参数来让 worker 容器挂载 dbdata 容器的数据卷(即 dbdata 数据卷);使用 -v $(pwd):/backup 参数来挂载本地的当前目录到 worker 容器的 /backup 目录。
worker 容器启动后,使用 tar cvf /backup/backup.tar /dbdata 命令将 /dbdata 下内容备份为容器内的 /backup/backup.tar, 即宿主主机当前目录下的 backup.tar
2、恢复
如果要恢复数据到一个容器,可以按照下面的操作。
首先创建一个带有数据卷的容器 dbdata2:
$ docker run -v /dbdata --name dbdata2 ubuntu /bin/bash
然后创建另一个新的容器,挂载 dbdata2 的容器,并使用 untar 解压备份文件到所挂载的容器卷中:
$ docker run --volumes-from dbdata2 -v $(pwd):/backup busybox tar xvf /backup/backup.tar