Программно-определяемое хранилище (SDS): практическое руководство по построению кластеров на Ceph и GlusterFS

Программно-определяемое хранилище (SDS) – это подход, который отделяет логику управления данными от физического оборудования. Он позволяет создавать масштабируемые, гибкие и экономичные системы хранения на стандартном серверном железе. В условиях роста гибридных инфраструктур и повсеместного внедрения контейнерных сред, таких как Kubernetes, SDS становится критическим компонентом для DevOps-инженеров и системных администраторов.

Это руководство дает практические инструкции по построению отказоустойчивых кластеров на двух популярных open-source решениях: Ceph и GlusterFS. Вы получите готовые схемы развертывания, настройки механизмов надежности и производительности, а также систему мониторинга для управления критичными рабочими нагрузками.

Что такое SDS и зачем он нужен в современной инфраструктуре

SDS представляет данные как пул ресурсов, которым можно управлять программно через API. Ключевые преимущества: горизонтальная масштабируемость (добавлением узлов), гибкость в выборе политик хранения (репликация, tiering) и снижение стоимости за счет отказа от дорогих проприетарных систем. В контексте современных задач, таких как поддержка гибридных инфраструктур (о чем свидетельствует, например, технологическое партнерство Nexign и «Флант»), оркестрация контейнеров в Kubernetes и хранение данных для виртуальных машин и stateful-приложений, SDS становится незаменимым инструментом.

От абстракции к практике: как SDS решает проблемы традиционных систем хранения

Традиционные SAN/NAS создают «разрыв» между вычислительными ресурсами и хранилищем, сложны в масштабировании и часто ведут к vendor lock-in. SDS решает эти проблемы. Например, добавление нового узла хранения в кластер Ceph или GlusterFS выполняется несколькими командами и не требует остановки сервисов. Политики репликации, распределения данных по типам носителей (SSD/HDD) настраиваются программно для каждого пула или тома.

Ceph и GlusterFS: два флагмана в мире open-source SDS

Ceph – это универсальная распределенная система, предоставляющая интерфейсы блочного (RBD), объектного (RGW) и файлового (CephFS) хранения. Его архитектура основана на алгоритме CRUSH для детерминированного размещения данных. GlusterFS – это масштабируемая сетевая файловая система, использующая распределенную хэш-таблицу (DHT). Оба проекта активно развиваются и интегрируются с экосистемами OpenStack и Kubernetes (через Rook для Ceph и CSI-драйверы для GlusterFS).

Ceph vs GlusterFS: детальное сравнение для осознанного выбора

Выбор технологии зависит от конкретных задач. Ceph подходит для создания универсального блочного или объектного хранилища в гетерогенных средах. GlusterFS оптимален для организации простого, но масштабируемого файлового хранилища, например, для домашних директорий или архивов больших файлов.

Критерий	Ceph	GlusterFS
Основные интерфейсы	Блочный (RBD), объектный (RGW), файловый (CephFS)	Файловый (NFS, SMB, FUSE)
Архитектура размещения данных	Алгоритм CRUSH	Распределенная хэш-таблица (DHT)
Модель метаданных	Децентрализованная (хранятся вместе с данными в OSD)	Отсутствует центральный сервер метаданных
Сложность администрирования	Высокая, требует понимания PG, пулов, CRUSH-правил	Относительно низкая, простая модель «томов» и «bricks»
Интеграция с Kubernetes	Через Rook-Ceph (оператор)	Через CSI-драйвер

Архитектурные различия: от CRUSH до распределенной хэш-таблицы

Архитектура Ceph включает мониторы (MON), менеджеры (MGR) и OSD-демоны. Алгоритм CRUSH вычисляет, на какие OSD записать или с каких прочитать данные, минимизируя обращения к центральным компонентам. В GlusterFS серверы объединяются в trusted storage pool, данные разбиваются на «bricks». Файлы распределяются по bricks с помощью DHT, что позволяет балансировать нагрузку и обеспечивать отказоустойчивость через репликацию томов.

Итоговые рекомендации: что выбрать для вашего кейса?

Выбирайте Ceph, если вам нужна универсальная платформа для блочного хранения виртуальных машин (OpenStack, Proxmox), объектного хранилища или высокопроизводительного файлового кластера с богатыми возможностями настройки. GlusterFS лучше подойдет для задач, где требуется простое горизонтально масштабируемое файловое хранилище, например, для резервных копий, медиаконтента или общих рабочих директорий. Учтите, что Ceph требует больше ресурсов (CPU, RAM) для работы и сложнее в начальной настройке.

Пошаговое развертывание отказоустойчивого кластера Ceph

Рассмотрим развертывание кластера Ceph Quincy (17.x) на трех физических серверах с помощью cephadm. Требования: CentOS Stream 8/Rocky Linux 8, отдельная сеть для кластерного трафика, отключенный SELinux (для тестовой среды), настроенный NTP.

1. Подготовка узлов. На всех узлах добавляем записи в /etc/hosts и настраиваем SSH-ключи для root.

# На узле-администраторе (node1)
ssh-copy-id root@node2
ssh-copy-id root@node3

2. Bootstrap кластера. На первом узле запускаем инициализацию.

cephadm bootstrap --mon-ip 192.168.1.10

3. Добавление хостов и OSD. Из поднятого кластера добавляем остальные узлы и диски.

ceph orch host add node2 192.168.1.11
ceph orch host add node3 192.168.1.12
ceph orch daemon add osd node1:/dev/sdb
ceph orch daemon add osd node2:/dev/sdb
ceph orch daemon add osd node3:/dev/sdb

4. Создание пула с репликацией. Создаем пул для блок-устройств с размером реплики 3.

ceph osd pool create rbd_pool 128 128
ceph osd pool set rbd_pool size 3
ceph osd pool application enable rbd_pool rbd

Проверяем здоровье кластера: ceph status должен показать состояние HEALTH_OK.

Настройка механизмов надежности: кворум, репликация и самовосстановление

Кворум мониторов (MON) обеспечивает консистентность кластера. При использовании трех мониторов для отказоустойчивости достаточно работы двух. Репликация данных настраивается параметром size пула (общее число копий) и min_size (минимальное число копий для записи). При выходе OSD из строя Ceph автоматически запускает процесс восстановления (recovery) и обратного заполнения (backfilling), перемещая данные на другие OSD в рамках пула. Для управления этими процессами можно использовать команды ceph osd set nobackfill или ceph osd set norecover.

Интеграция с Kubernetes: предоставление хранилища через Rook-Ceph

Rook – это оператор для Kubernetes, который автоматизирует развертывание и управление Ceph. Для интеграции необходимо развернуть Rook-Ceph в существующем Kubernetes-кластере.

1. Установка Rook Operator через Helm или манифесты.

2. Создание кластера Ceph с помощью Custom Resource CephCluster.

3. Создание StorageClass, который будет динамически создавать RBD-образы в пуле Ceph. После этого Pod'ы могут запрашивать хранилище через PersistentVolumeClaim. Этот подход идеально подходит для stateful-приложений в Kubernetes, о чем подробно рассказывается в нашем руководстве по оркестрации хранилища в Kubernetes.

Пошаговое развертывание высокодоступного кластера GlusterFS

Развернем отказоустойчивый кластер GlusterFS 10 на трех узлах с реплицированным томом. Требования: диски, отформатированные в XFS, открытые порты 24007-24008, 49152-49251.

1. Установка пакетов на всех узлах (на примере Rocky Linux 8).

dnf install glusterfs-server -y
systemctl enable --now glusterd

2. Формирование trusted storage pool.

# С node2 и node3
gluster peer probe node1
gluster peer probe node2

3. Подготовка каталогов bricks.

mkdir -p /glusterfs/brick1/gv0

4. Создание реплицированного тома.

gluster volume create gv0 replica 3 node1:/glusterfs/brick1/gv0 node2:/glusterfs/brick1/gv0 node3:/glusterfs/brick1/gv0
gluster volume start gv0

5. Монтирование тома на клиенте.

mount -t glusterfs node1:/gv0 /mnt/gv0

Обеспечение отказоустойчивости: гео-репликация и мониторинг самоисцеления

Репликация внутри тома (replica 3) защищает от выхода одного узла. Для асинхронного копирования между дата-центрами используется гео-репликация. После восстановления вышедшего из строя узла GlusterFS запускает процесс «исцеления» (heal) для синхронизации данных. Его прогресс можно проверить командой gluster volume heal gv0 info. Добавление нового brick в том выполняется командой gluster volume add-brick с последующей ребалансировкой.

Настройка производительности и балансировки нагрузки в GlusterFS

Производительность зависит от размера блока (chunk size). Для больших файлов (видео, образы) лучше использовать больший chunk (1M), для множества мелких файлов – меньший (128K). Кэширование на клиентской стороне настраивается опциями монтирования performance.cache-size и performance.write-behind. Для балансировки чтения между репликами на клиенте используется опция backup-volfile-servers. Диагностировать узкие места помогает утилита gluster top.

Мониторинг, алертинг и управление производительностью SDS-кластера

Для мониторинга кластеров Ceph и GlusterFS рекомендуется использовать стек Prometheus и Grafana. Это обеспечивает раннее выявление проблем и контроль за производительностью.

Готовые дашборды Grafana для Ceph и GlusterFS

Для Ceph встроенный модуль mgr prometheus (ceph mgr module enable prometheus) экспортирует метрики. Готовый дашборд можно импортировать в Grafana по ID 2842 (официальный дашборд от Ceph). Для GlusterFS используется экспортер gluster-prometheus, метрики которого также визуализируются через готовые дашборды сообщества. На дашбордах отслеживают ключевые метрики: использование OSD/brick, операций в секунду (IOPS), latency чтения/записи, состояние репликации и восстановления.

Типовые проблемы и их решение: шпаргалка для админа

Ceph: Зависшие Placement Groups (PG) в состоянии stale или inactive. Решение: проверить сеть и состояние OSD (ceph osd tree), перезапустить проблемные OSD. Заполнение кластера выше 85%. Решение: добавить OSD или настроить автоматическое удаление старых данных через RGW lifecycle policies.
GlusterFS: Медленное «исцеление» тома. Решение: увеличить параметры client.event-threads и server.event-threads в настройках тома. Высокая нагрузка на CPU из-за DHT. Решение: для workload'а с множеством мелких файлов рассмотреть использование дистрибутивного реплицированного тома (distributed-replicate) с меньшим количеством bricks в подтоме.

Эффективное управление инфраструктурой, включая хранилище, часто требует подхода «инфраструктура как код». Методы и инструменты для этого, применимые и к SDS-кластерам, подробно разобраны в статье о IaC для Kubernetes.

Заключение и дальнейшие шаги

Ceph и GlusterFS – мощные инструменты для построения отказоустойчивых распределенных хранилищ. Ceph предлагает универсальность интерфейсов и глубокую интеграцию с облачными платформами, в то время как GlusterFS выделяется простотой администрирования для файловых workload'ов. Представленные в руководстве инструкции проверены на практике и готовы к использованию.

Для углубленного изучения обратитесь к официальной документации проектов: docs.ceph.com и docs.gluster.org. Рекомендуем также изучить связанные темы в нашей базе знаний: управление постоянными данными в Docker Swarm и Kubernetes и принципы работы архитектуры ZFS для понимания основ распределения данных. Для автоматизации рабочих процессов с использованием ИИ можно рассмотреть сервис AiTunnel, агрегирующий API различных нейросетевых моделей.