Мониторинг Docker-контейнеров в 2026: от docker stats до продакшен-систем с Prometheus, Grafana и Loki

Эффективное наблюдение за контейнеризованными приложениями требует перехода от простых команд к промышленным системам. Встроенные инструменты Docker, такие как docker stats и docker logs, дают моментальную картину, но не решают задачи анализа в распределённой среде. Для продакшена нужны системы, которые собирают метрики и логи централизовано, хранят историю и позволяют строить дашборды. Эта статья содержит готовые инструкции по построению такого цикла: от развёртывания Prometheus и cAdvisor для метрик до настройки Loki или ELK-стека для логов и интеграции всего в Grafana.

Почему docker stats и docker logs недостаточно для продакшена

Команды docker stats и docker logs - это первый инструмент для диагностики. Они показывают текущее состояние контейнера на одной ноде. Однако в производственной среде с множеством сервисов и хостов эти команды становятся неэффективными.

Ограничения docker stats: метрики в реальном времени без истории

Команда docker stats выводит данные о потреблении CPU, памяти, сети и диска в реальном времени. Например, вывод для контейнера web-app выглядит так:

CONTAINER ID   NAME       CPU %   MEM USAGE / LIMIT   MEM %   NET I/O       BLOCK I/O   PIDS
abcd1234       web-app    1.50%   150MiB / 512MiB     29.3%   1.2kB / 3kB   0B / 0B     5

Эта информация полезна для моментальной оценки, но у команды есть три ключевых недостатка. Она не хранит историю данных, что исключает анализ трендов. Нельзя понять, как потребление памяти менялось за последнюю неделю или определить периодические всплески CPU. Команда работает только на текущем хосте, что делает невозможным мониторинг распределённой инфраструктуры. Для построения графиков и алертов требуется система, которая собирает метрики с всех узлов и сохраняет их.

Сложности анализа логов с помощью docker logs в распределённой среде

Команда docker logs позволяет просматривать вывод контейнера. С фильтрацией по времени или по уровню ошибок работа становится сложнее:

docker logs web-app --since 2026-05-24T10:00:00 --until 2026-05-24T11:00:00 | grep -i error

В среде с несколькими микросервисами проблема усугубляется. Ошибка в одном сервисе часто проявляется в логах другого. При аварии необходимо быстро собрать логи с всех связанных контейнеров, что требует ручного выполнения множества команд на разных хостах. Централизованная система логирования решает эту проблему, предоставляя единое хранилище с полнотекстовым поиском и возможностью корреляции событий.

Для базового управления контейнеров, включая просмотр логов, используйте команды из нашей полной шпаргалки по командам Docker.

Централизованный сбор логов: выбираем между Loki и ELK-стеком

Для промышленного логирования нужна система, которая агрегирует данные с всех источников. Основные варианты - Grafana Loki и ELK-стек (Elasticsearch, Logstash, Kibana). Выбор зависит от требований к сложности, ресурсам и функциональности.

Критерий	Grafana Loki	ELK-стек
Сложность развёртывания	Низкая. Работает как единый сервис.	Высокая. Требует настройки трёх компонентов.
Потребление ресурсов (ОЗУ/CPU)	Оптимизировано, особенно для Kubernetes.	Высокое, особенно для Elasticsearch.
Скорость поиска	Высокая для поиска по меткам (labels).	Высокая для полнотекстового поиска.
Стоимость владения	Низкая при использовании в Grafana.	Высокая для больших кластеров.
Основное применение	Kubernetes, среды где важна простота.	Сложная обработка, парсинг, аналитика.

Loki рекомендуется для Kubernetes и проектов, где нужна быстрая интеграция с Grafana. ELK-стек выбирают для глубокого анализа логов, когда уже есть экспертиза по Elasticsearch или требуется мощный парсинг через Logstash.

Быстрый старт с Loki: минимальная конфигурация для Docker

Для развёртывания Loki и Grafana используйте Docker Compose. Создайте файл docker-compose.yml:

version: '3.8'
services:
  loki:
    image: grafana/loki:latest
    command: -config.file=/etc/loki/local-config.yaml
    ports:
      - "3100:3100"
  grafana:
    image: grafana/grafana:latest
    environment:
      - GF_SECURITY_ADMIN_PASSWORD=admin
    ports:
      - "3000:3000"
    volumes:
      - grafana-data:/var/lib/grafana
volumes:
  grafana-data:

Запустите сервисы командой docker-compose up -d. Затем настроите драйвер журналирования Docker для отправки логов в Loki. Для этого добавьте параметр --log-driver=loki при запуске контейнера или укажите его в конфигурации Docker Compose для вашего приложения:

services:
  your-app:
    image: your-app:latest
    logging:
      driver: loki
      options:
        loki-url: "http://localhost:3100/loki/api/v1/push"

Проверить отправку логов можно через интерфейс Grafana, добавив Loki как источник данных в разделе Configuration > Data Sources. Типичная проблема - ошибки парсинга формата логов из приложения. Убедитесь, что ваш контейнер выводит логи в текстовом формате, совместимом с Loki.

Мощь ELK-стека: когда нужна глубокая обработка и анализ

ELK-стек состоит из Elasticsearch (хранилище и поиск), Logstash (обработка и парсинг) и Kibana (визуализация). Для тестового развёртывания в контейнерах можно использовать официальные образы. Роль Logstash критична: он преобразует, фильтрует и обогащает логи перед отправкой в Elasticsearch.

На Docker-хосте установите Filebeat как агент для сбора логов. Его конфигурация указывает путь к логам контейнеров и адрес Logstash или Elasticsearch. В Kibana затем создаются индексы и дашборды для поиска и анализа. Elasticsearch требует значительных ресурсов ОЗУ, поэтому для production оцените требования к кластеру заранее.

Подробное сравнение современных систем логирования, включая ресурсные затраты, есть в нашей статье «Системы сбора и анализа логов в 2026».

Мониторинг метрик производительности: Prometheus как стандарт

Prometheus - это система мониторинга и алертинга, работающая по pull-модели: она периодически опрашивает (scrape) целевые endpoints для получения метрик. Для мониторинга Docker-контейнеров используется cAdvisor, который собирает данные о ресурсах каждого контейнера и предоставляет их Prometheus.

Развёртывание Prometheus и cAdvisor за 5 минут

Создайте файл docker-compose.yml для быстрого запуска:

version: '3.8'
services:
  prometheus:
    image: prom/prometheus:latest
    volumes:
      - ./prometheus.yml:/etc/prometheus/prometheus.yml
    ports:
      - "9090:9090"
  cadvisor:
    image: gcr.io/cadvisor/cadvisor:latest
    ports:
      - "8080:8080"
    volumes:
      - /:/rootfs:ro
      - /var/run:/var/run:rw
      - /sys:/sys:ro
      - /var/lib/docker/:/var/lib/docker:ro

Конфигурационный файл prometheus.yml должен содержать job для cAdvisor:

global:
  scrape_interval: 15s

scrape_configs:
  - job_name: 'cadvisor'
    static_configs:
      - targets: ['cadvisor:8080']

Запустите систему командой docker-compose up -d. Проверьте доступность интерфейсов: Prometheus на порту 9090, cAdvisor на порту 8080. В Prometheus UI (http://localhost:9090) выполните поиск метрик, например, container_cpu_usage_seconds_total, чтобы убедиться в работе.

Ключевые метрики, которые собирает cAdvisor, включают использование CPU, памяти, сетевой трафик и состояние файловой системы. Настройка scrape_interval определяет частоту опроса, а retention политики в Prometheus управляют сроком хранения данных.

Создание своего экспортера метрик для Python-приложения

Когда стандартных метрик недостаточно, необходимо инструментировать приложение. Для Python используйте библиотеку prometheus_client. Пример простого Flask-приложения с экспортом кастомных метрик:

from flask import Flask
from prometheus_client import Counter, Gauge, generate_latest

app = Flask(__name__)

REQUEST_COUNT = Counter('app_request_count', 'Total number of requests')
REQUEST_LATENCY = Gauge('app_request_latency_seconds', 'Request latency in seconds')

@app.route('/')
def hello():
    REQUEST_COUNT.inc()
    # Пример измерения latency
    REQUEST_LATENCY.set(0.15)
    return "Hello, World!"

@app.route('/metrics')
def metrics():
    return generate_latest()

Этот код создаёт две метрики: счетчик запросов и gauge для latency. Endpoint /metrics предоставляет данные в формате Prometheus. Добавьте job в prometheus.yml для scrape этого endpoint:

scrape_configs:
  - job_name: 'python-app'
    static_configs:
      - targets: ['python-app:5000']

Проверьте корректность сбора метрик в UI Prometheus перед интеграцией в Grafana. Это минимизирует риски некорректной визуализации.

Для оценки эффективности инфраструктуры после внедрения мониторинга обратитесь к нашему руководству по ключевым инженерным метрикам.

Визуализация всего в Grafana: единый дашборд для логов и метрик

Grafana объединяет данные из разных источников в информативные дашборды. После настройки Prometheus и Loki необходимо добавить их как источники данных и создать панели для визуализации.

Настройка источников данных и создание первых графиков

В интерфейсе Grafana перейдите в Configuration > Data Sources. Добавьте новый источник типа Prometheus, указав URL http://prometheus:9090. Для Loki указажите URL http://loki:3100. После сохранения можно создавать дашборды.

Для создания простого графика использования CPU контейнеров добавьте новую панель на дашборд. Выберите источник данных Prometheus и в запросе используйте метрику container_cpu_usage_seconds_total. Добавьте фильтры по меткам, например, container_label_com_docker_compose_service="web-app" для конкретного сервиса. Экспорт готовой панели как JSON позволяет повторно использовать её в других проектах.

Интеграция логов и метрик на одном дашборде для быстрой диагностики

Корреляция логов и метрик на одном дашборде значительно упрощает диагностику. Пример дашборда может содержать два ряда: верхний ряд - график latency приложения (метрика из Prometheus), нижний ряд - лог-поток из Loki с фильтром по уровню ERROR. При всплеске ошибок в логах можно сразу оценить влияние на производительность по графику latency.

Используйте переменные (variables) в Grafana для динамического переключения между сервисами или хостами. Организуйте панели логически: метрики здоровья системы (CPU, память, сеть) в верхней части, детальные метрики приложений ниже, а поток логов в отдельной секции. Это создаёт целостную картину состояния инфраструктуры.

Для высоконагруженных систем готовые шаблоны алертов и дашбордов можно найти в статье «Наблюдаемость для высоконагруженных систем в 2026».

Переход к продакшен-конфигурации: безопасность, надёжность, масштабирование

Тестовый стенд необходимо адаптировать для production. Ключевые шаги включают обеспечение безопасности, надёжности данных и планирование масштабирования.

Настройте аутентификацию и авторизацию в Grafana и Prometheus. Используйте роли и ограничение доступа к данным. Для сохранения данных конфигурируйте persistent volumes для Grafana, Prometheus и Loki, чтобы информация не терялась при рестарте контейнеров. Организуйте регулярное резервное копирование этих volumes.

Алертинг интегрируйте с системами коммуникации, например, через webhook в Telegram или Slack. Для масштабирования Loki рассмотрите шардирование для распределения нагрузки. Prometheus можно масштабировать через федерацию или переход к кластерным решениям, таких как Thanos или Cortex.

Перед выкаткой проверьте систему по чек-листу: все источники данных доступны, метрики и логи собираются, дашборды отображают актуальную информацию, алерты настроены на критичные события, резервное копирование работает.

Полный процесс подготовки Docker-среды к production, включая безопасный деплой и управление секретами, рассмотрен в отдельном гайде по переходу в продакшен.

Для автоматизации работы с ИИ-моделями в рамках ваших проектов рассмотрите сервис AiTunnel. Он предоставляет единый API для более 200 моделей, включая GPT, Gemini и Claude, с оплатой в рублях и без необходимости VPN.