Мониторинг и KubernetesЛогирование и мониторинг

Доклад принят в программу конференции

Флант

Сооснователь компании «Флант» и соавтор продуктов Deckhouse. Уже 20 лет с Linux и больше 16 — в эксплуатации highload-проектов. Понимает Docker, Kubernetes и отлично ориентируется в облачных платформах. Придумал werf, okmeter, pam_docker, nginx-http-rdns, loghouse и grafana-statusmap. Программирует на C, С++, PHP, Python и Bash. Читает на Go. Любит людей, но так и не научился их готовить.

Тезисы

Зал «Конгресс-Холл»

28 мая, 14:00

С переходом на Kubernetes появляется возможность очень быстро и просто создавать новые сервисы, поэтому их количество начинает расти «как на дрожжах». Вместе с ними увеличивается и число окружений, из-за чего даже в небольшом проекте с десятком сервисов мы очень быстро оказываемся в ситуации, что в кластере уже 50 namespace’ов и 500 pod’ов. Что все они делают? Как понять, что все работает хорошо?

Я поделюсь обширным опытом настройки мониторинга, полученным в результате эксплуатации 21 проекта на Kubernetes (в production), в состав которых входят более 200 различных приложений, написанных на 8 языках программирования.

В частности, в докладе будут даны ответы на следующие вопросы:
* Что именно в Kubernetes нужно мониторить (кроме состояния pod’ов и результатов выполнения job’ов)?
* Какие компоненты самого Kubernetes стоит мониторить и на что стоит обращать внимание?
* Какова специфика мониторинга Ingress Nginx?
* Как мониторить инфраструктурные компоненты (Redis, RabbitMQ, MongoDB и т.п.)?
* Почему мы используем именно Prometheus, и какие вопросы он решает?
* Как правильно интегрировать Prometheus с Kubernetes (и сделать Service Discovery всех метрик)?
* Как сделать удобные дашборды в Grafana?
* Как отделить разные окружения, чтобы получать только нужные алерты?
* Как видеть тренды на больших периодах и оптимизировать затраты на инфраструктуру мониторинга?

Логирование и мониторинг

Другие доклады секции Логирование и мониторинг

Мониторинг безопасности сайтов: как обнаружить скрытый вредоносный код на сайтах автоматизированными средствами и вручную

Григорий Земсков

Ревизиум

Как измерить успех? Стратегии мониторинга и их связь с бизнес-проблемами

Leon Fayer

OmniTI

Долгосрочное хранение метрик Prometheus’а

Алексей Палажченко

Percona