Тонкая настройка балансировки нагрузкиТехнологии отказоустойчивости и катастрофоустойчивости

Доклад принят в программу конференции

okmeter.io

Сооснователь okmeter.io.

Тезисы

Практически любой инженер знает, как организовать балансировку нагрузки. Мы знаем, что есть балансировка на разных уровнях (от ethernet до протоколов уровня приложения), разные алгоритмы распределения нагрузки и различные способы работать с отказами.

Я расскажу о не очень популярных (пока) аспектах балансировки нагрузки:
- политика повторных попыток (retries);
- таймауты: connect/read/write/request timeout, tcp keep-alive* (чем они отличаются, как выбрать конкретные значения для своего сервиса);
- backoff, circuit breaker: как не убить нижележащие серверы в момент аварии/перегрузки;
- health checks: нужны ли они, достаточно ли их, что сервис должен проверять, прежде чем отдать HTTP-200;
- outlier detection в балансировке: способ работать при более сложных (плавающих) поломках нижележащих серверов.

В плане технологий: сначала мы мельком рассмотрим nginx, haproxy (а так же haproxy за nginx:), потом расскажу про наш опыт работы с envoy и балансировке внутри приложения (будет немного примеров на golang).

Другие доклады секции Технологии отказоустойчивости и катастрофоустойчивости

Cassandra: разделение и обновление без даунтайма

Никита Маслянников

ЦИАН

Надежность World of Tanks Server. Как мы это делаем

Левон Авакян

Wargaming