Служба технической поддержки: 24/7
Отдел продаж: пн-пт с 9:00 до 18:00
8-495-230-50-54 sales@ininsys.ru Max Telegram
Cистемное администрирование юридических лиц Для администратора формулировка “сервер работает на пределе” означает не просто высокий процент загрузки ресурсов, а состояние, при котором система теряет запас по производительности, растёт latency, ухудшается предсказуемость отклика и любое дополнительное воздействие — всплеск трафика, backup, compaction, пересборка индексов, cron-задачи — может вызвать деградацию сервиса или отказ.

Ключевой момент: сервер редко “упирается” равномерно во всё сразу. Почти всегда есть конкретное узкое место:
Ниже — технические признаки, на которые стоит смотреть в первую очередь.
%usage, но и run queue, steal, iowaitВысокая загрузка CPU сама по себе ещё не означает аварию. Для sysadmin важнее контекст:
user, system, iowait, steal;load average в сравнении с количеством vCPU;%idle, %user, %system, %iowait, %steal;load average стабильно выше числа доступных vCPU;%idle в течение длительного времени;%steal на виртуальной машине;%iowait, когда кажется, что “процессор загружен”, но реально система ждёт диск;top, htopmpstat -P ALL 1vmstat 1sar -u 1 10pidstat -u -t 1perf topperf statdmesg, journalctlЕсли у вас 8 vCPU и load average держится на уровне 12–20, при этом растёт latency приложений и время выполнения задач — сервер уже в зоне риска.
Если на VM %steal регулярно выше 5–10%, проблема может быть не в вашем приложении, а в noisy neighbor или дефиците CPU на хосте.
На Linux “свободная память” как метрика сама по себе малоинформативна. Ядро использует память под page cache и slab, и это нормально. Критично другое:
MemAvailable, а не только MemFree;/proc/pressure/memory);kswapd, direct reclaim).si/so в vmstat;kswapd активно работает даже на обычной нагрузке;free -hvmstat 1sar -r 1 10cat /proc/meminfoslabtopsmemps aux --sort=-%memdmesg | grep -i oomjournalctl -kcat /proc/pressure/memoryЕсли память “почти заполнена”, но swap не используется, reclaim спокоен, latency не растёт — это может быть нормой.
Если даже небольшой всплеск нагрузки вызывает direct reclaim, swap I/O и рост времени отклика — сервер уже работает без запаса.
Один из самых частых сценариев деградации — диск становится узким местом, а внешне это выглядит как “тормозит всё”.
await, svctm, %util;await даже при умеренном потоке операций;%util устройства близок к 100% длительное время;/var, /tmp.iostat -xz 1iotoppidstat -d 1df -hdf -ilsblksmartctlnvme smart-logdmesgfio для controlled testing вне production peak%util=100% не всегда значит катастрофу, особенно на быстрых NVMe. Гораздо важнее фактическая latency.
Если await вырос с 2–5 ms до 30–100+ ms на рабочей нагрузке, приложение и БД почти наверняка уже чувствуют предел.
Проблема сети часто недооценивается. Сервис может выглядеть “живым”, но пользователи видят высокое время ответа из-за потерь, ретрансмитов, переполнения буферов или saturation канала.
retransmits;TIME_WAIT, SYN_RECV, CLOSE_WAIT;ss -sss -lntnetstat -ssar -n DEV 1sar -n TCP,ETCP 1ip -s linkethtool -S <iface>conntrack -Stcpdumpmtr, pingЕсли приложение “случайно” начинает отвечать медленно, а CPU и диск в норме, проверьте retransmits, backlog и состояние сокетов.
Для high-concurrency сервисов проблема часто не в сырой пропускной способности, а в очередях соединений и лимитах ядра.
load average — это не “процент загрузки CPU”. Это среднее число задач в runnable и uninterruptible state. Поэтому высокий load может означать:
Высокий load при высоком %iowait — чаще про диск или сеть хранения, чем про CPU.
Высокий load при нормальном %idle и большом числе задач в D state — это почти всегда сигнал смотреть в сторону I/O.
Сервер может выглядеть “вроде бы живым”, но деградировать из-за конкуренции процессов.
D state;ps -eo pid,ppid,cmd,%mem,%cpu,state --sort=-%cpupidstat -w 1vmstat 1cat /sys/fs/cgroup/...numastattasksetchrtperf schedcpu.cfs_quota_us;D;Иногда сервер “на пределе” не по железу, а по лимитам.
ulimit -n / open files;ulimit -u / max user processes;fs.file-max;somaxconn;tcp_max_syn_backlog;nf_conntrack_max;pid_max;Too many open files;ulimit -asysctl -acat /proc/sys/fs/file-nrlsof | wc -lsystemctl show <unit>cat /proc/<pid>/limitsДаже если CPU/RAM/диск выглядят приемлемо, сервис может уже быть на пределе на уровне приложения.
CPU сервера 45–55%, памяти достаточно, но:
Формально “железо ещё не на 100%”, а practically production уже на пределе.
На VM и в облаке важно отделять проблему гостевой ОС от проблемы платформы.
%steal;Иногда сервер “упирается” не в нагрузку, а в деградацию железа или драйверов.
dmesg -Tjournalctl -k -p warningsmartctl -amdadm --detailipmitool sel listТехнически сервер стоит считать работающим на пределе, если выполняются один или несколько пунктов:
Предлагаем серверное обслуживание под ключ.
Передача IT на аутсорсинг редко проваливается из-за самой идеи. Чаще проблемы начинаются из-за плохо определённых […]

IT-инфраструктура редко ломается “в один день”. Намного чаще проблемы накапливаются постепенно: серверы перегружены, резервные копии […]

В современном динамичном мире технологий, для любого предпринимателя жизненно важно быть в курсе последних IT-трендов. […]
Оставьте свои данные, наш менеджер
свяжется с вами в ближайшее время

