Общее потребление дискового пространства (нарастающий итог)

Давайте вернемся к данным дневного потребления дискового пространства, собранным ранее, и применим их для прогнозирования будущих потребностей. Определяющая метрика уже известна: общее доступное дисковое пространство. Графическое представление дает нам представление, наиболее подходящее для прогнозирования будущих потребностей Из рисунка видно, как изменяется потребление со временем и когда возникнет нехватка дискового пространства.

Добавим ограничение: общий объем доступного дискового пространства. Будем считать, что доступно 20 Тбайт (20 480 Гбайт) дискового пространства. Из графика видно, что в настоящее время потребляется около 16 Тбайт. Проведя на рисунке линию, стремящуюся в будущее время, мы получаем график, представленный на рисунке ниже. Он демонстрирует основополагающий принцип планирования мощностей для прогнозирования необходимо два вида информации: потолки и исторические данные.

Общее потребление и доступное дисковое пространство

Следующим шагом должно стать определение момента, когда будет достигнуто установленное ограничение. Конечно, можно провести прямую линию от графика собранных данных до точки пересечения с линией текущих ограничений. Но будет ли рост действительно линейным? Это не гарантировано.

Excel называет этот следующий шаг «добавлением линии тренда», но некоторым читателям этот процесс известен как аппроксимация (curve fitting) — подбор математической формулы, о описывающей наблюдаемые данные. Затем по этой формуле делается обоснованное предположение о значениях, отсутствующих в данных. В нашем случае данные анализируются во времени, поэтому интересующие нас отсутствующие значения находятся в будущем. Поиск формулы аппроксимации данных в равной степени и искусство и наука. К счастью, Excel входит в семейство многочисленных программ, поддерживающих аппроксимации.

Чтобы построить математически обоснованную линию тренда, выберите в Excel диаграмму точечного типа (XY (Scatter)) вместо линейной (Line). На точечной диаграмме расположены отдельные точки данных. Теперь мы можем воспользоваться средствами построения трендов Excel для прогнозирования данных в некоторый момент будущего. Щелкните правой кнопкой мыши на данных диаграммы, чтобы вызвать контекстное меню Выберите в меню команду Добавить линию тренда (Add Trend Line).

Укажите тип линии тренда, в нашем примере выберите тип Полиномиальная (Poiynomial), и введите в поле Степень (Order) значение 2. Возможно, в другой ситуации подойдет другой тип аппроксимации, всё зависит от характера данных, от их объема и дальности экстраполяции. Дополнительную информацию можно получить в статье Аппроксимация.

В нашем примере зависимость выглядит линейной, но, поскольку мне уже известно, что на длительных интервалах времени линейный характер зависимости нарушается (потребление дискового пространства растет быстрее), я выбираю тип тренда, который должен частично отразить эту нелинейность.

Указав тип линии тренда, перейдите на вкладку Параметры (Options). Чтобы формула, по которой будет рассчитываться потребление дискового пространства, выводилась на диаграмме, установите флажок Показывать уравнение на диаграмме (Display equation on chart). Также можно просмотреть параметр R² для этой формулы, установив флажок Поместить на диаграмму величину достоверности аппроксимации (R²) (Display R-squared value on chart).

Характеристика R² известна в мире статистики под названием коэффициента детерминации. Не углубляясь в подробности ее расчета, скажем только, что по сути она показывает, насколько хорошо формула соответствует набору данных. Значение R² = 1 описывает математически идеальное совпадение. Для нашего примера будет достаточно любого значения выше 0,85 Важно знать, что с уменьшением R² снижается достоверность прогноза. Выбор другого типа тренда также влияет на значение R² (иногда улучшает, иногда ухудшает). При анализе других данных вам, возможно, придется поэкспериментировать.

Конечно, наша линия тренда стремится в будущее. Она должна доходить до пересечения с линией, представляющей общее доступное пространство. Точка пересечения — это наш прогноз относительно того, когда в системе кончится свободное дисковое пространство. Введите в разделе Прогноз (Forecast) диалогового окна значение 25 (единицами измерения в данном случае являются дни). После нажатия кнопки ОК прогноз будет выглядеть примерно так, как показано на рисунке.

 

Экстраполяция линии тренда

График показывает, что ориентировочно на 37-й день в системе кончится дисковое пространство. К счастью, нам нет необходимости внимательно рассматривать график, чтобы увидеть конкретные значения, ведь имеется готовая формула, которая использовалась для построения линии тренда. Загрузив формулу в Excel и использовав значения X в днях, мы определим, что последним днем до превышения ограничений дискового пространства будет 30/8/05.

Зная, когда именно системе потребуется больше дискового пространства, можно переходить к заказу и развертыванию новых мощностей.

Пример с расширением дискового пространства был предельно простым. Так как метрика относится к потреблению ресурсов, каждый день появляется новое значение, которое вносит свой вклад в уточнение аппроксимирующей кривой. Кроме того, необходимо учесть особенности пиковых метрик, использующих постоянно возобновляемые ресурсы, — процессорное время и пропускную способность сети. Такие метрики склонны к более радикальным отклонениям, а следовательно, хуже поддаются прогнозированию и требуют более осторожной аппроксимации.