Географические закономерности в распределении трафика

Если рост вашего сайта требует перехода на распространение контента из нескольких вычислительных центров, вы можете столкнуться с некоторыми географическими закономерностями в распределении трафика, которые не проявлялись при работе из одного центра.

На момент написания статьи сайт Flickr обслуживал пользователей из восьми разных вычислительных центров в США, а вскоре к ним также добавятся центры в Европе и Азии. Вычислительные центры в США распределены между восточным и западным побережьем; пользователи получают контент из того вычислительного центра, который территориально расположен ближе к ним. Фотографии распределяются по так называемым фотокомплексам (photo farms).

Комплекс состоит из зеркальной пары вычислительных центров, по одному для каждого побережья. В настоящее время Flickr использует четыре комплекса (следовательно, восемь вычислительных центров), каждый комплекс содержит уникальный набор фотографий. Каждая фотография хранится в двух местах из соображений избыточности — на случай аварии или необходимости отключения одного из вычислительных центров комплекса для обслуживания.

При запуске второй площадки обнаружилось, что центр на восточном побережье при пиковой нагрузке получает на 65-70% больше трафика, чем его западный «напарник».

Это легко объясняется. Поскольку в это время европейские пользователи намного активнее азиатских, а восточное побережье США расположено ближе к Европе, соответственно, и загрузка выше. Кроме того, мы заметили, что западные вычислительные центры получали намного больше запросов больших фотографий (т. е. фотографий исходного размера), чем восточные. Мы объяснили это тем, что домашние подключения в Азии имели большую пропускную способность, поэтому пользователи привыкли к загрузке больших объемов данных. Со временем азиатские пользователи стали более активно участвовать в работе Flickr и разрыв в нагрузке сократился, но на восточных центрах общая нагрузка по-прежнему остается более высокой.

Для нас это означало то, что пики и провалы различались на концах каждого комплекса, а следовательно, при планировании роста в прогнозы приходилось вносить поправки. Как упоминалось ранее, архитектура каждого вычислительного центра должна была обработать 100% трафика всего комплекса, если парный вычислительный цент вдруг выйдет из строя. Следовательно, прогнозы мощностей должны базироваться на суммарных пиках обоих вычислительных центров комплекса.

При развертывании мощностей в нескольких вычислительных центрах характер их использования соответственно усложняется. Учтите это обстоятельство при прогнозировании мощностей.