Эксплуатация ЦОД. Практическое руководство
Шрифт:
Наилучшее решение здесь – использование услуг колокации.
Колокация, колокейшн (от англ. colocation, сокращенно colo) – услуга, состоящая в том, что провайдер услуги размещает оборудование клиента в своем дата-центре, подключает его к электричеству, обеспечивает обслуживание и подключение к каналам связи с высокой пропускной способностью [4] .
Данная услуга востребована, так как для поддержания инженерной инфраструктуры ЦОД неспециализированной ИТ-компании потребуется достаточно большое количество непрофильных для нее процессов и специалистов, таких как электрики, механики и т. д.
4
https://ru.wikipedia.org/wiki/Колокация,
По построению инфраструктуры и организации эксплуатации ЦОД условно можно разделить на три категории:
• Корпоративные ЦОД. Для внутренних ИТ-нужд организаций.
• Гиперскейл-ЦОД [5] , дата-центры крупных интернет-компаний, мировых лидеров ИТ-индустрии.
• Колокейшн-провайдер ЦОД [6] . Коммерческие дата-центры.
Корпоративные ЦОД в большинстве случаев относительно просты по уровню резервирования и обслуживания. Круг решаемых задач очевиден и формулируется заранее, что позволяет выбрать, например, однотипное оборудование с низкими требованиями к параметрам окружающей среды. У таких ЦОД лишь один внутренний клиент, с которым достаточно просто договориться об остановке ЦОД для проведения каких-либо работ. Естественно, есть корпоративные ЦОД, отказ которых может быть видимым для всех, и к таким ЦОД предъявляются самые жесткие требования по инженерной структуре и бесперебойной работе. Но обычно это характерно лишь для достаточно крупных организаций, а в остальных случаях корпоративный ЦОД – просто «серверная комната».
5
От англ. hyperscale, букв. «сверхмасштабные»; обладающие весьма значительными площадями и ресурсами по сравнению с другими центрами обработки данных и имеющие возможность сравнительно быстрого наращивания площадей и ресурсов. Часто также называются «гипермасштабируемые ЦОД».
6
От англ. colocation provider, букв. «поставщик услуг совместного размещения». Часто можно встретить также названия «многопользовательский ЦОД» в русскоязычной среде и multi-tenant data center (MTDC) в англоязычной среде.
Гиперскейл-ЦОД – гипермасштабируемые ЦОД, зачастую имеют меньшее резервирование компонентов инженерной инфраструктуры, так как падение ЦОД может быть компенсировано другими ЦОД этой же организации, что значительно удешевляет строительство ЦОД при мощности в сотни мегаватт. Такие ЦОД могут позволить себе использовать специально заказанное у вендора ИТ- и телеком-оборудование, способное работать в гораздо более широких температурных диапазонах с очень низкими запросами к внешней среде (например, нормальная температура эксплуатации до +40 °C без требований к уровню влажности), позволяя упростить системы охлаждения и требования к ним.
Колокейшн-провайдеры – компании, предоставляющие места в своих ЦОД для коммерческих клиентов. Тут применяются наиболее жесткие требования по беспрерывной работе и температурно-влажностным режимам по причине того, что диапазон размещаемого оборудования может быть очень широк по своим эксплуатационным параметрам и ЦОД должен соответствовать самым жестким требованиям. Для колокейшн-провайдеров характерны дополнительные специфические аспекты, которые требуют четкой регламентации,
Соответствие сертификационным стандартам и действующим нормам
Для ЦОД, особенно коммерческих, важно соответствие международным стандартам. В данном случае мы будем говорить только о тех стандартах или частях стандартов, которые относятся к службе эксплуатации ЦОД, не затрагивая аспекты строительства инфраструктуры, безопасности и т. д. Даже если вы не проходите официальную сертификацию, существуют еще и внутренние аудиты от клиентов ЦОД или внутренних служб, которые должны удостоверять, что эксплуатация выстроена правильно. Таким образом, целесообразно оценивать свою деятельность именно по существующим стандартам.
Для этого мы рассмотрим основные зарубежные и отечественные стандарты и нормативные документы, регламентирующие операционную деятельность ЦОД.
Uptime Institute Tier Standard: Topology (TS: T)
Стандарт американской консалтинговой компании Uptime Institute знаменит тем, что именно в нем излагается разработанная компанией и ставшая широко известной по всему миру классификация ЦОД по четырем уровням надежности (Tier), многократно повторенная позже в других стандартах.
Поскольку мы по ходу изложения будем упоминать эти уровни, напомним читателю об их сути и принципиальных отличиях.
• Tier I предполагает наличие базового набора элементов, позволяющего ЦОД выполнять свои функции;
• Tier II подразумевает наличие резервирования активных компонентов инфраструктуры (ДГУ, ИБП, чилеры, внутренние блоки системы кондиционирования и пр.);
• Tier III определяется такой топологией, которая позволяет проводить плановое обслуживание систем и любых их компонентов без прерывания работы ЦОД;
• Tier IV обеспечивает работоспособность ЦОД при любом единичном отказе в любой точке инфраструктуры.
С точки зрения эксплуатации ЦОД, Tier I и Tier II предполагают вынужденные остановки ЦОД на обслуживание, в то время как Tier III и Tier IV позволяют выполнять все необходимые работы по обслуживанию ЦОД без прерывания сервисов. Это обстоятельство, наряду со сравнительной простотой реализации ЦОД уровня Tier III по сравнению с Tier IV, обуславливает широкое распространение ЦОД уровня Tier III как в России, так и за рубежом.
Однако данный стандарт, излагая классификацию и принципы реализации ЦОД всех четырех уровней, никак не затрагивает подходы к эксплуатации и техническому обслуживанию ЦОД. Они описаны в другом стандарте Uptime Institute, о котором мы говорим далее.
Uptime Institute Tier Standard: Operational Sustainability (TS: OS)
На наш взгляд, это наиболее полный по содержанию документ, в общих принципах описывающий все аспекты эксплуатации ЦОД. Стандарт состоит из трех разделов: 1) Management and Operations («Управление и эксплуатация»); 2) Building Characteristics («Характеристики здания»); 3) Site Location («Место расположения здания»).
Первый раздел затрагивает следующие категории:
• подбор персонала и организация работ;
• обслуживание;
• обучение;
• планирование, координация и управление;
• условия эксплуатации.
Выполнение только первого раздела дает аттестацию Management and Operations (M&O), проводимую Uptime Institute. Второй и третий разделы требуются для прохождения полноценной сертификации Operational Sustainability («Эксплуатационная устойчивость») как завершающей части еще двух сертификаций: Design Documentation («Проектная документация») и Constructed Facility («Построенный объект»).