Presentación de la especificación de diseño del módulo de control seguro preparado para el centro de datos del Proyecto Argus
Breve introducción a los controladores de gestión de placa base
Un controlador de gestión de placa base (BMC) es un procesador especializado que puede encontrarse en prácticamente todos los productos de servidor. Permite el acceso remoto al servidor a través de una conexión de red y ofrece un amplio conjunto de funciones de gestión del servidor. Algunas de las funciones del BMC más utilizadas son la gestión de la alimentación del servidor, la detección de dispositivos, la supervisión de sensores, la actualización remota del firmware, el registro de eventos del sistema y la notificación de errores.
En un diseño de servidor típico, el BMC reside en la placa base del servidor, junto con otros componentes clave como el procesador, la memoria, el CPLD, etcétera. Esta fue la norma durante generaciones de productos de servidor, pero esto ha cambiado en los últimos años, ya que las placas base están cada vez más optimizadas para un ancho de banda de señal de alta velocidad, y los servidores necesitan soportar requisitos de seguridad especializados. Esto ha hecho necesario desacoplar el BMC y sus componentes relacionados de la placa base del servidor, y trasladarlos a un módulo de factor de forma común más pequeño conocido como Datacenter Secure Control Module (DC-SCM).
Para la próxima generación de servidores edge de Cloudflare, nos hemos asociado con Lenovo para crear un diseño basado en DC-SCM. En la parte izquierda de la figura 2 se encuentra el conjunto de placa de circuito impreso (PCBA) del módulo del procesador host (HPM). Alberga la CPU, las ranuras de memoria y otros componentes necesarios para el funcionamiento y las características del diseño del servidor. Pero el BMC y sus circuitos relacionados se han reubicado en una PCBA independiente, que es el DC-SCM.
Ventajas del diseño de servidores basado en DC-SCM
Reducción de costes de PCB
A día de hoy, la memoria DDR5 funciona a 6400MT/s (megatransferencias por segundo). En el futuro, la velocidad de la memoria DDR5 podría incluso aumentar a 7200MT/s u 8800MT/s. Mientras tanto, PCIe Gen5 funciona a 32 GT/s (gigatransferencias por segundo), duplicando la velocidad de PCIe Gen4. Tanto DDR5 como PCIE Gen5 son interfaces clave para los procesadores utilizados en nuestros servidores de próxima generación.
El aumento de la velocidad de las señales de E/S y los buses de memoria está obligando a la próxima generación de placas base para servidores a pasar de materiales dieléctricos de baja pérdida a materiales dieléctricos de pérdida ultrabaja, así como a un mayor número de capas en la placa de circuito impreso. Al mismo tiempo, la velocidad de la BMC y sus circuitos relacionados no progresan tan rápidamente. Por ejemplo, la interfaz de capa física del ASPEED AST2600 BMC sólo alcanza PCIe Gen2 (5 GT/s).
El material dieléctrico de ultrabaja pérdida de la placa de circuito impreso y el mayor número de capas de la placa de circuito impreso son factores que contribuyen a aumentar su coste. Otro factor que influye en el coste es el tamaño de la placa. En un diseño de placa base de servidor tradicional, el tamaño de la placa base del servidor es mayor, ya que la BMC y sus circuitos relacionados se colocan en la misma PCB que la CPU host.
Al desacoplar la BMC y sus circuitos relacionados del módulo del procesador host (HPM), podemos reducir el tamaño de la PCB relativamente más cara para el HPM. El BMC y sus circuitos asociados pueden colocarse en una placa de circuito impreso relativamente más barata, con un menor número de capas y materiales dieléctricos con menos pérdidas. Por ejemplo, en el diseño de la próxima generación de servidores de Cloudflare, la placa base del servidor debe tener 14 o más capas, mientras que el BMC y sus componentes relacionados se pueden enrutar fácilmente con 8 o 10 capas de PCB. Además, el material dieléctrico utilizado en el PCB DC-SCM es dieléctrico de baja pérdida, otro ahorro de costes en comparación con los materiales dieléctricos de pérdida ultrabaja utilizados en el PCB HPM.
El diseño modular permite flexibilidad
DC-SCM modulariza los componentes de gestión y seguridad del servidor en un factor de forma de tarjeta complementaria común, lo que permite a los desarrolladores eliminar las soluciones específicas del cliente de los componentes más complejos, como las placas base, al DC-SCM. Esto proporciona flexibilidad a los desarrolladores para ofrecer múltiples soluciones específicas para cada cliente, sin necesidad de rediseñar varias placas base para cada solución.
Los desarrolladores pueden reutilizar el DC-SCM de una generación anterior de diseño de servidores, si los requisitos de gestión y seguridad siguen siendo los mismos. Esto reduce el coste total de actualización a una nueva generación de servidores y tiene el potencial de reducir los residuos electrónicos cuando se retira un servidor.
Del mismo modo, las actualizaciones de las soluciones de gestión y seguridad dentro de una generación de servidores pueden realizarse por separado modificando o sustituyendo el DC-SCM. No es necesario rediseñar los componentes más complejos del HPM. Desde la perspectiva del centro de datos, acelera la actualización del hardware de gestión y seguridad en varias plataformas de servidores.
Desarrollo de firmware OpenBMC interoperable unificado
La interfaz de control seguro del centro de datos (DC-SCI) es una interfaz de hardware estandarizada entre DC-SCM y el módulo de procesador host (HPM). Proporciona una base para la interoperabilidad eléctrica entre diferentes diseños de DC-SCM y módulos procesadores de host (HPM).
Esta interoperabilidad hace posible disponer de una imagen de firmware unificada en múltiples diseños de DC-SCM, concentrando los recursos de desarrollo en un único firmware en lugar de en un conjunto de ellos. El repositorio OpenBMC de acceso público proporciona una plataforma perfecta para que los desarrolladores de firmware de distintas empresas colaboren y desarrollen dichas imágenes OpenBMC unificadas. En lugar de mantener una imagen de firmware BMC separada para cada plataforma, ahora utilizamos una única imagen que puede aplicarse a múltiples plataformas de servidor. El árbol de dispositivos específico de cada servidor respectivo se carga automáticamente basándose en la información del producto del dispositivo.
El uso de una imagen OpenBMC unificada simplifica significativamente el proceso de liberación del firmware BMC a múltiples plataformas de servidor. Las actualizaciones y cambios de firmware se propagan a todas las plataformas compatibles en una única versión de firmware.
Proyecto Argus
Las especificaciones DC-SCM han sido impulsadas por la corriente de trabajo de gestión de hardware de la Fundación Open Compute Project (OCP), como una forma de estandarizar las funciones de gestión, seguridad y control de servidores.
Cloudflare se ha asociado con Lenovo en lo que llamamos Proyecto Augus, la primera implementación de DC-SCM de Cloudflare que se adhiere completamente a la especificación DC-SCM 2.0. En las especificaciones DC-SCM 2.0, se dejan abiertos algunos elementos de diseño para que los implementadores decidan las opciones arquitectónicas más adecuadas. Con el objetivo de mejorar la interoperabilidad de los diseños DC-SCM de Cloudflare entre los distintos proveedores y diseños de servidores, el proyecto Argus incluye documentación sobre los detalles de implementación y las decisiones de diseño sobre el factor de forma, el mecanismo de bloqueo mecánico, el diseño de la placa frontal, la distribución de pines DC-SCI, el chip BMC, la distribución de pines BMC, Hardware Root of Trust (HWRoT), la distribución de pines HWRoT y el árbol de dispositivos de arranque mínimo.
Fuente: cloudflare
Compartir noticia
Presentación de la especificación de diseño del módulo de control seguro preparado para el centro de datos del Proyecto Argus
Históricamente, los servidores de centros de datos han utilizado placas base que incluían todos los componentes clave en una única placa de circuito. El DC-SCM (Datacenter-ready Secure Control Module) desvincula las funciones de gestión y seguridad del servidor de la placa base tradicional, lo que permite desarrollar soluciones de gestión y seguridad independientes de la arquitectura del servidor. También ofrece la posibilidad de reducir el coste del material de la placa de circuito impreso (PCB) del servidor y permite desarrollar imágenes de firmware unificadas. Hoy, Cloudflare anuncia que se ha asociado con Lenovo para diseñar un DC-SCM para nuestros servidores de próxima generación. La especificación del diseño se ha publicado en la base de datos de contribuciones del OCP (Open Compute Project) con el nombre de Proyecto Argus.