🤖❄️ Enfriando la IA

Hola y bienvenid@ de nuevo a Invirtiendo en Calidad,

Cuando la gente habla de inteligencia artificial (IA), dos palabras se les suelen venir a la cabeza: chips y Nvidia. La empresa de Jensen Huang lidera el escalafón de capitalización bursátil, principalmente gracias a la venta de GPUs (Unidades de Procesamiento Gráfico o Graphic Processing Units) que impulsan la IA en la actualidad. La mayoría también sabe que la infraestructura que subyace a dicha tecnología puede resumirse en tres palabras: centros de datos. Aunque muchas personas están familiarizadas con lo que es un centro de datos, pocas entienden cómo funcionan y cuáles son sus componentes más importantes.

He estado analizando tres empresas a lo largo de las últimas semanas, dos de las cuales operan en la industria HVAC (calefacción, ventilación y aire acondicionado). La idea inicial del análisis era el buen crecimiento junto con el hecho de que las acciones de muchas de estas empresas han caído más de un 40% desde máximos. Sin embargo, pronto descubrí la fuente de su rápido crecimiento: ¡los centros de datos! El motivo por el cual la industria de enfriamiento de centros de datos ha estado creciendo rápido es sencillo: después de semiconductores y la tecnología en general, el gasto más significativo en un centro de datos es la infraestructura de enfriamiento. Encontrar una estimación fiable del tamaño del mercado es difícil porque la industria aún está en sus primeras etapas de desarrollo, pero podemos más o menos estimarlo. Algunas fuentes indican que hay planeado un gasto de capital (Capex) de aproximadamente $450.000 millones para la construcción de centros de datos en los próximos años. Este Capex tiende a dividirse de la siguiente manera en un proyecto típico:

60%-70% al equipo tecnológico que contienen los racks (entenderás qué es esto más adelante)
15%-20% a la infraestructura de enfriamiento
10%-20% a la construcción del edificio per se y otros gastos

Suponiendo que la estimación de los $450.000 millones sea correcta, eso significaría que se destinarán alrededor de $67.000-$90.000 millones a infraestructura de enfriamiento en los próximos años. Aunque esto puede no parecer significativo teniendo en cuenta los TAMs de los que se hablan en torno a la IA, no debemos olvidar que este mercado no existía hace 10 años. Tampoco tomaría estos números como totalmente fiables, pero es innegable que el gasto en infraestructura de enfriamiento de centros de datos va a ser significativo en los próximos años.

La explosión de dicho gasto proviene de dos players principales: los hyperscalers y los co-locators. Aunque imagino que ya sabes qué es un hyperscaler (Amazon, Google, Microsoft, Meta...), el término co-locator puede resultarte algo desconocido. Un co-locator es simplemente una empresa que construye la "carcasa" de un centro de datos y proporciona a sus clientes gran parte de los servicios horizontales (como enfriamiento, seguridad y conexiones de red). Estos clientes son responsables de proporcionar el equipo restante (principalmente lo que va dentro del rack). Los co-locators son la razón por la cual algunas empresas pueden "evitar" a los hyperscalers sin tener que enfrentarse al riesgo de exceso de capacidad inherente a las operaciones de infraestructura de centros de datos. Gestionar la capacidad es bastante difícil en esta industria, y no todas las empresas son buenas haciéndolo:

❝

Creo que uno de los aspectos menos comprendidos de AWS en los últimos 18 años ha sido el enorme desafío logístico que representa operar ese negocio. Si terminas con muy poca capacidad, entonces tienes interrupciones en el servicio, lo cual realmente nadie quiere porque significa que las empresas no pueden escalar sus aplicaciones.

Así que, la mayoría de las empresas tienen más capacidad de la que necesitan. Sin embargo, si tienes demasiada capacidad, la economía es bastante lamentable y no te gustan los retornos ni los beneficios operativos. Y nosotros hemos construido modelos durante mucho tiempo que son algorítmicos y sofisticados que aterrizan en la cantidad correcta de capacidad.

Andy Jassy (CEO de Amazon) durante la call de resultados del Q2 2024

Los co-locators pueden ser entendidos como los agregadores de demanda para la parte de la industria que no quiere depender de las hyperscalers.

Aunque el mercado de enfriamiento de centros de datos puede parecer interesante a simple vista, presenta una serie de desafíos que lo diferencian de casos como el de Nvidia. Recuerda que Nvidia ha capturado una buena parte de los beneficios de la IA gracias a sus GPUs líderes en el mercado y a la incapacidad de sus competidores para ofrecer (hasta ahora) algo similar. Este difícilmente será el caso para los proveedores de enfriamiento de centros de datos, algo que sirve como una valiosa lección para cualquier inversor: los mercados grandes y en crecimiento no siempre son oportunidades de inversión atractivas. ¡No se trata solo de la demanda, sino de la demanda en el contexto de la oferta disponible! (Recomiendo leer Capital Returns de Edward Chancellor para entender por qué).

Para entender mejor el mercado de enfriamiento de centros de datos y sus oportunidades y desafíos, abordaré los siguientes temas en este artículo:

Los fundamentos de la infraestructura de centros de datos
La importancia del enfriamiento
La evolución de las necesidades y la infraestructura de enfriamiento
Oportunidades y desafíos

Sin más dilación, vamos a ello.

1. Los fundamentos de la infraestructura de centros de datos

Aunque mucha gente sabe lo qué es un centro de datos, no mucha entiende cómo funcionan. La estructura básica de un centro de datos es bastante sencilla. Consiste en una carcasa (es decir, el edificio) que alberga numerosos racks, normalmente instalados en una configuración de pasillo, y la infraestructura de enfriamiento que garantiza que el equipamiento funcione a una temperatura óptima:

Los “racks” esas estructuras en forma de columna que albergan los servidores, equipos de networking, dispositivos de almacenamiento, infraestructura eléctrica y una parte de la infraestructura de enfriamiento. Es dentro de los servidores contenidos en un rack donde encontramos los famosos CPUs y GPUs que han convertido a Nvidia en la empresa más valiosa del mundo (al menos hasta el día de hoy).

Un rack

Antes de entender por qué todo el tema del enfriamiento es clave, es esencial conocer los dos tipos principales de centros de datos que coexisten hoy en día. Los he llamado centros de datos de propósito general y centros de datos de IA o HPC (high performance computing). La diferencia entre ambos es clave, no solo para los fabricantes de chips (los centros de datos de IA funcionan mayoritariamente con GPUs, mientras que los de propósito general lo hacen con CPUs), sino también para los proveedores de soluciones de enfriamiento (los centros de datos de IA requieren mucha más infraestructura de enfriamiento).

Un centro de datos de propósito general es esencialmente un centro de datos diseñado para soportar las operaciones fundamentales de una empresa. Esto tiene importantes implicaciones porque, aunque procesa datos, no necesita hacerlo de forma continua y sus servidores no suelen operar a máxima capacidad. Además, los datos que procesa tienden a estar estructurados.

Un centro de datos de IA, en cambio, procesa principalmente datos no estructurados y lo hace 24/7. Esto significa que los chips pueden estar operando al 90%-100% de su capacidad durante varios días seguidos, por lo tanto, la infraestructura de enfriamiento debe disipar mucho calor de manera continua. En resumen, todo lo relacionado con la IA requiere significativamente más poder de computación que los centros de datos de propósito general, lo cual se traduce en una mayor generación de calor y, en consecuencia, en mayores necesidades de enfriamiento.

Fuente: Elaborado por Invirtiendo en Calidad

2. La importancia del enfriamiento

Si has usado algún dispositivo tecnológico por un periodo prolongado o si has ejecutado varios programas al mismo tiempo en tu ordenador, sabrás que los dispositivos electrónicos eventualmente acaban calentándose. La razón es que la mayor parte de la energía eléctrica consumida por un dispositivo tecnológico se transforma en calor. Este calor se origina por un fenómeno conocido como resistencia eléctrica. A mayor poder de computación, más corriente eléctrica se requiere, y la resistencia causada por el equipamiento acaba transformándose en calor.

Si este calor no es disipado adecuadamente, los chips y el equipamiento general pueden superar las temperaturas óptimas, llevando a diversos efectos indeseables:

Reducción térmica (thermal throttling): Cuando los chips se calientan, reducen su rendimiento para mantenerse dentro de sus límites de temperatura (que normalmente pueden llegar hasta los 100 °C).
Tiempo de inactividad (downtime): Si el thermal throttling no es suficiente para evitar el sobrecalentamiento del chip, este puede acabar apagándose, generando períodos de inactividad que cuestan mucho dinero.
Durabilidad del hardware: Operar a altas temperaturas reduce la vida útil del hardware y termina resultando en mayores costes de mantenimiento y reemplazo en unos años.

La infraestructura de enfriamiento se encarga de mantener la temperatura óptima en un centro de datos, permitiendo que todo el equipamiento funcione de manera óptima y fiable. Pero no se trata solo de lograr temperaturas óptimas, sino de hacerlo de manera energéticamente eficiente. Permíteme presentar una métrica clave: PUE (Eficiencia del Uso de Energía o Power Usage Effectiveness). El PUE es una métrica que todos los operadores de centros de datos siguen muy de cerca, ya que mide el porcentaje de la energía total consumida por el centro de datos que es utilizada por el equipo de IT. Esta métrica siempre tendrá un valor mínimo de 1, lo que significaría que toda la energía consumida por el centro de datos está siendo utilizada por el equipamiento contenido en los racks.

En el mundo real, esta métrica siempre será superior a 1 porque una parte del consumo energético total se destinará a la infraestructura de enfriamiento. El objetivo es que esta métrica esté lo más cercana posible a 1 mientras se mantiene una temperatura óptima. Reducir esta métrica a costa de chips sobrecalentados que rinden por debajo de su nivel óptimo tampoco es ideal.

Ya hemos visto que la infraestructura de enfriamiento representa una parte significativa del Capex de los centros de datos (15%-20%), pero ¿qué pasa con el Opex? La historia es más o menos la misma. La electricidad es el gasto operativo más importante de un centro de datos, representando típicamente entre el 40% y el 60% del Opex total. La infraestructura de enfriamiento representa alrededor del 30%-40% del consumo eléctrico total, lo que significa que aproximadamente entre el 12% y el 24% del Opex total del centro de datos se destina a conseguir temperaturas óptimas. Los PUE típicos en la industria varían entre 1.1 y 1.6, lo cual es consistente con aproximadamente el 70% del consumo eléctrico total estando destinado a la computación como tal.

Si sumamos este altísimo Opex al gasto significativo de Capex, y consideramos que un 10%-15% adicional del Opex es destinado a mantener esta infraestructura de enfriamiento, no cabe duda de que el enfriamiento es una parte central de los costes en los centros de datos. Resumiendo un poco todo, un centro de datos típico gastará alrededor del 15% de su Capex en infraestructura de enfriamiento y alrededor del 30% de su Opex para operar dicha infraestructura. Muchas personas hablan del enorme gasto de la industria en chips, pero pocas mencionan el gasto sustancial en conseguir y mantener temperatura óptimas.

El enfriamiento siempre ha sido crucial en la industria de los centros de datos, pero la IA ha marcado un punto de inflexión. Las cargas de trabajo de IA requieren mucho más poder de computación, y este aumento de poder de computación se ha logrado aumentando la densidad dentro de los racks (“apilar” chips incrementa el poder de computación). Hasta aquí, todo bien. El problema es que esta mayor densidad está generando cantidades estratosféricas de calor en los racks de IA. ASML mencionó durante su último Capital Markets Day que el límite para la IA no es el poder de computación, sino el coste y el consumo energético que trae consigo:

Fuente: Capital Markets Day de ASML

Los números llaman mucho la atención. La industria normalmente usa una métrica llamada kW por rack, que mide la potencia eléctrica consumida por el equipo instalado en un rack en un momento dado. Los centros de datos de propósito general solían promediar entre 3 y 20 kW por rack (20 kW para los más avanzados), mientras que los centros de datos de IA y HPC (high performance computing) tienden a promediar entre 30 y 80 kW por rack (más de 80 kW también es normal), y esta métrica está aumentando a medida que las empresas buscan más poder de computación. Esto significa que los centros de datos de IA consumen hasta 10 veces más kW por rack que los de propósito general.

Para entender la escala de este consumo eléctrico, vale la pena compararlo con algo que todos usamos: nuestras casas. El consumo eléctrico promedio de un hogar en EE.UU. es de alrededor de 1.5 kW, lo que significa que un rack de HPC podría alimentar más de 40 hogares (asumiendo 60 kW por rack). No es de extrañar que la gente empiece a preocuparse por la capacidad actual de generación y distribución de energía para soportar la IA.

Ahora bien, el poder de computación representa un “doble problema” para el consumo energético. A mayor densidad en un rack, más potencia se requiere para su funcionamiento, y a mayor poder de computación, más calor se genera. Esto conlleva un mayor consumo también del la maquinaria de enfriamiento. Esto quiere decir que la importancia del enfriamiento en los centros de datos va mucho más allá de mantener temperaturas óptimas: también está profundamente ligada a la sostenibilidad.

3. La evolución de las necesidades y la infraestructura de enfriamiento

Ahora que entendemos el papel crucial que desempeña el enfriamiento en la infraestructura digital, examinemos su evolución a lo largo de los años. Antes de la llegada de la IA, los centros de datos se enfriaban típicamente como un edificio normal: con aire acondicionado proporcionado por fabricantes de sistemas HVAC (muchos de los cuales han estado hablando de los centros de datos como un mercado clave durante un tiempo). Para maximizar la eficiencia, los centros de datos utilizan una configuración de pasillos calientes y fríos (hot/cold aisle). Las partes traseras de los racks (por donde se disipa el calor) están enfrentadas entre sí, creando un pasillo caliente, mientras que las partes frontales de los racks reciben un flujo de aire frío. Esta simple infraestructura de enfriamiento por aire + dicha configuración era prácticamente todo lo necesario para que los servidores operaran a temperaturas óptimas:

Sin embargo, el enfriamiento por aire no llega a cumplir las necesidades de los centros de datos de IA. La razón es que un mayor poder de computación genera más calor en el mismo espacio, lo que significa que se debe disipar mucho más calor por rack. Esto implica que se necesita una nueva infraestructura o método: demos la bienvenida al enfriamiento por líquido (liquid cooling).

Existen dos tipos principales de enfriamiento por líquido (por ahora):

Enfriamiento directo por líquido (direct liquid cooling o DLC)
Enfriamiento por inmersión

Empecemos por el DLC. En el enfriamiento directo por líquido, el agua o un refrigerante es impulsado directamente dentro del servidor (la fuente) para extraer el calor. Este líquido caliente fluye fuera del rack y es reemplazado por líquido frío en un proceso continuo de enfriamiento:

El enfriamiento directo por líquido es una solución de enfriamiento mucho más eficiente para cargas de trabajo de IA por varias razones. Primero, actúa directamente sobre la fuente del calor. En segundo lugar, el agua o el refrigerante disipa mucho mejor el calor que el aire. Para centros de datos de IA, el aire simplemente no es suficiente para disipar el calor.

El enfriamiento por inmersión lleva el direct liquid cooling al siguiente nivel. Los racks se sumergen por completo en un líquido dieléctrico (debe ser dieléctrico para no dañar el equipamiento). En teoría, esta es la solución más efectiva porque, al estar sumergido, el líquido captura el 100% del calor generado por los servidores:

El enfriamiento por líquido está aún dando sus primeros pasos (alrededor del 95% de los centros de datos todavía utilizan enfriamiento por aire), pero está cobrando protagonismo rápidamente con la llegada de la IA. Todos los centros de datos modernos de IA requieren una solución híbrida (aire/líquido).

❝

Solo hay un 1% de la industria que utiliza liquid cooling, pero, el 99% va a tener que ser liquid cooling en 10-15 años.

Fuente: Ex-Operador de Data Centers en Meta

4. Oportunidades y desafíos

Creo que hay varias oportunidades y desafíos en la industria. Aunque pronosticar el ciclo es complejo, sí parece que la oportunidad de enfriamiento que trae consigo la IA es significativa. Con hyperscalers y co-locators esperando invertir sumas importantes en centros de datos de IA en los próximos años, una parte sustancial de este gasto probablemente se destinará a infraestructura de enfriamiento, lo cual hará que la industria crezca a buen ritmo durante los próximos años. Dado que estos centros de datos funcionan sin descanso, la oportunidad de mantenimiento también parece significativa a largo plazo.

Ahora bien, hay un par de cosas que tener en cuenta aquí. Yo clasificaría los desafíos en dos grupos:

La evolución de la tecnología
Expansión de la oferta junto con una falta de diferenciación

Comencemos con el primero. Como he comentado a lo largo del artículo, la tecnología relacionada con el enfriamiento está en constante evolución. En los últimos 5 años, hemos pasado del enfriamiento por aire al enfriamiento directo por líquido y luego al enfriamiento por inmersión. La industria está hambrienta de más poder de computación, lo cual significa que se generará más calor. Sin embargo, la industria también busca soluciones y métodos de enfriamiento más eficientes, haciendo que la innovación en dichas soluciones sea un requisito y que los clientes busquen minimizar costes a toda costa. Esto significa, en última instancia, que la solución más utilizada hoy puede cambiar en un par de años, y nadie sabe realmente cómo evolucionará.

Este “defecto” es mucho más peligroso cuando lo combinamos con el segundo. Actualmente hay una escasez de oferta en la industria porque los hyperscalers están invirtiendo cantidades significativas de dinero en centros de datos, y la industria que provee el enfriamiento no está preparada. Este desequilibrio entre oferta y demanda puede estar creando la falsa impresión de que los proveedores están diferenciados. Si bien puede que haya algo de diferenciación en cuanto a soluciones personalizadas (como dijo un ex-empleado de Meta: “este tipo de soluciones customizadas es lo que las hyperscalers buscan”), el equipo básico no está diferenciado y hay numerosas empresas que pueden ofrecerlo.

La industria del enfriamiento, sin embargo, está invirtiendo agresivamente en capacidad para satisfacer estas necesidades, lo cual podría conducir a una situación en la que la demanda y la oferta se equilibren eventualmente, y los proveedores comiencen a competir en precio para ganar contratos. Esto se aceleraría aún más si los hyperscalers y co-locators decidieran frenar el ritmo de expansión. Actualmente, los márgenes y las carteras de pedidos pueden ser algo engañosos porque la demanda supera a la oferta y hay demanda para todos, pero es poco probable que la industria permanezca en este estado de escasez para siempre. Esto podría ser también lo que preocupa al mercado, ya que las acciones de los proveedores de dicha infraestructura han caído significativamente desde sus máximos tras haber disfrutado de retornos asombrosos en los últimos años, y a pesar de que las carteras de pedidos y el crecimiento siguen en niveles saludables:

Aunque todo tiene un precio, este parece ser un buen ejemplo de una industria “normal” disfrazada de industria “excelente” debido a un desequilibrio temporal entre oferta y demanda. El desequilibrio no se corregirá de la noche a la mañana, pero cuando lo haga, la industria podría ser muy distinta a lo que es hoy. Los márgenes operativos actualmente son aceptables para estos proveedores, pero esta es una industria intensiva en capital, donde el exceso de oferta puede erosionar rápidamente esos márgenes.

Actualmente estoy analizando una de las empresas que he compartido en el gráfico anterior (en muchos casos, este no es su único negocio), la cual tiene un enfoque algo diferenciado y ha estado creciendo de forma asombrosamente rápida. Espero traer un análisis detallado para suscriptores de pago muy pronto.

Un abrazo,

Leandro

🤖❄️ Enfriando la IA

1. Los fundamentos de la infraestructura de centros de datos

2. La importancia del enfriamiento

3. La evolución de las necesidades y la infraestructura de enfriamiento

4. Oportunidades y desafíos

Reply

Keep Reading

invirtiendo en calidad