La construcción de la actual generación de chatbots de inteligencia artificial ha dependido de microprocesadores especializados, pioneros de Nvidia, que ha dominado el mercado y se ha convertido en el emblema del auge de la inteligencia artificial.

Sin embargo, las mismas cualidades que hacen que esos chips de procesador gráfico (GPU), sean tan efectivos para crear sistemas de inteligencia artificial potentes desde cero, los hacen menos eficientes al poner productos de IA en funcionamiento. Esto ha abierto la industria de chips de IA a rivales que creen que pueden competir con Nvidia en la venta de los llamados chips de inferencia de IA, que están más sintonizados con el funcionamiento diario de las herramientas de IA y diseñados para reducir algunos de los enormes costos de la inteligencia artificial generativa.

“Estas compañías están viendo oportunidades para ese tipo de hardware especializado”, dijo Jacob Feldgoise, analista en el Centro de Tecnología y Seguridad Emergente de la Universidad de Georgetown. “Cuanto más amplia sea la adopción de estos modelos, más cálculos serán necesarios para la inferencia y mayor será la demanda de chips de inferencia”.

¿Qué es la inferencia de IA?

Se necesita mucha potencia de cálculo para hacer un chatbot con inteligencia artificial. Comienza con un proceso llamado entrenamiento o preentrenamiento —la “P” en ChatGPT— que implica que los sistemas de IA “aprendan” de los patrones de enormes cantidades de datos. Los GPU son buenos para hacer ese trabajo porque pueden ejecutar muchos cálculos a la vez en una red de dispositivos que se comunican entre sí.

Sin embargo, una vez entrenada, una herramienta de IA generativa todavía necesita microprocesadores para hacer el trabajo, como cuando le pides a un chatbot que componga un documento o genere una imagen. Ahí es donde entra la inferencia. Un modelo de IA entrenado debe tomar nueva información y hacer inferencias a partir de lo que ya sabe para producir una respuesta.

Los GPU también pueden hacer ese trabajo, pero puede ser un poco como usar un martillo para romper una nuez.

“Con el entrenamiento, estás haciendo un trabajo mucho más pesado, mucho más trabajo. Con la inferencia, es más ligero”, dijo Alvin Nguyen, analista de Forrester.

Esto ha llevado a startups como Cerebras, Groq y d-Matrix, así como a los rivales tradicionales de Nvidia —como AMD e Intel— a ofrecer chips más amigables para la inferencia mientras Nvidia se concentra en satisfacer la enorme demanda de las grandes empresas tecnológicas por su hardware de gama alta.

Dentro de un laboratorio de semiconductores de inferencia

d-Matrix, que está lanzando su primer producto esta semana, fue fundada en 2019 —un poco tarde en este juego— como explicó el director general Sid Sheth durante una entrevista reciente en la sede de la compañía en Santa Clara, California, la misma ciudad del Silicon Valley que también alberga a AMD, Intel y Nvidia.

“Ya había más de 100 compañías. Así que cuando salimos, la primera reacción que obtuvimos fue ‘llegas demasiado tarde’”, dijo. La llegada de la pandemia seis meses después no ayudó, ya que la industria tecnológica se orientó hacia un enfoque en el software para servir al trabajo remoto.

Ahora, sin embargo, Sheth ve un gran mercado en la inferencia de IA, comparando esa etapa posterior del aprendizaje automático con cómo los seres humanos aplican el conocimiento que adquirieron en la escuela.

“Pasamos los primeros 20 años de nuestras vidas yendo a la escuela, educándonos. Eso es entrenamiento, ¿verdad?”, dijo. “Y luego los siguientes 40 años de tu vida, sales y aplicas ese conocimiento, y luego te recompensan por ser eficiente”.

El producto, llamado Corsair, consta de dos chips con cuatro chiplets cada uno, fabricados por Taiwan Semiconductor Manufacturing Company, el mismo fabricante de la mayoría de los chips de Nvidia, y empaquetados juntos de manera que ayuda a mantenerlos frescos.

Los chips se diseñan en Santa Clara, se ensamblan en Taiwán y luego son probados de vuelta en California. Las pruebas son un proceso largo y pueden tomar seis meses; si algo está mal, se envía de vuelta a Taiwán.

Los trabajadores de d-Matrix estaban haciendo pruebas finales en los chips durante una visita reciente a un laboratorio con escritorios de metal azul cubiertos de cables, placas base y computadoras, con una sala de servidores fría al lado.

¿Quién quiere chips de inferencia de IA?

Mientras que gigantes tecnológicos como Amazon, Google, Meta y Microsoft han estado devorando el suministro de GPU costosos en una carrera por superarse entre sí en el desarrollo de IA, los fabricantes de chips de inferencia de IA apuntan a un público más amplio.

Nguyen de Forrester dijo que eso podría incluir a empresas Fortune 500 que quieren hacer uso de la nueva tecnología de IA generativa sin tener que construir su propia infraestructura de IA. Sheth dijo que espera un fuerte interés en la generación de video de inteligencia artificial.

“El sueño de la IA para muchas de estas empresas es que puedas usar tus propios datos empresariales”, dijo Nguyen. “Comprar (chips de inferencia de IA) debería ser más barato que comprar los GPUs definitivos de Nvidia y otros. Pero creo que va a haber una curva de aprendizaje en términos de integración”.

Feldgoise dijo que, a diferencia de los chips enfocados en el entrenamiento, el trabajo de inferencia de IA prioriza cuán rápido una persona obtendrá una respuesta del chatbot.

Señaló que otro conjunto completo de empresas está desarrollando hardware de IA para inferencia que puede funcionar no solo en grandes centros de datos sino localmente en computadoras de escritorio, laptops y teléfonos.

¿Por qué es esto importante?

Chips mejor diseñados podrían reducir los enormes costos de ejecutar la IA para las empresas. Eso también podría afectar los costos ambientales y energéticos para todos los demás.

Sheth dice que la gran preocupación ahora mismo es, “¿vamos a quemar el planeta en nuestra búsqueda de lo que la gente llama AGI?”, las siglas de inteligencia human-like (inteligencia semejante a la humana).

Todavía es incierto cuándo la IA podría llegar al punto de inteligencia general artificial; las predicciones varían desde unos pocos años hasta décadas. Pero, Sheth señala, solo un puñado de gigantes tecnológicos están en esa búsqueda.

“Pero ¿y los demás?”, dijo. “No pueden ser puestos en el mismo camino”.

El otro conjunto de compañías no quiere usar modelos de IA muy grandes; es demasiado costoso y usan demasiada energía.

“No sé si la gente realmente aprecia que la inferencia va a ser una oportunidad mucho mayor que el entrenamiento. No creo que lo aprecien. Todavía es el entrenamiento lo que realmente está acaparando todos los titulares”, señaló Sheth.


Esta historia fue traducida del inglés por un editor de AP con la ayuda de una herramienta de inteligencia artificial generativa.