En 2022, el Dr. Walter Goodwin, director ejecutivo de Fractile, estaba tratando de construir "cerebros robóticos de propósito general".
Si bien crear robots que sean buenos en muchas cosas (la mayoría actualmente son buenos en hacer solo una cosa específica una y otra vez) fue el foco de los esfuerzos de Goodwin, dice que en ese punto de sus estudios en el Instituto de Robótica de Oxford en el Reino Unido, su interés pasó a ser menos sobre cómo de bien un robot podía levantar una taza y más sobre las leyes de escala.
Después de haber pasado cuatro años trabajando en grandes modelos de inteligencia artificial de visión y lenguaje que habían sido entrenados en imágenes y textos extraídos de Internet, Goodwin dice que vio cómo las leyes de escala habían estado "sacudiendo ese mundo de la inteligencia artificial", particularmente en lo que respecta al entrenamiento de modelos y la idea de que aumentar los fracasos del entrenamiento para la ejecución del entrenamiento de un modelo base traería una mejora determinista en cómo funciona ese modelo.
En ese momento, Goodwin dice que era parte de un grupo que comenzó a impulsar la idea de que, a medida que los modelos básicos continúan permeando nuestras vidas, esto vendría acompañado de un cambio inevitable en cómo pensamos de manera más amplia sobre la IA.
Explica que, desde 2011 hasta “quizás 2020”, cada problema tenía su propia red neuronal específica, lo que significa que las empresas recopilaban un conjunto de datos, encontraban la arquitectura de red neuronal adecuada y luego la entrenaban para una aplicación específica hasta que fuera lo suficientemente buena.
“Hacia el final de mi doctorado, estaba cada vez más convencido de que [las redes neuronales específicas de la aplicación] iban a quedar eclipsadas por esta idea del modelo de IA que lo hace todo, que se entrena con grandes cantidades de datos y que se generaliza muy bien”, dice Goodwin. “Lo veía en la robótica y podía ver que lo mismo empezaría a suceder con el lenguaje y la visión.
“Y lo que sucede es que, cuando se produce ese cambio, la gran cuestión en IA deja de ser: '¿Cómo entrenamos un modelo ligeramente mejor?'; en realidad, deja de tener tanto que ver con ese entrenamiento, y pasa a ser mucho más: 'Si vamos a ejecutar este pequeño conjunto de modelos a esta gran escala, ¿cómo vamos a hacerlo de manera sostenible?'”.
Con eso en mente, Goodwin volvió a su formación en ingeniería eléctrica y formó Fractile para responder a la pregunta: "Si nos dirigimos hacia un mundo donde la mayor parte del poder computacional se centra en la inferencia, ¿es nuestro hardware actual apto para ese propósito?"
Para Fractile, la empresa de chips que fundó, la respuesta fue un rotundo no.
La inferencia de IA es tu nuevo mejor amigo
Si bien el entrenamiento ha dominado las conversaciones sobre IA en los últimos años, recientemente empresas de todos los tamaños han anunciado públicamente que dejarán de entrenar modelos de IA para centrarse en la inferencia menos intensiva en términos computacionales, donde, simplemente, un modelo de IA usa los patrones en los que ha sido entrenado para hacer predicciones.
En la conferencia telefónica sobre los resultados del primer trimestre de 2025 de Microsoft en octubre, el director ejecutivo Satya Nadella dijo que la compañía estaba en camino de generar $10 mil millones en ingresos anuales a partir de la inferencia de IA y, como resultado, la compañía estaba rechazando solicitudes para usar sus GPU para entrenamiento "porque tenemos mucha demanda de inferencia".
Goodwin dice que las plataformas construidas sobre la arquitectura de von Neumann (la base de la mayoría de las computadoras de uso general) están llenas de etapas limitadas por la memoria que generan un equilibrio entre el costo y la latencia. Esto es un problema menor cuando se entrenan modelos porque el enfoque está en el rendimiento, no en la latencia. Sin embargo, cuando se trata de inferencia, los usuarios esperan que se haga a gran velocidad, lo que él llama el "concepto de tiempo de inferencia": "o1 [de OpenAI] es el mejor modelo del mundo, pero hay que esperar 15 segundos para obtener una respuesta".
Goodwin dice que, durante la mayor parte de los últimos dos años, Fractile ha estado hablando con la gente sobre este concepto de escalamiento de inferencia.
“Hemos tenido leyes de escalado en el entrenamiento donde se aumentan los errores de entrenamiento, pero lo que dice el escalado de inferencia es que el rendimiento de la IA en realidad tiene que ver con dos cosas”, explica. “Cómo de bueno puede ser el modelo base y cómo usar más cómputo para obtener mejores resultados”.
Para lograr estos mejores resultados, la empresa con sede en el Reino Unido ha estado desarrollando chips que utilizan computación en memoria, un enfoque que permite a los procesadores ejecutar cálculos directamente en la memoria de la computadora. Goodwin dice que al adoptar este enfoque, la empresa espera crear hardware que reduzca el consumo de energía y mejore el rendimiento, al mismo tiempo que permite una inferencia más rápida y menos costosa a escala.
En julio de 2024, Fractile salió de la clandestinidad, tras haber recaudado 15 millones de dólares en financiación inicial de una ronda codirigida por Kindred Capital, Nato Innovation Fund, Oxford Science Enterprises y varios inversores ángeles, incluido el empresario Stan Boland, ex ejecutivo de Arm y Acorn Computers que ha creado y vendido varias empresas de chips e inteligencia artificial.
Desde que se realizó esta entrevista, ha añadido a su lista de patrocinadores al exdirector ejecutivo de Intel y VMware, Pat Gelsinger. Gelsinger, que se "retiró" del gigante de los chips en diciembre, también asesorará a la empresa a medida que crezca. En una publicación de LinkedIn en la que anunciaba su inversión, elogió a Fractile por su "enfoque radical" para abordar la cuestión de la inferencia.
Si bien Fractile aún no ha lanzado su producto al mercado, la compañía cree que su hardware finalmente podrá ejecutar modelos grandes de lenguaje 100 veces más rápido y 10 veces más barato que las GPU de Nvidia, y tendrá un rendimiento 20 veces mejor por vatio de energía que cualquier otro hardware de IA actualmente en el mercado, aunque para cuando se lance, el hardware de la competencia habrá avanzado sustancialmente.
Goodwin señala que, si bien hay algunas empresas que también están explorando este concepto de más memoria en el chip, lo que Fractile busca hacer de manera diferente es eliminar la necesidad de un banco de memoria y un procesador separados, lo que le permite a la empresa abordar mejor lo que Goodwin cree que es la limitación más crítica en el escalamiento computacional en este momento: la energía.
“[Con el enfoque de Fractile] lo que se puede lograr es mucho, mucho, mucho más de lo que se obtendría si solo se tuviera esa parte de cómputo cercana a la memoria. Si bien [la memoria cercana] es buena para aumentar el ancho de banda, no aumenta los TOPS por vatio, por lo que aún se tiene un chip que, en última instancia, estará limitado térmicamente. Durante mucho tiempo, hemos estado limitados térmicamente en la forma en que escalamos estos sistemas.
“[Para Fractile] se trata de construir un sistema que nos permita ejecutar inferencias a escala para estos modelos muy grandes, mucho más rápido. Eso significa más tokens por segundo, más palabras de salida por segundo por usuario, pero también hacer todo esto de una manera mucho menos costosa”.
Y a diferencia de la mayoría de las empresas que se centran en la computación en memoria y que hasta ahora han implementado principalmente hardware en dispositivos Edge de bajo consumo, Goodwin dice que lo emocionante para Fractile es que es una de las únicas empresas que intenta llevar esta tecnología a cargas de trabajo a escala de centro de datos.
“Esa es una de las cosas más singulares de lo que hacemos”, afirma.
Sin embargo, a pesar de la ambición de la empresa, Goodwin explica que una cosa que Fractile ha tenido cuidado de no hacer es reinventar demasiadas cosas al mismo tiempo, ya que es importante que la empresa pueda lograr no solo un buen tiempo de comercialización sino también ampliar la producción y jugar dentro de las reglas de fabricación de semiconductores existentes.
“Fractile está haciendo cosas que pueden ser bastante radicales en términos de los circuitos que estamos diseñando para computación en memoria y cómo estamos pensando en la arquitectura y el software, pero en el nivel más bajo, desde el punto de vista del diseño de silicio, estamos haciendo nuestros chips de prueba en nodos de proceso de TSMC y nuestros chips de producción estarán en nodos FinFET de vanguardia en procesos de fundición estándar. En ese sentido, buscamos ser lo más normales posible desde el punto de vista de la capacidad de fabricación”.
Inferencia: El mercado de cero mil millones de dólares
Considerando los costos asociados con llevar el silicio al mercado (Goodwin dice que un juego de mascarillas cuesta más de 10 millones de dólares), el primer silicio a gran escala que produzca la compañía será su primer producto.
Fractile ha estado trabajando en prototipos de chips de prueba, pero hasta la fecha, los diseños solo se han probado en simulaciones por computadora. Si bien no quiere divulgar el cronograma previsto por la compañía para sacar un producto al mercado, Goodwin dice que se espera que las pruebas se realicen en los próximos meses.
Cuando le preguntamos si la industria de semiconductores está en un punto de inflexión y si podríamos comenzar a ver una división entre los siempre dominantes incumbentes que están teniendo un gran éxito con su arquitectura de chips probada y comprobada y las nuevas empresas entusiastas que creen que hay un enfoque nuevo y mejor por encontrar, Goodwin es bastante optimista sobre todo el asunto.
“Cuando se produce el surgimiento rápido de una carga de trabajo nueva y de gran escala, como creo que ocurre hoy con la inferencia de estos modelos muy grandes, creo que lo emocionante para las empresas emergentes es que surgen mercados completamente nuevos.
“Es la cita de Jensen Huang: 'El mercado de los cero mil millones de dólares'. En el caso de Fractile, creo que la inferencia a escala de centros de datos increíblemente rápida es hoy, en cierto modo, un mercado de cero mil millones de dólares. No hay nadie que pueda satisfacer las necesidades para eso, no existe ningún hardware. Fractile está en camino de producir ese hardware, así que creo que lo que nos entusiasma es entrar en ese espacio completamente nuevo y crear todo un conjunto de aplicaciones que podamos habilitar”.
Goodwin dice que los últimos seis meses han sido emocionantes para Fractile y reveló a DCD que, a partir de octubre de 2024, la compañía había abierto una nueva oficina en Bristol y está buscando agregar otras 10 o 15 personas a su fuerza laboral actual de 23 personas.
“Las cosas críticas en las que estamos trabajando en este momento, más allá del silicio del que ya hemos hablado, es que una gran parte de lo que Fractile hace está enteramente en la capa de software.
"Por lo tanto, en términos de los mercados a los que aspiramos atender, está muy claro que lo que se necesita hacer para brindar una solución llave en mano es tener una plataforma de hardware con una pila de software".