Qué significa el nuevo texto a 3D de Nvidia para ingeniería y diseño de productos

tl; dr: La IA generativa evoluciona a un ritmo vertiginoso. El último algoritmo de Nvidia convierte el texto en malla 3D el doble de rápido que los proyectos publicados hace apenas 2 meses. Esto significa que las capacidades técnicas ahora ya están superando nuestra capacidad para trabajar con ellos.

Ultimas semanas por los científicos de Nvidia demostraron la velocidad exponencial a la que está evolucionando el espacio generativo de IA. Esta explosión de actividad, especialmente visible en los últimos 9 meses, tendrá un impacto en todos los aspectos de la vida, sobre todo en el diseño, la ingeniería y la producción de productos. Los cambios liberarán a la industria de las restricciones estructurales en la forma en que se comunican las ideas, impulsarán ciclos de innovación más rápidos y, en última instancia, le permitirán cumplir sus promesas de sostenibilidad.

Mallas de ejemplo de los algoritmos Magic 3D de Nvidia Research, con las indicaciones utilizadas para generarlas.

Investigación de imaginación profunda de Nvidia

Habiéndose dicho durante años que la IA revolucionaría fundamentalmente la forma en que trabajamos, pocos esperaban que el sector creativo fuera una de sus primeras víctimas. La llegada del generador de texto similar a un humano de GPT-3 en 2020 hizo que las posibilidades se enfocaran más. Ha sido un viaje salvaje desde entonces: DALL-E (texto a imagen), Whisper (reconocimiento de voz) y, más recientemente, Stable Diffusion (texto a imagen) no solo aumentaron las capacidades de las herramientas de IA visuales y de voz, sino que también redujo los recursos necesarios para utilizarlos (de 175 millones de parámetros para GPT-3 a 900 millones para Difusión Estable).

El tamaño de Stable Diffusion significa menos de 5 gb de espacio en disco, capaz de ejecutarse en cualquier computadora portátil. No solo eso; a diferencia de OpenAI (que está financiado principalmente por Microsoft y publica GPT-3, DALL-E y Whisper), Stable Diffusion es de código abierto, lo que significa que otros pueden aprovechar sus aprendizajes mucho más fácilmente. Eso significa que solo estamos viendo el comienzo del ciclo innovador: hay mucho más por venir, como muestra ahora el artículo de Nvidia.

Los patrocinadores de Stable Diffusion (stability.ai) están impulsando aún más esta tendencia al proporcionar subvenciones tecnológicas y financieras a otros equipos que llevan la exploración hacia nuevas direcciones. Además, una plétora de proyectos está poniendo las herramientas a disposición de una gama cada vez más amplia de usuarios. Entre ellos se encuentran complementos para Blender, una herramienta de diseño de código abierto y el equivalente de Photoshop propiedad de Adobe. El acceso completo a la API de las herramientas se financia con grandes dólares de capital de riesgo, lo que significa que cientos de millones de desarrolladores de software, no solo unos pocos cientos de miles de ingenieros de datos, ahora crearán sus propias herramientas con estos algoritmos.

El habla, las imágenes y el texto se encuentran entre los primeros verticales en ser interrumpidos por estas tecnologías. Pero el 3D no se queda atrás. Más allá del arte generativo de nicho, las caricaturas son el primer punto obvio de aplicación. Ya existe un generador de Pokémon basado en Stable Diffusion. Los efectos visuales y las películas son lo siguiente. Pero es probable que muchos otros sectores se vean afectados, entre ellos el diseño de interiores con Interiorai.com a la cabeza.

En medio de toda esta emoción, la aplicación de las innovaciones al diseño y la ingeniería se siente como una ocurrencia tardía. Sin embargo, es probable que sea el área más afectada en última instancia. Por supuesto, hay desafíos iniciales: por un lado, Stable Diffusion y sus compatriotas aún no son muy precisos. Eso no es un problema para los dibujos animados, pero es un gran desafío para cualquier intento de transformar texto en geometrías 3D completas utilizadas en contextos industriales. Esa es un área que ha tenido un interés incipiente (un proyecto llamado Bits101 se lanzó en Israel en 2015). Este puede ser el santo grial de la industria, pero existen muchos desafíos intermedios que pueden ser mucho más fáciles de resolver. Estos incluyen un reconocimiento de objetos mejorado (el algoritmo de Yolo ya se está utilizando con gran eficacia), lo que conducirá a mejores citas y anotaciones, mejorando la calidad y reduciendo los errores. Los complementos también deberían facilitar el uso de IA generativa para desarrollar diseños básicos (primitivos), que luego se pueden editar más en las herramientas de diseño para mejorar la tolerancia según los requisitos. Ese es un enfoque que ya se usó en Inspire de Altair, que usó el análisis de elementos finitos para hacer lo mismo. Estos Primitivos también pueden servir como base de datos sintética de modelos anotados, de los cuales hay escasez en la industria CAD 3D. CEO y fundador de Physna lo señala en un artículo detallando sus propios intentos de usar estos métodos novedosos para crear diseños 3D detallados, lo que también destaca una serie de dificultades en el uso de datos sintéticos para impulsar estos algoritmos. La creación de diseños 3D a partir de dibujos 2D es otra área de aplicación potencial, al igual que CAM inteligente: biblioteca de desgaste de herramientas para determinar las mejores estrategias de mecanizado.

Estos desafíos son importantes y lucrativos de abordar por sí mismos. Sin embargo, su principal impacto será ayudar a evolucionar el camino de la idea al diseño al reducir en última instancia la dependencia de los diseños 3D para comunicar la intención. Los diseños, ya sean 2D o 3D, han sido el medio principal para traducir las necesidades de los clientes en productos finales. Eso restringe a la industria porque estos diseños sirven como una caja negra en la que se almacenan todos los valiosos conocimientos de los clientes, las restricciones de fabricación y los objetivos de la empresa, que no se pueden desentrañar, pero solo se identifican. Esto significa que cuando algo cambia, es casi imposible simplemente ajustar el diseño. Esta es la razón por la que las innovaciones de fabricación, como la impresión 3D, tardan tanto en adoptarse y siempre decepcionan a los inversores a corto plazo. Los componentes que componen un avión se “fijan” desde el momento en que se diseñan, a pesar de una vida productiva de más de 20 años. Prácticamente no hay posibilidades de innovación; estas deben esperar el lanzamiento de la próxima generación.

Ser capaz de cambiar una sola restricción y permitir que un algoritmo como Stable Diffusion reconstituya los parámetros de diseño y producción acelerará significativamente la adopción de nuevas innovaciones y nos permitirá construir productos más livianos y de mejor rendimiento, más rápido. Al igual que en la Fórmula 1 o el Diseño de Sistemas, los futuros ingenieros actuarán como gestores de restricciones capaces de expresar con palabras y en referencia a las fuentes de datos cuál es el objetivo y las limitaciones del producto.

Sin acelerar el proceso de ingeniería para productos nuevos y existentes de esta manera, casi no tenemos forma de lograr los ambiciosos objetivos de sostenibilidad que debemos establecernos. Para ello, primero debemos acordar un lenguaje que podamos utilizar para comunicarnos más allá de los diseños. Este nuevo modelo semántico es la brecha obvia en las innovaciones descritas anteriormente. Varias empresas ya han comenzado a experimentar con él, como nTopología con sus conceptos de Campos. Y, sin embargo, el ritmo de cambio es lento, a diferencia de los algoritmos que alimentará el modelo semántico. Según los informes, el nuevo algoritmo de Nvidia es más del doble de rápido que SueñoFusión, publicado hace menos de 2 meses. Las empresas de productos e ingeniería deben trabajar para capturar sus ideas en formas nuevas y preparadas para el futuro ahora para aprovechar al máximo las posibilidades que ofrece esta explosión de IA generativa. La velocidad del cambio en los algoritmos ha demostrado, una vez más, que la Ley de Morse se aplica en todos los lugares donde se digitalizan herramientas. El desafío sigue siendo nuestra incapacidad humana para aceptar este cambio y desplegar nuevos métodos de comunicación capaces de desbloquear su potencial, a pesar de la urgencia de la tarea.

Fuente: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/