Avances en visión por computadora Propel Autonomía de transporte

El coche autónomo autónomo reconoce las señales de tráfico. Visión artificial e inteligencia artificial ... [+] concepto.

getty

La visión es una poderosa entrada sensorial humana. Permite tareas y procesos complejos que damos por sentado. Con un aumento en AoT™ (Autonomy of Things) en diversas aplicaciones que van desde el transporte y la agricultura hasta la robótica y la medicina, el papel de las cámaras, la informática y el aprendizaje automático para proporcionar una visión y cognición similares a las humanas se está volviendo significativo. La visión por computadora como disciplina académica despegó en la década de 1960, principalmente en universidades dedicadas al campo emergente de la inteligencia artificial (IA) y el aprendizaje automático. Progresó dramáticamente en las próximas cuatro décadas a medida que se realizaron avances significativos en las tecnologías informáticas y de semiconductores. Los avances recientes en el aprendizaje profundo y la inteligencia artificial han acelerado aún más la aplicación de la visión artificial para proporcionar percepción y cognición del entorno en tiempo real y de baja latencia, lo que permite la autonomía, la seguridad y la eficiencia en diversas aplicaciones. El transporte es un área que se ha beneficiado significativamente.

LiDAR (Light Detection and Ranging) es un enfoque de imagen óptica activa que utiliza láseres para determinar el entorno 3D alrededor de un objeto. Es una de las tecnologías que las soluciones de visión por computadora (que se basan únicamente en la luz ambiental y no usan láseres para la percepción 3D) están tratando de interrumpir. El tema común es que los conductores humanos no necesitan LiDAR para la percepción de profundidad, por lo que tampoco deberían hacerlo las máquinas. Características comerciales actuales de conducción autónoma L3 (autonomía completa en geografías y condiciones climáticas específicas, con el conductor listo para tomar el control en segundos) productos de hoy usar LIDAR. Las técnicas puramente basadas en la visión aún no han podido ofrecer esta capacidad comercialmente.

ANUNCIO

TeslaTSLA
es un defensor dominante del uso de la visión artificial basada en cámaras pasivas para proporcionar autonomía a los vehículos de pasajeros. Durante el reciente evento del Día de la IA de la compañía, Elon Musk y sus ingenieros brindaron una presentación impresionante de su inteligencia artificial, gestión de datos y capacidades informáticas que admiten, entre otras iniciativas, la función Full Self Driving (FSD) en varios modelos de Tesla. FSD requiere que el conductor humano participe en la tarea de conducción en todo momento (lo cual es consistente con la autonomía L2). Actualmente, esta opción está disponible en 160,000 8 vehículos comprados por clientes en EE. UU. y Canadá. Un conjunto de 360 cámaras en cada vehículo proporciona un mapa de ocupación de 75°. Los datos de la cámara (y otros) de estos vehículos se utilizan para entrenar su red neuronal (que utiliza el etiquetado automático) para reconocer objetos, trazar posibles trayectorias de vehículos, seleccionar las óptimas y activar las acciones de control apropiadas. Se han producido ~12 1 actualizaciones de la red neuronal en los últimos 7 meses (~4 actualización cada XNUMX minutos) a medida que se recopilan continuamente nuevos datos y se detectan errores de etiquetado o errores de maniobra. La red capacitada ejecuta acciones de planificación y control a través de una arquitectura redundante integrada de electrónica de cómputo especialmente diseñada. Tesla espera que FSD eventualmente conduzca a vehículos autónomos (AV), que brindan autonomía completa en ciertos dominios de diseño operativo sin necesidad de participación de un conductor humano (también conocida como autonomía LXNUMX).

Otras empresas como Phiar, Helm.ai y NODAR también están siguiendo la vía de la visión artificial. NODAR tiene como objetivo expandir significativamente el rango de imágenes y la percepción 3D de los sistemas de cámaras estéreo aprendiendo a ajustar la desalineación de la cámara y los efectos de vibración a través de algoritmos de aprendizaje automático patentados. Recientemente recaudó $ 12 millones para la producción de su producto insignia, Hammerhead™, que utiliza cámaras de grado automotriz "listas para usar" y plataformas informáticas estándar.

Además del costo y el tamaño, un argumento frecuente en contra del uso de LiDAR es que tiene un alcance y una resolución limitados en comparación con las cámaras. Por ejemplo, los LiDAR con un alcance de 200 m y 5-10 M puntos/segundo (PPS similar a la resolución) están disponibles hoy. A 200 m, pequeños obstáculos como ladrillos o restos de neumáticos registrarán muy pocos puntos (quizás 2-3 en dirección vertical y 3-5 en dirección horizontal), lo que dificultará el reconocimiento de objetos. Las cosas se vuelven aún más gruesas en rangos más largos. En comparación, las cámaras estándar de megapíxeles que funcionan a 30 Hz pueden generar 30 millones de píxeles por segundo, lo que permite un reconocimiento de objetos superior incluso a largas distancias. Las cámaras más avanzadas (12 M píxeles) pueden aumentar esto aún más. El problema es cómo utilizar estos datos masivos y producir una percepción procesable con latencias de milisegundos, bajo consumo de energía y condiciones de iluminación degradadas.

ANUNCIO

reconocer, una empresa con sede en California, está tratando de resolver este problema. Según el CEO Mark Bolitho, su misión es “ofrecer una percepción visual sobrehumana para vehículos totalmente autónomos.” La empresa se fundó en 2017, ha recaudado 75 millones de dólares hasta la fecha y tiene 70 empleados. RK Anand, ex alumno de Juniper Networks, es uno de los cofundadores y director de producto. Él cree que el uso de cámaras de mayor resolución, con un rango dinámico de > 120 dB, funcionando a altas velocidades de cuadro (por ejemplo, OnSemi, Sony y Omnivision) proporciona los datos necesarios para crear información 3D de alta resolución, que es fundamental para realizar AV. Los facilitadores de esto son:

ASIC diseñados a medida para procesar los datos de manera eficiente y producir mapas 3D precisos y de alta resolución del entorno del automóvil. Estos se fabrican en un proceso TSMC de 7 nm, con un tamaño de chip de 100 mm², que funcionan a una frecuencia de 1 GHz.
Algoritmos de aprendizaje automático patentados para procesar millones de puntos de datos fuera de línea para crear la red neuronal entrenada, que luego puede operar de manera eficiente y aprender continuamente. Esta red proporciona la percepción e incluye clasificación y detección de objetos, segmentación semántica, detección de carriles, señales de tráfico y reconocimiento de semáforos.
Minimizar el almacenamiento fuera del chip y las operaciones de multiplicación que consumen mucha energía y generan una alta latencia. El diseño ASIC de Recogni está optimizado para matemáticas logarítmicas y utiliza sumas. Se logran mayores eficiencias al agrupar los pesos de manera óptima en la red neuronal entrenada.

Durante la fase de entrenamiento, se utiliza un LiDAR comercial como verdad sobre el terreno para entrenar datos de cámara estéreo de alto rango dinámico y alta resolución para extraer información de profundidad y hacerla robusta contra la desalineación y los efectos de vibración. Según el Sr. Anand, su implementación de aprendizaje automático es tan eficiente que puede extrapolar estimaciones de profundidad más allá de los rangos de entrenamiento proporcionados por la calibración LiDAR (que proporciona la verdad del terreno a un rango de 100 m).

ANUNCIO

Figura 1: Los cuadros verdes muestran el rendimiento 3D de la pila de percepción de Recogni en datos entrenados al 100 ... [+] rango de metros La flecha azul muestra la percepción de profundidad a distancias más allá de los datos de entrenamiento a 130 m.

reconocer

Los datos de entrenamiento anteriores se realizaron durante el día con un par estéreo de cámaras de 8.3 megapíxeles funcionando a velocidades de cuadro de 30 Hz (~0.5 B píxeles por segundo). Demuestra la capacidad de la red entrenada para extraer información 3D en la escena más allá del rango de 100 m con el que fue entrenada. La solución de Recogni también puede extrapolar su aprendizaje con datos diurnos al rendimiento nocturno (Figura 2).

Figura 2: la pila de percepción de Recogni entrenada con datos diurnos también funciona con un nivel de luz más bajo ... [+] condiciones nocturnas

reconocer

ANUNCIO

Según el Sr. Anand, los datos de rango tienen una precisión de 5 % (en rangos largos) y cerca de 2 % (en rangos más cortos). La solución proporciona 1000 TOPS (billones de operaciones por segundo) con una latencia de 6 ms y un consumo de energía de 25 W (40 TOPS/W), lo que lidera la industria. Los competidores que utilizan matemáticas enteras son > 10 veces más bajos en esta métrica. La solución de Recogni se encuentra actualmente en pruebas en múltiples proveedores automotrices de nivel 1.

Profecía (“predecir y ver dónde está la acción”), con sede en Francia, utiliza sus cámaras basadas en eventos para AV, sistemas avanzados de asistencia al conductor (ADAS), automatización industrial, aplicaciones de consumo y atención médica. Fundada en 2014, la la compañía cerró recientemente su ronda C de financiación de 50 millones de dólares, con un total de $127 millones recaudados hasta la fecha. Xiaomi, fabricante líder de teléfonos móviles, es uno de los inversores. El objetivo de Prophesee es emular la visión humana en la que los receptores de la retina reaccionan a la información dinámica. El cerebro humano se enfoca en procesar los cambios en la escena (especialmente para conducir). La idea básica es usar arquitecturas de cámara y píxeles que detecten cambios en la intensidad de la luz por encima de un umbral (un evento) y proporcionen solo estos datos a la pila de cómputo para su posterior procesamiento. Los píxeles funcionan de forma asíncrona (no enmarcados como en las cámaras CMOS normales) y a velocidades mucho más altas, ya que no tienen que integrar fotones como en una cámara convencional basada en cuadros y esperar a que todo el cuadro termine antes de la lectura de los datos. Las ventajas son significativas: menor ancho de banda de datos, latencia de decisión, almacenamiento y consumo de energía. El primer sensor de visión basado en eventos VGA de calidad comercial de la empresa presentaba un alto rango dinámico (>120 dB), bajo consumo de energía (26 mW a nivel del sensor o 3 nW/evento). También se lanzó una versión HD (alta definición) (desarrollada conjuntamente con Sony), con un tamaño de píxel líder en la industria (< 5 μm).

Figura 3: Sensor de imágenes basado en eventos de formato de alta definición con paso de píxeles de 5 um, desarrollado conjuntamente ... [+] con Sony

Profecía

ANUNCIO

Estos sensores forman el núcleo de la plataforma de detección Metavision®, que utiliza IA para proporcionar una percepción inteligente y eficiente para aplicaciones de autonomía y está siendo evaluada por varias empresas en el espacio del transporte. Además de la percepción orientada hacia adelante para AV y ADAS, Prophesee participa activamente con los clientes para el monitoreo en cabina del controlador para aplicaciones L2 y L3, consulte la Figura 4:

Figura 4: Monitoreo del conductor en cabina XPERI basado en visión neuromórfica inspirada en numan

Profecía

Las oportunidades automotrices son lucrativas, pero los ciclos de diseño son largos. En los últimos dos años, Prophesee ha visto un gran interés y tracción en el espacio de visión artificial para aplicaciones industriales. Estos incluyen conteo de alta velocidad, inspección de superficies y monitoreo de vibraciones.

ANUNCIO

Figura 5: Conteo alto usando cámaras basadas en eventos

Profecía

Prophesee anunció colaboraciones recientemente con los principales desarrolladores de sistemas de visión artificial para aprovechar oportunidades en automatización industrial, robótica, automoción e IoT (Internet de las cosas). Otras oportunidades inmediatas son la corrección de desenfoque de imagen para teléfonos móviles y aplicaciones AR/VR. Estos utilizan sensores de formato más bajo que los que se utilizan para las oportunidades de ADAS/AV a más largo plazo, consumen incluso menos energía y funcionan con una latencia significativamente menor.

Israel es un innovador líder en alta tecnología, con importantes inversiones de riesgo y un entorno activo de puesta en marcha. Desde 2015, se han producido alrededor de $ 70 mil millones en inversiones lideradas por empresas en el sector de la tecnología.. Una parte de esto está en el área de la visión artificial. Mobileye encabezó esta revolución en 1999 cuando Amnon Shashua, un destacado investigador de IA de la Universidad Hebrea, fundó la empresa para centrarse en la percepción basada en cámaras para ADAS y AV. La empresa solicitó una oferta pública inicial en 2014 y fue adquirida por IntelINTC
en 2017 por $ 15 mil millones. Hoy en día, es fácilmente el jugador líder en el dominio AV y de visión por computadora y recientemente anunció su intención de presentar una oferta pública inicial y convertirse en una entidad independiente. Mobileye tuvo ingresos de 1.4 millones de dólares al año y pérdidas modestas (75 millones de dólares). Brinda capacidades de visión por computadora a 50 OEM automotrices que la implementan en 800 modelos de automóviles para capacidades ADAS. En el futuro, tienen la intención de liderar la autonomía del vehículo L4 (no se requiere conductor) utilizando esta experiencia de visión por computadora y capacidades LiDAR basadas en la plataforma de fotónica de silicio de Intel. La valoración de Mobileye se estima en ~ $ 50 mil millones cuando finalmente se hagan públicos.

ANUNCIO

Champel-Capital, con sede en Jerusalén, está a la vanguardia de la inversión en empresas que desarrollan productos basados en visión artificial para diversas aplicaciones, desde transporte y agricultura hasta seguridad y protección. Amir Weitman es cofundador y socio gerente y comenzó su empresa de riesgo en 2017. El primer fondo invirtió $ 20 millones en 14 empresas. Una de sus inversiones fue en Innoviz, que se hizo pública a través de una fusión con SPAC en 2018 y se convirtió en un unicornio LiDAR. Dirigido por Omer Keilaf (quien provenía de la unidad de tecnología del Cuerpo de Inteligencia de las Fuerzas de Defensa de Israel), la compañía hoy es líder en implementaciones de LiDAR para ADAS y AV, con múltiples logros de diseño en BMW y Volkswagen.

El segundo fondo de Champel Capital (Impact Deep Tech Fund II) se inició en enero de 2022 y ha recaudado $30 millones hasta la fecha (el objetivo es $100 millones para fines de 2022). Un enfoque dominante está en la visión por computadora, con $ 12 millones desplegados en cinco empresas. Tres de estos utilizan la visión artificial para el transporte y la robótica.

TanqueU, con sede en Haifa, comenzó a operar en 2018 y ha recaudado $ 10 millones en fondos. Dan Valdhorn es el director ejecutivo y se graduó de la Unidad 8200, un grupo de élite de alta tecnología dentro de las Fuerzas de Defensa de Israel responsable de la inteligencia de señales y el descifrado de códigos. Los productos SaaS (software como servicio) de TankU automatizan y protegen los procesos en entornos exteriores complejos que dan servicio a vehículos y conductores. Estos productos son utilizados por propietarios de flotas de vehículos, automóviles privados, estaciones de carga eléctrica y de combustible para evitar robos y fraudes en transacciones financieras automatizadas. Los servicios de combustible para vehículos generan ~2 billones de dólares en ingresos globales al año, de los cuales los propietarios de flotas de vehículos privados y comerciales consumen el 40 % o 800 100 millones de dólares. Los minoristas y los propietarios de flotas pierden ~XNUMX millones de dólares al año debido a robos y fraudes (por ejemplo, al usar una tarjeta de combustible de flotas para vehículos privados no autorizados). El fraude CNP (Card not present) y la manipulación/robo de combustible son fuentes adicionales de pérdida, especialmente cuando se usan detalles de tarjetas robadas en aplicaciones móviles para pagos.

ANUNCIO

El producto TUfuel de la compañía facilita el pago seguro con un solo toque, bloquea la mayoría de los tipos de fraude y alerta a los clientes cuando sospecha un fraude. Lo hace en base a un motor de IA entrenado en datos de CCTV existentes en estas instalaciones y datos de transacciones digitales (incluidos POS y otros datos de back-end). Parámetros como la trayectoria y la dinámica del vehículo, la identificación del vehículo, el tiempo de viaje, el kilometraje, el tiempo de repostaje, la cantidad de combustible, el historial de combustible y el comportamiento del conductor son algunos de los atributos que se supervisan para detectar fraudes. Estos datos también ayudan a los minoristas a optimizar el funcionamiento del sitio, mejorar la fidelidad de los clientes e implementar herramientas de marketing basadas en la visión. Según el CEO Dan Valdhorn, su solución detecta el 70 % de la flota, el 90 % de las tarjetas de crédito y el 70 % de los eventos de fraude relacionados con la manipulación.

Figura 6: TUfuel utiliza datos en tiempo real de las cámaras CCTV de las estaciones de combustible y otros datos digitales de ... [+] Punto de servicio y actividades de aplicaciones móviles

TanqueU

sonol es una empresa de servicios de energía que posee y opera una red de 240 estaciones y tiendas de conveniencia en todo Israel. TUfuel se implementa en sus sitios y ha demostrado seguridad mejorada, prevención de fraude y lealtad del cliente. Se están realizando pruebas de productos en los EE. UU. en colaboración con un proveedor líder mundial de equipos para estaciones de servicio y tiendas de conveniencia. Iniciativas similares también están en marcha en África y Europa.

ANUNCIO

con sede en Tel-Aviv ITC fue fundada en 2019 por académicos de aprendizaje automático de la Universidad Ben-Gurion. ITC crea productos SaaS que “mida el flujo de tráfico, prediga la congestión y mitíguela mediante la manipulación inteligente de los semáforos, antes de que comiencen a formarse atascos”. Similar a TankU, utiliza datos de cámaras estándar (ya instaladas en numerosas intersecciones de tráfico) para obtener datos de tráfico en vivo. Se analizan los datos de miles de cámaras en una ciudad y se extraen parámetros como el tipo de vehículo, la velocidad, la dirección del movimiento y la secuencia de los tipos de vehículos (camiones frente a automóviles) mediante la aplicación de algoritmos de IA patentados. Las simulaciones predicen el flujo de tráfico y posibles situaciones de atasco de tráfico con hasta 30 minutos de antelación. Los semáforos se ajustan utilizando estos resultados para suavizar el flujo de tráfico y evitar atascos.

Figura 7: Los datos de miles de cámaras son compilados por un VMS dentro de un control de tráfico de la ciudad ... [+] habitación. Los servidores de ITC procesan estos datos a través de algoritmos de IA capacitados para controlar los semáforos.

ITC

Entrenar el sistema de IA requiere un mes de datos visuales en una ciudad típica e implica una combinación de aprendizaje supervisado y no supervisado. La solución de ITC ya está implementada en Tel-Aviv (en el puesto 25 entre las ciudades más congestionadas del mundo en 2020), con miles de cámaras instaladas en cientos de intersecciones controladas por semáforos. Actualmente, el sistema de ITC gestiona 75 XNUMX vehículos, y se espera que siga creciendo. La empresa está instalando un capacidad similar en Luxemburgo y está iniciando pruebas en las principales ciudades de EE. UU. A nivel mundial, su solución gestiona 300,000 vehículos con sitios operativos en Israel, EE. UU., Brasil y Australia. A Dvir Kenig, el CTO, le apasiona resolver este problema: devolver a las personas su tiempo personal, reducir los gases de efecto invernadero, mejorar la productividad general y, lo que es más importante, reducir los accidentes en las intersecciones congestionadas. Según el Sr. Kenig, “Nuestros despliegues demuestran una reducción del 30 % en los atascos de tráfico, lo que reduce el tiempo improductivo de conducción, el estrés, el consumo de combustible y la contaminación”.

ANUNCIO

Robótica de interior fue Fundada en 2018 y recientemente recaudó $ 18 millones en fondos. La empresa, con sede cerca de Tel-Aviv, Israel, desarrolla y vende soluciones de drones autónomos para la vigilancia de la seguridad, la protección y el mantenimiento en interiores. El CEO y cofundador, Doron Ben-David, tiene una importante experiencia en robótica y aeronáutica acumulada en el IAI.IAI
(un importante contratista principal de defensa) y MAFAT (una organización de investigación avanzada dentro del Ministerio de Defensa de Israel), que es similar a DARPA en los Estados Unidos. Las crecientes inversiones en edificios inteligentes y mercados de seguridad comercial alimentan la necesidad de sistemas autónomos que puedan usar la visión por computadora y otras entradas sensoriales en espacios comerciales interiores pequeños y grandes (oficinas, centros de datos, almacenes y espacios comerciales). Indoor Robotics apunta a este mercado mediante el uso de drones de interior equipados con cámaras comerciales y sensores de rango térmico e infrarrojo.

Figura 8: La flota de drones autónomos de Indoor Robotics puede alimentarse a sí misma a través de un techo ... [+] azulejo de acoplamiento. El puente de control de Tando procesa los datos y controla la ruta de vuelo

Robótica de interior

Ofir Bar-Levav es el director comercial. Él explica que la falta de GPS ha impedido que los drones de interior se localicen dentro de los edificios (generalmente GPS denegado o inexacto). Además, faltaban soluciones de acoplamiento y alimentación convenientes y eficientes. Indoor Robotics aborda esto con cuatro cámaras montadas en drones (arriba, abajo, izquierda, derecha) y sensores de rango simple que mapean con precisión un espacio interior y su contenido. Los datos de la cámara (las cámaras proporcionan datos de localización y mapeo) y los sensores térmicos (también montados en el dron) son analizados por un sistema de inteligencia artificial para detectar posibles problemas de seguridad y mantenimiento y advertir al cliente. Los drones se alimentan a sí mismos a través de una "placa de acoplamiento" montada en el techo, lo que ahorra un valioso espacio en el piso y permite la recopilación de datos mientras se carga. Las ventajas financieras de automatizar estos procesos mundanos donde el trabajo humano es complejo y costoso en términos de reclutamiento, retención y capacitación son evidentes. El uso de drones aéreos frente a robots terrestres también tiene ventajas significativas en términos de costos operativos y de capital, mejor uso del espacio en el piso, libertad para moverse sin encontrar obstáculos y eficiencia en la captura de datos de la cámara. Según el Sr. Bar-Levav, el TAM (mercado total direccionable) de Indoor Robotics en sistemas de seguridad inteligente para interiores será de $ 80 mil millones para 2026. Las ubicaciones clave de los clientes en la actualidad incluyen almacenes, centros de datos y campus de oficinas de corporaciones globales líderes.

ANUNCIO

La visión por computadora está revolucionando el juego de la autonomía: en la automatización del movimiento, la seguridad, el monitoreo inteligente de edificios, la detección de fraudes y la gestión del tráfico. El poder de los semiconductores y la IA son habilitadores poderosos. Una vez que las computadoras dominan esta increíble modalidad sensorial de manera escalable, las posibilidades son infinitas.

Fuente: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/