Visión Artificial en el día a día
Después de mucho tiempo en el que he tenido que dedicarme a desarrollos y proyectos con diferentes clientes, retomo el blog con un post que recopila una serie de artículos publicados en LinkedIn centrados en como la visión artificial se puede encontrar en muchos aspectos de la vida diaria. Los temas a tratar en cada artículo son: Visión artificial en actividades diarias, Visión artificial en las redes sociales y Visión artificial en el deporte y las retransmisiones deportivas.
Asimismo, dichos artículos han sido desarrollados en colaboración con TrainOnTech.
Visión artificial en actividades diarias
Todos los desarrollos que nos podemos encontrar a lo largo de estos años afectan en mayor o menor medida a nuestra vida diaria, aunque nuestro trabajo no tenga que ver con la industria. Por ejemplo, el tándem Edge Computing-Visión Artificial es uno que llevamos tiempo usando desde hace más de una década y que solemos llevar habitualmente en el bolsillo.
De hecho, una definición de Edge Computing es la de llevar la potencia computacional y el análisis cada vez más cerca de donde se generan los datos, resolviendo problemas de latencia o accesibilidad en la red. Así que, aunque hay muchos servicios que siguen usando la nube, la verdad es que disponemos en el móvil de una gran potencia y de todos los elementos que componen un sistema de visión artificial.
Así, en mi desempeño como ingeniero y desarrollador trabajo con cámaras, iluminación y algoritmos de forma habitual, pero me he dado cuenta de que la visión artificial ya no es algo que se circunscriba sólo al sector industrial, donde lleva tiempo aplicándose en procesos automatizados, si no que en la última década gracias al abaratamiento del hardware, al aumento exponencial de la potencia y (desde hace menos tiempo) a la irrupción de la inteligencia artificial, esta tecnología nos envuelve y nos acompaña casi sin que nos demos cuenta en nuestro día a día. Además, una mayor facilidad a la hora del desarrollo ha ampliado su aplicación a nuevos sectores.
Por supuesto, no solo estamos hablando del software que modifica las imágenes, sino también del hardware, pues no nos olvidemos que la visión artificial no incluye solo los algoritmos o el código, elementos como el sensor o la óptica son indispensables para su existencia. Mencionemos algunos ejemplos que nos podemos encontrar a lo largo de, por ejemplo, el día de hoy:
- La, cada vez mayor, calidad de la cámara de los móviles. Sin su capacidad actual no se podrían obtener tan buenos resultados al aplicar los diferentes algoritmos. Pero no solo es la resolución de las cámaras, las ópticas integradas o una mayor sensibilidad del sensor, han dotado a los móviles de una gran capacidad para obtener imágenes de alta calidad.
- Realidad aumentada. Aunque encuentro muchos ejemplos más bien centrados en el ocio, esta tecnología no deja de ser la aplicación de muchos conceptos existentes en visión artificial, siendo una de las tecnologías más prometedoras y con mayor potencial que nos podemos encontrar hoy en día.
- Reconocimiento facial. Esta tecnología, gracias en mayor medida a la IA, se usa en la adquisición de imágenes en muchas cámaras o también para el desbloqueo instantáneo de los móviles u ordenadores.
- Retoque fotográfico en las redes sociales. Es algo que hacen millones de personas día a día, toman una foto y le aplican un filtro para compartirlo en las redes con diferentes estilos. ¿Qué es sino ese filtro un algoritmo que modifica los píxeles de nuestra imagen y los convierte para obtener otra imagen con una serie de modificaciones?
- Aplicaciones de traducción desde imágenes. Google Translate puede que sea la más famosa, pero hay varias aplicaciones similares. Simplificando un poco, lo que nos encontramos aquí es una versión hipervitaminada de un OCR (Optical Character Recognition).
- Retransmisiones deportivas. Si estamos viendo un partido de fútbol nos encontramos con una superposición de imágenes para mostrarnos información propia del partido (movimientos de jugadores, estrategias…) o elementos de publicidad perfectamente integrados con el entorno. Quizás no nos hemos dado cuenta, pero entra en juego software propio de un sistema de visión artificial.
- Vehículos autónomos. Aunque no es algo todavía muy habitual en nuestras calles, sí es muy reconocible, integrando una enorme carga de visión artificial, tanto en el número de cámaras instaladas, como en los algoritmos encargados de reconocer los diferentes elementos de las carreteras.
Visión artificial en las redes sociales
Siguiendo un poco el guion que nos acerca al uso de visión artificial en más situaciones de las que creíamos, vamos a hablar un poco en este apartado de cómo se usa el análisis de imágenes en las redes sociales. Aunque en este caso comprobaremos que la mayor parte de los efectos o modificaciones usan Inteligencia artificial para obtener el resultado que se quiere.
Aquí podemos encontrar varios elementos. Por ejemplo, el móvil es capaz de detectar las características de nuestra cara mediante reconocimiento facial y saber la posición de ojos, nariz y cara y, además, hacerlo en tiempo real. De este modo, es capaz después de modificar la foto superponiendo diferentes imágenes o agrandar y disminuir características de nuestra cara de forma automática.
¿Quién no se ha hecho un selfie usando algún filtro que existen en las diferentes apps? Hay infinidad de ejemplos como el conocido efecto Bokeh, que es la generación de fondos fotográficos borrosos. En el caso de cámaras tradicionales, el efecto es físico, sin embargo, en los smartphones este efecto es generado por un algoritmo. Es uno de los ejemplos en los que los efectos que se conseguían mediante las propias cámaras, se consiguen ahora de forma sencilla mediante algoritmos que modifican las imágenes.
Otro caso es el efecto avatar, la generación de avatares animados a partir de imágenes de personas reales. Actualmente es muy usado en las redes sociales.
También se aplica Inteligencia Artificial, en este caso Deep Learning, a la hora de «envejecer» virtualmente a una persona, mostrando como se podría ver en el futuro. De hecho, fue un ejemplo que se hizo viral hace algunos años.
Las mismas empresas tecnológicas tienen herramientas que facilitan este análisis. Un ejemplo es la herramienta de Google, Cloud Vision, una API (Application Programming Interface) que permite analizar cientos de imágenes y ayuda en la extracción de información o en la detección de objetos o diferentes características. Entre sus posibilidades tenemos:
- Face Detection permite detectar caras, puntos de referencia en ellas (ojos, boca…) e incluso inferir las emociones de las personas.
- Text Detection es usada en muchas aplicaciones para obtener texto de la imagen mediante el uso de OCR (Optical Character Recognition).
- Safe Search Detection, algoritmo usado para detectar contenido inapropiado en imágenes.
Nos encontramos también posibilidades más interesantes. Por ejemplo, hay ciertas características de accesibilidad que reconocen que es lo que hay en las imágenes (clasifican automáticamente caras, expresiones, objetos, logos de empresas…) y lo ponen en conocimiento del usuario mediante voz, empleando tecnología de reconocimiento de objetos con un modelo entrenado. Muy útil para las personas con problemas de visión.
Aparte de los usos dentro de la propia red, además hay una gran cantidad de investigaciones científicas que usan todas las imágenes provenientes de las redes sociales: investigación sobre la obesidad, análisis de las imágenes publicadas durante una crisis o catástrofe o la capacidad para detectar el estado de ánimo de las personas. ¿Y esto por qué es? porque la mayor parte de las imágenes que se comparten a través de internet están incrustadas o embebidas dentro de algún tipo de red social.
También existen herramientas software en el propio móvil, sin el uso de la nube como TopShot, algoritmo que mediante inteligencia artificial es capaz de detectar cual es la mejor foto que se ha adquirido dentro de una ráfaga, teniendo en cuenta cosas como si la imagen está borrosa o si la gente que hay en la imagen está sonriendo o tiene los ojos cerrados.
Visión artificial en el deporte y las retransmisiones deportivas
En el primer apartado, hemos podido comprobar la introducción de software de visión artificial en nuestro día a día. Hemos visto que uno de los casos más habituales son las retransmisiones deportivas, en las que se aplica normalmente la Inteligencia Artificial, específicamente Deep Learning, gracias sobre todo a la ingente cantidad de datos existentes en las últimas décadas, con miles de horas de partidos grabados de diferentes deportes y que sirven como datasets a las plataformas de Inteligencia Artificial.
La necesidad actual de mostrar y consumir datos, esa avidez por la información y de una mayor rapidez en mostrarlo es caldo de cultivo para potenciar el uso de visión artificial en este sector: Tracking de jugadores u objetos, mostrar información (como distancias o velocidades) y estadísticas a lo largo del partido son unos pocos ejemplos de las posibilidades.
Otro uso dentro de las retransmisiones es la inclusión de publicidad mezclándose con el evento de modo no intrusivo. De hecho, la publicidad mostrada es diferente dependiendo del país en el que se emite.
El caso es que no solo es aplicable a las retransmisiones en sí, sino también en la mejora táctica y de estrategia en deportes de equipo, o mejora en la técnica en deportes individuales o de pareja. También la seguridad es un objetivo para este tipo de desarrollos, mediante la monitorización de los espectadores y la detección de comportamientos extraños.
Además, el uso ya no solo se centra en mostrar análisis, movimientos o trayectorias de los jugadores si no que es pieza clave en el arbitraje actual en el caso del fútbol mediante el uso del VAR (Video Assisted Refereeing), que, aunque siempre susceptible a decisiones humanas, sí que aporta el grado de conocimiento necesario para comprobar reglas históricamente polémicas y de difícil decisión como el fuera de juego.
Os dejo un link con papers en Open Access centrados en deportes. Como curiosidad, incluso hay un paper centrado en ESports, específicamente en el videojuego «League Of Legends»: Computer Vision in Sports – Open Access
Conclusión
A lo largo del post se han mencionado una serie de ejemplos que se me han ocurrido para cada caso, pero seguro que hay más que nos podemos encontrar. ¿Se os ocurren más posibilidades?
Además, en el caso de las actividades deportivas, se plantean una serie de preguntas para el futuro. ¿Llegará el día en el que no sea necesario un árbitro humano en la toma de decisiones? ¿O incluso en el entrenamiento de un deportista? ¿Qué opináis?