Mi e-Oasis

Una ofrenda entrópica de mis experiencias.

Creative Commons License
Obra bajo licencia de Creative Commons
Mi e-Oasis

Reconocimiento de imágenes: usuarios, segmentos de usuarios, gestos, emociones y empatía.

2007-06-28 · Sin comentar

Reconocimiento de usuarios y segmentos de usuarios

La primera vez que oí hablar de técnicas de reconocimiento de imágenes, fue en el contexto de la identificación de objetivos potenciales en aplicaciones militares. La unidad operativa porta un conjunto de imágenes de los potenciales objetivos y realizaba una correlación cruzada de éstas con las imágenes captadas en tiempo real por varias cámaras de características y precisión adecuadas, o con una imagen compuesta por la mezcla de datos de las distintas cámaras. Cuando se obtenía una identificación positiva, esta era marcada y comunicada al sistema de seguimiento y/o al operador humano para que tomara decisiones al respecto. Los factores a considerar en general serían los siguientes:

  1. Número de potenciales positivos. Los posibles blancos y anti-blancos son un conjunto limitado de imágenes (centenares).
  2. Características del flujo de imágenes a analizar. Normalmente el reconocimiento se puede hacer a distintas distancias y suele existir cierta capacidad de reacción.
  3. Calidad de la identificación. Por fuerza alto para evitar falsos positivos o daños colaterales.
  4. Presupuesto disponible. Ilimitado en la práctica.

La segunda vez que oí hablar de estas técnicas fue en el contexto de la realización de aplicaciones de ayuda a la navegación marítima y aérea para implementar sistemas de ayuda de aterrizaje o sistemas de detección de obstáculos. Los requisitos de esta aplicación eran menores que en el primer caso.

La tercera vez que oí hablar de estas técnicas fue en el contexto de la lucha antiterrorista y la lucha contra el crimen, y se trataba de sistemas donde de lo que se trataba era de detectar personas en situación de busqueda y/o captura. Sin ser excesivamente distinto en este caso el problema era más complicado, ya que:

  1. Número de potenciales positivos. En este caso el número de búsquedas era mucho mayor y además se multiplicaba dado que cada candidato podría modificar en mayor o menor medida su aspecto.
  2. Características del flujo de imágenes a analizar. En este caso el flujo de imágenes es más complejo, ya que existen muchos más problemas de perspectiva y de movilidad de los elementos que componen las imágenes, por lo que el flujo de las mismas es mucho mayor.
  3. Calidad de la identificación. Este requisito, por suerte, se alivia, dado que en principio basta con aderezar la identificación con un parámetro de calidad no necesariamente alto que permita, a la vez que presentar una alerta al operador del sistema para que realice acciones preventivas, realizar un refinamiento de la identificación.
  4. Presupuesto disponible. Como antes, ilimitado en la práctica.

En este contexto ya surgió la idea de no realizar la correlación cruzada en una primera instancia, sino de realizarla en una segunda instancia sobre un subconjunto de potenciales positivos por otras técnicas. Entre estas técnicas primarias lo que se pretende es:

  1. Identificar entidades a las que aplicar técnicas de identificación.
  2. Extraer datos de interés de estas entidades detectadas.
  3. Comparar el conjunto de datos de interés de cada una de estas entidades con los de la base de datos de búsquedas.

Aunque esto se hizo sobre todo para minimizar el coste temporal asociado a la realización de todas las posibles correlaciones cruzadas, abrió un mundo de posibilidades, pues, en el fondo, supone una categorización de las características de los elementos búscados, para realizar un examen semántico de la información capturada en bruto, lo que permite realizar secuencias como la siguiente (un ejemplo comercial interesante es la gama de cámaras inteligentes SONY IPELA, que, por cierto, no me dan un céntimo por hacerles publicidad ;^D):

  1. Identificación, clasificación y etiquetado de tipos de entidades de interés presentes en las imágenes capturadas.
  2. Para cada sub-imagen etiquetada, refinamiento de la identificación a través de la jerarquía de clases asociada (por ejemplo en el caso de una persona podría ser: raza, sexo, edad e individuo en base a parámetros extraídos) y obtención del dato de calidad de la identificación.
  3. Por último, para las entidades que superen un umbral de calidad en esta identificación, se daría paso a las políticas de actuación en paralelo a procesos de identificación más costosos.

Las consecuencias son muy interesantes en el campo comercial, ya que sería posible, por ejemplo:

  1. Detectar comportamientos en entidades: Una entidad móvil abstracta se etiqueta para realizar un seguimiento y se detecta, por ejemplo, que se divide en dos, una que sigue siendo móvil y otra más pequeña que queda inmóvil. ¿Será una persona que olvida una maleta, un intercambio en una operación de tráfico de drogas, alguien que deja una bomba en alguna instalación pública?
  2. Detectar perfiles de usuario en una instalación comercial: Supongamos que sólo nos interesan personas y contabilizar en cada momento del día la distribución de los potenciales clientes en un centro comercial en base a su sexo (hombre, mujer) y edad (niño, joven, adulto, anciano). Esto permitiría al centro comercial desarrollar una estrategia de micro-marketing adaptativa en tiempo real, al permitir adaptar su política de promociones, ofertas y horas felices en base a este dato origen, e incluso detectar el efecto de la publicidad analizando la evolución geográfica de estos flujos de personas y el efecto sobre las ventas del producto anunciado (¿se ha producido un flujo del segmento de mercado deseado pero no han aumentado las ventas?).

Este segundo ejemplo es además interesante porque en ningún momento se almacenan datos que puedan ser asociados a un individuo por lo que no incumple la LOPD. Además, en ambos casos, al no precisar cálculos duros de correlación, se reducen las prestaciones necesarias, lo que creo redundará en una progresiva popularización de su aplicación.

Reconocimiento de gestos, emociones y empatía

Cuando ya tenemos enfocada la entidad de interés, si esta es una persona, se abren nuevas posibilidades en dos terrenos que clasificaré como:

  1. Interactividad: La interfaz de usuario puede ganar mucho en interactividad, ya que una vez reconocido el usuario, sería posible utilizar los movimientos de su mano o los gestos que realice con su cara para interactuar con el sistema, y es fácil entender las ventajas que ésto puede tener en general, pero sobre todo las que puede tener para personas que temporalmente o de forma permanente sufran alguna discapacidad. A modo de ejemplo citaré el proyecto HeadDev patrocinado por la Fundación Vodafone España y la Fundación para la Integración de Discapacitados en Red.
  2. Proactividad: Si enfocamos el uso de esta tecnología hacia la implementación de interfaces de usuario, vemos que puede aportar mucho en pos de ganar empatía con el mismo. No sólo existen muchos trabajos de investigación orientados a la detección de emociones, sino, y esto es lo que me parece más interesante, a la detección de transiciones entre emociones, lo que puede dotar a las GUI’s de ese plus que les otorgue una mayor calidez, del don de la empatía

Por último quiero destacar a un grupo de investigación cuyas actividades me parecen de lo más interesante y que poseen el know-how para abordar todo este tipo de aplicaciones. Se trata del grupo FRAV del DAC de la URJC, liderado por el Dr. Enrique Cabello Pardos. Si estáis interesados en el estado del arte de estas técnicas y muchas cosas más creo que ellos son un referente.

Adenda:

Ver más ténicas y tecnologías que vienen para quedarse aquí.

Tags: I+D+I · Mercados · TIC

Sin comentarios de momento ↓

  • Aún no hay comentarios. ¿Quiere ser el primero?

Deje un comentario