Facebook te reconoce como la madre que te parió
En 2010 Facebook incorporó a su red la tecnología de reconocimiento facial para que a los usuarios les resultara más sencillo etiquetar sus fotos. Así, cuando uno colgaba una fotografía recibía automáticamente sugerencias de etiquetado por parte de la red social. Sin embargo y a diferencia de lo que sucedió en EEUU, en la Unión Europea no se terminó de ver con buenos ojos y, así, dos años después se obligaría a retirar esa funcionalidad por defecto. De este modo, era el propio usuario el que dentro de sus opciones de privacidad podía elegir ser o no identificado.
¿Qué tecnología se encontraba detrás de esta prestación? El reconocimiento facial, que en las dos últimas décadas ha evolucionado hasta el punto de que ha reducido su margen de error por tres. Ahora, desde el departamento de Inteligencia Artificial de Facebook, en colaboración con la Universidad de Tel Aviv, se podría dar un paso de gigante.
Si la precisión del ojo humano para reconocer rostros se calcula próxima al 97,5%, la tecnología desarrollada por la compañía de Mark Zuckerberg, bautizada como DeepFace, ha alcanzado el 97,25%... algo que da qué pensar, más aún tras su implicación en los casos de espionaje de la NSA.
La técnica empleada por Facebook para alcanzar estos niveles de precisión tiene mucho que ver con el 3D. En todo proceso de reconocimiento facial se suceden varias fases: detección – alineación – representación – clasificación. Pues bien, el equipo de desarrollo ha introducido el modelado 3D en los pasos de alineación y representación, dando lugar a una representación facial basada en una red neuronal multicapa con más de 120 millones de parámetros.
DeepFace no es estático, sino que aprende y toma referencia de conjuntos de datos faciales de miles y miles de individuos. Esa es otra de las grandes diferencias respecto a otros sistemas de reconocimiento facial: su capacidad de aprendizaje (‘deep learning’ (DL) a partir de los valores en bruto a nivel de pixel. Para ello utiliza tres capas diferentes según los tres canales RGB (Rojo, Verde y Azul), extrayendo así hasta el más mínimo detalle, incluso, los más leves de textura.
Esta técnica supera la tasa de error en otros software, que todavía acusan variaciones como la iluminación, los gestos de expresión o, incluso, el envejecimiento, lo que afecta a su precisión. La tecnología comienza con un alineamiento 2D en el que se detectan seis puntos centrados en los ojos, la punta de la nariz y la boca. Con ellos se puede escalar, rotar y traducir la imagen en localizaciones de tres anclajes. Cuando se aplique el modelado 3D, se alcanzarán hasta los 67 puntos de anclaje (imagen 6).
Las pruebas realizadas con DeepFace sobre distintos conjuntos de datos hablan por sí solas:
- SFC (Social Face Classification): 4.4 millones de caras etiquetadas de 4.030 personas con entre 800 y 1.200 referencias por cada individuo de una popular red social (presumiblemente Facebook, claro). Margen de error: 8,7%.
- LFW (Faces in the Wild): 13.323 fotografías de 5.749 famosos. Margen de error: 2,5%. Utilizando sólo el 2D se incrementaba hasta 5,7%.
- YTF (You Tube): 3.425 vídeos de 1.595 sujetos. Margen de error de 7,5%, lo que reduce en más de un 50% los métodos habituales.
¿Qué tecnología se encontraba detrás de esta prestación? El reconocimiento facial, que en las dos últimas décadas ha evolucionado hasta el punto de que ha reducido su margen de error por tres. Ahora, desde el departamento de Inteligencia Artificial de Facebook, en colaboración con la Universidad de Tel Aviv, se podría dar un paso de gigante.
Si la precisión del ojo humano para reconocer rostros se calcula próxima al 97,5%, la tecnología desarrollada por la compañía de Mark Zuckerberg, bautizada como DeepFace, ha alcanzado el 97,25%... algo que da qué pensar, más aún tras su implicación en los casos de espionaje de la NSA.
La técnica empleada por Facebook para alcanzar estos niveles de precisión tiene mucho que ver con el 3D. En todo proceso de reconocimiento facial se suceden varias fases: detección – alineación – representación – clasificación. Pues bien, el equipo de desarrollo ha introducido el modelado 3D en los pasos de alineación y representación, dando lugar a una representación facial basada en una red neuronal multicapa con más de 120 millones de parámetros.
DeepFace no es estático, sino que aprende y toma referencia de conjuntos de datos faciales de miles y miles de individuos. Esa es otra de las grandes diferencias respecto a otros sistemas de reconocimiento facial: su capacidad de aprendizaje (‘deep learning’ (DL) a partir de los valores en bruto a nivel de pixel. Para ello utiliza tres capas diferentes según los tres canales RGB (Rojo, Verde y Azul), extrayendo así hasta el más mínimo detalle, incluso, los más leves de textura.
Esta técnica supera la tasa de error en otros software, que todavía acusan variaciones como la iluminación, los gestos de expresión o, incluso, el envejecimiento, lo que afecta a su precisión. La tecnología comienza con un alineamiento 2D en el que se detectan seis puntos centrados en los ojos, la punta de la nariz y la boca. Con ellos se puede escalar, rotar y traducir la imagen en localizaciones de tres anclajes. Cuando se aplique el modelado 3D, se alcanzarán hasta los 67 puntos de anclaje (imagen 6).
Las pruebas realizadas con DeepFace sobre distintos conjuntos de datos hablan por sí solas:
- SFC (Social Face Classification): 4.4 millones de caras etiquetadas de 4.030 personas con entre 800 y 1.200 referencias por cada individuo de una popular red social (presumiblemente Facebook, claro). Margen de error: 8,7%.
- LFW (Faces in the Wild): 13.323 fotografías de 5.749 famosos. Margen de error: 2,5%. Utilizando sólo el 2D se incrementaba hasta 5,7%.
- YTF (You Tube): 3.425 vídeos de 1.595 sujetos. Margen de error de 7,5%, lo que reduce en más de un 50% los métodos habituales.
Sin comentarios