Se ha publicado en GitHub un proyecto que extrae los textos de una imagen, al estilo de un OCR pero con unos resultados realmente impresionantes.

Hay muchas herramientas que convierten los textos en imágenes pero dificultando su lectura, el objetivo de estas técnicas es la de ocultar los textos tanto para los usuarios como para los bots.

Aplicaciones como PhotoHide, Facepixelizer, Fotor y muchas otras se utilizan para ocultar partes de imágenes y fotos. Los principales editores de fotos integran la función de pixelado como un efecto para aplicar sobre cualquier imagen.

Dan Petro, investigador de Bishop Fox, una empresa estadounidense que se ocupa de la seguridad informática, ha demostrado que es posible leer el texto oculto en las fotos pixeladas al publicar el código fuente de una aplicación que permite averiguar la información oculta o de difícil lectura.

Todo comenzó como un desafío en agosto de 2021 por Jumpsec Labs: se invitó a los académicos de todo el mundo a "despintar" una larga serie de caracteres publicados al final de un artículo.

Dan Petro fue el primero en conseguirlo junto con la colaboración de Bishop Fox, compartió el proyecto llamado Unredacter en GitHub.

Los investigadores destacan que la técnica de pixelar información para protegerla es insegura debido a las nuevas técnicas de inteligencia artificial. De momento, la única manera de proteger algunas zonas de la imagen es simplemente colocando un rectángulo de color completamente opaco sobre la información a ocultar, y sin guardar el archivo en un formato que admita el uso de capas. La imagen siempre debe tratarse como una imagen: no debes trabajar con un procesador de textos o software para editar archivos PDF. En el caso de los documentos PDF, por ejemplo, muchos todavía cometen el error de aplicar un parche negro sobre el contenido a ocultar, sin darse cuenta de que simplemente están añadiendo una capa sobre el texto que seguirá estando presente. Los programas como ABBYY FineReader son capaces de obtener el texto de inmediato.

El equipo de Google Brain presentó anteriormente una herramienta para reconstruir imágenes pixeladas gracias al aprendizaje profundo y la inteligencia artificial, pero es la primera vez que se presenta una solución funcional y efectiva para leer textos ocultos con pixelado.

El proyecto Depix ya existía, también alojado en GitHub, pero según Petro no ofrecería resultados fiables en "escenarios reales".

Fuente: BishopFox/unredacter