A medida que los deepfakes son más fáciles de hacer y más prolíficos, se les presta más atención. Los deepfakes se han convertido en el centro de los debates sobre la ética de la IA, la desinformación, la apertura de la información y de Internet, y la regulación. ¿Qúe son los Deepfaces?, ¿Cómo funcionan? ¿Es moral hacer deepfakes?
¿Qué son los Deepfakes? ¿Qué quiere decir deepfake en español?
El deepfake es una nueva forma de alterar las imágenes en el ordenador para que parezca que la persona de la imagen está haciendo algo que no es. Su nombre viene del inglés Deep (profundo) y fake (falso).
El software deepfake utiliza la inteligencia artificial y el aprendizaje automático para crear vídeos falsos convincentes.
Se puede utilizar para crear vídeos de personas que hacen cosas que nunca hicieron, como celebridades o políticos diciendo o haciendo cosas que nunca dijeron o hicieron. También puede utilizarse para otros fines, como hacer más realistas las escenas de una película o cambiar la cara de alguien en un vídeo porno sin que lo sepa.
En los últimos años, los deepfakes se han hecho cada vez más populares en Reddit y 4chan para realizar bromas y pornografía.
La gran confusión que existe con los Deepfakes
Antes de seguir hablando de los deepfakes, sería útil tomarse un tiempo para aclarar qué son realmente los "deepfakes". Existe una gran confusión con respecto al término Deepfake, y a menudo el término se aplica erróneamente a cualquier medio de comunicación falsificado, independientemente de si es o no un verdadero deepfake. Para ser considerado un Deepfake, el medio falsificado en cuestión debe ser generado con un sistema de aprendizaje automático, concretamente con una red neuronal profunda.
El ingrediente clave de los deepfakes es el aprendizaje automático. El aprendizaje automático ha hecho posible que los ordenadores generen automáticamente vídeo y audio de forma relativamente rápida y sencilla. Las redes neuronales profundas se entrenan con imágenes de una persona real para que la red aprenda cómo se ven y se mueven las personas en las condiciones ambientales deseadas.
A continuación, la red entrenada se utiliza en imágenes de otro individuo y se aumenta con técnicas gráficas adicionales para combinar la nueva persona con la grabación original. Se utiliza un algoritmo codificador para determinar las similitudes entre el rostro original y el rostro objetivo. Una vez aislados los rasgos comunes de los rostros, se utiliza un segundo algoritmo de IA llamado decodificador.
El decodificador examina las imágenes codificadas (comprimidas) y las reconstruye basándose en las características de las imágenes originales. Se utilizan dos decodificadores, uno en la cara del sujeto original y el segundo en la cara de la persona objetivo.
Para realizar el intercambio, el decodificador entrenado en las imágenes de la persona X recibe las imágenes de la persona Y. El resultado es que el rostro de la persona Y se reconstruye sobre las expresiones faciales y la orientación de la persona X.
¿Cuánto tarda en hacerse un Deepfake?
En la actualidad, la realización de un deepfake sigue llevando bastante tiempo. El creador de la falsificación tiene que dedicar mucho tiempo a ajustar manualmente los parámetros del modelo, ya que los parámetros subóptimos darán lugar a notables imperfecciones y fallos en la imagen que delatan la verdadera naturaleza de la falsificación.
Aunque a menudo se asume que la mayoría de los deepfakes se hacen con un tipo de red neuronal llamada red generativa adversarial (GAN), muchos (quizás la mayoría) de los deepfakes creados hoy en día no se basan en GANs. Aunque las GAN desempeñaron un papel destacado en la creación de los primeros deepfakes, la mayoría de los vídeos deepfake se crean mediante métodos alternativos.
Se necesita una cantidad desproporcionada de datos de entrenamiento para entrenar un GAN, y los GAN suelen tardar mucho más en renderizar una imagen en comparación con otras técnicas de generación de imágenes. Los GAN también son mejores para generar imágenes estáticas que vídeos, ya que los GAN tienen dificultades para mantener la consistencia de un fotograma a otro. Es mucho más común utilizar un codificador y múltiples decodificadores para crear deepfakes.
¿Para qué se utilizan los deepfakes?
Muchos de los deepfakes que se encuentran en línea son de naturaleza pornográfica. Según una investigación, de una muestra de aproximadamente 15.000 videos deepfake tomados en septiembre de 2019, aproximadamente el 95% de ellos eran de naturaleza pornográfica. Una implicación preocupante de este hecho es que, a medida que la tecnología se vuelve más fácil de usar, los incidentes de porno falso por venganza podrían aumentar.
Sin embargo, no todas las deepfakes son de naturaleza pornográfica. Hay más usos legítimos para la tecnología de deepfake. La tecnología de deepfake de audio podría ayudar a las personas a emitir sus voces habituales después de haberlas dañado o perdido debido a una enfermedad o lesión. Los deepfakes también pueden utilizarse para ocultar los rostros de personas que se encuentran en situaciones delicadas y potencialmente peligrosas, pero permitiendo que se lean sus labios y expresiones. La tecnología de deepfakes puede utilizarse para mejorar el doblaje de las películas en idiomas extranjeros, ayudar a reparar medios antiguos y dañados, e incluso crear nuevos estilos de arte.
Deepfakes en video, fotos y audio
Aunque la mayoría de la gente piensa en vídeos falsos cuando oye el término "deepfake", los vídeos falsos no son en absoluto el único tipo de medios falsos producidos con la tecnología deepfake. La tecnología deepfake se utiliza también para crear falsificaciones de fotos y audio. Como se ha mencionado anteriormente, los GAN se utilizan con frecuencia para generar imágenes falsas. Se cree que ha habido muchos casos de perfiles falsos de LinkedIn y Facebook que tienen imágenes de perfil generadas con algoritmos de deepfake.
También es posible crear deepfakes de audio. Las redes neuronales profundas están entrenadas para producir clones de voz/imágenes de voz de diferentes personas, incluyendo celebridades y políticos.
Cómo detectar los deepfakes
A medida que los deepfakes se vuelven más y más sofisticados, distinguirlos de los medios comunes será cada vez más difícil. En la actualidad, hay algunos signos reveladores que se pueden buscar para determinar si un vídeo es potencialmente un deepfake, como una mala sincronización de los labios, un movimiento poco natural, un parpadeo en el borde de la cara y la deformación de detalles finos como el pelo, los dientes o los reflejos. Otros posibles signos de deepfake son las partes de menor calidad del mismo vídeo y el parpadeo irregular de los ojos.
Aunque estos signos pueden ayudar a detectar un deepfake por el momento, a medida que la tecnología de deepfake mejore, la única opción para una detección fiable de deepfake podría ser otro tipo de IA entrenada para distinguir las falsificaciones de los medios reales.
Las empresas de inteligencia artificial, incluidas muchas de las grandes compañías tecnológicas, están investigando métodos para detectar deepfakes.
Otros grupos de investigadores, como un grupo de investigadores combinados de Google y Jigsaw, están trabajando en un tipo de "forense facial" que puede detectar vídeos que han sido alterados, haciendo que sus conjuntos de datos sean de código abierto y animando a otros a desarrollar métodos de detección de deepfakes. La mencionada Dessa ha trabajado en el perfeccionamiento de las técnicas de detección de deepfakes, tratando de garantizar que los modelos de detección funcionen con vídeos de deepfakes encontrados en la naturaleza (en Internet) y no sólo con conjuntos de datos de entrenamiento y prueba precompuestos, como el conjunto de datos de código abierto que proporcionó Google.
También hay otras estrategias que se están investigando para hacer frente a la proliferación de deepfakes. Por ejemplo, una estrategia consiste en comprobar la concordancia de los vídeos con otras fuentes de información. Se pueden hacer búsquedas de vídeos de sucesos potencialmente tomados desde otros ángulos, o se pueden comprobar los detalles de fondo del vídeo (como los patrones meteorológicos y las localizaciones) para detectar incongruencias. Además, un sistema de libro mayor en línea Blockchain podría registrar los vídeos cuando se crean inicialmente, conservando su audio e imágenes originales, de modo que siempre se pueda comprobar si los vídeos derivados han sido manipulados.
En definitiva, es importante que se creen métodos fiables de detección de deepfakes y que estos métodos de detección se mantengan al día con los nuevos avances en la tecnología de deepfakes. Aunque es difícil saber con exactitud cuáles serán los efectos de los deepfakes, si no existen métodos fiables para detectar los deepfakes (y otras formas de medios falsos), la desinformación podría correr como la pólvora y degradar la confianza de la gente en la sociedad y las instituciones.
¿Cuáles son los peligros de permitir que los deepfakes proliferen sin control?
Uno de los mayores problemas que crean los deepfakes en la actualidad es la pornografía no consentida, creada mediante la combinación de rostros de personas con vídeos e imágenes pornográficas. A los expertos en ética de la IA les preocupa que los deepfakes se utilicen cada vez más en la creación de pornografía falsa por venganza. Más allá de esto, los deepfakes podrían utilizarse para intimidar y dañar la reputación de casi cualquier persona, ya que podrían utilizarse para colocar a las personas en escenarios controvertidos y comprometedores.
Empresas y especialistas en ciberseguridad han expresado su preocupación por el uso de deepfakes para facilitar estafas, fraudes y extorsiones. Supuestamente, el audio deepfake se ha utilizado para convencer a los empleados de una empresa de que transfieran dinero a los estafadores
Es posible que los deepfakes tengan efectos perjudiciales incluso más allá de los mencionados. Los deepfakes podrían erosionar la confianza de la gente en los medios de comunicación en general y dificultar la distinción entre las noticias reales y las falsas. Si muchos vídeos en la web son falsos, es más fácil para los gobiernos, las empresas y otras entidades poner en duda controversias legítimas y prácticas poco éticas.
Cuando se trata de gobiernos, los deepfakes pueden incluso suponer una amenaza para el funcionamiento de la democracia.
La democracia requiere que los ciudadanos sean capaces de tomar decisiones informadas sobre los políticos basándose en información fiable.
La desinformación socava los procesos democráticos. Por ejemplo, el presidente de Gabón, Alí Bongo, apareció en un vídeo intentando tranquilizar a la ciudadanía gabonesa.
Se suponía que el presidente estaba enfermo desde hacía mucho tiempo, y su repentina aparición en un vídeo probablemente falso desencadenó un intento de golpe de Estado.
El presidente Donald Trump afirmó que una grabación de audio en la que se le veía presumiendo de agarrar a las mujeres por los genitales era falsa, a pesar de que también la describió como "charla de vestuario".
En definitiva, aunque la tecnología deepfake tiene usos legítimos, hay muchos daños potenciales que pueden surgir del mal uso de esa tecnología. Por esa razón, es extremadamente importante que se creen y mantengan métodos para determinar la autenticidad de los medios de comunicación.