La visión artificial[1] –una cultura visual paralela desarrollada por máquinas, para máquinas– está poniendo a prueba los límites de lo que consideramos pensamiento.
En su ensayo de 1987 “Can Thought Go On Without A Body?”, el filósofo Jean-François Lyotard ve el pensamiento como algo inseparable del cuerpo; el cuerpo es un hardware en el cual el software –el pensamiento– existe. El hardware, sin embargo, puede volverse defectuoso, mientras que el software puede ser actualizado y transferido a otro huésped. Examinaré aquí si en el campo de la visión artificial, representada por las Redes Generativas Adversarias (GANs)[2], se ofrece un desafío a la afirmación de Lyotard de que el pensamiento y el cuerpo son inseparables, y al hacerlo discutiré sobre los límites de este tipo de inteligencia artificial.
El teórico y urbanista Paul Virilio ha caracterizado nuestra era como una que está marcada por la “aceleración de la realidad”. De acuerdo con Virilio, esta aceleración ha automatizado no solo la producción, sino también los poderes de toma de decisiones. La pregunta de si el pensamiento puede ser separado del cuerpo no es nueva, pero a la luz del diagnóstico de Virilio sobre las condiciones de automatización del presente, se ha vuelto urgente.
La historia del desarrollo tecnológico conspira hacia el desplazamiento del cuerpo humano. En La máquina de la visión (1994), Virilio esboza una historia de la vista que ha apuntado a volver al ojo inerte: desde la creación de los lentes artificiales “la movilidad del ojo se vuelve fija”. El autor concluye que la “sociedad se está hundiendo en la oscuridad de una ceguera voluntaria”. Esta no es una ceguera física, sino la incapacidad para pensar y sentir. El campo de la visión ha sido objeto de la “aceleración de la realidad”, y esto lleva a Virilio a afirmar en La administración del miedo (2012) que “hemos alcanzado los límites de la instantaneidad, los límites del pensamiento humano”. Nótese que esto no es el fin del pensamiento, sino el fin del pensamiento humano. La implicación es que el pensamiento sigue adelante y puede ser extraído del cuerpo.
¿Cómo luce la separación exitosa del pensamiento y el cuerpo? Para responder esta pregunta observaré las posibilidades de la visión artificial, específicamente examinando cómo las imágenes son creadas por las GANs. Se puede ver que esta tecnología opera dentro del campo de la visión artificial, que es un área de la tecnología descrita por Virilio, donde “las imágenes son creadas por las máquinas para las máquinas”.
Este tipo de creación de imágenes es un campo de estudios creciente, particularmente a medida que la visión artificial prolifera, especialmente en forma de cámaras de vigilancia y drones. A través de mi investigación general en tecnologías GANs y visión artificial, he podido extraer sus efectos en la visión humana y probar si esto da evidencia a la afirmación de que “los límites del pensamiento humano” han sido alcanzados y si podrían, por lo tanto, ser separados del cuerpo.
La académica Jill Walker Rettberg define la visión artificial como un proceso de “registro, análisis y representación de la información visual por las máquinas”. Afirma que “las tecnologías pre-digitales como las cámaras nos dieron una muestra de cómo las máquinas perciben el mundo, pero hoy los algoritmos van incluso más allá al impulsarnos a ver a las máquinas como seres que perciben con agencia”. De modo similar, el artista Trevor Paglen afirma en Imágenes invisibles (tus imágenes te están mirando)[3] que las imágenes que estas tecnologías crean y hacen circular han creado un “paisaje de imágenes invisibles” del cual “los humanos raramente están al tanto”.
Plagen afirma que las imágenes digitales son legibles por máquinas, mientras que las películas sin revelar no lo son; la diferencia es que una imagen digital no necesita “convertirse en una forma legible por los humanos para que una máquina pueda hacer algo con ella” y por lo tanto puede circular indiscriminadamente, permitiendo la “automatización de la visión a una enorme escala”. Paglen dice que esta tecnología es un proceso de “activaciones y operaciones” en lugar de ser representacional y, como Rettenberg, proporciona agencia a la visión artificial.
¿Representan las GANs a un ser que percibe? Este tipo de aprendizaje maquínico puede ser categorizado dentro del campo de la inteligencia artificial y ha sido discutido bastante desde el lanzamiento de “Generative Adversarial Nets” (2014) por Ian Goodfellow et al. La tecnología se describe como un aprendizaje maquínico semi-supervisado y diseñado para generar nuevos datos que son indiscernibles y esencialmente diferentes a los datos de entrenamiento. Las GANs son dos redes neuronales conocidas como Descriptor (D) y Generador (G) que se entrenan en un conjunto de datos y luego se ponen en juego uno contra el otro, donde G está intentando engañar a D para que confunda los datos generados con los datos de entrenamiento.
Los datos que se proporcionan a las GANs pueden ser, según Goodfellow, los que representan “imágenes, formas de onda de audio que contienen voz y símbolos en corpus de lenguaje natural”. La forma que adoptan los datos en el artículo de Goodfellow es la de una imagen, y muchos otros han seguido su ejemplo. En el artículo de Goodfellow del 2014, las GANs son capacitadas en conjuntos de datos como imágenes. El uso de estas imágenes para representar datos es usado por Goodfellow para ilustrar simple y rápidamente cómo las GANs pueden generar nuevos datos. La evolución del proceso en la generación de nuevos datos se presenta en una tabla de imágenes (véase Fig. 1) que conducen al resultado final deseado de una nueva imagen, que es casi idéntica al conjunto de datos que fueron dados. Las imágenes previas a la columna final muestran la evolución de cómo se entrenó la tecnología.
Estas imágenes pueden ser clasificadas como ejemplos de la visión artificial, imágenes “creadas por las máquinas para las máquinas”. La columna final muestra el resultado del proceso y puede ser un ejemplo para Rettberg donde “la visión de la máquina se vuelve primaria, con los humanos sólo siendo notificados cuando la máquina identifica algo que ha sido percibido como valioso o peligroso”. Es aquí donde las GANs pueden ser vistas como parte de la aceleración de la realidad con el proceso de toma de decisiones siendo diferido a la autonomía de las máquinas.
La aceleración de la realidad también se crea con la circulación de imágenes que son tanto vistas como no vistas por los humanos. Paglen afirma que son estas imágenes invisibles las que dictan cada vez más nuestro entorno, convirtiendo a la cultura visual en opaca e incomprensible. Las imágenes que podrían clasificarse como visión artificial componen, junto con otras tecnologías visuales, el “paisaje de imágenes invisibles” y se encuentran en operaciones industriales, en la “aplicación de leyes y en las ciudades ‘inteligentes’” y:
“se extienden mucho más allá hacia lo que, de otra manera y algo ingenuamente, pensaríamos como cultura visual de humano a humano. Aquí me refiero al trillón de imágenes que los humanos compartimos en plataformas digitales, las que a primera vista parecen estar hechas por humanos para otros humanos”.
Las imágenes invisibles para Paglen predominan en la cultura digital y todas pueden ser utilizadas como armas dependiendo de dónde estén circulando. En lo que se refiere a Facebook, Paglen afirma que cuando una foto es cargada el usuario está “alimentando una serie de sistemas de inteligencia artificial inmensamente poderosos con información sobre cómo identificar a las personas”. Han habido llamados para mantenernos informados sobre este nuevo modo de visualidad y actualizar nuestros métodos de ver.
Un sitio web dedicado a esta tarea es thispersondoesnotexist.com. La plataforma muestra el rostro de una persona que nunca ha existido, hecha por un tipo de GAN (Véase Fig. 2). Cuando el usuario actualiza la página, se ofrece otra cara completamente distinta, de nuevo de alguien que nunca ha existido. La página web tiene la intención de ser una herramienta pedagógica. El diseñador de la plataforma afirma que “este sitio ayuda a educar instantáneamente al público sobre un tema importante en inteligencia artificial llamado GANs”.
Si se observa lo suficientemente cerca, estos retratos llevan rastros de haber sido fabricados por GANs a través de restos del lado invisible para la visión artificial. Estos restos son típicamente encontrados en la periferia de la imagen. En la Fig. 2, el rostro de una mujer a primera vista pasa fácilmente como humano, pero inspeccionando más de cerca, parece haber sido creado con GANs. Si observamos los hombros, principalmente en su parte superior, cada uno tiene formas incongruentes que rompen la figura de un cuerpo tradicional. Los colores dicroicos del cintillo se derriten, extendiéndose hacia el cabello; el lóbulo de la oreja izquierda es iridiscente y muestra la cabeza fusionándose con el fondo. Mientras el fondo del retrato podría estar claramente fuera de foco, la ruptura alrededor del borde de la figura da la impresión de que el fondo está sangrando sobre el rostro, a través del cabello, la oreja izquierda y los hombros. Aquí los restos invisibles de la visión artificial persisten y actúan como ruido sobre el resto de los datos.
Esta imagen es un producto de la visión artificial y también es parte de un paisaje invisible de imágenes; con sus restos de tecnología invisibles, crea una estética aparentemente ahistórica que resuena con lo que Plagen sostiene como “formas de ver cada vez más autónomas que guardan poca relación con la cultural visual del pasado”. El énfasis aquí se está desplazando hacia la necesidad de limpiar el terreno, de crear un nuevo lenguaje visual para recibir estas imágenes. Sin embargo, ¿no hay un recurso plausible para nociones históricas y actuales de visualidad, en lugar de una ruptura cismática con ella?
Volviendo a las imágenes creadas en thispersondoesnotexist.com, algunas de estas reflejan tropos históricos del arte. Observando el rostro en la Fig. 3, por ejemplo, el retrato juega con el tropo de la mise en abyme, que se traduce literalmente como “puesta en abismo”. La incapacidad de las GANs para renderizar algo que se parezca adecuadamente al espacio antropomórfico se muestra en el reflejo de las gafas de sol en la Fig. 3. El reflejo presenta un paisaje verde-púrpura que parece sugerir comienzos originarios y futuros distópicos.
El reflejo en las gafas muestra los restos del lado invisible para las GANs. El efecto describe una situación dentro de otra cosa, y en el cánon del arte occidental es un reconocimiento autorreflexivo de las preocupaciones más amplias dentro de una obra. El efecto tiene como objeto eludir el antagonismo central de la obra y, para simplificar, tiende a resaltar una lucha por el poder o ubicación de la autoridad.
Por ejemplo, en El Matrimonio Arnolfini (1434) de Van Eyck, que representa a una pareja recién casada tomados de la mano de pie a cada lado de un espejo convexo, el reflejo muestra que la escena estaba siendo presenciada por otros. Fue en esta reflexión del espejo que el historiador del arte Erwin Panofsky reconoció la evidencia de una forma de contrato matrimonial. Las Meninas (1656) de Velázquez representan una escena de la corte de Felipe IV. El espejo en el centro de la pintura proporciona el reflejo de Felipe IV y su esposa, y su presencia en la pintura, como la historiadora del arte Svetlana Alpers señala, “es un asunto oblicuo” que demuestra que “el orden está producido por actos de representación”. En ambas instancias, el reflejo demuestra la sutil manifestación de la hegemonía: El Matrimonio Arnolfini muestra la fuerza de la emergente familia nuclear burguesa, y Las Meninas el inminente proyecto del imperio.
Lo que está reflejado aquí en los lentes, sería tentador decir, es la creciente omnipotencia de la inteligencia artificial y su habilidad para volverse alpha y omega mediante la creación de un mundo hostil y vacío de humanidad. Sin embargo, ¿qué representa el paisaje alienígena reflejado en un nivel más práctico? Es un error. Eso es, revela que la imagen es un rostro humano falsificado y proporciona una puerta para discernir la procedencia de la imagen.
Para ir más lejos, este reflejo es de hecho una mirada interior hacia el juego entre D y G, donde G intenta sin cesar engañar a D para que confunda nuevos datos con datos de entrenamiento; la imagen dentro del reflejo es entonces el resto invisible de las GANs, el intento de producir nuevos datos. Este tipo de imagen está fuera de la clasificación de datos de entrenamiento o datos nuevos, y entraría en la categoría de ruido o distorsión. The New Penguin Dictionary of Computing establece que el ruido es definido como una señal aleatoria que perturba “cualquier señal deseada” y puede ser “causada por la estática, la temperatura, las fuentes de energía, los campos eléctricos, las estrellas o el sol”. El ruido en general ocurre cuando información no deseada interfiere con lo que está siendo presentado, y la distorsión se refiere a un cambio no deseado o pérdida de información.
Las imágenes de GANs son representaciones de datos y mantienen entre ellas instancias de ruido, como las que están reflejadas en los lentes. Mientras estas imágenes son representaciones de datos, ellas también son sólo eso: imágenes. Como el historiador del arte John Berger dijo, una imagen puede ser definida como:
“Una vista que ha sido recreada o reproducida, es una apariencia, o un conjunto de apariencias, que han sido separadas del lugar y tiempo en el que aparecieron por primera vez y se conservaron”.
Crucialmente, luego agrega:
“Cada imagen encarna un modo de ver. Incluso una fotografía. Porque las fotografías no son, como a menudo se supone, un registro mecánico. Cada vez que miramos una fotografía, somos conscientes, aunque ligeramente, del fotógrafo seleccionando esa vista desde una infinidad de otras vistas posibles”.
Lo importante es lo que se selecciona. Lo que ha sido seleccionado en las imágenes GANs proviene de la estructura del sitio web que le muestra al espectador lo que es “valioso”. La selección denota para Berger una forma para ver que conlleva formas de conocimiento y pensamiento. Al seleccionar los datos para que se vuelvan una imagen, el sitio web revela el proceso invisible de la visión artificial como un proceso de intercambio de datos, y también lo revela como un proceso de circulación de ruido y distorsión. La exclusión del término “dato” de la discusión de imágenes creadas y puestas en circulación por las tecnologías de la visión artificial permite que la agencia y la intencionalidad se atribuyan al proceso para el cual están programadas. El oscurecimiento de los datos en la discusión sobre la visión artificial permite verlos únicamente como un proceso de la automatización de la visión. Sin embargo, este es también el proceso de la automatización de datos –la mayoría de los cuales son ruido que debe seleccionarse para convertirse en otra cosa–. La importancia está en el proceso de selección más que de circulación, que depende de la organización, grupo o persona que selecciona.
Esto no es para decir que las tecnologías de visión artificial no son preocupantes. Plagen nos señala útiles ejemplos del poder de la visión artificial y su impacto negativo en la vida de las personas. Sin embargo, no es su poder lo que perturba, sino nuestro sacrificio a este. Lewis Mumford, escribiendo en 1932, dice que este sacrificio no es contingente, sino históricamente continuo:
“Al renunciar a una gran parte de su humanidad, el hombre podría alcanzar la divinidad; él despertó en este segundo caos y creó la máquina a su propia imagen; la imagen del poder, pero el poder se desprendió de su carne y se aisló de su humanidad”.
Para crear poder tecnológico, sacrificamos la creencia en nuestro propio poder, individual y colectivo; este es el poder no solo para hacer que los que están en el poder rindan cuentas, sino de intervenir dentro de las estructuras legislativas y democráticas. El argumento de Plagen es que este tipo de intervención está más allá de nosotros, ya que las grandes empresas y Estados tienen el control de la tecnología y no hay una:
“‘solución’ técnica para la exacerbación de las desigualdades políticas y económicas que la cultura visual invisible esté preparada para fomentar. Para mediar contra las optimizaciones y depredaciones de un paisaje maquínico, uno debe crear ineficiencias deliberadas y esferas de vida alejadas de las depredaciones políticas y del mercado–‘casas seguras’ en la esfera digital invisible”.
Los potenciales usos nefastos de la visión artificial y su capacidad de pasar de lo representativo a lo material, en el sentido en que pueden “intervenir en la vida cotidiana”, significa que el peligro debería ser confrontado. En un ambiente de drones, softwares de reconocimiento facial y lectores de matrículas de autor, esta intervención parece positivamente distópica.
Plagen sostienen que esta intervención de tecnologías de visión artificial “sirve a los poderosos intereses corporativos y gubernamentales a expensas de las poblaciones vulnerables y la vida cívica”. Aquí, suma estas imágenes a un resultado material que, sorprendentemente o no, ha sido históricamente reproducido ad infinitum. Lo que es interesante es que él afirma que la producción humana ha sido separada del cuerpo: “la cultura visual… se ha desprendido de los ojos humanos y en gran medida se ha vuelto invisible”.
En La administración del miedo, el entrevistador pregunta: “¿[Está] la pérdida de lugar unida a la pérdida del cuerpo?” Virilio responde afirmativamente y dice que “las personas deben transferir su poder de decisión a respuestas automáticas”. La creencia de Virilio de que el cuerpo ha sido desplazado por la tecnología da la posibilidad de separar el pensamiento del cuerpo y permite que el pensamiento se traslade a la tecnología. Este desplazamiento evoca la fantasía del exterior, en forma de “casas seguras” digitales o, de otro modo, negando el cuerpo político y postulando una red purificada e imaginaria lejos de los beneficiarios humanos de las fuerzas hegemónicas.
Pareciera inicialmente que las GANs han separado el pensamiento del cuerpo. Su poder de creación de imagen supera todo lo que un humano podría hacer. Combinado con su habilidad de evadir la detección humana de falsificación por completo, y su posibilidad de ampliación, las GANs pueden ser muy poderosas.
Para evitar lecturas sobredeterminadas del poder de la visión artificial, es útil basar las imágenes que crean y los datos que hacen circulan, dentro de consideraciones políticas y económicas más amplias. En los ejemplos analizados, las imágenes, cuando se ven en su forma original como representación de datos, tienen cualidades de ruido y distorsión y reflejan y alimentan consideraciones más amplias de desinformación y disimulación.
Ciertas formulaciones de visión artificial no presentan una pérdida radical de autonomía humana, sino que proporcionan algo de ruido en el que se esconden la responsabilidad humana y organización colectiva. En última instancia, la creencia de que se han alcanzado los “límites del pensamiento humano”, cede la criticidad humana a aquellos con medios tecnológicos, en todos los diversos aspectos que toma.
Esto no debería convertirse en una búsqueda por la des-aceleración y reducción de interacción tecnológica. Debería ser una conciencia de las condiciones políticas y económicas en las que la tecnología avanzada, como la visión artificial, existe, y cómo se interactúa con ella. Ciertos hilos de discusión sobre la tecnología la presentan como radicalmente ajena a la humanidad, como una pregunta por los límites del pensamiento, no porque estén o puedan ser separados de la figura humana, sino porque sus estructuras humanas son difíciles de ver y discernir, así como consideradas demasiado difíciles de superar.
© Strelka Mag. Marzo 2020. Traducido por Vania Montgomery y editado por Departamento Estudio de los Medios. Ver publicación original.
[1] Nota del editor. El autor usa la frase “visión máquina-máquina” y “visión artificial” de manera equivalente. Para efectos de esta traducción hemos preferido la última versión del término.
[2] Nota del editor. La frase original en inglés es Generative Adversarial Networks (GANs).
[3] Nota de DEM: El título original es Invisible Images (Your Pictures Are Looking at You).