Artificial Intelligence
人工智能图像世界
安德里亚斯·穆勒–波勒
[German | English | French | Polish | Slovenian]
我们时代最重大的变革即从自然智能转向人工智能,而这一划时代进程的中心是一种既让人熟悉又值得信赖的媒介:摄影。
一家位于旧金山的非营利性研究机构“人工智能安全中心“(Center for AI Safety)向公众发出严正警告:“人工智能带来的灭顶之灾”应与大流行病和核战争等全球重大议题获得同等级别的关注。数百位知名专家签署了该声明,包括深度学习领域的先驱之一杰弗里·辛顿(Geoffrey Hinton)。最近他结束了与谷歌的长期合作,以便能直言不讳地谈论人工智能所引发的生存威胁。那是在2023年5月。
警示者与绥靖者
辛顿是批判人工智能最著名的声音之一,他警告这种技术打着创造无害文本和图像的幌子,然则却可能颠覆构成西方价值体系的一切。我们甚至无需远观未来,考察当下动态足矣。现在的情况已足够令人困惑。此刻,警示者正与绥靖者针锋相对,后者认为这一切都是炒作,是过眼云烟,甚至只是三十年前数字革命的一声嗝响,不应再让我们惊恐。
我们为何要害怕它?人工智能已经出现在几乎每台设备和每个复杂精妙的软件应用中,难以想象社会中任何与技术相关的领域离开它会是怎样。无论是医疗诊断、语言处理还是工业机器人技术,它都能在日常生活和工作中为我们提供帮助——但它是伪装的,像病毒一样隐秘地传播,直到完全控制了受感染的身体才罢休。
2022年末,ChatGPT横空出世,引发全球轰动。该程序能基于海量训练数据生成语言——并非任何形式上的语义理解,而是纯粹从形式上和统计上根据学习的句法结构生成语言。至此,人工智能生成的文本数量猛增,其中最不引人注意的是邮件和商业应用。它们已被用于创作小说和诗歌。没错,甚至还有戏剧。
几个月前,像DALL-E 2、Midjourney和Stable Diffusion等智能生成器震撼了图像世界,它们可以根据文本输入或所谓的提示(prompts)生成图像。视频和声音生成器也正在赶来征服感官世界的路上——几十种程序和工具,仅仅处于发展初期,已让人惊叹和不安。
人工智能的历史可追溯至上世纪中叶,但直到现在才开始冲我们猛烈发难,这主要与三个因素有关:社交媒体、线上商务和其他领域所产生的海量数据(大数据);新型图形处理器和储存技术带来的硬件性能的快速提升;以及机器学习,尤其是深度学习领域的进步。
超级黑盒
当前人工智能成指数级发展,首先归功于自学习系统的进步——这些系统可以根据自身经验不断改善性能,从而实现自我加速,这对启动过程的可控性造成了无法估量的后果。
神经网络的复杂性几乎无穷无尽,而推动其发展的研究速度也在不断加快,这使人工智能成为一种新的黑盒。即使其原型(摄影设备),也是一台只有通过技术知识才能理解的暗箱。下一阶段的计算机,将内部运行掩盖在代码的阴影里,唯其程序员(新文人和文士阶层)可控制。人工智能呢?它工作时,就连它的创造者也不能完全了解其运作方式或原理:一个超级黑盒。
在许多领域,这无关痛痒;而在另一些领域,如自动驾驶,则关乎存亡。在一个黑盒中做出生死攸关的决定——这种想法理所当然让我们感到恐惧。这也是人工智能的伦理症结所在:不穿透人工智能的工作流程,没有人工智能的可规划性与可追溯性,保护我们的有效规则和法律就无从谈起。
这些规则和法律在摄影界,尤其是应用摄影领域引起了激烈的争论,而对视这些规则和法律为典范的众多行业来说,人工智能的新潜能正推翻它们的立足之基。处于焦点的摄影,其专长——生产照相图像——可预见地将不再为商业应用所需要,而其资本——图像与作者的权利——亦将在眨眼间消失殆尽。
模拟摄影
两个世界的图像相互碰撞:一方是通过相机进行的摄影,一方是通过计算机生成图像;这边是光的图像,那边是数据的图像。它们是两个最不对等的兄妹。现在正在被人工智能算法吞噬和消化的数据,是历史记忆中累积起来的估计超过12万亿幅的照片(加上所有其他类型的图像),它们沉淀下来成为可供使用的海量数据。
新的人工智能图像与以往截然不同,我们不能再称之为“摄影“。我们所熟悉的照片,无论是模拟的还是数字的,无论是用照相机还是用智能手机拍摄的,都是捕捉光影的产物,是外部世界的光学印记,其基础是人类行动者的感官知觉及其与外部世界直接的、主要的、真实的关系。照片是四维时空的二维切片;照片本身是分析性的。
相反,人工智能图像是神经算法和统计处理数据的产物。它与外部世界的关系是间接的、次要的、衍生的。它可以模拟摄影,但无法体现摄影:一种基于人类演员的心智输入及其与世界的搬演关系的图像。[1]人工智能图像是其他二维表面数据的二维蒙太奇;它们本身是合成的。
新词汇尚未建立。给摄影添加诸如智能、生成或算法等定语会进入死胡同,因为即使是正确的定语也无法挽救一个错误的名词。已有人建议将“合成影像(synthography)”和“提示影像(promptography)”作为备选;让我们拭目以待,看谁会最终胜出。
从光影图像到数据图像的过渡伴随着作者的消失——这一次是永远的消亡。因为如果每张新图像都是由已有图像合成的,那么每张已有图像的创作者都能成为新图像的潜在作者——哪怕只是微不足道的,哪怕是像海洋中的一滴血一样被顺势稀释了。
真实与概率
人工智能的视觉世界标志着数字化进入了一个全新的阶段。从20世纪90年代这一进程开始,摄影就显然扮演了关键角色。
最深远的社会后果是真实的衰落,而真实是摄影曾经与自然科学携手并肩建立起来的堡垒。一个半世纪以来,正是摄影让我们习惯于相信眼睛。我们所有的怀疑,我们对摄影图像人工的、建构的、搬演的特征的所有理论洞察,都无法摧毁这样一种观念,即照相机是一台真实机器,为我们提供可靠又可信的文献与证据。
这种对真实的天真信念随着摄影的数字化而破灭。曾经连接摄影与外部世界的模拟线被切割成碎片,现在可以随意重新组合、计算。真实不再是图像的一个自动的、技术上有保证的特征,而变成一个新闻诚信——某些媒体、机构和个人拥有无懈可击声誉——的问题。
从那时起,我们需要一种新的社会计算法,这种计算法用概率取代真实;而今天,面对人工智能,这种计算法又给我们带来了全新的挑战。因为一旦我们所熟悉的摄影受到侵蚀,一旦它被边缘化和粉碎,一旦我们对世界的印象被越来越多的杜撰、虚构和虚假的建构所扭曲,甚至自由文明也会受到威胁。其内在关联是基于一个双重共识:图像的可信性与科学的可信性。当图像的可信性失效,科学也会受到影响,正如我们在气候危机中看到的那样:只有在干旱、洪水和冰川融化的图像出现后,气候危机才会存在。
人工智能能图像——重申一遍——不是照片。它们可以伪装成照片,就像照片曾经伪装成现实一样。这是一个质的飞跃,它不仅证明我们有理由且要求我们谈论一些革命性的新事物。
审美与政治媚俗
看看人工智能图像的网站和频道,有时会让人不寒而栗。嘶嘶作响,冒着气泡,就像在女巫的厨房里。令人毛骨悚然的怪兽形象与健壮的超级躯体并立,马儿在客厅里奔跑,大象一般的狗……无穷无尽的庸俗和无稽之谈,造型完美却又如此千篇一律和冗余,让人不禁要问,备受吹捧的摄影创造力的拓展究竟从何而来。目前,你必须穷尽大海捞针般的心力才能寻得一二。人工智能的合并本性几乎不可避免地导致图像领域的庸俗化,人工智能以其所有空洞的和二手的图像——这似乎是其悖论——首先制造的是人工愚昧。
与审美媚俗相对应的是政治媚俗,后者凝滞并重塑了社会话语,其存在于意识形态的暗堡、泡沫和回音室中,里面流传着幻觉、另类和任意编造的现实。乍看之下,两种媚俗似乎毫不相关,但它们有一个共同的——如非唯一的——原因:确定性和真实性在其原始和基本的意义上的衰落,即表述与现实之间的对应关系,这种对应关系由科学在理论上抽象地确立,由技术图像媒介在感官上具体地确立。
认知倒退
审美与政治媚俗——听起来无伤大雅,但其却是连最自由和民主的社会都能威胁的沼泽。一个没有指南针和锚的社会很容易迷失方向。“混淆视听”指的是破坏确定性、散布疑虑、让谎言变得可以接受的策略。伪装成照片的人工智能图像是该策略的首选工具。因为它们非常适合利用和滥用我们对摄影的惯有信任——对动态影像的信任更是如此。必须强调的是,我们仅仅处于这一进程的开端。无论是身着羽绒服的教皇,还是与警察扭打在一起的特朗普,人造图像仍普遍不完美的情况将很快成为过去。巨大的图像恐怖还在后头。
一股奇特的怀旧情绪已经在蔓延,向往我们曾经能信任照片证据价值的幸福时光。事实上,尽管人们对新人工智能如此着迷,仍有一样东西值得捍卫:在现实光影中创造的真实照相图像。这方面已经有了一些技术方法,如 “内容真实性倡议“(Content Authenticity Initiative),其目的是为照片、视频和音频记录提供有关其来源和处理过程的防篡改元数据。
然而,过去几十年来关于摄影及其与现实关系的激烈辩论似乎变得越来越遥远。昨天还被描述为主观和程序化的摄影本体论地位,在人工智能图像面前,似乎又回到了一个看似客观真实的地带。数据可以说谎,光却不能?这将是一个致命的结论。让我们警惕这种反复,不要让我们回到昨天和前天的争论中去。
艺术策略
摄影的美学史可以看作是其技术发展的反映:技术创新总是开辟出新的艺术创作空间,创新越重大,随后的创作拓展就越有力。要为人工智能的剧变勾勒出一个合适的情境还为时尚早,但我们可以指出一些方法和策略,来说明艺术家们今天是如何迎接人工智能的挑战的。
首先,他们抵制住了把人工智能当作单纯玩具的诱惑,天真地与之玩耍而不是与之对抗,让它不加过滤地吐露媚俗之气。相反,他们提出的叙事和概念能引起反思和批判。他们的视角是一种理论视角,一种元视角。
我们在这里看到的最有希望的方法往往与概念艺术和挪用艺术的方法惊人地相似。对于今天的数字先锋派而言,一切再次可以任其使用:历史、媒介、科学和政治、哲学和艺术。任何教条或知识,无论曾多么坚不可摧,都将受到他们的审视。
但是,新的人工智能战略不仅将改写过去,照亮现在,更重要的是它们将开辟通往未来的道路,为明天的生活和生存提供预测、模型和符号。它们将是艺术界与自然科学和人文学科、建筑和城市规划、生态学等许多其他领域交互的综合策略。这是一门跨媒介艺术,一门界面艺术,静态图像成为动态图像的一种功能,成为扩展的沉浸式空间的一个元素。
我们有责任抵御人工智能的潜在威胁,并将其发展成为认知和感受的工具。为此,我们所需要的智能始终是我们自己的智能。因为未来的人工智能图像只有仍作为人类的图像才有意义。
[1] 作者用演员和舞台搬演来比喻人工智能图像与外部世界关系。作者解释该句的意思是:人工智能图像是基于图像创造者的观念输入及其对世界的搬演的(建构的)想法;因此,这与一般人的想法无关,而是与图像创造者的想法以及他或她向机器下达的指令有关。——译者注
Berlin, October 2023
© Andreas Müller-Pohle. First published in European Photography, Berlin, no. 114, vol. 44, winter 2023/2024
© Chinese translation: Hu Yue
中文翻译:胡玥
Published in Chinese Photography, Beijing, February 2024