【摘要】以Sora为代表的文生视频大模型掀起了一场深刻的媒介美学革命,其起点是信息多模态化。本文首先分析Sora的技术原理,将视觉与文本语言的“跨模态对齐”视为Sora引领的美学创新的关键要素,并据此探讨人工智能如何催动人类信息经验感官化。Sora通过建立跨模态的联觉机制,培育了一种连接媒介与身体的技术美学,在文化层面重塑了人类的信息经验和审美偏好。文章从感官化审美的流行、形式主义美学的扩张,以及创作民主化的幻觉三个方面对Sora引发的公共美学变革进行阐释,并呼吁学界直面人工智能成为行为主体的后人类现实,在此基础上维护人类审美的独立性,并力求在人机共创中凝结新的审美共识。
【关键词】人工智能 Sora 信息模态 公共美学
一、引言
近年来,人工智能技术快速发展、持续迭代,实现了从实验室走进人类日常生活图景的跨越式角色转变。上述进程依托于机器学习、自然语言处理、计算机视觉等前沿技术的突破性进展,以及大数据处理与云计算能力的飞跃式提升,其结果则是极大拓宽了人工智能处理复杂信息的能力范畴。人工智能凭借高效的文本、图像、音视频识别与生成,令科幻小说中关于机器辅助乃至代替人类处理庞杂信息场景的遐想逐步成为可以预见的现实。人工智能直接嵌入人类媒介实践,不仅在技术层面显著提升了信息生产、流通和消费活动的效能,更凭借提供多样化、精细化的感官体验直接作用于人类的知觉系统,从而在文化层面上重塑人类的信息经验和审美偏好。
回顾人工智能发展的技术脉络,ChatGPT和Sora两个大模型的诞生是最关键的节点。前者通过强大的自然语言处理能力,使自然连贯文本内容的生成成为可能,开创了自动化媒介生产和人机交互的新纪元;后者则实现了跨模态信息理解与生产,能够有效地完成对文本、图像、视频等复杂样态内容的综合处理与生成。与ChatGPT相比,Sora在信息模态上的转变是革命性的,为人工智能深刻理解并模拟物理世界、进化至通用人工智能(AGI)铺平了道路。这一技术演进的轨迹也清晰勾勒出人工智能的主流发展趋势——以大语言模型为基础,推动信息从单模态向多模态发展,培育综合、联动的媒介经验。此处的“多模态”不仅指信息以文本、图像、音视频等多元形式生成与呈现,更关乎人工智能如何在不同模态的信息间建立起有效的连接。跨模态理解能力使人工智能得以向人类提供知觉联动的、总体性的信息体验,且这一体验主要通过直接作用于人类的感官系统来完成。多层次的感官互动能够触发深度情感共鸣,从而有可能驱动公共美学的变革。
基于此,本文尝试解析以Sora为代表的文生视频大模型带来的信息模态变革,探讨这一变革通过何种机制作用于人的感官系统和审美体验,据此展望人工智能引发的公共美学变革,并反思可能的文化后果。
二、信息模态的革新:视觉和语言的跨模态对齐
以ChatGPT为代表的单模态大模型尽管在自然语言处理上实现了突破,但在信息生产方面局限于从文本到文本的理解与输出,无法捕捉和再现物理世界的多维特性。这种局限性意味着很多任务只能建立在对齐文本模态的基础上,难以满足通用人工智能对跨模态认知和表达的需求。多模态大模型的诞生为这一问题的解决提供了新的可能。Sora能够基于提示词的文本信息直接生成流畅、连贯、时长达一分钟的高质量视频,是当下技术最为前沿的多模态大模型。通过整合并学习多模态数据集,Sora能够实现对文本、图像、视频和声音等多种数据类型的综合理解与转换生成,其原理与人脑对于多模态信息的接收和处理模式十分相近。基于此,Sora能够超越模态的桎梏理解信息与信息间的关系,将结构化的知识以及不同知识间的联系向量化,从而实现了知识的对齐。通俗而言,就是能够实现对某一事物(例如猫)不同模态的表现形式(猫的文字、图像、声音、视频等不同表达形式)的语义理解和信息融合,据此来学习和探索物理世界,进而实现智能的生成和模仿。相较Pika、Runway等其他同类型的多模态大模型,Sora实现的关键突破在于其将生成视频的时长延长至一分钟,在较大程度上实现了对物理世界的连续视觉感知,这种连续性不仅强化了模型对动态场景的理解能力,也为人工智能在模拟复杂物理事件方面提供了新的可能性。由此可见,Sora是人工智能进化历程中的一个里程碑,其重要性首先来自信息模态层面的巨大变革——跨模态理解能力和连续视觉感知能力得以“自动地”被施展,我们从未如此接近通用人工智能的愿景。
跨模态理解和连续视觉感知的能力是如何实现的?要回答这一问题,需回到Sora的技术架构之中。虽然OpenAI并未公开Sora具体的技术细节,但基于其发布的技术报告和对于计算机视觉领域相关知识的梳理,我们仍能对其核心技术进行推演。从本质上看,Sora是一个具有灵活采样尺寸的扩散型变换器(DiT:Diffusion Transformer):扩散模型通过先向数据中逐步注入噪声,随后逆转这一过程,再从噪声中恢复出原始数据的方式生成视频。该模型能够精确捕捉视频中物体的空间移动和拍摄视角的转换,因此适用于生成包含复杂动态变化和空间联系的视觉内容。变换器(Transformer)架构使用多头注意力机制,这使得模型能够在处理过程中的不同时刻关注输入序列的不同部分,因此它在理解视频序列中的时空关联和进行长时间的序列预测方面表现出色。Sora结合了二者的优势,从而实现了高质连贯的视频输出。
具体而言,根据提示词生成视频主要包括三个步骤。首先,用时空压缩器(time-space compressor)将原始视频压缩为较低维的“潜在空间”(latent space)。这一潜在空间可被理解为对输入数据的抽象表示,通过对原始数据进行降维和去噪,从而将数据的高维特征压缩到低维空间中,然后在低维空间中进行操作,这一方法在文本、视频、音频等多模态数据中具有普适性。其后,通过视觉变换器(Vision Transformer)处理潜在空间中被分解为时空补丁(spacetime patches)的视频数据并输出去噪后“潜在表示”(latent representation)。时空补丁的灵感来自大语言模型中将文本进行分词处理的令牌(token),其作用类似于“视觉短语”,它概括了短时间内的视觉外观和运动动态,是视频输入和输出的基本单位,使Sora能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。最后,一个类似于CLIP的调节机制接收大语言模型增强的用户指令和可能的视觉提示,以引导模型生成特定风格或主题的视频。CLIP是一个结合了Transformer架构的视觉语言模型,能够生成精确和描述性的图像标题,实现视觉与语言之间的关联和匹配。Sora采用类似于CLIP的技术,通过重新标注技术(recaptioning technique)为视频生成带有相应的详细描述的释文,使用大语言模型(GPT-4)将用户的简短提示词扩展为详细释文。此外,Sora还支持视觉提示对图像和视频进行编辑。在经过多次去噪处理之后,视频的潜在表示被捕获,并通过一个专门的解码器转换回可视的像素格式。经过大量的文本和视频数据集训练,模型不断优化,进一步提高模拟物理交互的真实性和保持三维空间运动的连贯性和一致性。
从以上的技术推演中可以看到,Sora的跨模态理解能力来自将不同模态的数据映射到一个统一的潜在空间,并在这个空间中进行多模态信息间复杂的语义关联和相互的对齐与转换。连续的视觉感知能力源于扩散型变换器的技术架构,其通过将视频数据分解为带有时空信息的时空补丁,利用多头注意力机制在时间序列中捕捉和建模复杂的时空关系,从而生成连贯的视频序列。这说明Sora是在高度“语法化地”理解和生成视觉信息,并据此学习和模拟物理世界的,它基于对“视觉短语”的处理来学习物理世界的“语法规则”,以预测的方式生成“语义网络”,这一网络能够捕捉视频中的“语义关系”和语境信息,从而生成连贯有逻辑的视频。因此,实现视觉和文本语言的跨模态对齐是Sora在人工智能发展历程中具有变革性意义的关键所在。而且,可以预见的是,未来多模态大模型的发展方向将继续向听觉、味觉、嗅觉、触觉等方面拓展,将感知与语言进行对齐也将全面调动和重组人类的感官系统从而重塑人的信息经验。
三、视觉转向:作用于感官的图像力量
Sora的多模态对齐效应预示着人类信息经验全感官化的发展趋势。但作为文生视频模型,Sora首要基于视觉化原理来学习和模拟物理世界。相较其他感官,视觉在接收信息量、空间感知、细节识别、记忆和学习、激发情感等方面具有独一无二的优势。媒介化的图像和视频包含层次丰富的空间和时间信息,并能调动与整合视觉之外的其他感官。柏拉图在《蒂迈欧篇》中说:“视觉乃是我们最大利益的源泉,因为我们若是从来不曾见过星辰、太阳、月亮,那么我们有关宇宙的谈论一句也说不出来……神发明了视觉并且将它赐予我们,其目的在于让我们能够看到天上的理智运动,并把它应用到我们自身的理智运动上来。”这种视觉中心主义的文化理念在Sora的技术设计中得到了充分体现。不过,仅拥有视觉感知显然无法模拟人类的智能,就像柏拉图所指出的:视觉地位高于其他感官,但视觉被发明是为了看到“天上的理智运动”和用于“自身的理智运动”,亦即通过理性才能获得对世界的认知,理性的“心灵之眼”高于感性的“肉体之眼”。人类能够获得关于世界的认知,在很大程度上归功于将语言作为思维工具。在《人类简史》中,赫拉利就将人类语言的功能概括为两方面:一是能够无限传达各类事实信息,二是“能够传达关于一些根本不存在的事物的信息”,讨论虚构事物从而让人类拥有想象。从这个角度来看,ChatGPT能够学习、理解和生成自然语言文本,在处理抽象概念、推理以及提供回答和建议方面展现出显著的优势,这在某种程度上已经体现出了人类智能。而Sora更是将抽象思维直接转化为具象化的视频呈现,不仅可以模拟人类的视觉感知能力,还能结合语言理解,以更直观和生动的方式展示复杂的信息,生成现实中不存在的画面,不仅实现了更加全面和深入的认知模拟,还在视觉内容生成上实现了对人类意志的某种超越。
与西方自柏拉图以降的理性与感性二元对立且理性高于感性的理念不同,Sora通过将视觉和语言对齐,为二者赋予了同等重要的认识论地位,甚至在表征实践上实现了全面的视觉化。从哥特弗里德·博姆(Gottfried Boehm)关于“图像转向”的观点来看,这对应的是一种图像与语言之间的地位颠转,感性的图像不再作为语言的附属,而是相对于语言获得了主导地位。“图像转向”中包含着思维方式的转变,一如博姆所言:“图像更多地与一种不同的思维方式相关,这种思维方式已经表明能够澄清和利用自身长期被忽视的非语言表征中的认知可能性。”这一思维方式总体而言是将感性视为一种获得知识的有效途径,在认知层面赋予视觉感知更为主动的角色,而非从属于语言。与此同时,“图像转向”也不意味着将图像和语言对立起来,任何视觉内容都是二者的混合,博姆认为语言内在是具有象形性的,正是在这一意义上,“图像转向”并非“语言转向”的对立面,而是其承接点。Sora实现了视觉和语言的跨模态对齐和转换,并生成视觉内容,在某种程度上也说明了图像和语言具有同一性,能够被整合到一个体系之中。
“图像转向”之下是对图像独特意义和价值的重新发现,布雷德坎普在《图像行为理论》中指出图像具有积极主动的特性,认为“图像不是忍受者,而是关系到知觉的经验和行动的生产者……它们不是现实派生出来的,而是现实根据的一个形式”。在这一意义上,图像成为具有能动性的行为主体。对图像力量的发现还伴随着对图像意义生成机制的探索,即解释图像是如何通过视觉来说话的。同样提出“图像转向”的学者米切尔(W.J.T.Mitchell)表示不存在所谓的“视觉媒介”,所有的视觉媒介都涉及其他感官(尤其是触觉和听觉),更早的乔治·贝克莱(Geoge Berkeley)在《视觉新论》中基于白内障手术的经验结果提出视觉需要光学和触觉印象的协调才能构建连贯、稳定的视觉领域,例如视力恢复的盲人在很长一段时间内无法识别物体,直到他们对视觉印象和触觉进行广泛的协调。由此我们可以看出,图像的意义并非一种静态的、已经确定的意义,而在很大程度上是在观者的感知活动中不断生成的意义。这种意义的生成涉及不同感官之间的相互关联和联觉体验。因此视觉也并非孤立的感知形式,其本质属性既是感官的、知觉的,又是想象的、审美的。对于Sora这类以视觉为主导的多模态大模型而言,其实现跨模态理解的关键也在于建立起了多模态对齐的联觉机制。
四、联觉:感官融合和美学体验的运作机制
联觉(synesthesia)源于希腊语中的syn和aesthesis,前者意为“一起”,后者意为“感觉”,也即“感觉的结合”,指一种感觉通道的刺激会自动触发另一种感觉通道的感知体验,是一种被证明为正常大脑过程的跨感官连通体验。例如有人看到红色时会感受到温暖,看到蓝色时会感受到凉爽,这就是一种经典的联觉现象。我们也可以通俗地将“联觉”理解为修辞中的“通感”,因为这种感官的互通融合体验往往也会创造某种美学体验。
与大脑中产生的联觉体验不同,人工智能时代联觉机制的运作不仅涉及人的感官,更为关键的是在技术中介之下感官信息转化为数据形式,从而造成了感官与身体的分离,继而创造了新的感官关系和体验。以Sora为例,它将多模态数据压缩到一个统一的潜在空间之中,不同模态的感官信息(如物体的形状、颜色、质感、运动等)以数据的形式被编码进时空补丁,并实现相互的语义关联和对齐。通过这样的方式,Sora能够对各种感官数据进行交叉整合和处理,使它们之间建立联系,从而实现联觉。但同时这种联系是不确定的,因为感官数据是流动的,它们之间建立的关系也并非固定不变的,这导致感官间的转换关系处于漂浮状态。两种后果相应发生:一是人工智能在大量的数据训练中习得以往的感官模式,在生成视觉内容时沿袭并无限放大固有的感官关联,使得内容更多地反映人类固有的感知偏好,生成同质化的内容;二是人工智能将打破我们习以为常的感官经验,生成出超越人类常规感知的内容,创造出一种无序的、根茎式的分布式体验。
另外,Sora生成的视觉内容也会激发使用者的联觉体验,从而塑造人的情感和美学体验。如前文所述,视觉感知涉及多感官的协调作用。图像本身具有主动性,能够在与观者的相互作用中创造意义,从而激发复杂的感知和情感反应。联觉效果的产生不只是感官的单独作用,也需要基于上下文语境,与审美、文化等图像、视频之外的因素进行勾连方可产生意义,从而建立认知、催生情感。有学者认为人类有三种认知模式(models of knowing),即以语言和符号系统为代表的显性认知,以行为、直觉等为代表的隐性认知,以及以视觉为代表的感官认知。三种认知模式在神经机制上高度互联,而且彼此相辅相成,因此存在一个统一三者的基础或框架。而美学原则(aesthetic principles)作为一种跨文化的、普遍的、综合性的认知框架能够有机连接不同认知模式,形成一个完整、协调的认知网络。由此,我们也可以联想到主要通过视觉和语言这两种模式来认知世界的Sora,在生成视频的过程中也会创造出一种综合性的技术美学,这一美学的建立基于在技术层面实现多模态信息对齐而建立起的跨模态联觉机制,又在文化层面通过作用于人的感官系统提供了一种新的审美和社会互动模式。
五、公共美学的变革
在数字时代,背靠谷歌、亚马逊、脸书、苹果(GAFA)等科技巨头的平台成为文化生产的基本单位。平台与传统社会互嵌,塑造了无远弗届的平台社会,推动公共空间的平台化。随着人工智能技术的演化,ChatGPT和Sora等大模型也正在从技术工具向平台转变,这一平台化进程也是人工智能大众化的实践。可以说,公共空间的平台化进程贯穿了从数字时代到人工智能时代的社会变革,人工智能走向公共空间,其创造的技术美学也将掀起公共美学的剧烈变革。尤其是对于影视、媒体等提供公共信息产品的行业而言,Sora带来的美学革命正令注重感官体验和情感共鸣的感性化表达渗透到公共信息产品的生产之中,并带来相应的文化后果。具体而言,Sora催生的公共美学变革将主要体现为三个方面:一是感官化审美的流行;二是形式主义美学的扩张;三是创作民主化的幻觉。
(一)感官化审美的流行
在人工智能时代,信息模态从单模态转向多模态对齐,“视觉转向”彰显出图像在触发感官联动、信息传递、情感激发等方面的强大力量,联觉机制的运用创造出感官交融的全新美学体验。从前文的分析中可以看出,以Sora为代表的文生视频大模型在积极推动一种感官化的审美实践,鼓励人更加依赖感官来组织自己的信息经验。这一审美模式在文化生产中很容易演变为一种追求感官冲击力最大化的策略。虽然Sora还未正式向公众开放,但从其发布的生成视频来看,无论是走在霓虹灯闪烁的东京街头的时尚女性,还是赛博朋克背景下的机器人,抑或在咖啡杯的波涛里航行的海盗船,都旨在制造强烈的感官冲击。这些视频往往使用高对比度和饱和度的色彩形成强烈的视觉对比,在明暗交错的动态光影中制造戏剧性的效果,通过快速切换的视角和前景、中景、远景的协调搭配营造深邃的视觉效果和空间感,用流畅的运动呈现鲜明的动态视觉节奏,从而能在瞬间抓住观者的注意力。基于Sora生成视频的这些美学特征,已经有一系列的教程探讨如何通过提示词引导Sora生成视频,其中常建议采取的策略有:注重构图,使用描述性语言暗示物体、人物和风景的位置,引导观众的视线,强调画面的焦点;运用灯光和色彩,描述时间、光照条件和配色方案,帮助Sora创造出能唤起预期情绪反应的场景;融入动态元素,提及移动的物体、变化的天气条件等元素,创造出更吸引人、更身临其境的视觉效果;利用角度和视角,尝试用鸟瞰、特写等不同的视角以挖掘独特的视角叙事。这些策略旨在通过精细化的文字描述让生成的视频具有更加逼真且更具冲击力的感官效果。
值得注意的是,感官化审美并非单纯追求感官刺激的堆砌和叠加,而是通过感官体验传达情感基调,注重对情感的唤起,从而令观看者与视觉内容产生深度的情感连接。因此在公共审美愈发追求对感官的迎合之时,也可能创造一个情感被过度渲染的刻奇(kitsch)世界。Sora生成的视频某种程度上也像是这面美化自我的镜子,当每个人都能生成这种迎合感官的精美视频时,由此建立的情感连接也更多是以自我为中心的,滋生的是自我感动与认同而非一颗心推动另一颗心的主体间的对话与理解,从而造成审美的区隔。但过多的情感矫饰也可能招致公共美学中真实性和深度的丧失,使得艺术和文化表达趋于浅薄。
(二)形式主义美学的扩张
在人工智能时代,形式主义美学经历了显著的扩张,不仅塑造了公共空间的视觉风貌,还深刻影响了艺术创作与审美评价的维度。这一现象在Sora的技术实践中得到了充分的体现。Sora对物理世界的学习和模拟依赖于深度神经网络对图像、视频等多模态数据的处理,这个过程包括:利用大规模的数据集进行预训练,以学习识别各种特征、模式和理解三维空间;提取多模态数据中诸如色彩、纹理、形状、比例等不同层次的特征;在不断迭代生成多模态内容时反复调整和放大这些特征。这种深度学习的过程实际上也是人工智能掌握物理世界形式规律的过程,在哲学家李泽厚看来,“技术的特性就在这种合规律性的有目的的运用,技术愈纯熟,就愈能解决目的性与规律性的对峙,而达到自由的形式,达到美的境界”。这表明形式规律构成技术美学的核心,而人工智能在进行美学实践时,正体现出了这种强烈的形式主义美学倾向。人工智能试图使这些美学的形式规律可量化、可测量和可计算,从而作出审美决策,指导内容的生成和优化。康德提出的“审美共通感”被认为是发展这种形式主义美学的理论依据之一,即人类存在建立在共同经验基础上的“审美共识”,而人类视觉系统会在审美过程中预先注意到视觉特征上的共性,这也解释了为何Sora这类以视觉为主导的人工智能会引发美学革命,并生成具有形式主义美学色彩的视觉内容。
伴随着人工智能的大众化进程,形式主义美学在公共空间持续扩张,带来了视觉形式的极大繁荣。对形式美学的强调虽然令人工智能生成的内容在形式上表现出极高的复杂性和新颖性,但也使得评判内容美学价值的标准不再取决于其所传达的意义或信息,而在于其颜色、形状、声音等元素之间所形成的关系。这种对美学的形式化理解造成的最直接的影响在于创造出大量视觉上过度饱和、但内涵上平淡无奇的作品,使之可能在色彩、结构和动态表现上极具吸引力,却缺乏深刻的思想启迪和深度的情感共鸣。不仅如此,过度依赖算法和数据对审美的精确计算与量化,意味着机器将大面积代理人类对美的观察和感知,这将以忽视人类主观审美体验的丰富性和多样性为代价,使人类对美的主观体验在公共空间中逐渐边缘化。人工智能对真实世界的模拟和对形式规律的掌握越得心应手,就越可能减少人类在现实世界进行“观察-体验-归纳”的经验行为,从而在技术的包围下削弱对主流形式之外的美的感知能力。当机器掌握了形式主义美学的规律,并能在极短时间内生成大量符合主流审美标准的内容时,算法和数据的计算在划定和控制感知和符号方面的权力便不断扩大,人类对于美的探索与感知或许将陷入一种被动的、预设好的框架之中。这意味着在生成内容时,机器视觉系统的图像可识别性可能优先于人类,人与机器的地位发生逆转,机器不再只是学习人类的视觉审美,而是可能主导人类的审美偏好。人类可能会面临一个新的现实:为了适应和理解机器生成的内容,人类需要学会像机器一样观察和欣赏,并学习触发机器审美感知的技巧。
(三)创作民主化的幻觉
以Sora为代表的文生视频大模型实现了仅靠简单的语言提示词就能自动生成形式丰富的各类艺术作品,这大大降低了艺术创作的专业门槛,使得非专业人士能够绕开专业壁垒,以极低的成本参与艺术创作。在率先使用Sora成功制作了一部关于气球人的短片之后,加拿大多媒体制作公司Shykids就表示它的一大优点在于电影制作的民主化,无需聘请视觉特效专家或摄像师便可以通过提示词获得素材、电脑成像(CGI)和视觉特效(VFX),这增强了独立创作者的能力。Sora在技术层面实现了任何人都可以成为导演、艺术家、视觉故事讲述者,这被视为将极大推动创作的民主化,从而掀起一场自下而上的审美变革,重塑审美标准。但这种创作的民主化是否真的能够带来创造力的解放是值得商榷的。
人工智能从数据中学习模式和风格,通过视觉、空间等方面的动态变化,虽然能够生成具有新鲜感和感官冲击力的内容,但当代人工智能艺术最缺乏的不是花哨的形式,而是基于生活经验和敏锐感知的直觉、有意义的抽象表达和富有想象力的意象构建。“玫瑰不是诗,玫瑰的香气才是诗”,形式上的模仿掩盖不了诗意的缺失,生成式人工智能的大范围应用最可能造成的结局将是令平庸、千篇一律的内容充斥公共空间,造成审美的同质化,这种大规模的同质化在形式的包装下呈现为一种“伪浪漫主义”。若要真正通过人工智能生成具有创造性的内容,则对使用者的专业知识、分析技能、对经人工智能处理的材料的批判性理解等方面的能力提出了更高的要求。但技术工具的民主化在大大降低专业门槛的同时,也令艺术创作的严肃性被消解,使倒退的、智力上令人反感的、政治上危险的文化无知合法化,反而阻碍创新和多样性的实现。
人工智能生成内容的过程同时也是代替人类进行审美和伦理决策的过程,Sora能够自动解释和审查图像并决定何种信息出现在人们眼前,表明其代替人类行动者成为信息的把关人。在涉及暴力、色情等不当内容时,它能够快速识别并过滤掉潜在的有害信息,以防止这些信息在公共空间中传播,但同时也可能过滤掉某些具有颠覆性或非传统的艺术表达,限制自由而民主的创作表达空间。而且人工智能决策的过程隐藏在算法黑箱之中,信息生产和流通的不透明性将导致信息的控制权集中在少数拥有技术和资源的机构手中,看似自由的艺术创作实际被置于一种无形的审查之下。除此之外,机器过滤图像作出审美决策的依据主要来源于数据,Sora却始终没有(也许永远不会)公布自己的数据来源,而训练的数据集、学习协议和编码规则将不可避免地包含人类社会的结构性偏见与歧视,这些偏见可能在生成的内容中被延续,甚至是放大,造成审美暴力。
六、结语
Sora通过视觉和语言的跨模态对齐实现信息的多模态革新,这一革新凸显了人工智能时代“视觉转向”的发展趋势。凭借在技术层面建立起跨模态的联觉机制,Sora实现了感官的数据化与多感官信息连通,并通过图像作用于人的感官系统,从而在文化层面创造了一种新的技术美学。因应人工智能技术的大众化进程,Sora将通过持续推进感官化审美的流行、形式主义美学的扩张和创作民主化的幻觉,进一步掀起公共美学的变革。在这场美学革命之中,技术与文化的联系经由人的感官系统建立起来,但造成的文化后果却愈发导致人在美学价值的创造中持续被边缘化。人的感官信息被数据化之后,人工智能在效能上的显著优势正一步步将人从创作中驱逐出去,使之被动接受机器的投喂,人类由此必须面对技术作为能动行为主体的后人类状况。在机器不断学习人类智能并将之转化为自身的创造力源泉的时候,人类也必须思考如何将机器的智能纳入人文价值体系之中予以评估,并探索如何在全面感官化的信息经验中凝结出基于公共性的审美共识。因此,我们要警惕人工智能对于人类感官体验的全面中介,尊重并捍卫自身对现实世界的具身感知(哪怕这种感知是笨拙且低效的),将人文精神注入对美的界定之中,防止人类失去对美的本质追求和独立判断。(参考文献略)
作者:
常江:深圳大学特聘教授、深圳大学全球传播研究院研究员
罗雅琴:深圳大学传播学院博士研究生
南方传媒研究 2024年第5期总111期
欢迎订阅《南方传媒研究》
本刊邮发代号:46-582
本刊唯一投稿、合作邮箱:
nfcmyj@163.com
订阅后可查看全文(剩余80%)