人工智能图像生成器：算法的局限性与人为偏差

作者 Matthew Maganga | 译者 July Shao
于2023年三月, 13

2022 年是人工智能图像生成之年。在过去的几年中，这些机器学习系统已经被调整和完善，经历了多次迭代，以发现它们目前在日常互联网用户中的流行程度。这些图像生成器—— DALL-E 和 Midjourney 可以说是最突出的——通过各种文本提示生成图像，例如，允许人们对未来、现在和过去的建筑进行概念上的再现。但是，由于我们生活在一个充满人类偏见的数字世界中——在这些图像生成器需要我们仔细思考。

+ 8

midjourney 是一个格外有趣的人工智能工具，它在艺术家和设计师中很受欢迎，因为它通过有时非常少的文字提示创造出类似绘画的、富有想象力的图像。但是使用这个工具的结果也导致了关于图像制作和设计的复杂问题，当使用“非洲建筑”这样的提示来制作图像时，这些问题就凸显出来了。

“非洲建筑”这个词本身就很有争议——非洲大陆的国家建筑实践模式各不相同。关于“撒哈拉以南的非洲”等某些地理标签是否有用，关于非洲大陆作为一个单一国家所带来的害处，从以前到现在一直都有很多样化的讨论。

与此同时，由于非洲大陆的欧洲殖民主义历史导致许多非洲国家具有类似的殖民地和后殖民时代的基础设施，有时需要将一些特定的非洲国家归入一个共同的类别，例如加纳和尼日利亚殖民时期和独立时期的热带现代主义建筑。

在 Midjourney，输入迅速的“非洲建筑”，就会出现类似小屋的图像——顶部看上去像是在乡村环境中搭建的茅草屋顶。以“非洲乡土建筑”为文本生成的照片与在线下拍摄的照片十分相似——背景是金合欢树的棚屋式建筑，前景是红棕色的土地。这些建筑形式在整个非洲大陆显然是司空见惯的——从坦桑尼亚城市姆万扎的布约拉博物馆（BujoraMuseum）中发现的苏库马（Sukuma）传统建筑，到南部非洲发现的朗达维尔（rondavel）小屋。尽管有这些普遍的提示——midjourney 所创造的图像类型明显缺乏多样性，忽视了诸如在摩洛哥瓦尔扎扎特发现的平顶土楼、甚至非洲大都市中极其多样化的城市建筑等形式。

在这些具体提示下生成这些类型的图像反映了网上如何看待非洲大陆的更广泛问题，从无法获得许多非洲语言的内容，到网上对非洲大陆的简化主义叙述的持续性质。图像生成器模型在“非洲建筑”产品中的细微差别在视觉上并不明显。为了便于比较，迅速推出的“欧洲建筑”（European Architecture）描绘了看似宏伟的街景，虽然并没有与布鲁塞尔或巴黎格格不入，但同样缺乏多样性。因为这种模式避开了更多的现代主义建筑，反馈了符合新古典主义模式的建筑形式。

人工智能生成艺术算法通常通过绘制特定主题的大图像库来训练其人工智能模型。对于“midjourney”来说，公共数据集被用来在文本提示下产生结果。自然，公共图像中存在的偏见以及它们是如何分类的将渗透到对这些图像进行训练的模型所产生的艺术中。

由人工智能组成的“非洲建筑”和“非洲乡土建筑”图像很可能是网上非洲建筑图像标题过于简化的结果，更不用说当人们将文本输入在线搜索引擎时，“非洲建筑”的视觉结果仍然可能是非常单一的。

当然，人们可以选择在 AI 中输入更具体的文本提示，而不是一般的提示，包括“非洲建筑”或“欧洲建筑”等标签。例如，进入迅速推出的“21 世纪 50 年代内罗毕建筑”，可以看到肯尼亚首都内罗毕摩天大楼林立的大街上点缀着乌胡鲁公园（Uhuru Park）的绿色植物，背景中朦胧的景象让人想起电报塔（Teleposta Towers）和时代大厦（Times Tower）。但是，使用这些更精确的提示仍然意味着，由“非洲建筑”风格的更广泛提示构成的图像，存在过于笼统的描述问题——强化了一种重复非洲建筑视觉概念有问题的缩短的场景。

关于什么类型的知识在机器学习中占主导地位，以及有多少算法不能准确地代表我们所处的全球环境，这部分已经说了很多。随着设计师、艺术家和日常业余爱好者——在有能力的人工智能图像生成器仍处于早期阶段——继续通过程序探索和测试创意概念，这是很有帮助的去考虑这些图像最终可能在多大程度上会加强那些本该远离的刻板印象。

编者注：本文最初发表于 2022 年 11 月 11 号。

译者：唐晨旭