虽然以生成式AI作为研究方向,但是对与各种生成式模型实在是一知半解,缺乏深入的认识。网络上的教程和解读纷繁多样,即使看过不少,不过大都囫囵吞枣,早已成过眼云烟。 😮‍💨 最近正好发现22年出版的《Deep Generative Modeling》(作者:Jakub M. Tomczak)一书,是个系统学习深度生成模型的好机会。秉着好记性不如烂笔头的精神,打算通读一遍并将其中的内容翻译记录下来,作为加深记忆理解之用。限于英语水平,且有些内容融合了个人看法,所做翻译未必与原文完全一致。
本书的序由机器学习领域大牛Max Welling而作,通读下来,感觉更像一篇随笔,其中没有对具体技术做深入阐述,只描述了对当前AI的一些看法,但其思考的问题和方式却值得学习借鉴,故将序言翻译整理如下:

在过去十年中,深度学习的崛起引领了人工智能领域的巨大进展,彻底改变了众多子领域,例如计算机视觉、语音识别和自然语言处理等。此时此刻,更多的领域正在被颠覆重塑,包括机器人学、无线通信以及各种自然科学。

其中大部分进展都起源于监督学习。在监督学习范式下,模型的训练数据带有标注,每个样本都有对应的标签。借助于标注数据,深度神经网络在图像目标识别、翻译等任务上已取得显著成绩。但是,数据的标注过程通常十分耗时且昂贵,甚至存在道德风险或完全无法实现。因此,研究者们已意识到,无监督(或自监督)学习才是引领日后进展的关键。

无监督学习和自监督学习与人类的学习方式类似。举例来说,在儿童的成长历程中,学习所用的信息大都无任何标记。否则的话,难道曾经时时刻刻都有人在你耳边告诉你看到了什么,听到了什么?当然不是这样,事实与之相反,我们必须在无监督的情况下学习世界的运行规律,而且是通过掌握信息(数据)中的结构或模式来学习。数据中存在大量的结构知识!假设我们通过组合像素的值获得一幅图像,其结果极有可能是毫无意义的噪声;另一方面,所有可能的像素组合(图像空间)中,绝大部分实例与我们迄今为止看到的任何图像都不一样,这意味着存在很多的数据和结构,因此对于儿童来说需要学习的东西很多。

当然,儿童在学习的过程中不只是这个世界的旁观者,他们其实是在不断地与环境互动。在玩耍时他们会根据现实的反馈验证他们对物理、社会和心理等法则的认知。当现实与预测不同时,他们会感到惊讶,并可能更新内部的认知模型,以便下次做出更好的预测。所以,我们可以合理地假设,与环境互动的过程是达到所谓人类智能的关键。这与强化学习有着明显的相似之处,在强化学习中,智能体规划下一步的行动并根据环境的反馈更新决策或策略模型。 但是,对于机器人来说,很难通过与现实世界的互动实现假设的验证或数据的标注。因此,使用大量数据进行学习的实用方法是无监督学习。这一领域目前获得了大量的关注,且取得了惊人的进展。只需瞧瞧那些由模型轻而易举自动生成的全新人脸图像,我们就可以体验到这一领域已取得了不可思议的进步。

无监督学习有多种形式。这本书(Deep Generative Modeling)关注其中的一种,即概率生成模型,其目标之一是估计输入数据的概率分布,可用于采样生成全新的数据实例(例如人脸图像)。另一目标是学习输入数据的抽象表示,亦称表示学习。高层次的表示会将输入数据自动解耦(disentangling)成我们所熟知的概念及其关系,例如图片中的猫和狗。虽然“解耦”有着明确直观的含义,但事实表明对他进行正确定义是相当棘手的。上世纪90年代,研究人员将大脑认知与统计层面相独立的隐变量关联起来。认为大脑的目标是将高度相关的细粒度表示(例如视觉像素)转为相对独立的隐变量表示(例如抽象概念),后者是对前者的压缩,更高效且冗余更少,从而使大脑在高效处理信息的同时耗费更少的能量。

学习压缩 是两个关系紧密的概念。学习可视为对数据的有损压缩,因为学习不是简单地记住数据,而是要根据数据获得泛化能力。机器学习就是将数据集中关键的模式信息转化到模型参数中,并丢弃其他无关的信息。类似地,当我们观察一副图像时,所感兴趣的是其中的抽象概念,例如出现的物体以及联系,而不是直接的像素信息。在此基础上,我们可以对这些对象进行推理,联想出各种各样的可能性。所以,智能就是从刺激我们感官的大量低层次信息中提取出关键信息,然后进行表示以开展后续的思想活动。但我们日常生活中所熟知的事物并不是完全独立。因此,人们试图从不同的角度定义解耦,比如等变性或因果关系。

在没有标签的情况下,训练模型最简单的方式是学习输入数据的概率生成(或密度)模型。在概率生成模型这一领域,许多方法以最大化输入的对数概率或其下界作为优化目标。除了VAE和GAN,该书还介绍了正则化流、自回归模型、能量模型以及当下最炙手可热的深度扩散模型。

生成模型之外的很多模型也具备学习数据表示的能力,且能够有效地提升下游预测任务。针对表示学习,已出现了多种无需标注数据的训练任务,例如,针对时序数据,根据当前状态预测未来状态;针对图像,预测某一区域在另一区域的左侧还是右侧;针对视频,预测其是正向播放还是逆向播放;针对文本,根据上下文完形填空。此类无监督学习一般称为自监督学习,尽管我必须承认这个术语在不同人口中似乎有不同的用法。很多方法都可归类到上述无监督学习的范式中,包括一些生成式模型。例如,变分自编码器(VAE)将输入压缩为后验分布,然后根据压缩信息重建样本,即预测输入是什么;生成对抗网络(GAN)就是预测一个给定的样本是真实的还是虚假生成的;噪声对比估计(NCE)可看作是在隐空间预测输入片段在空间或时间上是否接近。

很难说这个领域未来会发生什么?但显然通用人工智能(AGI)的实现将十分依赖于无监督学习。有趣的是,针对通用人工智能的实现方式,目前学界分为两大阵营:一方主张“提升规模”,认为将当前的技术应用到更大的模型上,并使用更多的数据和算力进行训练,高级智能就会自动涌现,进而实现AGI;另一方认为我们需要新的理论和想法,比如推理、因果或常识"。

此外,还有一些越发重要和紧迫的问题,那就是人类应该怎样与这些模型共处:如何理解模型内部发生的事情,或者直接放弃可解释性?当模型比我们更了解我们自己时,我们的生活会发生什么改变?那些遵从算法推荐的人是否比那些抵制的人更容易成功?当模型生成的虚假数据逼真到真伪难辨,我们还能相信什么?当虚假信息泛滥之时,民主是否还能继续发挥功能?无论如何有一点非常肯定,那就是这个领域是当前最炙手可热的方向之一,而本书就是涉足这个领域的绝佳入门。但每个人也应该充分意识到,掌握这项新技术同时需要承担新的社会责任。让我们谨慎的推进这一领域的发展。

Max Welling

2021.10.30