一条狗,即使是之前(qián)从未见(jiàn)过(guò)的品种(zhǒng)、颜色,我们也能一眼认出它。
对(duì)周遭任何变化的感知是人类与生俱来的(de)能力。
但是(shì)人工智能(néng)系统就不一样了,即使级别SOTA,能完成无数人(rén)类完成不(bú)了的任务,但(dàn)也有很多对人类来说轻而易举的事(shì)情,它(tā)却(què)搞(gǎo)不定,比如,让金毛换(huàn)个角度(dù):正面(miàn)、侧面、前面、后面,人工智能可能会识(shí)别地很挣扎。
深度学(xué)习模型擅(shàn)长(zhǎng)解释像素和标签(qiān)之间(jiān)的统计模(mó)式,但(dàn)却很难通过许多(duō)潜(qián)在的(de)自(zì)然变化正(zhèng)确(què)识别对象。
那是扫(sǎo)雪机在(zài)路上扫雪吗?还是一(yī)辆校车侧翻了?
上图是(shì)根据M.A. Alcorn等(děng)人的 "Strike(with)a pose: Neural networks are easily fooled by strange poses of familiar objects"绘制,显示了一个(gè)深度神经网络将一辆公共汽(qì)车(chē)错误地(dì)分类为扫(sǎo)雪车。
人类可以瞬间知道,但是颜(yán)色(sè)、大小和透视等因素使情(qíng)况复杂化,增加了人(rén)工智能模型的预测难(nán)度。
Facebook AI一(yī)直在探索如何更(gèng)好地捕捉自然变化,在这方面,传统解决方案有很大(dà)局限性(xìng),即所(suǒ)谓的解纠(jiū)缠(disentanglement)。我们(men)最近还提(tí)出(chū)了(le)等变(biàn)化移位算子(zǐ)(equivariant shift operator)的概念,这是(shì)一种替代解的概念证明,可(kě)以帮(bāng)助模型理解通过模拟最常见的变换,物体可能会(huì)发生怎样的变(biàn)化(huà)。
目前,Facebook AI在这方面的工作主要是理(lǐ)论性的,但是对于深度学习模(mó)型,特别是计算机(jī)视觉(jiào)潜力巨(jù)大(dà): 增加了可解释性和准(zhǔn)确性,即使在小数据集上训(xùn)练也有更好(hǎo)的性能,并提高(gāo)了泛化能力。Facebook AI希望这(zhè)些贡献能够使计算机视觉向前推进一步,更好(hǎo)地理解视觉(jiào)世界的复(fù)杂(zá)性。
现行(háng)方(fāng)法的局限
目前的解(jiě)纠缠方法试图通过将模型中(zhōng)的每个因子编码到模型内部表示的一(yī)个单独的子空间中,来学习模(mó)型中对象的基本变换。
例如,解纠(jiū)缠可(kě)能将狗(gǒu)图像的数据集编(biān)码为姿态(tài)、颜色和品种子(zǐ)空间。
这种方法在(zài)识别刚性数据集的变化因素方面很有优势,比(bǐ)如一个(gè)单(dān)一的 MNIST 数字或者一个单一的对象,比如一把椅子,但是(shì)我们已经发现,在多个分类中,解纠缠(chán)的(de)表现很差(chà)。
想象一下多个旋转的形状,比如三角形和正方(fāng)形。解纠缠模(mó)型试图将物体的(de)形状和方向这两个变化因素分离成(chéng)两个(gè)变化因素。
下图说(shuō)明(míng)了传统的解纠缠是无法在多个形状的数据集中孤立旋转的。我们期望高亮(liàng)显示的形状会旋(xuán)转,但是由于解纠缠失败(bài),形状(zhuàng)仍然(rán)是固定的。
解纠(jiū)缠还带(dài)来了(le)拓(tuò)扑(pū)缺陷,这(zhè)是一系列众(zhòng)多变换中的另一个问题。拓扑缺陷违背连续性——深(shēn)度(dù)学习模型(xíng)的(de)本(běn)质属(shǔ)性。如果没有连续性,深度学(xué)习(xí)模型可能很难有效地学习数据中的模式。
想象一下正(zhèng)三角形的旋转。旋转120度的正三(sān)角形与原(yuán)来(lái)的三角形无法(fǎ)区分,导致在方向空间中有相同(tóng)的(de)表(biǎo)示。然而,通过在三角形的一个角(jiǎo)上加一个无穷(qióng)小的点,表示变得可辨别,违反了(le)连续性。附近的图像映射(shè)到相距较远的(de)图像。Facebook AI的研究还表明,拓扑缺陷出现在非对(duì)称形状和许(xǔ)多其他常见的变换(huàn)中。
利用等变化(huà)算子(zǐ)揭示变化因子
有一个数学分(fèn)支「群(qún)论」可以教我们应用等变化算子的很多知识。它表明,一个直观的方(fāng)式来(lái)理(lǐ)解变(biàn)化因素是将他们模拟为一组转换。例如,一个(gè)三角形的(de)旋转(zhuǎn)有一(yī)个(gè)组的结构: 90度旋转和(hé)30度旋转(zhuǎn)结合(hé)起来产生(shēng)120度旋转。
Facebook AI利用这些想(xiǎng)法来识(shí)别传统解纠缠的缺点,并确定如何训(xùn)练等(děng)变化算子来解纠缠。我们提出了(le)一个等变化算(suàn)子,称为移(yí)位算子(zǐ)。这是一(yī)个(gè)矩阵,其块体模仿(fǎng)了常见变换的组结(jié)构--旋转、平(píng)移和重缩放(fàng)。然后在原始图像和它们的转换(huàn)上训练一个人工智能模(mó)型。
这样就会发现,即(jí)使在(zài)包含(hán)多个类的数据集中(zhōng),移位算子也(yě)能成功地学习(xí)变换(huàn)--这(zhè)正是(shì)传(chuán)统解纠缠经(jīng)常失败的条件。