博鱼官方网页版-博鱼(中国)

一条狗，即使是之前（qián）从未见（jiàn）过（guò）的品种（zhǒng）、颜色，我们也能一眼认出它。

对（duì）周遭任何变化的感知是人类与生俱来的（de）能力。

但是（shì）人工智能（néng）系统就不一样了，即使级别SOTA，能完成无数人（rén）类完成不（bú）了的任务，但（dàn）也有很多对人类来说轻而易举的事（shì）情，它（tā）却（què）搞（gǎo）不定，比如，让金毛换（huàn）个角度（dù）：正面（miàn）、侧面、前面、后面，人工智能可能会识（shí）别地很挣扎。

深度学（xué）习模型擅（shàn）长（zhǎng）解释像素和标签（qiān）之间（jiān）的统计模（mó）式，但（dàn）却很难通过许多（duō）潜（qián）在的（de）自（zì）然变化正（zhèng）确（què）识别对象。

那是扫（sǎo）雪机在（zài）路上扫雪吗？还是一（yī）辆校车侧翻了？

上图是（shì）根据M.A. Alcorn等（děng）人的 "Strike(with)a pose: Neural networks are easily fooled by strange poses of familiar objects"绘制，显示了一个（gè）深度神经网络将一辆公共汽（qì）车（chē）错误地（dì）分类为扫（sǎo）雪车。

人类可以瞬间知道，但是颜（yán）色（sè）、大小和透视等因素使情（qíng）况复杂化，增加了人（rén）工智能模型的预测难（nán）度。

Facebook AI一（yī）直在探索如何更（gèng）好地捕捉自然变化，在这方面，传统解决方案有很大（dà）局限性（xìng），即所（suǒ）谓的解纠（jiū）缠（disentanglement）。我们（men）最近还提（tí）出（chū）了（le）等变（biàn）化移位算子（zǐ）（equivariant shift operator）的概念，这是（shì）一种替代解的概念证明，可（kě）以帮（bāng）助模型理解通过模拟最常见的变换，物体可能会（huì）发生怎样的变（biàn）化（huà）。

目前，Facebook AI在这方面的工作主要是理（lǐ）论性的，但是对于深度学习模（mó）型，特别是计算机（jī）视觉（jiào）潜力巨（jù）大（dà）: 增加了可解释性和准（zhǔn）确性，即使在小数据集上训（xùn）练也有更好（hǎo）的性能，并提高（gāo）了泛化能力。Facebook AI希望这（zhè）些贡献能够使计算机视觉向前推进一步，更好（hǎo）地理解视觉（jiào）世界的复（fù）杂（zá）性。

现行（háng）方（fāng）法的局限

目前的解（jiě）纠缠方法试图通过将模型中（zhōng）的每个因子编码到模型内部表示的一（yī）个单独的子空间中，来学习模（mó）型中对象的基本变换。

例如，解纠（jiū）缠可（kě）能将狗（gǒu）图像的数据集编（biān）码为姿态（tài）、颜色和品种子（zǐ）空间。

这种方法在（zài）识别刚性数据集的变化因素方面很有优势，比（bǐ）如一个（gè）单（dān）一的 MNIST 数字或者一个单一的对象，比如一把椅子，但是（shì）我们已经发现，在多个分类中，解纠缠（chán）的（de）表现很差（chà）。

想象一下多个旋转的形状，比如三角形和正方（fāng）形。解纠缠模（mó）型试图将物体的（de）形状和方向这两个变化因素分离成（chéng）两个（gè）变化因素。

下图说（shuō）明（míng）了传统的解纠缠是无法在多个形状的数据集中孤立旋转的。我们期望高亮（liàng）显示的形状会旋（xuán）转，但是由于解纠缠失败（bài），形状（zhuàng）仍然（rán）是固定的。

解纠（jiū）缠还带（dài）来了（le）拓（tuò）扑（pū）缺陷，这（zhè）是一系列众（zhòng）多变换中的另一个问题。拓扑缺陷违背连续性——深（shēn）度（dù）学习模型（xíng）的（de）本（běn）质属（shǔ）性。如果没有连续性，深度学（xué）习（xí）模型可能很难有效地学习数据中的模式。

想象一下正（zhèng）三角形的旋转。旋转120度的正三（sān）角形与原（yuán）来（lái）的三角形无法（fǎ）区分，导致在方向空间中有相同（tóng）的（de）表（biǎo）示。然而，通过在三角形的一个角（jiǎo）上加一个无穷（qióng）小的点，表示变得可辨别，违反了（le）连续性。附近的图像映射（shè）到相距较远的（de）图像。Facebook AI的研究还表明，拓扑缺陷出现在非对（duì）称形状和许（xǔ）多其他常见的变换（huàn）中。

利用等变化（huà）算子（zǐ）揭示变化因子

有一个数学分（fèn）支「群（qún）论」可以教我们应用等变化算子的很多知识。它表明，一个直观的方（fāng）式来（lái）理（lǐ）解变（biàn）化因素是将他们模拟为一组转换。例如，一个（gè）三角形的（de）旋转（zhuǎn）有一（yī）个（gè）组的结构: 90度旋转和（hé）30度旋转（zhuǎn）结合（hé）起来产生（shēng）120度旋转。

Facebook AI利用这些想（xiǎng）法来识（shí）别传统解纠缠的缺点，并确定如何训（xùn）练等（děng）变化算子来解纠缠。我们提出了（le）一个等变化算（suàn）子，称为移（yí）位算子（zǐ）。这是一（yī）个（gè）矩阵，其块体模仿（fǎng）了常见变换的组结（jié）构--旋转、平（píng）移和重缩放（fàng）。然后在原始图像和它们的转换（huàn）上训练一个人工智能模（mó）型。