當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习前沿算法思想

發布時間：2024/3/12 pytorch 40 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习前沿算法思想小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉自：深度學習前沿算法思想
導讀

第一版：

深度學習前沿算法思想

深度學習實踐：使用Tensorflow實現快速風格遷移

行為識別：讓機器學會“察言觀色”第一步

第二版：

谷歌首屆 TensorFlow 開發者峰會重磅發布 TensorFlow 1.0

微軟發布AI助手Cortana 提醒用戶及時查看郵件

第三版：

目前最全面的深度學習教程自學資源匯總

第四版：

三角學回顧

1.深度增強學習前沿算法思想

2016年AlphaGo計算機圍棋系統戰勝頂尖職業棋手李世石，引起了全世界的廣泛關注，人工智能進一步被推到了風口浪尖。而其中的深度增強學習算法是AlphaGo的核心，也是通用人工智能的實現關鍵。本文將帶領大家了解深度增強學習的前沿算法思想，領略人工智能的核心奧秘。

前言

深度增強學習（Deep Reinforcement Learning，DRL）是近兩年來深度學習領域迅猛發展起來的一個分支，目的是解決計算機從感知到決策控制的問題，從而實現通用人工智能。以Google DeepMind公司為首，基于深度增強學習的算法已經在視頻、游戲、圍棋、機器人等領域取得了突破性進展。2016年Google DeepMind推出的AlphaGo圍棋系統，使用蒙特卡洛樹搜索和深度學習結合的方式使計算機的圍棋水平達到甚至超過了頂尖職業棋手的水平，引起了世界性的轟動。AlphaGo的核心就在于使用了深度增強學習算法，使得計算機能夠通過自對弈的方式不斷提升棋力。深度增強學習算法由于能夠基于深度神經網絡實現從感知到決策控制的端到端自學習，具有非常廣闊的應用前景，它的發展也將進一步推動人工智能的革命。

深度增強學習與通用人工智能

當前深度學習已經在計算機視覺、語音識別、自然語言理解等領域取得了突破，相關技術也已經逐漸成熟并落地進入到我們的生活當中。然而，這些領域研究的問題都只是為了讓計算機能夠感知和理解這個世界。以此同時，決策控制才是人工智能領域要解決的核心問題。計算機視覺等感知問題要求輸入感知信息到計算機，計算機能夠理解，而決策控制問題則要求計算機能夠根據感知信息進行判斷思考，輸出正確的行為。要使計算機能夠很好地決策控制，要求計算機具備一定的“思考”能力，使計算機能夠通過學習來掌握解決各種問題的能力，而這正是通用人工智能（Artificial General Intelligence，AGI）（即強人工智能）的研究目標。通用人工智能是要創造出一種無需人工編程自己學會解決各種問題的智能體，最終目標是實現類人級別甚至超人級別的智能。

通用人工智能的基本框架即是增強學習（Reinforcement Learning，RL）的框架，如圖1所示。

圖1 通用人工智能基本框架?

智能體的行為都可以歸結為與世界的交互。智能體觀察這個世界，然后根據觀察及自身的狀態輸出動作，這個世界會因此而發生改變，從而形成回饋返回給智能體。所以核心問題就是如何構建出這樣一個能夠與世界交互的智能體。深度增強學習將深度學習（Deep Learning）和增強學習（Reinforcement Learning）結合起來，深度學習用來提供學習的機制，而增強學習為深度學習提供學習的目標。這使得深度增強學習具備構建出復雜智能體的潛力，也因此，AlphaGo的第一作者David Silver認為深度增強學習等價于通用人工智能DRL=DL+RL=Universal AI。

深度增強學習的Actor-Critic框架

目前深度增強學習的算法都可以包含在Actor-Critic框架下，如圖2所示。

圖2 Actor-Critic框架

把深度增強學習的算法認為是智能體的大腦，那么這個大腦包含了兩個部分：Actor行動模塊和Critic評判模塊。其中Actor行動模塊是大腦的執行機構，輸入外部的狀態s，然后輸出動作a。而Critic評判模塊則可認為是大腦的價值觀，根據歷史信息及回饋r進行自我調整，然后影響整個Actor行動模塊。這種Actor-Critic的方法非常類似于人類自身的行為方式。我們人類也是在自身價值觀和本能的指導下進行行為，并且價值觀受經驗的影響不斷改變。在Actor-Critic框架下，Google DeepMind相繼提出了DQN，A3C和UNREAL等深度增強學習算法，其中UNREAL是目前最好的深度增強學習算法。下面我們將介紹這三個算法的基本思想。

DQN（Deep Q Network）算法

DQN是Google DeepMind于2013年提出的第一個深度增強學習算法，并在2015年進一步完善，發表在2015年的《Nature》上。DeepMind將DQN應用在計算機玩Atari游戲上，不同于以往的做法，僅使用視頻信息作為輸入，和人類玩游戲一樣。在這種情況下，基于DQN的程序在多種Atari游戲上取得了超越人類水平的成績。這是深度增強學習概念的第一次提出，并由此開始快速發展。

DQN算法面向相對簡單的離散輸出，即輸出的動作僅有少數有限的個數。在這種情況下，DQN算法在Actor-Critic框架下僅使用Critic評判模塊，而沒有使用Actor行動模塊，因為使用Critic評判模塊即可以選擇并執行最優的動作，如圖3所示。

圖3 DQN基本結構

在DQN中，用一個價值網絡（Value Network）來表示Critic評判模塊，價值網絡輸出Q(s,a)，即狀態s和動作a下的價值。基于價值網絡，我們可以遍歷某個狀態s下各種動作的價值，然后選擇價值最大的一個動作輸出。所以，主要問題是如何通過深度學習的隨機梯度下降方法來更新價值網絡。為了使用梯度下降方法，我們必須為價值網絡構造一個損失函數。由于價值網絡輸出的是Q值，因此如果能夠構造出一個目標Q值，就能夠通過平方差MSE的方式來得到損失函數。但對于價值網絡來說，輸入的信息僅有狀態s，動作a及回饋r。因此，如何計算出目標Q值是DQN算法的關鍵，而這正是增強學習能夠解決的問題。基于增強學習的Bellman公式，我們能夠基于輸入信息特別是回饋r構造出目標Q值，從而得到損失函數，對價值網絡進行更新。

圖4 UNREAL算法框圖

在實際使用中，價值網絡可以根據具體的問題構造不同的網絡形式。比如Atari有些輸入的是圖像信息，就可以構造一個卷積神經網絡（Convolutional Neural Network，CNN）來作為價值網絡。為了增加對歷史信息的記憶，還可以在CNN之后加上LSTM長短記憶模型。在DQN訓練的時候，先采集歷史的輸入輸出信息作為樣本放在經驗池（Replay Memory）里面，然后通過隨機采樣的方式采樣多個樣本進行minibatch的隨機梯度下降訓練。

DQN算法作為第一個深度增強學習算法，僅使用價值網絡，訓練效率較低，需要大量的時間訓練，并且只能面向低維的離散控制問題，通用性有限。但由于DQN算法第一次成功結合了深度學習和增強學習，解決了高維數據輸入問題，并且在Atari游戲上取得突破，具有開創性的意義。

A3C（Asynchronous Advantage Actor Critic）算法

A3C算法是2015年DeepMind提出的相比DQN更好更通用的一個深度增強學習算法。A3C算法完全使用了Actor-Critic框架，并且引入了異步訓練的思想，在提升性能的同時也大大加快了訓練速度。A3C算法的基本思想，即Actor-Critic的基本思想，是對輸出的動作進行好壞評估，如果動作被認為是好的，那么就調整行動網絡（Actor Network）使該動作出現的可能性增加。反之如果動作被認為是壞的，則使該動作出現的可能性減少。通過反復的訓練，不斷調整行動網絡找到最優的動作。AlphaGo的自我學習也是基于這樣的思想。

基于Actor-Critic的基本思想，Critic評判模塊的價值網絡（Value Network）可以采用DQN的方法進行更新，那么如何構造行動網絡的損失函數，實現對網絡的訓練是算法的關鍵。一般行動網絡的輸出有兩種方式：一種是概率的方式，即輸出某一個動作的概率；另一種是確定性的方式，即輸出具體的某一個動作。A3C采用的是概率輸出的方式。因此，我們從Critic評判模塊，即價值網絡中得到對動作的好壞評價，然后用輸出動作的對數似然值（Log Likelihood）乘以動作的評價，作為行動網絡的損失函數。行動網絡的目標是最大化這個損失函數，即如果動作評價為正，就增加其概率，反之減少，符合Actor-Critic的基本思想。有了行動網絡的損失函數，也就可以通過隨機梯度下降的方式進行參數的更新。

為了使算法取得更好的效果，如何準確地評價動作的好壞也是算法的關鍵。A3C在動作價值Q的基礎上，使用優勢A（Advantage）作為動作的評價。優勢A是指動作a在狀態s下相對其他動作的優勢。假設狀態s的價值是V，那么A=Q-V。這里的動作價值Q是指狀態s下a的價值，與V的含義不同。直觀上看，采用優勢A來評估動作更為準確。舉個例子來說，假設在狀態s下，動作1的Q值是3，動作2的Q值是1，狀態s的價值V是2。如果使用Q作為動作的評價，那么動作1和2的出現概率都會增加，但是實際上我們知道唯一要增加出現概率的是動作1。這時如果采用優勢A，我們可以計算出動作1的優勢是1，動作2的優勢是-1。基于優勢A來更新網絡，動作1的出現概率增加，動作2的出現概率減少，更符合我們的目標。因此，A3C算法調整了Critic評判模塊的價值網絡，讓其輸出V值，然后使用多步的歷史信息來計算動作的Q值，從而得到優勢A，進而計算出損失函數，對行動網絡進行更新。

A3C算法為了提升訓練速度還采用異步訓練的思想，即同時啟動多個訓練環境，同時進行采樣，并直接使用采集的樣本進行訓練。相比DQN算法，A3C算法不需要使用經驗池來存儲歷史樣本，節約了存儲空間，并且采用異步訓練，大大加倍了數據的采樣速度，也因此提升了訓練速度。與此同時，采用多個不同訓練環境采集樣本，樣本的分布更加均勻，更有利于神經網絡的訓練。

A3C算法在以上多個環節上做出了改進，使得其在Atari游戲上的平均成績是DQN算法的4倍，取得了巨大的提升，并且訓練速度也成倍的增加。因此，A3C算法取代了DQN成為了更好的深度增強學習算法。

UNREAL（UNsupervised REinforcement and Auxiliary Learning）算法

UNREAL算法是2016年11月DeepMind提出的最新深度增強學習算法，在A3C算法的基礎上對性能和速度進行進一步提升，在Atari游戲上取得了人類水平8.8倍的成績，并且在第一視角的3D迷宮環境Labyrinth上也達到了87%的人類水平，成為當前最好的深度增強學習算法。

A3C算法充分使用了Actor-Critic框架，是一套完善的算法，因此，我們很難通過改變算法框架的方式來對算法做出改進。UNREAL算法在A3C算法的基礎上，另辟蹊徑，通過在訓練A3C的同時，訓練多個輔助任務來改進算法。UNREAL算法的基本思想來源于我們人類的學習方式。人要完成一個任務，往往通過完成其他多種輔助任務來實現。比如說我們要收集郵票，可以自己去買，也可以讓朋友幫忙獲取，或者和其他人交換的方式得到。UNREAL算法通過設置多個輔助任務，同時訓練同一個A3C網絡，從而加快學習的速度，并進一步提升性能。

在UNREAL算法中，包含了兩類輔助任務：第一種是控制任務，包括像素控制和隱藏層激活控制。像素控制是指控制輸入圖像的變化，使得圖像的變化最大。因為圖像變化大往往說明智能體在執行重要的環節，通過控制圖像的變化能夠改善動作的選擇。隱藏層激活控制則是控制隱藏層神經元的激活數量，目的是使其激活量越多越好。這類似于人類大腦細胞的開發，神經元使用得越多，可能越聰明，也因此能夠做出更好的選擇。另一種輔助任務是回饋預測任務。因為在很多場景下，回饋r并不是每時每刻都能獲取的（比如在Labyrinth中吃到蘋果才能得1分），所以讓神經網絡能夠預測回饋值會使其具有更好的表達能力。在UNREAL算法中，使用歷史連續多幀的圖像輸入來預測下一步的回饋值作為訓練目標。除了以上兩種回饋預測任務外，UNREAL算法還使用歷史信息額外增加了價值迭代任務，即DQN的更新方法，進一步提升算法的訓練速度。

UNREAL算法本質上是通過訓練多個面向同一個最終目標的任務來提升行動網絡的表達能力和水平，符合人類的學習方式。值得注意的是，UNREAL雖然增加了訓練任務，但并沒有通過其他途徑獲取別的樣本，是在保持原有樣本數據不變的情況下對算法進行提升，這使得UNREAL算法被認為是一種無監督學習的方法。基于UNREAL算法的思想，可以根據不同任務的特點針對性地設計輔助任務，來改進算法。

小結

深度增強學習經過近兩年的發展，在算法層面上取得了越來越好的效果。從DQN，A3C到UNREAL，精妙的算法設計無不閃耀著人類智慧的光芒。在未來，除了算法本身的改進，深度增強學習作為能夠解決從感知到決策控制的通用型學習算法，將能夠在現實生活中的各種領域得到廣泛的應用。AlphaGo的成功只是通用人工智能爆發的前夜。

作者：?Flood Sung，CSDN博主，人工智能方向研究生，專注于深度學習，增強學習與機器人的研究。

原文：http://geek.csdn.net/news/detail/138103

2.深度學習實踐：使用Tensorflow實現快速風格遷移

風格遷移簡介

風格遷移（Style Transfer）是深度學習眾多應用中非常有趣的一種，如圖，我們可以使用這種方法把一張圖片的風格“遷移”到另一張圖片上：

然而，原始的風格遷移（論文地址：https://arxiv.org/pdf/1508.06576v2.pdf）的速度是非常慢的。在GPU上，生成一張圖片都需要10分鐘左右，而如果只使用CPU而不使用GPU運行程序，甚至需要幾個小時。這個時間還會隨著圖片尺寸的增大而迅速增大。

這其中的原因在于，在原始的風格遷移過程中，把生成圖片的過程當做一個“訓練”的過程。每生成一張圖片，都相當于要訓練一次模型，這中間可能會迭代幾百幾千次。如果你了解過一點機器學習的知識，就會知道，從頭訓練一個模型要比執行一個已經訓練好的模型要費時太多。而這也正是原始的風格遷移速度緩慢的原因。

快速風格遷移簡介

那有沒有一種方法，可以不把生成圖片當做一個“訓練”的過程，而當成一個“執行”的過程呢？答案是肯定的。這就這篇快速風格遷移（fast neural style transfer）：Perceptual Losses for Real-Time Style Transfer and Super-Resolution

快速風格遷移的網絡結構包含兩個部分。一個是“生成網絡”（原文中為Transformation Network），一個是“損失網絡”（Loss Network）。生成網絡接收一個圖片當做輸入，然后輸出也是一張圖片（即風格遷移后的結果）。如下圖，左側是生成網絡，右側為損失網絡：

訓練階段：首先選定一張風格圖片。訓練的目標是讓生成網絡可以有效生成圖片。目標由損失網絡定義。

執行階段：給定一張圖片，將其輸入生成網絡，輸出這張圖片風格遷移后的結果。

我們可以發現，在模型的“執行”階段我們就可以完成風格圖片的生成。因此生成一張圖片的速度非常塊，在GPU上一般小于1秒，在CPU上運行也只需要幾秒的時間。

快速風格遷移的Tensorflow實現

話不多說，直接上我的代碼的Github地址：hzy46/fast-neural-style-tensorflow

還有變換效果如下。

原始圖片：

風格遷移后的圖片：

以上圖片在GPU(Titan Black)下生成約需要0.8s，CPU（i7-6850K）下生成用時約2.9s。

關于快速風格遷移，其實之前在Github上已經有了Tensorflow的兩個實現：

junrushao1994/fast-neural-style.tf
OlavHN/fast-neural-style

但是第一個項目只提供了幾個訓練好的模型，沒有提供訓練的代碼，也沒有提供具體的網絡結構。所以實際用處不大。

而第二個模型做了完整的實現，可以進行模型的訓練，但是訓練出來的效果不是很好，在作者自己的博客中，給出了一個范例，可以看到生成的圖片有很多噪聲點：

我的項目就是在OlavHN/fast-neural-style的基礎上做了很多修改和調整。

一些實現細節

與Tensorflow Slim結合

在原來的實現中，作者使用了VGG19模型當做損失網絡。而在原始的論文中，使用的是VGG16。為了保持一致性，我使用了Tensorflow Slim（地址：tensorflow/models）對損失網絡重新進行了包裝。

Slim是Tensorflow的一個擴展庫，提供了很多與圖像分類有關的函數，已經很多已經訓練好的模型（如VGG、Inception系列以及ResNet系列）。

下圖是Slim支持的模型：

使用Slim替換掉原先的網絡之后，在損失函數中，我們不僅可以使用VGG16，也可以方便地使用VGG19、ResNet等其他網絡結構。具體的實現請參考源碼。

改進轉置卷積的兩個Trick

原先我們需要使用網絡生成圖像的時候，一般都是采用轉置卷積直接對圖像進行上采樣。

這篇文章指出了轉置卷積的一些問題，認為轉置卷積由于不合理的重合，使得生成的圖片總是有“棋盤狀的噪聲點”，它提出使用先將圖片放大，再做卷積的方式來代替轉置卷積做上采樣，可以提高生成圖片的質量，下圖為兩種方法的對比：

對應的Tensorflow的實現：

def resize_conv2d(x, input_filters, output_filters, kernel, strides, training):with tf.variable_scope('conv_transpose') as scope:height = ?x.get_shape()[1].value if training else tf.shape(x)[1]width = x.get_shape()[2].value if training else tf.shape(x)[2]new_height = height * strides * 2new_width = width * strides * 2x_resized = tf.image.resize_images(x, [new_height, new_width], tf.image.ResizeMethod.NEAREST_NEIGHBOR)shape = [kernel, kernel, input_filters, output_filters]weight = tf.Variable(tf.truncated_normal(shape, stddev=0.1), name='weight') ? ? ? ?return conv2d(x_resized, input_filters, output_filters, kernel, strides)

以上為第一個Trick。

第二個Trick是文章?Instance Normalization: The Missing Ingredient for Fast Stylization?中提到的，用 Instance Normalization來代替通常的Batch Normalization，可以改善風格遷移的質量。

注意使用Optimizer和Saver

這是關于Tensorflow實現的一個小細節。

在Tensorflow中，Optimizer和Saver是默認去訓練、保存模型中的所有變量的。但在這個項目中，整個網絡分為生成網絡和損失網絡兩部分。我們的目標是訓練好生成網絡，因此只需要去訓練、保存生成網絡中的變量。在構造Optimizer和Saver的時候，要注意只傳入生成網絡中的變量。

找出需要訓練的變量，傳遞給Optimizer：

variable_to_train = [] for variable in tf.trainable_variables():if not(variable.name.startswith(FLAGS.loss_model)):variable_to_train.append(variable) train_op = tf.train.AdamOptimizer(1e-3).minimize(loss, global_step=global_step, var_list=variable_to_train)

總結

總之是做了一個還算挺有趣的項目。代碼不是特別多，如果只是用訓練好的模型生成圖片的話，使用CPU也可以在幾秒內運行出結果，不需要去搭建GPU環境。建議有興趣的同學可以自己玩一下。（再貼下地址吧：hzy46/fast-neural-style-tensorflow）

作者：何之源，復旦大學計算機科學碩士在讀，研究方向為人工智能以及機器學習的應用。

來源：公眾號黑信息 ??

3.行為識別：讓機器學會“察言觀色”第一步

電影短片《Changing Batteries》講了這樣一個故事：獨居的老奶奶收到兒子寄來的一個機器人，這機器人善于察言觀色，很快就跟老奶奶“心有靈犀”，不僅能在老奶奶口渴時為她端水、在老奶奶掃地時接過老奶奶的掃把，做力所能及的家務活，如果老奶奶在椅子上看電視睡著了，機器人還為她輕輕蓋上踏足。有了它，老奶奶又重新感受到久違的快樂，過上了更輕松的生活[1]……咳咳，催淚的故事講完了，接下來我們先說說這機器人的察言觀色技能是怎么實現的。

在人工智能研究領域，這一技能叫人體行為識別，是智能監控、人機交互、機器人等諸多應用的一項基礎技術。以電影提到的老人智能看護場景為例，智能系統通過實時檢測和分析老人的行動，判斷老人是否正常吃飯、服藥、是否保持最低的運動量、是否有異常行動出現（例如摔倒）, 從而及時給予提醒，確保老人的生活質量不會由于獨自居住而有所降低。第二個例子是人機交互系統，通過對人的行為進行識別，猜測用戶的“心思”，預測用戶的意圖，及時給予準確的響應。第三個例子是醫院的康復訓練，通過對動作行為的規范程度做出識別，評估恢復程度以提供更好的康復指導等。

俗話說“排骨好吃，骨頭難啃”，行為識別是一項具有挑戰性的任務，受光照條件各異、視角多樣性、背景復雜、類內變化大等諸多因素的影響。對行為識別的研究可以追溯到1973年，當時Johansson通過實驗觀察發現，人體的運動可以通過一些主要關節點的移動來描述，因此，只要10-12個關鍵節點的組合與追蹤便能形成對諸多行為例如跳舞、走路、跑步等的刻畫，做到通過人體關鍵節點的運動來識別行為[2]。正因為如此，在Kinect的游戲中，系統根據深度圖估計出的人體骨架（Skeleton，由人體的一些關節點的位置信息組成），對人的姿態動作進行判斷，促成人機交互的實現。另一個重要分支則是基于RGB視頻做行為動作識別。與RGB信息相比，骨架信息具有特征明確簡單、不易受外觀因素影響的優點。我們在這里主要探討基于骨架的行為識別及檢測。

人體骨架怎么獲得呢？主要有兩個途徑：通過RGB圖像進行關節點估計（Pose Estimation）獲得[3][4]，或是通過深度攝像機直接獲得（例如Kinect）。每一時刻（幀）骨架對應人體的K個關節點所在的坐標位置信息，一個時間序列由若干幀組成。行為識別就是對時域預先分割好的序列判定其所屬行為動作的類型，即“讀懂行為”。但在現實應用中更容易遇到的情況是序列尚未在時域分割（Untrimmed），因此需要同時對行為動作進行時域定位（分割）和類型判定，這類任務一般稱為行為檢測。

基于骨架的行為識別技術，其關鍵在于兩個方面：一方面是如何設計魯棒和有強判別性的特征，另一方面是如何利用時域相關性來對行為動作的動態變化進行建模。

我們采用基于LSTM （Long-Short Term Memory）的循環神經網絡（RNN）來搭建基礎框架，用于學習有效的特征并且對時域的動態過程建模，實現端到端（End-to-End）的行為識別及檢測。關于LSTM的詳細介紹可參考[5]。我們的工作主要從以下三個方面進行探討和研究：

如何利用空間注意力（Spatial Attention）和時間注意力（Temporal Attention）來實現高性能行為動作識別 [8]？
如何利用人類行為動作具有的共現性（Co-occurrence）來提升行為識別的性能[7]？
如何利用RNN網絡對未分割序列進行行為檢測（行為動作的起止點的定位和行為動作類型的判定）[9]？

空時注意力模型（Attention）之于行為識別

圖1.1：“揮拳”行為動作序列示例。行為動作要經歷不同的階段（比如靠近、高潮、結束），涉及到不同的具有判別力的關節點子集合（如紅色圓圈所示）。這個例子中，人體骨架由15個關節點的坐標位置表示。

注意力模型（Attention Model）在過去這兩年里成了機器學習界的“網紅”，其想法就是模擬人類對事物的認知，將更多的注意力放在信息量更大的部分。我們也將注意力模型引入了行為識別的任務，下面就來看一下注意力模型是如何在行為識別中大顯身手的。

時域注意力：眾所周知，一個行為動作的過程要經歷多個狀態（對應很多時間幀），人體在每個時刻也呈現出不同的姿態，那么，是不是每一幀在動作判別中的重要性都相同呢？以“揮拳”為例，整個過程經歷了開始的靠近階段、揮動拳腳的高潮階段以及結束階段。相比之下，揮動拳腳的高潮階段包含了更多的信息，最有助于動作的判別。依據這一點，我們設計了時域注意力模型，通過一個LSTM子網絡來自動學習和獲知序列中不同幀的重要性，使重要的幀在分類中起更大的作用，以優化識別的精度。

空域注意力：對于行為動作的判別，是不是每個關節點在動作判別中都同等重要呢？研究證明，一些行為動作會跟某些關節點構成的集合相關，而另一些行為動作會跟其它一些關節點構成的集合相關。比如“打電話”，主要跟頭、肩膀、手肘和手腕這些關節點密切相關，同時跟腿上的關節點關系很小，而對“走路”這個動作的判別主要通過腿部節點的觀察就可以完成。與此相適應，我們設計了一個LSTM子網絡，依據序列的內容自動給不同關節點分配不同的重要性，即給予不同的注意力。由于注意力是基于內容的，即當前幀信息和歷史信息共同決定的，因此，在同一個序列中，關節點重要性的分配可以隨著時間的變化而改變。

圖1.2展示了網絡框架圖。時域注意力子網絡（Temporal Attention）學習一個時域注意力模型來給不同幀分配合適的重要性，并以此為依據對不同幀信息進行融合。空域注意力子網絡（Spatial Attention）學習一個時域注意力模型來給不同節點分配合適的重要性，作用于網絡的輸入關節點上。

圖1.2：網絡結構框圖。主網絡（Main LSTM Network）用于對特征進行提取、時域相關性利用和最終的分類。時域注意力子網絡（Temporal Attention）用于給不同幀分配合適的重要性。空域注意力子網絡（Spatial Attention）用于給不同關節點分配合適的重要性。

空時注意力模型能帶來多大的好處呢？我們在SBU 數據庫、NTU RGB+D 數據庫的Cross Subject(CS) 和 Cross View(CV) 設置上分別進行了實驗，以檢測其有效性。圖1.3展示了性能的比較：LSTM表示只有主LSTM網絡時的性能（沒引入注意力模型）。當同時引入時域注意力（TA）和空域注意力（SA）網絡后，如STA-LSTM所示，識別的精度實現了大幅提升。

圖1.3：空時注意力網絡的識別精度比較。(a) SBU 數據庫。(b) NTU 數據庫Cross Subject(CS)。(c) NTU數據庫Cross-View(CV)。其中, LSTM只包含主網絡結構。STA-LSTM同時包含了空時子網絡。

細心的讀者可能已經發現，序列中的空域注意力和時域注意力具體為多大是沒有參考的(不知道Groundtruth)。網絡是以優化最終分類性能來自動習得注意力。那么，學到的注意力模型分配的注意力數值是什么樣呢？我們可視化并分析了空時注意力模型的輸出。圖1.4可視化了在 “揮拳”行為動作的測試序列上，模型輸出的空域注意力權重的大小，時域注意力權重值以及相鄰幀時域注意力的差值。如圖1.4（a）中所示，主動方（右側人）的節點被賦予了更大的權值，且腿部的節點更加活躍。圖（b）展示了時域注意力的變化，可以看到，時域注意力隨著動作的發展逐漸上升，相鄰幀時域注意力差值的變化則表明了幀間判別力的增量。時域注意力模型會對更具判別力的幀賦予較大的注意力權重。對不同的行為動作，空間注意力模型賦予較大權重的節點也不同，整體和人的感知一致。

圖1.4: 空時注意力模型學到的權重在“揮拳”測試序列上的可視化。(a) 空域注意力權重。紅色圓圈的大小示意對應關節點權重的大小。紅色圓圈越大，表示權重越大。這里我們只將有著最大權重的前8個節點做了標記。(b) 時域注意力權重。(c) 差分時域注意力權重，即相鄰幀的時域注意力權重的差值。

LSTM網絡框架和關節點共現性（Co-occurrence）的挖掘之于行為識別

欣賞完“網紅”的魅力之后，我們還是回歸一下LSTM網絡的本真吧。近年來，除了在網絡結構上的探索，如何在網絡設計中利用人的先驗知識以及任務本身的特性來提升性能，也越來越多地受到關注。

著眼于人的行為動作的特點，我們將行為動作中關節點具有的共現性特性引入到LSTM網絡設計中，將其作為網絡參數學習的約束來優化識別性能。人的某個行為動作常常和骨架的一些特定關節點構成的集合，以及這個集合中節點的交互密切相關。如要判別是否在打電話，關節點“手腕”、“手肘”、“肩膀”和“頭”的動作最為關鍵。不同的行為動作與之密切相關的節點集合有所不同。例如對于“走路”的行為動作，“腳腕”、“膝蓋”、“臀部”等關節點構成具有判別力的節點集合。我們將這種幾個關節點同時影響和決定判別的特性稱為共現性（Co-occurrence）。

圖 2.1 基于LSTM的網絡結構和共現性特性的利用。

在訓練階段，我們在目標函數中引入對關節點和神經元相連的權重的約束，使同一組的神經元對某些關節點組成的子集有更大的權重連接，而對其他節點有較小的權重連接，從而挖掘關節點的共現性。如圖2.2所示，一個LSTM 層由若干個LSTM神經元組成，這些神經元被分為K組。同組中的每個神經元共同地和某些關節點有更大的連接權值（和某類或某幾類動作相關的節點構成關節點子集），而和其他關節點有較小的連接權值。不同組的神經元對不同動作的敏感程度不同，體現在不同組的神經元對應于更大連接權值的節點子集也不同。在實現上，我們通過對每組神經元和關節點的連接加入組稀疏（Group Sparse）約束來達到上述共現性的挖掘和利用。

關節點共現性約束的引入，在SBU數據庫上帶來了3.4%的性能改進。通過引入Dropout技術，最終實現了高達90.4%的識別精度。

圖2.2 第一層的神經元(LSTM Neurons)和關節點連接的示意圖。以第k組的神經元為例，第k組的神經元都同時對某幾個關節點有著大的權重連接，而對其他關節點有著小的權重連接（在這里用未連接來示意）。

基于聯合分類和回歸的循環神經網絡之于行為動作檢測

（圖片來自網絡）

前面討論了對于時域分割好的序列的行為動作分類問題。但是想要計算機get到“察言觀色”的技能并不那么容易。在實際的應用中多有實時的需求，而攝像頭實時獲取的視頻序列并沒有根據行為動作的發生位置進行預先時域分割，因此識別系統不僅需要判斷行為動作的類型，也需要定位行為動作發生的位置，即進行行為動作檢測。如圖3.1所示，對于時間序列流，檢測系統在每個時刻給出是否當前是行為動作的開始或結束，以及行為動作的類型信息。

圖3.1：行為動作檢測示例。對于時間序列流，系統在每個時刻給出是否當前是行為動作的開始或結束，以及行為動作的類型信息。

圖3.2：基于滑動窗口的行為動作檢測示意圖，即每個時刻對固定或者可變的時域窗口內的內容進行判定。

在線（Online）的行為動作檢測常常采用滑窗的方法，即對視頻序列流每次觀察一個時間窗口內的內容，對其進行分類。然而基于滑窗的方法常常伴隨著冗余的計算，性能也會受到滑動窗口大小的影響。

對于骨架序列流，我們設計了基于循環神經網絡LSTM的在線行為動作檢測系統，在每幀給出行為動作判定的結果。LSTM的記憶性可以避免顯式的滑動窗口設計。如圖3.3所示，網絡由LSTM 層和全連層（FC Layer）組成前端的網絡Deep LSTM Network, 后面連接的分類網絡（Classification Network）用于判定每幀的動作類別，同時，回歸網絡 ( Regression Network )用于輔助確定動作行為的起止幀。圖3.4展示了該回歸子網絡對起止點位置的目標回歸曲線，即以起始點（結束點）為中心的高斯形狀曲線。在測試時，當發現代表起始點的回歸曲線到達局部峰值時，便可以定位為行為動作的起點位置。由于LSTM網絡對時間序列處理的強大能力，加上聯合分類回歸的設計，聯合分類和回歸循環網絡（JCR-RNN）實現了快速準確的行為動作檢測。

圖3.3：用于在線行為動作檢測的聯合分類回歸（Joint Classification-regression）循環網絡框架。

圖3.4：行為動作的起止點目標回歸曲線。在測試階段，當起始點（終止點）的回歸曲線到達局部峰值時，可以定位為行為動作的起始（結束）位置。

總結和展望

由于行為識別技術在智能監控、人機交互、視頻序列理解、醫療健康等眾多領域扮演著越來越重要的角色，研究人員正使出“洪荒之力”提高行為識別技術的準確度。說不定在不久的某一天，你家門口真會出現一個能讀懂你的行為、和你“心有靈犀”的機器人，對于這一幕，你是不是和我們一樣充滿期待？

[1]?https://movie.douban.com/subject/25757903/?
[2] Gunnar Johansson. Visual perception of biological motion and a model for it is analysis. Perception and Psychophysics 14(2), pp 201–211, 1973.?
[3] Alejandro Newell, Kaiyu Yang, Jia Deng. Stacked Hourglass Networks for Human Pose Estimation, In ECCV, 2016.?
[4] Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh. Realtime Multi-person 2D Pose Estimation using Part Affinity Fields. arXiv preprint arXiv:1611.08050, 2016.?
[5]?http://colah.github.io/posts/2015-08-Understanding-LSTMs/?
[6] CVPR2011 Tutorial on Human Activity Recognition.?
http://michaelryoo.com/cvpr2011tutorial/?
[7] Wentao Zhu, Cuiling Lan, Junliang Xing, Wenjun Zeng, Yanghao Li, Li Shen, Xiaohui Xie. Co-Occurrence Feature Learning for Skeleton Based Action Recognition Using Regularized Deep LSTM Networks. In AAAI, 2016.?
[8] Sijie Song, Cuiling Lan, Junliang Xing, Wenjun Zeng, Jiaying Liu. An End-to-End Spatio-Temporal Attention Model for Human Action Recognition from Skeleton Data. Accepted by AAAI, 2017.?
[9] Yanghao Li, Cuiling Lan, Junliang Xing, Wenjun Zeng, Chunfeng Yuan, Jiaying Liu. Online Human Action Detection Using Joint Classification-Regression Recurrent Neural Networks. In ECCV, 2016.

作者簡介：蘭翠玲博士，微軟亞洲研究院副研究員，從事計算機視覺，信號處理方面的研究。她的研究興趣包括行為識別、姿態估計、深度學習、視頻分析、視頻壓縮和通信等，并在多個頂級會議，期刊上發表了近20篇論文，如AAAI, ECCV, TCSVT等。?
來源：：微軟研究院AI頭條，授權CSDN發布。

總結

以上是生活随笔為你收集整理的深度学习前沿算法思想的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：详谈为什么互联网公司禁用外键约束
下一篇： Class not found: “co