作品名稱:基于稀疏自編碼器和3D卷積網絡的人體行為識別算法
學校名稱:淮陰師范學院
參賽隊伍:淮陰師范學院
隊伍編號:203690
參賽老師:張韓飛
投票日期:2024年10月08日 00:00->2024年12月05日 15:00
請在微信端進行投票。點此掃描二維碼。
基于視頻圖像數據的人體行為識別技術是計算機視覺中最活躍的領域之一,在人機交互、視頻檢索、虛擬現實和視頻監控等領域有非常廣泛的應用。行為特征提取是實現人體行為識別的關鍵一步,早期的研究以人工構造特征為主,但在不同任務環境下,人工構造的特征具有差異性,其模型參數不具備泛化能力,且對復雜背景具有盲目性的缺點。隨著深度學習技術的飛速發展,采用神經網絡自學習技術獲取的特征及分類器能夠發現特征間的隱藏關聯,與手工構造特征的方法相比,對行為理解與識別問題具有更好的鑒別能力。但是,面臨各種真實環境的復雜性、現實場景的多樣性以及運動人體的差異性,正確理解視頻圖像中的人體行為意圖仍極具挑戰。因此,如何在視頻數據中提取表征關鍵信息的有效特征,以提高人體行為特征提取和分類識別的準確性,成為該領域需要解決的關鍵問題。課堂教學重點針對視頻監控和視頻檢索兩種應用場景,基于稀疏自編碼器和3D卷積神經網絡方法,開展人體行為識別方法的理論和實驗教學。
首先,為解決視頻監控中人體幾何建模困難,行為姿態特征描述過程復雜的問題,介紹了基于稀疏自編碼器的人體行為識別方法。為了得到只包含人體動作信息的數據,所有動作序列的圖像先利用ViBe(Visual Background extractor)背景建模法進行運動目標檢測,并進行質心配準和標準化處理,進而利用K-means方法消除視頻中相似的冗余幀。然后,通過稀疏LSTM(Long Short Term Memory)自編碼器進行自學習關鍵幀提取。進一步地,為了尋求更有效的特征,挖掘出關鍵幀中的動作信息,利用稀疏自編碼器(Sparse Autoencoder,SAE)自動提取人體姿態特征,建立自學習姿態字典。最后,利用Lasso求解待測樣本在字典下的系數,并將其送入SVM(Support Vector Machine)分類器實現人體行為識別。通過在公開數據集DHA和自采集視頻中的實驗,驗證方法的有效性。
其次,為了解決視頻內容檢索中包含人體行為和行為場景的整體特征提取困難,海量高維視頻數據處理過程復雜的問題,介紹了基于改進3D卷積網絡的人體行為識別方法。通過K-means方法調整視頻長度,以消除視頻中相似的冗余幀,并進一步利用稀疏LSTM自編碼器進行自學習關鍵幀提取,以達到簡化數據量的目的。為了獲取動作視頻序列的整體時空信息,利用改進的3D卷積網絡進行特征提取,通過遞歸特征消除可以進一步提升特征的表達能力,以達到特征降維、提高分類識別準確性的目的。通過在公開數據集UCF101和自采集視頻數據集中的實驗,驗證該方法的有效性。