本研究開發一套基於直播且容易使用的動作捕捉系統。系統內部採用卷積神經網路模型做姿態的預測,並即時的輸出人體追蹤的結果。 對於現在這個網路發達的世界,只要擁有連網設備,如電腦、手機,就能從內建鏡頭透過直播的方式來和其他人互動。 而在動作捕捉技術相對成熟的這個時候,相關產業也都受惠於只需要用簡易的設備就能捕捉動作。然而現行最準確的方案,依然是需要穿上具有光學標記點的緊身衣服。 但是會有標記點脫落要重黏,及需要穿脫衣物的不便之處。故本論文旨在透過兩支一般的網路攝影機,進行無標記點的姿態偵測。最後利用 Unity 實現這一套可供虛擬主播實況的系統。
Bazarevsky等人提出的 BlazePose 中探討了從影片或影像中姿態估計的挑戰,這在各個領域具有重要的應用。 傳統的方法是為每個關節產生熱度圖,但這種方法的計算成本高,不適合在移動手機上進行實時推斷。 他們提出了一種基於回歸的方法,使用編碼器-解碼器網絡架構來預測所有關節的熱度圖,然後使用另一個編碼器直接回歸到所有關節的坐標。 他們的方法輕量化,可以在推斷過程中不使用熱度圖分支在移動手機上運行,同時仍然可以實現高品質的預測。
本研究介紹影片,說明本研究目標,以及實驗結果。