mppe材料有硬度要求嗎_（mppe材料縮水）

發(fā)布時(shí)間：2022-07-07 瀏覽次數(shù)：583 評(píng)論次數(shù)：0

作者丨瞎搭積木

編輯丨極市平臺(tái)

本文已獲得論文作者授權(quán)解讀

在本文中，來(lái)自北京大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、阿里巴巴的研究者們提出了一種基于多假設(shè)Transformer的三維人體姿態(tài)估計(jì)新框架MHFormer，來(lái)減輕三維人體姿態(tài)估計(jì)中的歧義逆問(wèn)題。性能超越PoseFormer 3%，并在Human3.6M和MPI-INF-3DHP數(shù)據(jù)集上都取得了當(dāng)前最佳的性能。代碼已開(kāi)源！

論文：MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation
單位：北京大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、阿里巴巴
地址：https://arxiv.org/pdf/2111.12707.pdf
代碼：https://github.com/Vegetebird/MHFormer

任務(wù)介紹

三維人體姿態(tài)估計(jì)旨在利用計(jì)算機(jī)視覺(jué)技術(shù)，從圖片或視頻中估計(jì)出人體關(guān)鍵點(diǎn)在三維空間中的坐標(biāo)。它可廣泛用于虛擬現(xiàn)實(shí)、元宇宙、體育比賽中（冬奧運(yùn)實(shí)時(shí)動(dòng)捕、滑雪）。該任務(wù)通常被解耦成2個(gè)子任務(wù)：二維姿態(tài)估計(jì)和二維到三維姿態(tài)提升（2D-to-3D Pose Lifting）。盡管該方法目前已經(jīng)取得了不錯(cuò)的性能，但是它還面臨著許多挑戰(zhàn)，例如二維到三維映射的深度模糊性與人體的自遮擋問(wèn)題。

研究動(dòng)機(jī)

先前的工作嘗試使用時(shí)空?qǐng)D卷積或時(shí)空Transformer來(lái)利用時(shí)空約束來(lái)解決該問(wèn)題。然而，該任務(wù)也是一個(gè)存在多個(gè)可行解（假設(shè)）的逆問(wèn)題（inverse problem），具有巨大的歧義性。該問(wèn)題的產(chǎn)生主要是由于相機(jī)成像過(guò)程中深度信息的丟失，造成多個(gè)三維姿態(tài)投影到二維空間可能存在相同的二維姿態(tài)。從而形成一對(duì)多的病態(tài)問(wèn)題，并且在遮擋的情況下該問(wèn)題會(huì)被進(jìn)一步放大。這些工作大多忽略了該問(wèn)題本質(zhì)上是個(gè)逆問(wèn)題，并且只假設(shè)存在一個(gè)解，這通常會(huì)導(dǎo)致估計(jì)出不滿意的結(jié)果（見(jiàn)圖1）。

目前，只有少量的工作提出基于生成多個(gè)假設(shè)的方法。他們通常依賴于一對(duì)多的映射，將多個(gè)輸出頭添加到具有共享特征提取器的現(xiàn)有架構(gòu)中，而未能建立不同假設(shè)特征之間的聯(lián)系。這是一個(gè)重要的缺點(diǎn)，因?yàn)檫@種能力對(duì)于提高模型的表現(xiàn)力和性能至關(guān)重要。鑒于三維人體姿態(tài)估計(jì)的歧義逆問(wèn)題，本文認(rèn)為先進(jìn)行一對(duì)多的映射，然后再將生成的多個(gè)中間假設(shè)進(jìn)行多對(duì)一的映射更為合理，因?yàn)檫@種方式可以豐富模型的特征并可以合成更精確的三維姿態(tài)。

模型方法

這篇文章的核心思想是通過(guò)學(xué)習(xí)多重姿態(tài)假設(shè)的時(shí)空表示來(lái)合成更準(zhǔn)確的三維姿態(tài)。為了實(shí)現(xiàn)這一點(diǎn)，作者提出了一個(gè)三階段框架，叫多假設(shè)Transformer（Multi-Hypothesis Transformer，MHFormer）。如圖2所示，該框架從生成多個(gè)初始表示開(kāi)始，逐漸在它們之間進(jìn)行通信以合成更準(zhǔn)確的估計(jì)。該框架可以有效地建模多假設(shè)的依賴，并在假設(shè)特征之間建立牢固的聯(lián)系。

以下這張圖是本文的具體網(wǎng)絡(luò)結(jié)構(gòu)。這張圖很大，但還是挺好理解的。左上角的圖a是MHFormer的整體框架。輸入是二維姿態(tài)序列，輸出是中間幀的三維姿態(tài)。MHFormer總共包括三個(gè)主要模塊：多假設(shè)生成器（右上角圖b），自假設(shè)修正器（左下角圖c），交叉假設(shè)交互器（右下角圖d）和2個(gè)輔助模塊：時(shí)間嵌入，回歸頭。

多假設(shè)生成

在空間域中，作者通過(guò)設(shè)計(jì)一個(gè)基于Transformer的級(jí)聯(lián)架構(gòu)來(lái)建模每幀人體關(guān)鍵點(diǎn)的內(nèi)在結(jié)構(gòu)信息，并在網(wǎng)絡(luò)的不同層生成姿態(tài)假設(shè)的不同表示。該模塊命名為多假設(shè)生成器（Multi-Hypothesis Generation，MHG），公式如下：

時(shí)間嵌入

MHG在空域?qū)⒍嗉?jí)特征視作姿態(tài)假設(shè)的初始表示，然而他們的特征表達(dá)能力是比較有限的?？紤]到這點(diǎn)，本文接下來(lái)對(duì)這些特征在時(shí)域進(jìn)行捕獲依賴性并建立特征之間的聯(lián)系以進(jìn)行信息增強(qiáng)。

那么要想利用時(shí)序信息，首先應(yīng)將特征從空域轉(zhuǎn)化到時(shí)域。因此，本文首先用了一個(gè)矩陣轉(zhuǎn)置操作，來(lái)交換矩陣的維度，并對(duì)特征進(jìn)行編碼同時(shí)引入幀的位置信息。

自假設(shè)修正

自假設(shè)修正器（Self-Hypothesis Refinement，SHR）對(duì)每個(gè)假設(shè)表示進(jìn)行修正，其中每層包含一個(gè)多假設(shè)自注意力（multi-hypothesis self-attention，MH-SA）和一個(gè)假設(shè)混合MLP（hypothesis-mixing multi-layer perceptron）。

MH-SA包含多個(gè)并行的自注意力塊，它獨(dú)立地對(duì)單假設(shè)依賴進(jìn)行建模，以形成自我假設(shè)通信：

假設(shè)混合MLP用來(lái)交換假設(shè)之間的信息，各個(gè)假設(shè)特征首先拼接起來(lái)通過(guò)MLP來(lái)提取特征，然后對(duì)其進(jìn)行切塊來(lái)得到修正后的每個(gè)假設(shè)表示：

交叉假設(shè)交互

交叉假設(shè)交互器（Cross-Hypothesis Interaction，CHI）對(duì)不同假設(shè)的信息進(jìn)行交互建模，其中每層包含一個(gè)多假設(shè)交叉注意力（multi-hypothesis cross-attention，MH-CA）和一個(gè)假設(shè)混合MLP。

盡管SHR已經(jīng)修正了表示，但在MH-SA中只傳遞每個(gè)假設(shè)的內(nèi)部信息，因此不同假設(shè)之間的聯(lián)系還不夠牢固。因此，作者提出了個(gè)包含多個(gè)并行交叉注意力塊的MH-CA來(lái)同時(shí)捕獲多假設(shè)的依賴性，形成交叉假設(shè)通信：

隨后使用假設(shè)混合MLP來(lái)交換假設(shè)之間的信息：

回歸頭

在回歸頭模塊中，使用一個(gè)線性層來(lái)作用于CHI的輸出，來(lái)回歸得到最終的3D姿態(tài)。

實(shí)驗(yàn)結(jié)果

與SOTA方法的對(duì)比

從表中可見(jiàn)，提出的MHFormer在三維人體姿態(tài)估計(jì)最具有代表性的數(shù)據(jù)集Human3.6M上實(shí)現(xiàn)了SOTA的性能。作者跟大量的21年最新方法進(jìn)行了對(duì)比，并在平均關(guān)鍵點(diǎn)誤差（MPJPE）上超越PoseFormer（ICCV 2021） 1.3mm，3%的提升。

消融實(shí)驗(yàn)

作者給出了在不同感受野，也就是不同的輸入幀數(shù)下模型的結(jié)果。可以發(fā)現(xiàn)隨著幀數(shù)增大，性能得到大幅度提升，但飽和在351幀上。

作者給出了不同模塊對(duì)模型的影響。其中Baseline為標(biāo)準(zhǔn)的Transformer結(jié)構(gòu)（ViT）?？梢园l(fā)現(xiàn)所提出的模塊均可提升性能。這些結(jié)果表明，學(xué)習(xí)多假設(shè)時(shí)空表示對(duì)于三維人體姿態(tài)估計(jì)具有重要意義，并且應(yīng)該以獨(dú)立（SHR模塊）和交互（CHI模塊）的方式對(duì)不同的假設(shè)表示進(jìn)行建模。

更詳細(xì)的結(jié)果與分析見(jiàn)原文。

可視化結(jié)果

作者給出了跟之前的SOTA和Baselie的可視化結(jié)果對(duì)比，可見(jiàn)提出的MHFormer取得了更好的結(jié)果。

作者還給出了一些中間假設(shè)姿態(tài)可視化的結(jié)果。可見(jiàn)在一些具有深度模糊、自遮擋和 2D 檢測(cè)器不確定性的歧義身體部位，MHFormer可以生成多個(gè)合理的3D姿態(tài)解，并通過(guò)聚合多假設(shè)信息合成的最終結(jié)果更加合理和精準(zhǔn)。

代碼運(yùn)行

作者還給出了demo運(yùn)行（https://github.com/Vegetebird/MHFormer），集成了YOLOv3人體檢測(cè)器、HRNet二維姿態(tài)檢測(cè)器、MHFormer二維到三維姿態(tài)提升器。只需下載作者提供的預(yù)訓(xùn)練模型，輸入一小段帶人的小視頻，便可一行代碼直接輸出三維姿態(tài)估計(jì)demo。

python demo/vis.py --video sample_video.mp4

運(yùn)行樣例視頻得到的結(jié)果：

小結(jié)

本文針對(duì)三維人體姿態(tài)估計(jì)存在多個(gè)可行性解的逆問(wèn)題，提出了一種來(lái)學(xué)習(xí)姿態(tài)假設(shè)多重表示的多假設(shè)Transformer的新方法。與大多數(shù)輸出多個(gè)預(yù)測(cè)的方法不同，本文提出使用一對(duì)多對(duì)一的三階段框架來(lái)有效地學(xué)習(xí)多假設(shè)的時(shí)空表示。它提高了每個(gè)假設(shè)的表示能力，同時(shí)也增強(qiáng)了多個(gè)假設(shè)之間的聯(lián)系。大量實(shí)驗(yàn)表明，所提出的MHFormer與單假設(shè)Transformer相比具有巨大的提升，并在兩個(gè)基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了最佳的性能。作者希望MHFormer能夠促進(jìn)2D到3D姿態(tài)姿態(tài)提升的進(jìn)一步研究，同時(shí)考慮到各種歧義性。

好了，這篇文章的內(nèi)容發(fā)貨聯(lián)盟就和大家分享到這里，如果大家網(wǎng)絡(luò)推廣引流創(chuàng)業(yè)感興趣，可以添加微信：80709525 備注：發(fā)貨聯(lián)盟引流學(xué)習(xí)；我拉你進(jìn)直播課程學(xué)習(xí)群，每周135晚上都是有實(shí)戰(zhàn)干貨的推廣引流技術(shù)課程免費(fèi)分享！

關(guān)鍵詞：假設(shè)作者三維人體姿態(tài)人體姿態(tài)估計(jì)特征模塊

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)，該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請(qǐng)發(fā)送郵件至 sumchina520@foxmail.com 舉報(bào)，一經(jīng)查實(shí)，本站將立刻刪除。

您可能還會(huì)喜歡：

發(fā)表評(píng)論

◎歡迎參與討論，請(qǐng)?jiān)谶@里發(fā)表您的看法、交流您的觀點(diǎn)。