1. 首頁 > 汽車知識網 > 汽車問答

    汽車之家關注車系怎么改,車世界汽車之家

    內容簡介

    本文主要介紹深度學習圖像分類的經典網絡結構及發展歷程,就細粒度圖像分類中的注意力機制進行綜述,最后給出汽車之家團隊參加CVPR2022細粒度分類競賽所使用的模型及相關算法、參賽經驗及該模型在汽車之家車系識別業務中的應用。對于想了解圖像分類任務、相關比賽技巧及業務應用的讀者有一定借鑒意義。

    1. 基于深度學習的圖像分類神經網絡

    自AlexNet[1]橫空出世,在ImageNet[2]競賽中取得62.5%的top-1準確率,超越SIFT+FVs[3]類傳統算法8.2%之后,深度神經網絡就成為了圖像分類領域的主要算法,先后出現了VGG[4]、ResNet[5]、Inception[6]、DenseNet[7]等。2019年,谷歌提出的EfficientNet[8]更是將網絡結構設計由人工推向了自動搜索時代。2020年,谷歌提出的Vision Transformer(ViT)[9],將自然語言處理領域的Transformer結構引入圖像分類,將圖像分類帶入了Transformer時代。

    VGG[4]由谷歌Deepmind和英國牛津大學的研究人員聯合開發,使用多個級聯的3x3小卷積核代替了7x7的大卷積核,在保證感受野的基礎上大大降低了網絡的參數量。VGG[4]的另外一個貢獻是通過加深網絡結構提升了分類精度,在ImageNet[2]數據集上使用19層網絡,top-1分類準確率達到了74.5%。

    2015年,當時還在微軟從事研究的何凱明、孫劍等人提出了ResNet[5],通過引入圖1的殘差結構,有效解決了深層神經網絡訓練過程中的梯度消失和梯度爆炸問題,同時解決了隨著網絡加深,分類精度越來越差的“退化”問題。首次在ImageNet[2]數據集上使用152層的超深網絡獲得了較好的分類精度,車世界汽車之家,top-1準確率達到了78.57%,獲得了2015年ImageNet[2]競賽分類賽道的第一名。

    2015年,當時還在微軟從事研究的何凱明、孫劍等人提出了ResNet[5],通過引入圖1的殘差結構,有效解決了深層神經網絡訓練過程中的梯度消失和梯度爆炸問題,同時解決了隨著網絡加深,分類精度越來越差的“退化”問題。首次在ImageNet[2]數據集上使用152層的超深網絡獲得了較好的分類精度,top-1準確率達到了78.57%,獲得了2015年ImageNet[2]競賽分類賽道的第一名。

    首先,輸入用戶名和密碼,登陸汽車之家,如圖所示 登陸后,在頁面上方點擊的自己的賬號,如圖所示 進入自己賬號的頁面后,點擊下方的“認證車主”,如圖所示 打開后就看見自己所關注的車型了,修改液可以,添加也可以,我這里。

    圖1 殘差模塊

    圖2 Inception 模塊

    在網絡深度和寬度的研究取得長足進步之后,一些研究人員開始考慮通過網絡特征的重用,提升網絡的分類效果,比較典型的就是2017年CVPR的最佳論文DenseNet[9]。ResNet[5]證明了殘差短連接能有效解決梯度消失和網絡退化問題,如圖3所示DenseNet借鑒了這一思想,將短連接使用在了所有層之間,對于一個L層的網絡的第N層,前N-1層的特征在第N層實現了特征融合,同時,第N層的特征也提供給后邊L-N層進行特征融合。特征重用避免了無效特征的重復提取,在提升網絡的分類精度的同時,也有效降低了網絡的參數量。DenseNet[9]在ImageNet[2]數據集上的top-1準確率達到了79.2%

    至此,人工設計網絡結構的相關工作開始進入了百花齊放的時代,與此同時,谷歌大腦(Google Brain)的研究人員于2018年提出了神經網絡結構搜索(Neural Architecture Search)。此后,神經網絡設計進入了自動化時代。由于NAS需要的計算資源較大,因此早期NAS都是在一個小數據集上,如CIFAR-10,搜索出一個基礎卷積結構單元(Cell),之后再通過復制這些基礎卷積結構單元,“遷移”到如ImageNet[2]這樣的大數據集上。如圖4所示,網絡搜索過程由一個RNN網絡控制,基礎卷積結構單元接收”hidden state”列表里前兩個狀態hi和hi-1或列表里的兩個狀態的輸出(圖4中的灰色方框),之后從圖5所示的操作中選擇2個(圖4中的黃色方框),作用在選出的兩個狀態上,最后再使用加法(add)或疊加(concat)(圖4中的綠色方框)的融合方法進行融合,不斷迭代增加新的基礎卷積結構單元,直到基礎卷積結構單元的數量達到預設的N。使用這種網絡搜索算法,搜出的NASNet[10]在ImageNet[2]數據集上的top-1準確率達到了82.7%,達到和超越了人工設計的網絡結構。

    NASNet[10]開啟了神經網絡搜索時代,實現了網絡結構的設計的自動化,但其缺陷也比較明顯。NASNet[10]的搜索空間仍然是人為設定的,是一種基于給定搜索空間的網絡結構搜索算法。針對這一問題,FAIR何凱明團隊2020年提出了用于設計搜索空間的方法,RegNet[12]論文中將網絡結構搜索空間也作為網絡結構設計的一部分。如圖6所示,通過不斷優化網絡搜索空間,同時獲得了最佳的搜索空間和該搜索空間中的最佳網絡結構。

    2020年,谷歌提出ViT(Vision Transformer)[13],將NLP(Natural Language Processing)領域使用的Transformer引入視覺領域,將圖像分為分辨率相同的若干子塊,每一個子塊作為NLP領域的一個字符(token)進行處理。Transformer自注意力機制的引入,極大提高了網絡的分類效果,在ImageNet[2]數據集上的top-1準確率達到了88.55%。

    圖3 DenseNet

    圖4 RNN控制器

    圖5 NASNet基礎卷積結構單元

    圖6 搜索空間

    2. 基于深度學習的圖像細粒度分類

    在過去的十年,深度學習推動圖像分類取得了長足進步,但常見的圖像分類數據集,如ImageNet[2],中的類別的粒度仍然較粗。比如,狗這個類別下,還可以細分為拉布拉多、金毛尋回犬、邊境牧羊犬等細分類別。粗粒度的分類已經越來越無法滿足實際生產生活的需要,學術界及工業界迫切希望深度學習能在細粒度分類任務中發揮重要作用。與粗粒度分類不同,細粒度分類更加關注物體細節之間的差異,需要模型更加注意一些細節,因此,學術界提出了“注意力”機制。

    近年來,注意力機制被廣泛引入細粒度分類領域,出現了如SE[14]、GE[15]、CBAM[16]、SK[17]等注意力模塊,這些模塊被融入各種網絡結構中,有效地提升了分類效果。

    SE模塊提出相對較早,2017年由Momenta提出,由SE模塊構建的SENet也成為了2017年末代ImageNet[2]分類競賽的冠軍網絡。卷積神經網絡(CNN)同時融合空間和通道信息,SE模塊則更加關注通道信息的融合。如圖7所示,對Feature Map U首先進行Squeeze操作,得到一個通道描述子,該描述子主要用來描述各通道的響應分布。緊接著對該描述子進行excitation操作,得到各通道權值向量,并使用該權值向量對Feature Map的各通道進行加權,加強權值較大的通道,抑制權值較低的通道,通過這種方式實現了通道注意力機制。

    使用SE[14]模塊實現通道注意力機制之后,Momenta又在2018年提出了空間注意力模塊GE[15]。如圖8所示,GE[15]使用自定義的Gather和Excite模塊實現了空間感受野區域的注意力機制。

    2018年,還出現了另一個同時融合通道、空間注意力的注意力模塊,即CBAM[16]。如圖9所示,對于任意一個Feature Map,CBAM模塊先后提取通道和空間注意力信息,并分別跟相應的Feature Map進行加權,同時實現了通道和空間注意力。

    圖7 SE(Squeeze & Excitation)模塊

    圖8 GE(Gather & Excite)模塊

    圖9 CBAM模塊

    圖10 SK模塊

    3. 基于深度學習的圖像細粒度分類算法

    在CVPR比賽中的應用

    舉個例子,找到大眾,點開朗逸,下面出現很多款型,關注在左下角,”詢底價”的旁邊。望查收。

    6月19日,CVPR 2022在美國舉行,CVPR作為全球計算機視覺三大頂級會議之一,被譽為計算機視覺領域的“奧斯卡”。汽車之家團隊在作為大會研討會內容之一的,在Kaggle上舉辦的CVPR 2022 Sorghum-100 Cultivar Identification-FGVC 9(高粱品種鑒定細粒度圖像分類)挑戰賽中取得了第二名的成績,實現了公司歷史上的突破。

    細粒度圖像分類一直是計算機視覺領域的研究熱點,主要難點在于細粒度標注圖像的類間距離小,類內距離大導致部分圖像的類別靠人眼都很難分辨,比如,此次FGVC9的比賽中,高粱品種鑒定和植物標本識別競賽的數據需要很強的專業知識才能判定圖像所屬類別。如圖11所示,兩個圈內的同樣顏色的樣本之間的距離稱為類內距,不同顏色的樣本之間的距離稱為類間距。

    圖11 類內距和類間距

    本次比賽中,主要使用了RegNetY-16.0GF作為主干網,大分辨率圖像對精度的提升起到了很大作用,當將圖像分辨率由512增大到960之后,精度在私榜上由84.1提升到了91.9。因此,我們相信,大分辨率圖像對于細粒度分類效果提升有較大幫助。

    如前文所述,注意力機制的引入能極大提升細粒度圖像分類模型的精度,除了作為主干網的RegNetY-16.0GF中的SE[14]模塊之外,本次比賽中還提出了一種新型的注意力區域裁剪策略。注意力區域裁剪是細粒度圖像分類領域常用的方法,如圖12所示,SCDA[18]使用最大聯通域的方法,將注意力區域裁剪出來,避免了不相關區域對模型訓練的影響,使模型更加關注注意力區域。最大連通域法對于注意力區域比較明顯的情況,如圖12所示的鳥,處理效果較好,對于Sorghum-100數據集則很難適用。如圖13所示,Sorghum-100數據集的注意力區域比較分散,使用最大連通域的方法裁剪注意力區域的話,在得到較好的注意力區域的同時,會丟失一部分注意力區域,降低模型的分類精度。因此,我們提出了一種注意力區域隨機裁剪法。該方法的流程圖如圖14所示,輸入圖像經過一個Epoch訓練之后,可以得到一個模型,使用該模型預測所有訓練圖像,對訓練原圖進行裁剪,將裁剪后的結果作為下一個Epoch的訓練數據,如此循環,直到訓練結束。隨機裁剪流程如圖15所示,使用第n個Epoch訓練出的模型對訓練圖像進行預測,得到全連接層之前輸出的注意力圖像,如圖13所示。使用閾值T對注意力圖像進行二值化,得到黑白圖G。假設隨機crop的圖像的寬高分別為w和h,可以對圖G進行N此裁剪,包含白色區域最多的區域(x,y,w,h)即為第n+1個Epoch該圖用于訓練的區域。

    使用這種注意力區域隨機裁剪法,一方面保證了模型更關注注意力區域,另一方面又避免了由于注意力區域較分散造成的信息丟失。

    第一步:進入“我的首頁”;第二部:選擇頁面左下方倒數第三項“車庫”;第三部:這時頁面中會出現你所關注的車型,光標移到上面或出現“取消關注、更換車型”,上面還有增加車型等,,,OK!

    圖12 SCDA

    圖13 注意力區域隨機裁剪

    圖14 注意力區域隨機裁剪

    圖15 隨機裁剪流程圖

    數據增強方面,除了常見的左右翻轉、隨機裁剪之外,還使用了谷歌在CVPR2019論文中提出的AutoAugment[19],該方法通過參數搜索,獲得了在常見數據集,如CIFAR、ImageNet等,上的最佳增強策略。

    Pseudo Label作為一種常用的自監督學習方法,也被廣泛用于圖像分類領域。每次訓練結束之后,都使用訓練出的最佳模型,對測試集進行預測,將預測結果作為標注信息,加入訓練集,不斷循環,直到測試集準確率沒有明顯提升。本次比賽中,加入Pseudo Label之后,私榜上精度由91.9提升到了95.1。

    Test Time Augmentation(TTA)作為一種常見的測試技巧,也被應用到了本次比賽中。數據增強除了在訓練階段可以用來避免過擬合,提升模型泛化性之外,在測試階段也可以有效提升模型精度。

    Dropout作為一種有效防止過擬合的方法,在比賽的最后階段,dropout的加入使模型精度在私榜上由95.1提升到95.3。

    Ensemble也是一種競賽常見技巧,將不同模型預測的embedding進行加權,再使用加權后的embedding進行預測,也可以有效提升模型精度。本次比賽的最后階段,Ensemble的加入使模型精度在私榜上由95.3提升到95.9。

    4. 基于深度學習的圖像細粒度分類算法

    在汽車之家車系識別業務中的應用

    汽車之家作為汽車互聯網垂直領域的領軍企業,一直深耕如車系識別等汽車領域的人工智能算法。車系識別目前支持識別4000多個車系,涵蓋奔馳、寶馬、奧迪等絕大部分常見車系,應用于主APP的拍照識車、二手車/論壇信息校驗等多個內部應用。

    本次比賽結束之后,車系識別模型也使用了比賽中使用的RegNetY-16.0GF,準確率提升了3.25%。如圖17所示,模型的注意力區域主要集中在車頭位置,因此對于同一車系內部,車頭外觀相差較大的車系,識別準確率較差;同樣,對于不同車系,車頭外觀較相似的車系,也容易混淆。即圖11中提到的,細粒度分類問題中常見的,類間距離小,類內距離大問題。

    圖16 汽車之家主app拍照識車

    圖17 車系識別模型注意力圖

    5. 總結及展望

    近年來,深度學習的發展極大推動了細粒度分類在交通、醫療、工業、農業、電商等領域的落地。各種反應工業界需求的相關比賽也吸引了大量從業者參加,如專注自然物種分類的iNat Challenge 2021[20]、關于漁業資源保護的Fisheries Monitoring[21]、阿里巴巴主辦的AliProducts Challenge等。與一般圖像分類問題相似,細粒度分類的發展也面臨著諸多挑戰:

    數據標注:細粒度圖像的標注往往需要相關專業知識(如醫學等),這給標注帶來了極大困難。因此,自監督學習是未來的一大趨勢。FAIR的何凱明團隊最近提出的自監督學習框架MAE[23]在Imagenet[2]分類任務上取得了SOTA(State of Art)的結果,相信在不久的將來,自監督學習也會在細粒度分類任務上取的驕人的成績。

    識別魯棒性:眾所周知,圖像分類問題受圖像質量影響較大,暗光、過曝、模糊等圖像質量問題都會影響到圖像分類的精度,這一影響對細粒度分類尤其嚴重,如何提高細粒度分類模型的魯棒性也是這一領域從業者面臨的較大挑戰。

    訓練集不包含的類別:在一個圖像分類數據集上訓練的模型往往難以分辨該數據集之外的圖像,有時會把這部分圖像誤識為訓練集中的某一類別,也就是學術界常常提到的OOD(Out of Distribution)問題。這類問題往往需要前置一個檢測或分割模型,將模型不能識別的類別的圖像篩選出來。如果在訓練集中增加“其他”這一類別,由于其他類包含太廣,識別效果往往不好。因此,這一問題的解決也將是細粒度分類領域的一大挑戰。

    直接撥打客服的400電話就可以了,或者你再重新認證 點擊自己的ID,顯示到自己的空間頁面 ,點擊車庫,然后右側邊上你會看到在你已經選的車型那塊右側,有修改車型的選項 ,點擊修改,修改成你已經換的車即可。汽車之家成立于。

    小樣本識別(長尾):細粒度分類的很多類別數據收集較困難,因此會出現訓練/測試樣本不均衡問題,也就是業界常常提到的“長尾”問題。這就導致模型對數據量較大的類別識別效果較好,對數據量較小的類別識別效果較差。

    汽車之家關注車系怎么改

    [1]. Krizhevsky,A.,Sutskever,I.,and Hinton,G. E. ImageNet classification with deep convolutional neural networks. In NIPS,pp. 1106–1114,2012

    [3]. J. Sánchez and F. Perronnin. High-dimensional signature compression for large-scale image classification. In Computer Vision and Pattern Recognition (CVPR),2011 IEEE Conference on,pages 1665–1672. IEEE,2011

    [4]. K. Simonyan,A. Zisserman,Very Deep Convolutional Networks for Large-Scale Image Recognition. In International Conference on Learning Representations,2015

    [5]. K. He,X. Zhang,S. Ren and J. Sun,&34; 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016,pp. 770-778,doi: 10.1109/CVPR.2016.90.

    [6]. C. Szegedy et al.,&34; 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2015,pp. 1-9,doi: 10.1109/CVPR.2015.7298594.

    [7]. C. Szegedy,V. Vanhoucke,S. Ioffe,J. Shlens and Z. Wojna,&34; 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016,pp. 2818-2826,doi: 10.1109/CVPR.2016.308.

    [8]. Szegedy,C.,Ioffe,S.,Vanhoucke,V.,et al. Inception-v4,Inception-Resnet and the Impact of Residual Connections on Learning. Thirty-First AAAI Conference on Artificial Intelligence,San Francisco,4-9 February 2017,4278-4284.2017

    [9]. G. Huang,Z. Liu,L. Van Der Maaten and K. Q. Weinberger,&34; 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017,pp. 2261-2269,doi: 10.1109/CVPR.2017.243.

    [11]. R. Doon,T. Kumar Rawat and S. Gautam,&34; 2018 IEEE Punecon,2018,pp. 1-5,doi: 10.1109/PUNECON.2018.8745428.

    [12]. N. Schneider,F. Piewak,C. Stiller and U. Franke,&34; 2017 IEEE Intelligent Vehicles Symposium (IV),2017,pp. 1803-1810,doi: 10.1109/IVS.2017.7995968.

    [13]. Alexey Dosovitskiy,Lucas Beyer,Alexander Kolesnikov,Dirk Weissenborn,Xiaohua Zhai,Thomas Unterthiner,Mostafa Dehghani,Matthias Minderer,Georg Heigold,Sylvain Gelly,Jakob Uszkoreit,Neil Houlsby,An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021

    [14]. J. Hu,L. Shen and G. Sun,&34; 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018,pp. 7132-7141,doi: 10.1109/CVPR.2018.00745.

    [15]. Jie Hu and Li Shen and Samuel Albanie and Gang Sun and Andrea Vedaldi,Gather-Excite: Exploiting

    [16]. Woo,S.,Park,J.,Lee,JY.,Kweon,I.S. (2018). CBAM: Convolutional Block Attention Module. In: Ferrari,V.,Hebert,M.,Sminchisescu,C.,Weiss,Y. (eds) Computer Vision – ECCV 2018.

    [17]. X. Li,W. Wang,X. Hu and J. Yang,&34; 2019 IEEE/CVF Conference on

    Computer Vision and Pattern Recognition (CVPR),2019,pp. 510-519,doi: 10.1109/CVPR.2019.00060.

    [18]. X. Wei,J. Luo,J. Wu and Z. Zhou,"Selective Convolutional Descriptor Aggregation for Fine-Grained

    Image Retrieval," in IEEE Transactions on Image Processing,vol. 26,no. 6,pp. 2868-2881,June 2017。

    doi: 10.1109/TIP.2017.2688133.

    [19]. E. D. Cubuk,B. Zoph,D. Mané,V. Vasudevan and Q. V. Le,"AutoAugment: Learning Augmentation

    Strategies From Data," 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition

    (CVPR),2019,pp. 113-123,doi: 10.1109/CVPR.2019.00020.

    [20]. iNat Challenge 2021

    [21]. Fisheries Monitoring

    [22].

    在我的汽車之家中,左下角的通用---車庫---修改車型或者添加新車 都是可以的

    [23]. Kaiming He and Xinlei Chen and Saining Xie and Yanghao Li and Piotr Dollar and Ross Girshick。

    Masked Autoencoders Are Scalable Vision Learners,IEEE/CVF Conference on Computer Vision and

    Pattern Recognition,2022

    本文作者陳心、韓沛奇、張磊,來自智能數據中心-圖像組,主要從事圖像相關算法研發、落地,包括車系識別、車輛檢測、人臉檢測、圖像去重、人臉識別、圖文多模態等。

    出處:

    版權聲明:本站文章均來源于網絡,如有侵權請聯系刪除!

    聯系我們

    在線咨詢:點擊這里給我發消息

    QQ:

    工作日:9:30-18:30,節假日休息

    老婆的视频完整版在线观看