コンピュータビジョン分野のトップカンファレンスであるECCV2022からワークショップの模様を紹介(前編)

目次

はじめに

こんにちは、イノベーションセンターの鈴ヶ嶺・加藤・齋藤です。普段はコンピュータビジョンの技術開発やAI/MLシステムの検証に取り組んでいます。10月23日から27日にかけて、コンピュータービジョン分野におけるトップカンファレンスのひとつである ECCV2022 がオフラインとオンラインのハイブリッドで開催され、NTT Comからは複数名オンラインで参加しました。その参加レポートを前後編に分けて紹介します。 前編では会議の概要とWorkshop、Kaggle、Keynote talkについて紹介します。後編では、論文の紹介をしたいと思います。

ECCV2022概要

ECCVは2年に1度開催されるコンピュータービジョン分野におけるトップカンファレンスのひとつです。今年は現地(Tel Aviv)とオンラインのハイブリッド開催でした。採択率は25.3%(1645/6773)となっております。ECCV2022でも、中国やアメリカの採択が割合を大きく占めているようです1

Workshop

Instance-Level Recognition Workshop

https://ilr-workshop.github.io/ECCVW2022/

このワークショップではinstance-level recognitionという、固有名詞レベルで物体を分類する技術を取り扱っています。日本語では特定物体認識と呼ばれることが多いようです。この技術は以下のような応用が考えられます。

  • ARを用いた美術館や遺跡の説明
  • コマースにおける商品認識
  • 画像検索

このタスクは以下のような特徴があり、特に多様性のあるデータセットの構築が困難であるようです。

  • Large-scale: 一般物体認識に比べカテゴリ数が遥かに多く、例えば観光地の画像を収集したGoogle Landmark Dataset (GLD) v2では200,000カテゴリ存在する。
  • Long-tailed: 有名どころならカテゴリあたり1000画像以上あるが、5枚以下しかないカテゴリもかなり存在する。
  • Limited appearance: 一部しか見えていないことがあるが、大抵の認識対象は剛体なので局所特徴量を比較する画像マッチングが役立つ。

本ワークショップでは、instance-level recognitionのさまざまな手法の紹介に加え、より広い分野にわたって収集された画像データセットや、それを用いたコンペティションの紹介も行われました。この章では各発表の概要を紹介していきます。

workshopの歴史

本ワークショップは2018年のGLDv1を用いた1st landmark detectionから始まりました。当時は観光地画像のみを対象としたlandmark detectionでしたが、近年は物体一般のinstance level recognitionを目標としており、今回は以下の2つのコンペティションが紹介されました。

  • Kaggle Google Universal Image Embedding Competition
  • 2022 Amazon Alexa Language Assisted Product Search Challenge

それぞれのコンペティションの概要はのちの節で述べます。

Keynote talk: Image Search and Matching

画像検索と画像マッチングの方法についての発表です。

一番基本的な画像マッチングは、画像から特徴点を抽出し、特徴量の近い点同士をマッチングしたのち、一番尤もらしい変換行列Hを算出します。 画像検索では画像間の視点がしばしば著しく異なるものの、画像マッチングで使う局所特徴量を活用して画像の類似度を測ったり、マッチングにより算出した変換行列を用いて特徴点の位置関係を検証し偽陽性(局所的に似た箇所はあるものの異なる物体が写っている検索候補)を排除したりできます。しかし大規模なデータベースからの画像検索では、局所特徴量によるマッチングを総当たりでと計算量が膨大になるため、別の手法が必要になります。この発表では画像検索について2つの論文が紹介されました。

  • DELG2 では、ニューラルネットワークによって画像から抽出された大域特徴量をデータベースに保存し、検索時にはクエリに類似した大域特徴量を持つ画像に対して、同じくニューラルネットワークから抽出された局所特徴量でマッチングを適用し検索結果を洗練させました。この後処理はRerankingと呼ばれています。

    (元論文のFig. 1から)

  • Instance-level Image Retrieval using Reranking Transformers3 では、従来は候補画像の局所特徴量にRANSACをかけ幾何的に正しく対応している特徴点をカウントすることで(これをGeometric verificationと呼びます)行われていたRerankingをTransformerで行いました。大域特徴量と局所特徴量にそれぞれposional encodingを行い、Transformerに入力して類似度を予測しています。 (元論文のFig. 2から)

ここで紹介されているように、大域特徴量のみ、局所特徴量の集合のみを使った比較よりも、大域特徴量とRerankingの融合はより精度の高い画像検索を可能にすることがわかっています。

また、より発展した画像検索の手法としてDrill-down4が紹介されました。この手法では自然言語によるプロンプトを検索の補助として活用しており、公園でとった記念写真のような、特定のランドマークが存在しない非常に困難なケースでも「右にピンクのコートを着た女性がいる」などの条件を追加していきながらインタラクティブに画像検索ができるようになっています。 ふつう画像には様々なものが写っており、検索するユーザーがどれに言及するかは明らかではありません。そこでこのモデルではユーザーの文章群をいくつかの話題にカテゴリ分けし、それぞれの話題についての言語特徴をまとめたものと、画像に写っているさまざまな物体の画像特徴をまとめたものとを比較し類似度を算出しています。 (元論文のFig. 2から) そしてこのモデルを学習する時は、画像のさまざまな領域に説明のアノテーションがついたVisual Genome dataset5を用いて検索クエリを再現しています。

最後の話題は画像と言語の統合でした。 近年では画像とキャプションのペアを集めた大規模なデータセットで学習したモデルを用いて、「A picture of a [category name]」というキャプションと入力画像との一致度を比較するというゼロショットの画像分類手法が好成績を収めました6。さらに、画像単位で与えられているキャプションをもとに、その記述が画像のどこを指しているのかをバウンディングボックスやヒートマップで可視化する説明手法なども提案されています7

Kaggle Google Universal Image Embedding Challenge

https://www.kaggle.com/competitions/google-universal-image-embedding

クエリとして与えられた画像に同じものが写っている画像を検索できるような特徴量抽出機を作るコンペティションです。

一般的な手法では以下のようにドメインごとに学習されていました。

  • Google landmark dataset: 建物や観光地の画像
  • iNaturalist dataset: 動植物の画像

さまざまなドメインにわたって表現可能な特徴量の計算がこのコンペティションのゴールでした。

kaggleで行われたコンペティションのフォーマット

  • 学習データは配布せず、条件なしで任意の公開データセットを使用可能とした
  • 画像から64次元の特徴量を出力するPytorch/Tensorflowモデルを提出する
  • Kaggle kernel上で9時間以内に評価用のデータセットから特徴量計算 & 5 nearest neighborsの計算が可能なモデルとする

評価データセットは以下のようにlarge-scale, long-tailedな特徴を持っています。

  • 衣服、家具、建物など10以上の分野にわたって収集
  • 5000枚のクエリ
  • 20万枚の検索用データベース
  • クエリの8割は正例が25枚未満, 57%は10枚未満のカテゴリだった。

Winning solutions

上位陣は以下のような手法を用いていました。

  • large-scale pretrained model
    • CLIP-ViT-H/L pretrained on LAION 5B 今回自然言語はほとんど関係ありませんが、画像とキャプションのペアをもとに事前学習されたCLIPが広く使われました。
  • Mixing training dataset
    • General Purpose: GPR1200
    • Landmark: GLD
    • Products: Products10k, Deepfashion, Alibaba Goods
    • Art: MET 公開されているデータセットを収集しファインチューニングに活用していました。
  • Data Augmentation
    • Class Balancing
    • Multi-resolution, Overlapping Patches 少量のサンプルしかないカテゴリの対策として行われたようです。
  • Model Ensembling
    • Model soup: https://arxiv.org/abs/2203.05482 最終的な出力は特徴量なので、出力をアンサンブルするのではなくモデルの重みをアンサンブルするModel soupがよく使われていました。
  • Arcface 元は顔認識用の手法ですが、今回のように似たような画像の特徴量を近づける距離学習というタスクに広く使われています。

以下の節では上位陣の解法の概要を説明します。

1st place solution

https://www.kaggle.com/competitions/google-universal-image-embedding/discussion/359316

今回アンサンブルがあまり効かず、その理由として、モデルごとに異なる特徴空間の値をただ平均するのが良くないのではという仮説を立てています。そこで特徴空間の形を決めるのは最後のprojection layerのみであるという仮定のもと、head部をフリーズしてbackboneのみをファインチューニングするという方法をとったところ性能が向上しました。

4th place solution

Zeroshotでも強力なモデルが作成可能であることを示しています。 https://www.kaggle.com/competitions/google-universal-image-embedding/discussion/359998

  1. GPT-3を活用し、さまざまな物体のテキストプロンプトを生成("Give me a list of 100 diverse dishes as a Python list"とGPT-3に入れると、stringのリストが手に入る)
  2. CLIPのtext encoderに通して特徴量を計算し、64次元にPCA
  3. 得られたprojection layerをvision encoderにくっつける

一方で最終的な解法は次のようになっています。 https://www.kaggle.com/competitions/google-universal-image-embedding/discussion/359487

特徴としては以下の3点が挙げられます。

  • model soupの活用
  • Arcfaceの利用
  • H-14とL-14-336の異なるモデルサイズのアンサンブル

Keynote talk: Few-Shot Learning for Object-Aware Visual Recognition

少量の教師データをもとに推論するタスクをfew-shot learningと呼びます。例として、動画のあるフレームで映っている対象物体にアノテーションを施すと、残りのフレームに映る対象を自動でセグメンテーションしてくれるというものが挙げられます。このようなタスクは直接instance-level recognitionとは関係ありませんが、一方のテクニックを他方に応用できる可能性があると発表者は述べていました。

Few-shot learningは画像分類とセグメンテーションの分野で広く研究されていますが、セグメンテーションよりも細かい対応づけ、つまり異なる物体間の意味的に同じ部分(生物なら頭や足など)を対応づけるということはまだ上手くできていません。本発表ではこの「意味的な対応づけの学習」に注目したベンチマークデータセットSPair-71k8やマッチング手法としてハフ変換を活用するもの9、attention機構を導入したもの10、特徴抽出器のさまざまな中間層から特徴マップを取り出して相関をとるもの11などが紹介されました。

そしてより発展的な問題として、従来はクエリ画像に対して1種類の分類やセグメンテーションしかできなかったfew-shot learningをマルチラベルに拡張したFS-CS12というタスクが紹介されました。このタスクはより現実に即したものと言えます。

Amazonでは以下のようなインタラクティブな買い物ボットを実現するための研究をおこなっています。

  1. ユーザーが「鞄が欲しい」と言うと、ボットが鞄の商品画像を表示
  2. さらに「赤いのが欲しい」と言うと、赤い鞄の画像を表示
  3. さらに「もっと小さいのが欲しい」と言うと、より小さな赤い鞄の画像を表示

本発表ではこれを目標としたコンペティションを設計しオープンしたことが語られました。

Single-Shot Language-Assisted Product Retrieval

https://eval.ai/web/challenges/challenge-page/1845/evaluation

商品画像とそれに対するフィードバックの文章をもとに、その要求に応えた商品画像を検索可能な特徴ベクトルを生成するコンペティションです。

このタスクを行うための評価データセットの構築には次のような障害がありました。

  • large-scale: 扱う商品があまりに多すぎる上に、今あるデータセットはその一部しかカバーしていない。
  • similar products: 何千もの似た様な商品が存在し、クエリごとにそれら全てを正例としてアノテーションするのは現実的でない。既存のデータセットは正例を1つに限定してしまっている。
  • diverse language: フィードバックのプロンプトは多様性に満ちており、単語ではなく文章を喋っているので自然言語処理が必要。

これらを意識し次のようなデータセットが作られました。

  • 学習データ
    • 100万枚の画像データベース
    • 15000件のproduct triplets(クエリ画像1枚とフィードバック3件の組)
    • 衣服のみ
  • 評価データ
    • 100万枚の画像データベース (学習データと重複なし)
    • 15000件のproduct triplets
    • 衣服と家具

これを構築するために3万件のproduct tripletsがアノテーションされましたが、これらは以下のように行われました。

  1. 元商品、欲しい商品、欲しくない商品の組を見せ、欲しくない商品を避けつつ元商品から欲しい商品に替えてくれるようなフィードバックをアノテーターに書かせる。
  2. 欲しい商品に似た画像を50枚収集し、元画像+フィードバックにマッチするものを正例に加える。
    • 最終的に8500クエリを追加アノテーションし、そのうち79%が単一の正解サンプルをもっていて、5%が5件以上の正解サンプルを持っているという結果になった。

Baseline model

VAL13というモデルが公式のベースラインとして利用されました。このモデルの特徴は次のようになっています。

  • フィードバック文章はLSTMに通して特徴を生成する。
  • クエリ画像は段階的に畳み込みながら、各レベルで文章特徴とcross attentionを行い中間特徴を生成する。
  • ターゲット画像はフィードバックとのcross attentionを行わずに中間特徴と比較しクエリの中間特徴に近づける。

このコンペティションは2023/1/1に終了予定です。

今後の方針として、複数回のフィードバックへの対応や、ユーザーがアップロードした画像に対応することなどが挙げられていました。

Granularity-aware Adaptation for Image Retrieval over Multiple Tasks14

画像検索タスクに使われるモデルは基本的に様々な分野にわたる画像に対応していますが、対象を狭くしてより強力なモデルを作りたいというケースがあります。しかし新しく対象の分野でのデータセットを構築するのはコストが高く、また画像検索タスクに使われるモデルはドメイン変化に弱いことが知られています。そこでラベルなしのデータセットを使ってドメイン適応したいというのが本発表のモチベーションであり、巨大な事前学習済みモデルの効率的な転移学習を可能にするTransformerベースのAdapterFusion15をラベルなしデータセットに応用しました。

本手法ではラベルなしデータセット全体で特徴量を計算し、クラスタリングした結果を擬似ラベルとしてAdapterを学習します。工夫点として、対象のデータセットの粒度を段階的に細かくしていきながら学習を進めるということを行なっています。まず少ないクラスタ数で擬似ラベルを付けて転移学習し、段階的にクラスタ数を増やしながら転移学習を繰り返すことで精度の向上を図っています。

MRT dataset

評価用にMRTデータセットを利用しました。このデータセットは以下の6つのデータセットの合成となっています。

  • Aircraft
  • Cars
  • CUB
  • Flowers
  • Food-101
  • Products

まずデータセット全体でモデルを学習し、評価時は各分野のテストデータを使って別々に精度を測り、それぞれのタスクに特化した検索ができているか評価します。

Where in the World is this Image? Transformer-based Geo-localization in the Wild

Geo-localizationとは、画像から緯度経度を予測するタスクです。 データセットが大規模であること、時刻・天気・季節といった変数によって画像が大きく変化することなどがマッチングを困難にしていることが知られています。また似たような建物を他の地域が建てることもあるため注意が必要です。

Approach

Vision Transformerを利用し、以下のような工夫を施しています。

  • セマンティックセグメンテーションで情報をまとめることで時刻や天気に対するロバスト性を確保
  • シーンタイプを同時に予測する(自然、都会、屋内など)ことでシーンごとに必要な特徴量を意識させる

Dataset

利用したデータセットは以下の通りです。

  • Training: MediaEval Placing Task 2016 (Flickrから収集した4.72M geo-tagged images)
  • Validation: YFC26k (25.6k geo-tagged)
  • Test: Im2GPS, Im2GPS3k, YFCC4k

What to Hide from Your Students: Attention-Guided Masked Image Modeling

Masked image modeling(画像の一部を隠して復元させる)を通したVisual Transformerのself-supervised learning手法についての発表でした。

既存手法ではランダムにPatchを隠していました(random erasing)が、以下のような提案手法によって分類性能を向上させています。

  • Visual Transformerのself attentionを活用した効果的なerasing
    • attentionの高いPatchを優先的に消すことで、random erasingよりも難しいサンプルを生成できる
  • ヒントとなる部分を少し残すことでさらに性能が向上する

Keynote talk: Instance level recog for SSL, and vise-versa

ラベルのない大量の画像でself-supervised learningを行い、画像検索やコピー検出などの後段のタスクに活用するという手法を紹介しています。

かつてのself-supervised learningは以下のように行われていました。

  • instance discrimination
    • 同じ画像にさまざまなData Augmentationをかけ、頑健な特徴量を計算する
    • 画像数と同じだけカテゴリを用意するためスケールしないという欠点がある
  • Constrastive learning
    • negative pairよりpositive pairの方が近い特徴量になるように学習
    • 大規模なnegative pairsを収集する工夫がなされた
      • SimCLR16: バッチサイズを大きく取り、バッチ内の画像間をnegative pairとした。
      • MoCo17: これまでの入力に対する特徴を記憶し、negative pairの相手として採用する。記憶している特徴量が学習中の特徴抽出器に対して古くならないように、記憶の仕組みはキュー型を採用した。

negative pairsを使わないSSL:DINO

そもそもnegative pairを使わない手法としてDINO18などが提案されています。DINOの特徴として以下の点が挙げられます。

  • Teacher networkとStudent networkを用意し自己蒸留
    • studentはteacherの出力と一致するように重みをSGDで更新
    • teacherはstudentの重みに指数移動平均(EMA)で緩やかについていく
  • ネットワークの出力が単一ラベルにつぶれたり一様に平たくなってしまう問題は、teacher側の出力にCenteringとSharpeningをかけ、意味のある出力をstudentに真似させることで克服

一般的な蒸留と異なり、teacherには正解ラベルが与えられないこと、またstudentはteacherの出力を真似てteacherがstudentのパラメータを真似るというサイクルができていること特徴的です。 Oxford / Parisデータセット19を用いた実験では以下のことが示されています。

  • ImageNet (w/labels) を使った教師あり学習より、ラベルなしでImageNetをDINOで学習したものの方が高性能だった。
  • 学習データをGoogle Landmark Datasetに替えるとより高性能になった

画像/映像コピー検出への応用でもDINOが良い精度を出していることが示されています。

3rd Advanced Autonomous Driving Workshop

https://avvision.xyz/eccv22/

自動運転に関する本ワークショップでは、3次元物体認識やセグメンテーションに加え、運転シミュレーターを用いた運転経路の予測など自動運転に関する様々な技術が取り扱われています。今回が3回目で、過去にはWACV'21やICCV'21でも開催されているとのことです。ここでは、ワークショップの中でも印象的だった、Andreas Geiger教授の招待講演を紹介したいと思います。

Learning Robust Policies for Self-Driving

この招待講演ではAndreas Geiger 教授の研究室から今年2022年に発表された3つの最新論文が紹介されていました。各論文の概要を以下で説明します。

Transfuser20

Transfuserは、複数センサーから得られるマルチモーダルデータを入力として適切な運転経路予測をするモデルです。カメラから取得したRGB画像と、LiDARセンサから取得した点群の鳥瞰図(Bird's Eye View, BEV)とを各々の特徴抽出器に入力し、中間層で各モーダルの特徴マップにTransformerベースのCross Attentionを適用することで、画像と点群それぞれの特徴抽出器の出力が他方のモーダルの情報で補間されると述べられています。CARLAシミュレーターで生成したデータセットで評価したところ、同一入力のベースライン手法に比べ規則違反なくルートを完走する性能が大きく向上することが示されていました。

PlanT21

Transfuserがセンサー群から得られるデータを入力とするモデルであったのに対し、PlanTでは周囲の運転エージェント(近くを走行する車両)の情報が即時的に得られることを仮定し、その情報から算出される特徴量(object-level representation)を入力として運転経路の予測を行います。Object-level representationは、運転エージェントの位置、向き、大きさ、エージェントが搭載するセンサーのデータを前述のTransfuserに入力して得られる属性とから算出され、各エージェントのrepresentationが1つのトークンとしてBERT22ベースのモデルに入力されます。この論文でもCARLAシミュレーターから生成されるデータセットで評価を行っており、Transfuserを上回る運転性能が達成できることが示されていました。

KING

運転経路を適切に予測するエージェントを獲得するには車両が衝突するようなシナリオを含め学習することが好ましい一方で、実世界でそのようなデータを取得することは危険かつ困難です。代替手段として運転シミュレーターでそのようなシナリオを再現する方法が考えられますが、実際はシミュレーター上でも現実的な衝突シーンの再現にはコストがかかるという問題があります。そこでこのKINGというアプローチでは、車両の衝突を助長するよう設計した目的関数を最適化することで環境内のエージェントの行動を変化させ、得られた行動から衝突が発生するシーンを生成することが提案されています。車両モデルには微分可能なbicycle modelを採用することで、目的関数はバックプロパゲーションでエンドツーエンドに最適化することが可能です。CARLAシミュレーター23を用いて実験をしたところ、提案手法で生成された車両の衝突を含むシナリオは、勾配情報を用いないブラックボックス最適化で生成されたシナリオに比べ、衝突をより回避する運転エージェントの獲得に寄与することが示されています。

最後に

本ブログでは、ECCV2022の概要と私たちが興味を持ったWorkshopをご紹介しました。後編では、私たちが気になった論文を紹介するのでぜひご覧になってください。 NTT Comでは、今回ご紹介した論文調査、画像や映像、更には音声言語も含めた様々なメディアAI技術の研究開発に今後も積極的に取り組んでいきます。また一緒に技術開発を進めてくれる仲間も絶賛募集中です。

  • アカデミックな研究に注力したくさん論文を書きたい
  • 最新の技術をいち早く取り入れ実用化に結び付けたい
  • AIアルゴリズムに加え、AI/MLシステム全体の最適な設計を模索したい

2022年12月06日現在、NTT Comでは現場受け入れ型インターンシップのエントリーを受付中です。私達のチームからも、AIエンジニアカテゴリにメディアAI技術開発エンジニア/リサーチャーというポストを出しています。インターンを通じて、会社やチームの雰囲気、そして私たちの取り組みを知っていただく機会にできればと考えています。皆様のご応募、心からお待ちしています!


  1. https://eccv2022.ecva.net/files/2022/10/ECCV22-Welcome-Slides-for-web.pdf
  2. Bingyi Cao, A. Araújo, and Jack Sim. "Unifying Deep local and global features for image Search." ECCV 2020.
  3. Fuwen Tan, Jiangbo Yuan, and Vicente Ordonez. "Instance-level Image Retrieval using Reranking Transformers." ICCV 2021.
  4. Fuwen Tan, Paola Cascante-Bonilla, Xiaoxiao Guo, Hui Wu, Song Feng and Vicente Ordonez. "Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries." NeurIPS 2019
  5. Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li Jia-Li, David Ayman Shamma, Michael Bernstein and Li Fei-Fei. "Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations." 2016.
  6. Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger and Ilya Sutskever. "Learning Transferable Visual Models From Natural Language Supervision." 2021.
  7. Ziyan Yang, Kushal Kafle, Franck Dernoncourt and Vicente Ordonez. "Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations." 2022.
  8. Juhong Min, Jongmin Lee, Jean Ponce and Minsu Cho. "SPair-71k: A Large-scale Benchmark for Semantic Correspondence." 2019.
  9. Juhong Min and Minsu Cho. "Convolutional Hough Matching Network." CVPR 2021.
  10. Seungwook Kim, Juhong Min and Minsu Cho. "TransforMatcher: Match-to-Match Attention for Semantic Correspondence." CVPR 2022.
  11. Juhong Min, Dahyun Kang and Minsu Cho. "Hypercorrelation Squeeze for Few-Shot Segmentation." ICCV 2021.
  12. Dahyun Kang and Minsu Cho. "Integrative Few-Shot Learning for Classification and Segmentation." CVPR 2022.
  13. Yanbei Chen, Shaogang Gong and Loris Bazzani. "Image Search With Text Feedback by Visiolinguistic Attention Learning." CVPR 2020.
  14. Jon Almazán, Byungsoo Ko, Geonmo Gu, Diane Larlus and Yannis Kalantidis. "Granularity-aware Adaptation for Image Retrieval over Multiple Tasks." ECCV 2022.
  15. Jonas Pfeiffer, Aishwarya Kamath, Andreas Rücklé, Kyunghyun Cho and Iryna Gurevych. "AdapterFusion: Non-Destructive Task Composition for Transfer Learning." EACL 2021.
  16. Ting Chen, Simon Kornblith, Mohammad Norouzi and Geoffrey Hinton. "A Simple Framework for Contrastive Learning of Visual Representations." ICML 2020.
  17. Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie and Ross Girshick. "Momentum Contrast for Unsupervised Visual Representation Learning." CVPR 2020.
  18. Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski and Armand Joulin. "Emerging Properties in Self-Supervised Vision Transformers." ICCV 2021.
  19. Filip Radenović, Ahmet Iscen, Giorgos Tolias, Yannis Avrithis and Ondřej Chum. "Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking." CVPR 2018.
    1. Prakash, K. Chitta, and A. Geiger. Multi-modal fusion transformer for end-to-end autonomous driving. In Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2021.
  20. Katrin Renz, Kashyap Chitta, Otniel-Bogdan Mercea, A. Sophia Koepke, Zeynep Akata and Andreas Geiger. PlanT: Explainable Planning Transformers via Object-Level Representations. CoRL 2022.
  21. I.Turc, M.-W. Chang, K. Lee, and K. Toutanova. Well-read students learn better: On the importance of pre-training compact models. arXiv.org, 1908.08962, 2019.
  22. Dosovitskiy, A., Ros, G., Codevilla, F., Lopez, A., Koltun, V.: CARLA: An open urban driving simulator. In: Proc. Conf. on Robot Learning (CoRL) (2017)
© NTT Communications Corporation 2014