MIRU2025参加レポート

こんにちは、イノベーションセンターの加藤・岡本です。普段はコンピュータビジョンの技術開発やAI/MLシステムの検証に取り組んでいます。7月29日から8月1日にかけて、国内のセンシング技術や画像処理関連の主要な学会であるMIRU(画像の認識・理解シンポジウム)が開催され、NTTドコモビジネスからはポスター発表で参加しました。本稿ではMIRU2025で気になった発表をいくつか紹介したいと思います。

MIRU2025概要

MIRUはコンピュータビジョンや画像映像の認識と理解技術に関する国内最大規模の会議です。2020年ごろから年100件のペースで発表件数が増えており、今年は口頭発表88件、ポスター発表606件、参加者数は約1500名と過去最大の規模となりました。

MIRUの発表区分(招待講演等を除く)には口頭発表とインタラクティブ(ポスター)発表に別れており、口頭発表のみ査読があります。 本稿ではMIRU2025で気になった発表を紹介したいと思います。※以下で使用する全ての画像は原論文で掲載されている画像を引用しています。

特殊な光学機器を用いた研究

画像センシングを扱う学会ということもあり、単なるRGBカメラ以外の機器を用いた研究が多くみられました。そういった中から気になったものを3件ピックアップしました。

1. イベントカメラを用いた可視光通信の高速化 (兵庫県立大学)

可視光の点滅パターンによって通信する「可視光通信」に関する研究です。可視光通信は既存の電波に干渉しないため、病院や航空機内など電波の利用が制限されている場所でも使えるという利点があります。しかしながら既存のカメラではフレームレートに限界があるため、送れる情報量に制限があるという問題があります。 そこで本研究では、輝度の変化しか拾えない一方で高い時間分解能と高いダイナミックレンジを持つイベントカメラを用いて高速な点滅パターンを利用可能にしました。

イベントカメラによる取得データのイメージ(Event-based, 6-DOF pose tracking for high-speed maneuvers1より引用)。

回転する円盤を普通のカメラで撮るとフレームごとに全体の画像が保存されるが、イベントカメラで撮ると時間方向と空間方向に広がる輝度変化の点群として得られる。

イベントカメラを用いた研究は以前からありましたが、高い時間分解能を活かした高速な物体の検出や、高いダイナミックレンジを活かした明暗差の激しい環境での映像認識など、視覚データの理解に関するタスクがほとんどでした。そのためこのように通信へ適用した研究は個人的に新鮮でした。

2. 符号化環境照明を用いた民生用カメラ撮影に対する情報埋め込みの実現 (大阪大学、York University)

この研究は盗撮やディープフェイクへの対策として、人間にはわからない程度に光源を変化させることで撮影動画にウォーターマークを埋め込もうという取り組みです。 こちらも前述と同様に光源点滅ではカメラのフレームレートに限界があるため、さまざまな色のLEDを集めたハイパースペクトル照明を作成し、光源スペクトルを操作することで1秒あたり15ビットの情報埋め込みを達成しています。

撮影した動画像に対してデジタル的に情報を埋め込む技術はステガノグラフィーと呼ばれ広く研究されてきましたが、物理的にその空間に情報を埋め込むというアイディアがとても独創的に感じられました。ステガノグラフィーで利用されているような微小な色の操作ではなく、人間とカメラセンサーのスペクトル感度の差に着目し光源のスペクトルを操作したという点も新鮮でした。

3. 光飛行時間の直接計測による関与媒体に対して頑健な振動計測 (兵庫県立大学)

この研究は単一の光子を拾うことができるほど敏感なSPAD(Single Photon Avalanche Diode)センサーを活用したものです。 このセンサーをパルスレーザーと組み合わせると、往復時間から光の飛行距離がわかり、さらに光の飛行距離の変化からレーザーを当てた物体の振動がわかることを示しました。 レーザーを用いた振動計測には反射時のドップラー効果を用いたものや反射光のブレを見るものなどがありますが、本手法は光の飛行距離を計測しているので、間に半透明ガラスなどがあっても問題なく対象の振動を計測できるというところが既存の非接触観測に対する利点です。

SPADセンサーについてはとても感度の高い光センサーであるということしか知りませんでしたが、このセンサーを活用することで物体の振動を測れるほど精密に光子の到達時刻を認識できるということに驚きました。本研究の実験装置では1ピコ秒(光が0.3ミリ進む時間)の時間分解能で計測ができるようです。

画像認識・VLMのロバスト化と評価

画像認識モデルのロバスト化または、VLMの評価周りで気になったものを3件ピックアップしました。

1. 不均衡なデータセットの継続学習における勾配一貫性正規化と動的な知識蒸留 (名城大学)

この研究は不均衡なデータセットに対して継続学習をする取り組みを行なっています。不均衡なデータで学習すると過学習や学習不足が発生する問題と、継続学習すると旧クラスにおいて破壊的忘却が起こる問題2つに対処しています。

これらの問題を解決するために本研究では、Gradient Reweighting(GR)2に着目しています。GRはクラス/タスク単位で勾配を動的に再重み付けし、少数クラスの信号を増幅しつつ多数クラスへの偏りと旧クラスの忘却を抑えます。 しかし、GRでは勾配の振れ幅が大きく、学習は不安定になりやすいという課題があります。

そこで本研究では、勾配ノルムを移動平均したものを用いることで、過去の勾配方向に一貫性を持たせ、破壊的忘却を抑制しています。また知識蒸留に関するロス関数の計算をする際に、学習の初期段階では新クラスの学習を優先し、後半では知識蒸留の影響を強めるために、知識蒸留に関するロス関数に重みをかけることで調節しています。具体的には、現在のエポック数を総エポック数で割った重みを用いています。

実験ではCIFAR-100-LT(ρ=100)・ImageNetSubset-LT・Food101-LTの三種のデータセットを用いて評価しており、全クラスをN∈{10,20}に等分し、継続学習を実施しています。継続学習時に入力するデータの順番は各クラスのサンプル数の降順に固定するIn-ordered、ランダム順で入力するShuffledを実施しています。実験の結果、提案手法は12条件中11条件でGRを凌駕しました。

継続学習に関する論文は以前から多く存在しますが、現場で課題となる不均衡データにおける課題を課題設定に含めており、より現実的な設定の問題に対処している点が個人的に面白いと感じました。

2. Unleahing the Potential of Complementary Spaces in Group Robust Classification (東京理科大学)

この研究は既存のVision Language Model(VLM)に存在するバイアスを除去した場合、元々正しく答えられていた猫の画像を車のように答えてしまう課題の改善に努めています。ここでいうバイアスとは、例えば金髪の男性が映る画像に対してVLMに髪色を答えさせた場合、学習時の統計的偏りや言語的先入観などを優先してしまい、VLMが黒髪と答えてしまうことを指します。

この課題の改善のために既存のバイアス除去手法を(1)線形/非線形プロービング、(2)アダプター、(3)補空間への射影の3系統とみなし、それぞれの手法が非対象タスクに対してどの程度精度の維持ができるのかを調査しました。ここで(1)線形/非線形プロービングは事前学習済みモデルの最終出力層に線形層等を追加し線形層のみを学習する手法を指し、(2)アダプターは事前学習済みモデルにMLP等を追加し、追加したMLP等のみを学習する手法を指し、(3)補空間への射影は特定のグループ属性が張る部分空間を推定し、該当の成分のみを取り除いた特徴に置き換える手法を指します。

実験の結果、(1)線形/非線形プロービングや(2)アダプター系は、対象タスクの精度は上がる一方で、非対象タスクの精度が数%台まで落ちる“破滅的忘却”を頻発。対照的に(3)「グループ属性の補空間への直交射影」にもとづく方法だけが、非対象タスクの性能をほぼ維持できることを示しました。

この結果を受け著者らは(3)補空間射影系を後処理で較正するシンプルな追加損失を提案しました。提案手法では、射影前後で一般語彙(WikipediaやImageNet同義語集合など)のテキスト埋め込みが変わらないように制約し、変化を“グループ属性が張る部分空間”に閉じ込めるように最適化を行いました。この結果対象タスクと非対象タスク平均精度の調和平均が一貫して向上し、ゼロショットCLIP比で最大+14.2%改善しました。

バイアスの削除に取り組む研究は多く存在すると思うのですが、バイアス削除に伴って特徴量空間はどのように変化し、非対象タスクの認識に影響を与えるのかについて以前から関心が個人的にありました。この研究はこの疑問に対して体系的に検証しており、検証の結果既存の手法であると(3)補空間への射影以外は非対称タスクへ対応できないことを明らかにしました。またこの知見から新たな手法を提案しており、有用な示唆を与える研究だと感じました。

3. VELA: LLM-Hybrid-as-a-judgeにもとづく長文画像キャプション向け自動評価尺度 (慶應義塾大学)

この研究では、VLMの長文画像キャプションタスクの新しい評価指標を提案しています。既存のキャプションタスクで用いられる評価指標(BLEU/CIDEr/CLIPScore 等)では文全体の構成や一貫性を十分に測れず、またLLM/MLLMを用いて評価するLLM-as-a-judgeでは、自己回帰・早期画像統合のため遅いという課題がありました。

本論文はこれを同時に解く自動評価尺度VELAを提案しました。提案手法ではQwen2.5 3B3とLong-CLIP4の特徴量をProjector層で結合し(1)詳細さ、(2)関連性、(3)流暢さの3観点について数値スコアを同時出力します。学習には著者らが新規に構築したLongCap-Arenaを使用しており、画像・長文参照・長文候補に加え、アノテーターが主に詳細さ・関連性・流暢さの観点で数値評価を付与したデータセットで合計32,246件の人手評価を含みます。

実験ではKendall’s τcにてGPT-4oを用いたLLM-as-a-judge手法や強力なCLIP系指標を上回り、約260ms/サンプルと既存LLM-as-a-judgeより約5倍高速化を達成しました。

かなりシンプルなモデル構成で詳細さ・関連性・流暢さの観点でより人間と相関があり、LLM-as-a-judge手法を上回る性能を達成している点が面白いと感じました。

最後に

本ブログでは、私たちが興味を持ったMIRU2025の発表についてご紹介しました。NTTドコモビジネスでは、今回ご紹介した分野に限らず、画像や映像、さらには音声言語も含めたさまざまなメディアAI技術の論文調査や研究開発に今後も積極的に取り組んでいきます。


    1. Mueggler, B. Huber and D. Scaramuzza, "Event-based, 6-DOF pose tracking for high-speed maneuvers", IROS 2014. https://www.youtube.com/watch?v=LauQ6LWTkxM
  1. He, Jiangpeng : "Gradient Reweighting: Towards Imbalanced Class-Incremental Learning", CVPR 2024
  2. Qwen: An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tianyi Tang, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan Qiu : "Qwen2.5 Technical Report", Arxiv 2024
  3. Beichen Zhang, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Jiaqi Wang : "Long-CLIP: Unlocking the Long-Text Capability of CLIP", ECCV 2024