JSAI2025参加レポート

こんにちは、イノベーションセンターのメディアAI プロジェクト(以下、PJ)の小林、加藤、岡本です。普段はコンピュータビジョンの技術開発やAI/機械学習(ML)システムの検証に取り組んでいます。

我々メディアAI PJでは5月27日から30日にかけてグランキューブ大阪で開催されたJSAI2025(2025年度 人工知能学会全国大会)に参加しました。本記事ではJSAI2025で発表された「画像・3D AI応用関連」、「VLM(Vision Language Model)」、「ハルシネーション対策」に関する興味深かった研究をいくつか紹介したいと思います。

目次

JSAI2025とは

JSAI(人工知能学会全国大会)は日本最大規模のAIに関する学術イベントであり、39回目の開催となりました。今年は史上最多の4939名(現地4032名、遠隔907名)の参加があったとのことで、昨今のAI技術への注目度の高さを感じられました。JSAIでは昨今注目を浴びている大規模言語モデルをはじめ、画像・音声処理、AIの応用・社会実装など数多くのセッションが開催され賑わいを見せていました。 本ブログではJSAIに参加したメンバで気になった発表を紹介したいと思います。 ※以下で使用する全ての画像は原論文で掲載されている画像を引用しております。

画像・3D AI応用関連

深度情報を用いた画像識別における解釈性向上に関する一考察1

この研究では画像識別においてRGBと深度情報を融合し、異なるモディリティ間を統合的に扱うマルチモーダルモデルを一貫した解釈で特徴を捉えられるようにする手法を提案しています。

Vision Transformer(ViT)2などのモデルをベースにRGB、Depthを融合する従来の融合手法(Early-Fusion、Late-Fusionなど)では大きく以下の2つの課題があります。

  1. RGB情報と深度情報それぞれが独立したエンコーダで学習されており、モダリティ間の相互作用が十分に考慮されていない
  2. 異なるモダリティ間で一貫した解釈を得ることが難しい

例えば、自動運転において歩行者を識別する際、深度エンコーダが歩行者に注目している一方で、RGBエンコーダがほとんど注目しないといったAttentionの不整合が生じることで、モデルの解釈性と信頼性が損なわれてしまいます。

これらの課題に対し、この研究では、RGBエンコーダと深度エンコーダ間でAttention Weightを相互に共有する新たなモデルを提案しています。この提案モデルに含まれるFusion機構(Share-Fusion)は、一方のエンコーダから出力されたAttention Mapをもう一方のエンコーダへ重み付けして反映させることで、双方のモダリティ間で相互作用を促し、注目箇所の矛盾を軽減することを目指します。これにより例えばRGBエンコーダが信号機に注目できなかった場合でも、深度エンコーダが信号機に注目していれば、RGBエンコーダも信号機に注目するように誘導し、より正確な予測とAttention Mapの一貫性向上を期待しています。 実験ではWashington大学提供のRGB-Dオブジェクトデータセット3を用いた画像分類タスクにおいて、Late-FusionモデルにAttention共有機構を加えた場合とそうでない場合で検証しています。 結果、画像分類精度において両エンコーダ間で相互にAttention情報をフィードし合うパターンが(0.7541)、従来のLate-Fusionモデル(0.7366)を上回る結果を示しました。提案のAttention共有機構がAttention Mapの一貫性向上に大きく寄与することが定量的に確認されました。

変電所設備を対象とした3次元物体検出4

この研究では設備保守の自動化に向けて、変電所設備のLiDAR点群に対し、空間的配置を加味した3次元物体検出を検証しています。 研究では名古屋市内の変電所構内77kVエリアを据え置き型LiDAR(Leica BLK360)で測定し、この点群データに対し、「碍子(insulator)」「 可動スイッチ(connector)」「ラインスイッチの設備全体(whole)のオブジェクト」についてバウンディングボックス(BBOX)によるアノテーションを用いたものを実験データとし、2つの3次元物体検出手法を比較検討していました。

  1. 点群パターンマッチングを用いた3次元物体検出:対象とするデータラインスイッチは形状が普遍なため、wholeに含まれる点群と入力点群間でパターンマッチングを行い、検出を試しています。実験結果から、この手法は対象となる点群の大きさ、密度、欠損(オクルージョン)に検出性能が影響されると判明しています。特に碍子のような小さな個別のオブジェクトの検出は困難でした。
  2. Transformerにもとづく3次元物体検出:Transformerを3次元物体検出に応用したアルゴリズムの1つである3DETR(3D Detection Transformer)5 の適用を検討しています。3DETRは、PointNet++ 6 で点群から特徴量を抽出し、Transformerエンコーダ点ごとの埋め込み表現へと変換後、Transformerデコーダがクエリーに対するBBOXを出力するモデルです。広域の設備全体の点群を入力が困難であったため領域分割をし、データ拡張を実施していました。

実験の結果、事前学習モデルを利用したファインチューニングでは、検出性能が向上し、対象物体の種類や点群密度が異なる場合でも有効に機能することが明らかになりました。特に硝子やコネクタのような細かい設備を正確に検出できるだけでなく、点群の一部が欠けている場合でも、ある程度の位置推定が可能であることを示しています。

重み付き残差接続による境界品質を考慮したゼロショットセグメンテーション手法の提案7

事前に学習していない物体を検出するゼロショットセグメンテーションにおいて、既存のRobust Segment Anything Model(RobustSAM)8の課題であるノイズのある劣化画像に対して頑健であると報告されています。一方で、RobustSAMはクリアな画像に対して物体の境界領域を正確に抽出できないことが指摘されています。この点に対して、本研究ではクリア画像と劣化画像の双方で精度を両立させる手法を提案しています。

RobustSAMはSAMを基盤として、SAMに劣化情報を除去する機構(Anti-Degradation Token Generation Module: AOTGおよびAnti-Degradation Mask Feature Generation Module: AMFG)を追加することで、雨や雪といったノイズが含まれる劣化画像に対しても頑健性を高め、高い精度でセグメンテーションを行うことが可能です。

しかし、RobustSAMはクリア画像に対してセグメンテーション領域が過剰に広がり、物体の境界を正確に推論できないという問題が確認されています。この研究ではその事象を定量的に評価するための指標である「Overflow Score (OS)」を定義していました。OSは、正解領域の輪郭付近に位置する領域の中で、予測領域が含まれている割合を示し、OSの値が大きいほど境界の外側を過剰に予測していることを意味します。評価実験では、RobustSAMはSAMに比べてOSが大きく、クリア画像・劣化画像ともに境界をうまく捉えきれていないことを定量的に示していました。

この課題に対し、研究は、劣化情報を除去する前の特徴量に境界情報が含まれている可能性に着目し、RobustSAMのAMFGに「重み付きの残差接続」のような機構を追加する新しいモデルを提案しています。 これにより、入力画像に応じて劣化情報を除去した特徴量を重視するか、除去前の特徴量を重視するかを柔軟に選択することが可能になります。 評価実験ではMSAR10kデータセット9と人工的に生成した劣化画像に対してIoUとOSを指標として評価しています。プロンプトが点の場合、クリア画像に対し提案手法のIoU:89.77%、OS:25.32%がRobustSAMのIoU:89.57%、OS:29.42%となり、有効性を示していました。劣化画像に対してもIoUは同等の精度(提案手法:89.08%, RobustSAM:89.27%)を保ちつつ、OSは2%優れる結果となっていました。

VLMに関する論文

Crosslingual Visual Promptにもとづくテキスト付き画像からの日常物体検索10

ロボットが屋内外で撮影した画像の中から、ユーザーの自然言語クエリーに合致する日常物体を高精度に検索する手法を提案しています。日常物体を含む画像検索では、商品ラベルや標識などに含まれるscene text(画像中の文字情報)を考慮した検索が必要です。 例えば、「“Lipton” の前にある白い液体の入った容器」というユーザーからの自然言語クリエーがある場合、scene textを考慮することは不可欠です。しかし、従来のCLIP11やBEiT-3といったマルチモーダル検索は、視覚特徴と言語特徴の単純なマッチングに留まるため、容器ラベルなどのscene textを含む画像では文字情報を正しく活用できず、検索精度が低下しやすいという課題がありました。

そこで本手法では、画像内の文字領域をOCRで検出し、位置情報とともに特徴量化し、最終的に画像特徴量と統合するScene Text Visual Encoder(STVE)を導入しました。また、クエリーを「全文の意味」と「名詞句ごとの意味」に分けてエンコードし、両者を統合する Multi-Query Encoder(MQE)を設計しました。

これらによって、文字情報と視覚情報を統合した特徴量と、操作指示の意図を多粒度に捉えた特徴量をコサイン類似度で計算することで、scene textを含む日常物体検索において従来のモデルを大きく上回ることを定量・定性評価の両面から示しました。下の画像は定性評価での例であり、scene textを考慮した画像検索が従来のモデルに比べて可能であることを示しました。

判断根拠を説明する視覚言語モデルの自己改善手法12

本研究では、Vision Language Model(VLM)が人間の主観に基づいて画像が美しいかを評価する画像の審美性評価タスクにおいて予測スコアとその判断根拠を同時に自然言語で生成し、自律的に性能を向上させる手法を提案しています。従来手法では、「スコア予測に偏ると説明文生成力が低下すること」「高品質な説明データを集めるには膨大な人手コストがかかること」「予測結果と生成される説明文の整合性を維持しづらいこと」の3つの問題がありました。そこで本手法では既存の画像に対してスコアが付与されたデータセットと指示学習済みVLMの能力を組み合わせ、自己改善によりVLMのスコア予測能力と判断根拠の説明能力を高め、また整合性の向上に努めています。

提案手法では、データセットの画像と正解スコアを条件としてVLMに説明文付きの応答を生成させ、「好ましい応答」と誤スコアを用いた「好ましくない応答」を生成し、両者を対比させるDirect Preference Optimization(DPO)13用の学習データを構築します。さらに、誤スコア応答中のスコア部分を正解値に置き換えることで、予測スコアと説明文の整合性を高めるためのDPOデータも自動的に作成し、説明の一貫性向上を図ります。これら二種のDPOデータセットで各々LoRAを適用したVLMモデルを別々に訓練した後、TIES-Mergingにより2つのモデルを重みレベルで統合する工程を繰り返すことで、スコア予測精度と説明整合性の双方を段階的に改善しました。

実験には画像の審美性評価の代表的ベンチマークであるAVA14とAADB15を使用し、各評価者の平均スコアを0から9まで10段階に離散化した上で、LLaVA-NeXT-7B16を中心とする0.5B~7Bパラメータの複数モデルにLoRAを適用して訓練しました。AVAデータに対してLLaVA-NeXT-7Bをベースとしたモデルでは、Zero-shotでのSpearman順位相関係数(SRCC)は0.446、GPT-4oを用いた説明整合性スコア(Cons)は3.36でしたが、4回目の反復後にはSRCCが0.739、Consが3.57へと大幅に向上し、説明文がスコアとより高い一貫性をもって生成されるようになりました。また、小型モデルでも同様の改善が確認され、提案手法の汎用性が示されました。

項目反応理論を用いた視覚言語モデルのマルチモーダルな推論能力および問題特性の評価17

視覚言語モデル(VLM)の評価は、ベンチマークを通して画像とテキストを同時に扱うクロスモダリティーの能力を評価する必要があります。しかし、現状のベンチマークの問題には、画像やテキストのみをVLMに提供することで回答可能なショートカット問題が存在し、正しくVLMの性能を評価することが課題となっています。

そこで本研究では、MMMUデータセット18を「画像のみ」「テキストのみ」「両者併用」の3パターンでVLMに解かせ、正誤データをIRT(項目反応理論)モデルに入力し、各VLMの「画像処理能力」「テキスト処理能力」「両者統合能力」と各問題の難易度パラメータを同時に最尤推定しました。難易度パラメータはさらに、「選択肢由来の基本難易度」、「画像投入による難易度の低下量」、「テキスト投入による難易度の低下量」、「両者併用時による難易度の低下量」といった4種に分解し、各問題ごとに推定しています。

実験結果から「両者併用時による難易度の低下量」を用いることによって、テキストのみを用いて解けてしまうような問題の抽出と、画像とテキストどちらも正答を導く上で必要な問題の抽出を可能としました。 提案手法により抽出された画像を用いずにテキストのみを用いて比較的回答が導きやすい例。問題文のみから正答を導くことができる。 提案手法により抽出された画像とテキストの双方が必要な問題例。

ハルシネーション対策に関する論文

本章では大規模言語モデルのハルシネーション対策についてまとめました。モデルへの介入度合いによって次の2つのアプローチに分類しています。

  • アプローチA: 入出力の工夫のみ
  • アプローチB: モデルデータにアクセスが必要

[アプローチA] 反論・再考プロンプトによるHallucination検出手法の提案19

LLMに質問を繰り返した時の回答の揺らぎから信頼度を測る手法です。 質問を繰り返すアプローチとして有名な既存手法にSelfCheckGPT20と呼ばれるものがあり、これは高いサンプリング温度で回答を複数生成させて出力の一貫性を回答の確信度とみなすものですが、本手法ではより出力トークン数を抑えてコストの削減を狙っています。 本手法ではLLMのチャットセッションを3つ(Bot1, Bot2, Bot3)用意します。まずBot1に質問を投げ回答してもらい、Bot2にその回答に対する反論を考えてもらいます。そしてその反論をBot1に投げて再度回答してもらい、Bot3を用いて最初の回答と反論後の回答を比較して意見の一貫性を測ります。 もし意見が変化していなければBot1の回答には十分な信頼性を持つとみなし、反論に流され意見を変えていればハルシネーションを起こしているとみなします。

実験ではクイズを題材にした質問応答ベンチマークJAQKET21を用いて、知識問題に対してLLMがハルシネーションを起こしているかどうかを予測させました。その結果、出力トークン量を揃えた条件においてSelfCheckGPTよりも精度(Precision)は低く、再現率(Recall)は高くなることが分かりました。これはつまりハルシネーションを誤検知した数が多いということであり、ユーザーの反論に対してすぐに意見を翻してしまうというLLMの特性が如実に現れたといえます。 しかし再現率の高さから、回答の正確性が強く求められる分野ではこの手法が役に立つだろうと筆者は述べています。

[アプローチA] 反復サンプリングを活用したLLM推論時の外部情報検索機能の最適化22

こちらはRAGを用いて回答の正確性を担保するアプローチです。RAGは具体的なソースに基づいて回答できるという利点がありますが、質問と関係のないソースを取得したり、ソースの読解に失敗して回答を間違えたりするという課題があります。 そこで本手法ではソース取得部分においては複数回質問することでソース検索用クエリーの一貫性を保ち、読解部分ではあらかじめテンプレートの回答例を作っておくことで回答の方向性を安定させるという複合的な方法で回答の信頼性を高めました。

実験ではWikipediaをもとにして作られたJEMHopQA23データセットを用いて、Wikipediaの検索を可能にした状態でLLMに回答させました。その結果、2つの工夫がそれぞれ回答の精度向上に寄与していることが示せました。

[アプローチA] 長文コンテキスト質問応答における大規模言語モデルによる誤引用文の訂正手法の提案24

こちらもRAGアプローチで、LLMがソースとして利用した部分を正確に引用するための手法を提案したものです。 LLMに引用を任せてしまうと、時々勝手に文章を変えてしまうことがあります。そこで本手法ではLLMの出力した引用文が元ソースと一致しなかった時に、高い類似度の文章があればそれを抽出し、類似する文章が見つからなければLLMに引用文を自己修正させることを繰り返しています。

実験ではHotpotQA25と呼ばれる英語の質問応答データセットを用いて、回答の正確性と引用の質をそれぞれGPT-4oに判定させました。その結果、回答の正確性は既存手法より少し劣るものの、高々5回の自己修正で既存手法よりも高い質の引用文を提示できています。

[アプローチB] LLM内部演算値を用いたLLM回答の信頼度定量化とOOD検知方式26

LLMが学習していないドメインに関する質問に対しては、LLM内部で計算される特徴ベクトルが正しく答えられた時の特徴ベクトルの分布から大きく外れるだろうという仮定に基づいた分布外(Out-Of-Distribution, OOD)検知手法に関する論文です。 質問文を入力している時または応答文を出力している時のLLMの各アテンション層のベクトル(アテンションベクトル)を抽出し、LLMが正しく答えられた質問応答に対するアテンションベクトルとのコサイン類似度を測ることで、その質問に対する応答の信頼性を見積もります。

実験ではあるドメイン(業務におけるQ&A)のデータに対してファインチューニングされたLLMを用いて、質問文がそのドメインに含まれているかどうかをアテンションベクトルを用いて判定させました。その結果、真陽性率・真陰性率ともに95%を超える高い正解率で判定できることを示しました。 本手法はハルシネーションそのものを検出できる訳ではありませんが、LLMをファインチューニングする時には想定していなかった質問内容を実用時に検出するという使い方ができそうです。

最後に

本ブログでは、私たちが興味を持ったJSAI2025の発表についてご紹介しました。NTTドコモビジネスでは、今回ご紹介した分野に限らず、画像や映像、さらには音声言語も含めたさまざまなメディアAI技術の論文調査や研究開発に今後も積極的に取り組んでいきます。


  1. 更家崚介, 清水良太郎, 後藤 正幸: "深度情報を用いた画像識別における解釈性向上に関する一考察", https://doi.org/10.11517/pjsai.JSAI2025.0_4N2GS705
  2. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby : "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale", ICLR 2021
  3. Peter Henry, Michael Krainin, Evan Herbst, Xiaofeng Ren, Dieter Fox : "RGB-D Mapping: Using Depth Cameras for Dense 3D Modeling of Indoor Environments", IROS 2011
  4. 瀬川修 : "変電所設備を対象とした3次元物体検出", https://doi.org/10.11517/pjsai.JSAI2025.0_3N5GS704
  5. Ishan Misra, Rohit Girdhar, Armand Joulin : "An end-to-end transformer model for 3d object detection", ICCV 2021
  6. Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas : "Pointnet++: Deep hierarchical feature learning on point sets in a metric space", NeurIPS 2017
  7. 永見陽輝, 櫻井洸介, 山極綾子, 後藤 正幸 : "重み付き残差接続による境界品質を考慮したゼロショットセグメンテーション手法の提案", https://doi.org/10.11517/pjsai.JSAI2025.0_3N1GS701
  8. Wei-Ting Chen, Yu-Jiet Vong, Sy-Yen Kuo, Sizhuo Ma, Jian Wang : "RobustSAM: Segment Anything Robustly on Degraded Images", CVPR 2024
  9. Ming-Ming Cheng, Niloy J. Mitra, Xiaolei Huang, Philip H. S. Torr, and Shi-Min Hu : "Global Contrast Based Salient Region Detection", CVPR 2011
  10. 戸倉健登, 是方諒介, 小松拓実, 今井悠人, 杉浦 孔明 : "Crosslingual Visual Promptにもとづくテキスト付き画像からの日常物体検索", https://doi.org/10.11517/pjsai.JSAI2025.0_1Win452
  11. Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever : "Learning Transferable Visual Models From Natural Language Supervision", PMLR 2021
  12. 丹治直人, 山崎 俊彦 : "判断根拠を説明する視覚言語モデルの自己改善手法", https://doi.org/10.11517/pjsai.JSAI2025.0_4A3GS1003
  13. Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn : "Direct Preference Optimization: Your Language Model is Secretly a Reward Model", NeurIPS 2023
  14. Murray, Naila and Marchesotti, Luca and Perronnin, Florent : "AVA: A large-scale database for aesthetic visual analysis", CVPR 2012
  15. Shu Kong, Xiaohui Shen, Zhe Lin, Radomir Mech, Charless Fowlkes : "Photo Aesthetics Ranking Network with Attributes and Content Adaptation", ECCV 2016
  16. Haotian Liu, Chunyuan Li, Yuheng Li, Bo Li, Yuanhan Zhang, Sheng Shen, Yong Jae Lee : "LLaVA-NeXT: Improved reasoning, OCR, and world knowledge", https://llava-vl.github.io/blog/2024-01-30-llava-next/ 2024
  17. 上林駿希, 増井建斗, 新恭兵, 包含, 鹿島久嗣, 大谷まゆ, 竹内孝 : "項目反応理論を用いた視覚言語モデルのマルチモーダルな推論能力および問題特性の評価", https://doi.org/10.11517/pjsai.JSAI2025.0_3N6GS701
  18. Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen: "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI", CVPR 2024
  19. 山里飛鳥, 小山航平: "反論・再考プロンプトによるHallucination検出手法の提案", https://doi.org/10.11517/pjsai.JSAI2025.0_1Win429
  20. Potsawee Manakul, Adian Liusie, Mark Gales: "SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models", EMNLP 2023
  21. JAQKET: クイズを題材にした日本語QAデータセット https://www.nlp.ecei.tohoku.ac.jp/projects/jaqket/
  22. 藤田真伎, 駒田拓也, 吉村健, 藤本拓, 白水優太朗, 川口貴子: "反復サンプリングを活用したLLM推論時の外部情報検索機能の最適化", https://doi.org/10.11517/pjsai.JSAI2025.0_1Win443
  23. 石井愛, 井之上直也, 鈴木久美, 関根聡: "JEMHopQA: 日本語マルチホップQA データセットの改良", 言語処理学会 2024
  24. 萱場啓太, 山岡裕司: "長文コンテキスト質問応答における大規模言語モデルによる誤引用文の訂正手法の提案", https://doi.org/10.11517/pjsai.JSAI2025.0_2H4GS1102
  25. https://hotpotqa.github.io
  26. 中川慎二, 小松亮太, 惠木正史: "LLM内部演算値を用いたLLM回答の信頼度定量化とOOD検知方式", https://doi.org/10.11517/pjsai.JSAI2025.0_1Win446