2023年上期のメディアAI PJ勉強会資料を公開

こんにちは、イノベーションセンターのメディアAI プロジェクト(以下、PJ)の小林です。普段はコンピュータビジョンの技術開発やAI/機械学習(ML)システムの検証に取り組んでいます。

我々メディアAI PJでは技術力の向上および業務で得られた知見の共有のために毎週チーム内で勉強会を行っています。本記事では2023年の上期に開催した勉強会の概要と勉強会で発表された資料をSpeaker Deckで公開したので紹介したいと思います。

目次

メディアAI PJの紹介

最初に私たちメディアAI PJについて簡単に紹介したいと思います。メディアAI PJは名前の通り、画像・動画・3D・音声・言語1などのメディアに関連するAIの技術開発をメインに行っているチームです。事業部から来る技術相談を通してお客さまの課題を解決するための技術開発やメディアに関連するAIの新規技術創出を目指して取り組んでいます。本ブログで過去には技術動向調査のために参加したCVPRの記事2なども投稿していますので、興味ある方はそちらも見ていただけると嬉しいです。

メディアAI PJ勉強会の概要

さて、そんな私たちメディアAI PJでは課題解決に資する技術の開発を加速させるために「メディアAI PJ勉強会」を毎週開催しています。この勉強会はメンバーが気になる技術や話題について調査・検証した内容を発表し、チームで知見を共有する場となっています。

2023年上期は毎週30分ほど勉強会の時間を確保し、各回で1名が発表し、質疑応答・議論する形で開催しました。勉強会のテーマ・トピックは特に設定をせず内容は個人が自由に設定して発表しました。テーマ指定は行いませんでしたが発表する際は内容の背景が分かるように「なぜそのテーマを調べたか」という自分の発表内容のモチベーションについて言及することをルールとしました。モチベーションの中には「業務で必要になりそう」といった直近の開発に必要となるような案件ベースの内容から「世間・研究者の中で流行っている、面白そう」といった個人の興味ベースの理由などさまざまでした。

2023年上期で発表された資料公開

今回は2023年上期の勉強会で発表された資料のいくつかをSpeaker Deckで公開したので簡単に紹介したいと思います。公開した資料リストは以下のようになっています。興味のある資料がありましたら、ぜひ見ていただけると嬉しいです。

  • Embodied AIについて
    • Embodied Cognitionと呼ばれる知能は感覚システムを通じてエージェントと環境の相互作用によって形成されると言う考えがあります。その考えを元に視覚、触覚、聴覚等の複数センサーを備えた自律的に学習するAIを研究するEmbodied AIについて調査してまとめた内容です。Embodied AIのタスクや環境シミュレータ、共通的なアプローチについてまとめられています。
  • Webスケールデータセットに対する実用的なポイズニング手法
    • Webスケールデータセットに対して、攻撃者がデータを操作して機械学習モデルを攻撃するポイズニング攻撃の実現可能性について調査した内容です。データセットに登録されているがすでに失効しているドメインを買い取る、Wikipediaのダンプデータに偽情報を差し込むなどの手法が紹介されており、それらを実際に行うための費用や成功率などが考察されています。
  • 論文紹介 DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction
    • コンピュータビジョンの分野で画像から3次元情報を復元することは重要なタスクとなっており、機械学習アプローチをはじめとしてさまざまな手法が研究されています。この資料では、3次元座標点に対して3DモデルSurfaceからの距離(Signed Distance Function)を推論することによって単一視点画像からの3次元形状を復元を試みたDISNという手法を紹介しています。
  • 3D Human Mesh Estimationについていくつかまとめてみた
    • 画像から人の3Dモデルのメッシュを推論することで、モーションキャプチャーのように画像から3Dアバターを動かすことが可能になると考えられます。このような画像から人の3Dメッシュ推論(3D Human Mesh Estimation)は体のパラメータを元にメッシュを変換する方法や、画像から直接メッシュを推論する方法などさまざま取り組まれています。この資料では3D Human Mesh Estimationのサーベイ論文を元にいくつかの手法について調べてまとめています。
  • CVPR2023 EarthVision Workshopより衛星画像関連論文紹介
    • 近年、センシングデータの1つとして衛星やドローン空撮画像の活用が試みられています。この資料では2023年のCVPR EarthVision Workshopから衛星画像処理に対する論文を調査した内容となっています。具体的には複数時間の衛星画像をもとに雲を除去する手法、ハイパースペクトル画像に対してVision Transformerの学習についての論文をピックアップして紹介しています。

公開した資料リストから分かるようにテーマを指定しなかったためデータポイズニング攻撃から、3Dモデル、衛星画像処理など幅広い分野について各人が調査・検証した内容が発表されました。また、公開した資料以外にもさまざまなテーマについて発表されており、チーム内での知見共有・技術議論の場となっています。私自身もこの勉強会で自分では調べなかった分野についての知見を取り入れることができて非常に勉強になると同時に、普段とは違った分野に触れられるのが面白く感じています。このメディアAI PJ勉強会は23年下期も引き続き開催しており、今後もPJ内での活発な意見交換をしていく予定です。

おわりに

本ブログでは、私たちメディアAI PJで実施している勉強会とSpeaker Deckでの資料公開について紹介させていただきました。メディアAI PJでは画像や映像、さらには音声言語も含めたさまざまなメディアAI技術の論文調査や研究開発に今後も積極的に取り組んでいきます。

2024年1月現在、メディアAI PJでは一緒に技術開発を進めてくれる仲間を募集しています。詳細は以下のリンクをご覧ください。皆さまのご応募を心からお待ちしています!

hrmos.co


  1. 現在は画像・動画をターゲットにした開発が多くなっています。
  2. https://engineers.ntt.com/search?q=CVPR
© NTT Communications Corporation All Rights Reserved.