こんにちは。NTTコミュニケーションズでエバンジェリストをやっている西塚です。今日が10年目の結婚記念日です。
この記事は、NTT Communications Advent Calendar 2024 6日目の記事です。
情報通信白書によると、デジタルデータの活用が企業経営に対して効果があると複数の先行研究で明らかにされています。 ビッグデータを活用している企業はそうでない企業に比べて、イノベーションの創出が統計学的に有意な差で多いと言われています。
私自身もNTTコミュニケーションズにおいて全社データ基盤を立ち上げて、社内システムからデータを収集し、 データサイエンティストと協力しながら、蓄積された膨大なデータを活用してビジネス価値を生み出す取り組みを行ってきました。
さて、近年の生成AIブームに乗り、データサイエンティスト達は従来の機械学習・AI技術に加えて生成AIをデータ活用に利用する取り組みをしています。 最終的に生成AIはデータサイエンティストの仕事を奪うことになるのでしょうか?
結論から言えば、生成AIはデータサイエンティストの仕事を一部奪うかもしれません。 しかし、それはデータサイエンスそのものの重要性が低下するという意味ではなく、むしろ「仕事の民主化」が進むことを意味します。 生成AIをデータ基盤の中で活用することで、データを効率的に管理し、活用できる環境が整うのです。
- 全社データ基盤の紹介
- Snowflakeによるクラウドリフトとデータ連携
- 基盤だけでは活用は進まない
- データサイエンスの民主化
- 生成AIはデータサイエンスのどの仕事を置き換えるか?
- PoC紹介
- 最後に
全社データ基盤の紹介
2020年に構築を開始した全社データ基盤は、当初オンプレで組み上げました。 データウェアハウス(DWH: Data Ware House)としてHadoopを採用し、データ活用のための標準インターフェースとしてTrino(旧Presto)を提供しました。 Trinoの取り組みについては2021年のアドベントカレンダーにて 高性能分散SQLエンジン「Trino」最速ガイド として紹介しました。 データサイエンティストの活躍については社内でデータ分析コンペティションを開催しました で紹介しています。
全社データ基盤は「DLX(Datalake for Everything)」と名付けられ、「セキュリティ(Security)」「高性能(High Performance)」「安定性(Stability)」「使いやすさ(Usability)」「可観測性(Observability)」の5つの信条のもとに設計されました。
セキュリティ(Security)
もっとも重要な信条は、社内機密データを取り扱う際のセキュリティの確保です。 情報漏えいを防ぐための厳格なセキュリティ対策が施されており、データの機密性と安全性が最優先されています。 これにより、企業の重要情報が不正アクセスや漏えいのリスクから守られます。 社外のセキュリティ会社によるペネトレーション試験を定期的に行い、セキュリティ向上および安全確保を実施しています。
高性能(High Performance)
高性能とは、大量のデータに対する高速な処理能力を指します。大規模データ分析の要求にこたえられるよう、HadoopやTrinoなどの分散処理フレームワークが採用されています。
安定性(Stability)
安定性の確保は、システムの中断なく安定したデータ活用を可能にします。障害に強い冗長設計やフェイルオーバー機能により、高い可用性を実現しています。
使いやすさ(Usability)
使いやすさは、データ活用の敷居を下げることを目指しています。Trinoの標準SQLによる一貫したデータアクセスが可能となり、データ分析のスピードと精度が飛躍的に向上しました。
可観測性(Observability)
可観測性とは、システム状況を的確に監視し、運用を最適化することを意味します。各種メトリクスの一元的な監視で、迅速な障害対応や負荷分散が可能になります。
こうした5つの信条に基づいて設計することで、セキュリティを確保しつつ、高速で安定した全社データ基盤が実現しました。 社内のユーザは組織の壁を超えて効率的かつ安全にデータを活用できるようになりました。
Snowflakeによるクラウドリフトとデータ連携
2023年からはクラウド型データウェアハウス(DWH)としてSnowflakeを採用し、オンプレからのクラウドリフトを進めています。 SnowflakeはSnowflake同士でデータシェアリング(データ共有)する機能を有しています。 データのメタデータや権限情報のみ共有する仕組みを採用しているため、データを物理的にコピーせずにリアルタイムでのデータ共有が可能になっています。 実は、NTTグループの間ではSnowflakeによる会社を超えたデータ共有の事例が進んでいます。 我々のデータ基盤も、主に以下の2つのSnowflakeと接続しています。
- NTT持株のデータ基盤との接続: 共通系ITシステムのデータについて持株と共有しています
- NTTドコモのデータ基盤との接続: ドコモとの一部事業統合に伴い、「ドコモビジネス」の運営に伴う共同利用宣言に基づいて、NTTドコモのデータ基盤とデータ共有しています
基盤だけでは活用は進まない
全社データ基盤の構築に伴い、以下のような課題に直面しました。
データを集めるプロセスの膨大な負担
データを集約し、正確に整理する作業はデータ活用の約8割の稼働を占めるとも言われています。 データエンジニアの育成を進めていますが、稼働が非常にかかるところです。
蓄積するだけでは価値を生まない
データがデータベースに眠っているだけでは、ビジネスに役立つ知見を得ることはできません。 ビッグデータを活用するためには、高度な分析や洞察を引き出すデータサイエンスの力が求められます。
従来のデータエンジニアリングやデータサイエンスは、専門知識を持つ人材に依存していました。 しかし、生成AIが登場したことで、この構造が大きく変わろうとしています。
データサイエンスの民主化
近年のLLM(大規模言語モデル)の技術進化により、自然言語対話によるデータサイエンス業務の民主化が進みつつあります。 例えば、「Function Calling」によりLLM側で適切なタスクを選択し、関数を呼び出すことが可能となっています。 この機能を活用することで、LLMと全社データ基盤を接続し、自然言語を介してデータを操作するユーザーインターフェースを実現できます。
このような考えはSnowflakeを始めとしたクラウドDWH製品においても、一般的になっています。 Snowflake社は先日11/20に Anthropic社のClaude 3.5 Sonnetのモデルがデータベース上で使えるようになることを発表しました 。 また、Databricks社は独自のLLM(DBRX)の開発を進めています。 各種のDWH製品に自然言語によるデータ探索やグラフ描画機能が搭載されつつあり、このようなインターフェースが主流になることが想定されています。
生成AIはデータサイエンスのどの仕事を置き換えるか?
生成AIは、以下のような業務を効率化・自動化する可能性を秘めています。
非構造化データの構造化
非構造化データ(例: テキストや画像)を表形式のデータに変換し、分析可能な形に整える。
データクレンジング
不完全なデータを補完したり、投入後のデータ処理(ETL: Extract, Transform, Load)のアシストを行う。
探索的データ分析(EDA: Explanatory Data Analysis)
異常値やトレンドを検出し、日々のレポート作成を自動化する。
特徴量エンジニアリングの支援
モデル精度を向上させるための特徴量設計をサポートする。
これらのタスクは従来、データサイエンティストやエンジニアが多大な時間と労力をかけて行っていたものです。 しかし、生成AIは疲れ知らずであり、コストも安いため、これらの仕事の効率化ができます。 企業データは量が膨大ですので人間が見るのは非人道的です。 ETLやEDAなどは、寝てる間に生成AIに任せましょう。
将来的には、生成AIがデータ基盤内で日々蓄積される膨大なデータを整理し、異常値を検出し、必要に応じて分析の方向性を提案してれるような世界観を目指していきたいと考えています。
まとめると、生成AIによるデータサイエンスの民主化とは以下のステップで表されます。
- 非構造化データの処理やクレンジングの自動化で手間を削減
- データ分析結果の可視化や異常検知において生成AIのアシストで専門知識を不要に
- ビジネスパーソンが対話的にデータを活用し、インサイトを得る環境が整備される
PoC紹介
最後に、夢物語を語ってるのではなく実際に動くPoCがあることを紹介します。 我々のデータ基盤のアクセスログに対し、異常値を検出し対話的に深掘りができるチャットbotに人格を付与してslackに住まわせています。
以下の会話は、異常とされたアクセスログについて自然言語で深掘りしています。
以下のようなシステムセッティングで動かしています。
非常に面白いユースケースだと個人的に思います。
最後に
生成AIによる企業データの利用においては、RAGによる非構造データの利用がより注目されているように感じますが、 データ基盤との接続にこそ価値があると考えています。 データエンジニアやデータサイエンティストの仕事を肩代わりし、その役割をさらに高度化する可能性があります。
また、生成AIはデータサイエンスの民主化を加速し、専門的なスキルを持たない人々でもデータの価値を引き出せる未来を実現します。 これにより、データ活用の裾野が広がり、企業全体でのデータドリブンな意思決定が進みます。 私たちは引き続き、この可能性を追求していきたいと考えています。