用語集2025/9/28

Data Lake(データレイク)

構造化・非構造化データを生の形式で大規模に保存するストレージシステム。従来のデータウェアハウスと異なり、スキーマレスでPB級のデータを低コストで格納。

難易度:
中級
読了時間:6

定義

データレイクアーキテクチャ

データレイクは「スキーマ・オン・リード」アプローチを採用し、データ保存時ではなく読み込み時にスキーマを定義。これによりビッグデータの柔軟な分析と機械学習のデータソースとして活用できます。

レイヤー設計原則

  • Raw Layer:生データの完全保存、データ系譜の維持
  • Processed Layer:クリーニング済みデータ、スキーマ適用
  • Curated Layer:ビジネス要件に最適化されたデータマート

具体例

クラウド実装パターン

  • AWS:S3 + Glue + Athena + Redshift Spectrum
  • Azure:ADLS Gen2 + Synapse Analytics + Data Factory
  • GCP:Cloud Storage + Dataflow + BigQuery + Dataproc

データフォーマット最適化

  • Parquet:カラムナー形式、圧縮率高、分析クエリ高速化
  • Delta Lake:ACID トランザクション、タイムトラベル機能
  • Apache Iceberg:スキーマ進化、ストリーミング対応

活用事例

産業別実装事例

  • 金融:取引ログ分析、不正検知、リスク管理
  • ヘルスケア:医療画像、遺伝子データ、臨床試験データ
  • IoT製造:センサーデータ、予知保全、品質管理
  • メディア:ログ解析、コンテンツ推薦、視聴行動分析

データガバナンス実装

  • Apache Atlas:メタデータ管理、データ系譜追跡
  • Apache Ranger:細粒度アクセス制御、監査
  • データカタログ:自動メタデータ収集、検索機能

関連概念

モダンデータスタックでは、Snowflake、Databricks、dbtと組み合わせてELTパイプラインを構築。Fivetran、Stitch、Airbyte等のCDCツールでリアルタイムデータ取り込みを実現。機械学習ワークロードでは、Feature Store連携が重要。

パフォーマンス最適化

  • パーティショニング:時系列、地理的分割で90%+のクエリ高速化
  • データ圧縮:Zstd、LZ4で70-80%のストレージ削減
  • インデックス:Bloom Filter、Zone Map等
  • キャッシュ戦略:ホットデータの階層化ストレージ

📝 要約

構造化・非構造化データを生の形式で大規模に保存するストレージシステム。従来のデータウェアハウスと異なり、スキーマレスでPB級のデータを低コストで格納。

関連タグ

データレイクビッグデータS3Parquetデータガバナンス

関連用語

この用語について詳しく知りたい方へ

実際の導入事例や具体的な活用方法について、専門家にご相談ください。