Data Lake(データレイク)
構造化・非構造化データを生の形式で大規模に保存するストレージシステム。従来のデータウェアハウスと異なり、スキーマレスでPB級のデータを低コストで格納。
定義
データレイクアーキテクチャ
データレイクは「スキーマ・オン・リード」アプローチを採用し、データ保存時ではなく読み込み時にスキーマを定義。これによりビッグデータの柔軟な分析と機械学習のデータソースとして活用できます。
レイヤー設計原則
- Raw Layer:生データの完全保存、データ系譜の維持
- Processed Layer:クリーニング済みデータ、スキーマ適用
- Curated Layer:ビジネス要件に最適化されたデータマート
具体例
クラウド実装パターン
- AWS:S3 + Glue + Athena + Redshift Spectrum
- Azure:ADLS Gen2 + Synapse Analytics + Data Factory
- GCP:Cloud Storage + Dataflow + BigQuery + Dataproc
データフォーマット最適化
- Parquet:カラムナー形式、圧縮率高、分析クエリ高速化
- Delta Lake:ACID トランザクション、タイムトラベル機能
- Apache Iceberg:スキーマ進化、ストリーミング対応
活用事例
産業別実装事例
- 金融:取引ログ分析、不正検知、リスク管理
- ヘルスケア:医療画像、遺伝子データ、臨床試験データ
- IoT製造:センサーデータ、予知保全、品質管理
- メディア:ログ解析、コンテンツ推薦、視聴行動分析
データガバナンス実装
- Apache Atlas:メタデータ管理、データ系譜追跡
- Apache Ranger:細粒度アクセス制御、監査
- データカタログ:自動メタデータ収集、検索機能
関連概念
モダンデータスタックでは、Snowflake、Databricks、dbtと組み合わせてELTパイプラインを構築。Fivetran、Stitch、Airbyte等のCDCツールでリアルタイムデータ取り込みを実現。機械学習ワークロードでは、Feature Store連携が重要。
パフォーマンス最適化
- パーティショニング:時系列、地理的分割で90%+のクエリ高速化
- データ圧縮:Zstd、LZ4で70-80%のストレージ削減
- インデックス:Bloom Filter、Zone Map等
- キャッシュ戦略:ホットデータの階層化ストレージ
📝 要約
構造化・非構造化データを生の形式で大規模に保存するストレージシステム。従来のデータウェアハウスと異なり、スキーマレスでPB級のデータを低コストで格納。