用語集2025/9/28
Apache Spark(アパッチスパーク)
分散データ処理エンジン。メモリ内処理により、Hadoopより最大100倍高速。機械学習、ストリーミング、グラフ処理の統合プラットフォーム。
難易度:
中級
読了時間:約7分
定義
Apache Sparkは、クラスタ上でのインメモリ分散処理により、大規模データの高速処理を実現。Scala、Python、R、SQLで統一APIを提供し、データサイエンスワークフローを効率化します。
具体例
- Spark SQL:構造化データのSQL処理
- MLlib:分散機械学習ライブラリ
- Spark Streaming:リアルタイムストリーム処理
活用事例
- ETL処理:大規模データ変換、クリーニング
- 機械学習:特徴量エンジニアリング、分散学習
- リアルタイム分析:IoTデータ、ログ解析
関連概念
Databricks、EMR、Dataproc、HDInsightでマネージド運用。Delta Lake、Iceberg、Hudiで次世代データレイクアーキテクチャ。Kubernetes、YARNでリソース管理。
📝 要約
分散データ処理エンジン。メモリ内処理により、Hadoopより最大100倍高速。機械学習、ストリーミング、グラフ処理の統合プラットフォーム。
関連タグ
Spark分散処理ビッグデータETLMLlib