Databricks によるデータエンジニアリング
Databricksは、データエンジニア、ソフトウェア開発者、SQL 開発者、アナリスト、およびデータサイエンティストに下流の分析、AI、および運用アプリケーション向けの高品質なデータを提供できるようにするエンドツーエンドのデータエンジニアリング ソリューションであるLakeflowを提供します。LakeFlow は、データのインジェスト、変換、オーケストレーションのための統合ソリューションであり、 LakeFlow Connect、 LakeFlow 宣言型パイプライン、 LakeFlow ジョブが含まれています。
LakeFlow Connect
LakeFlow Connect 、一般的なエンタープライズアプリケーション、データベース、クラウドストレージ、メッセージバス、ローカルファイルへのコネクタにより、データ取り込みを簡素化します。 LakeFlow Connectを参照してください。
機能 | 説明 |
---|---|
マネージド コネクタは、シンプルな UI と構成ベースのインジェスト サービスを提供し、運用上のオーバーヘッドを最小限に抑え、基になる LakeFlow 宣言型パイプライン API とインフラストラクチャを使用する必要はありません。 | |
標準コネクタを使用すると、 LakeFlow 宣言型パイプラインまたはその他のクエリ内から、さまざまなデータソースからデータにアクセスできます。 |
LakeFlow 宣言型パイプライン
LakeFlow 宣言型パイプラインは、効率的なバッチおよびストリーミング データパイプラインの構築と管理の複雑さを軽減する宣言型フレームワークです。 Lakeflow宣言型パイプラインは、パフォーマンスが最適化されたDatabricksランタイムで実行されます。さらに、 LakeFlow 宣言型パイプラインは、フロー、シンク、ストリーミングテーブル、およびマテリアライズドビューをパイプラインとしてカプセル化して実行することにより、これらの実行を自動的に調整します。 LakeFlow 宣言型パイプラインを参照してください。
機能 | 説明 |
---|---|
フローは LakeFlow 宣言型パイプラインでデータを処理します。 フロー API は、Apache Spark および構造化ストリーミングと同じ DataFrame API を使用します。フローは、ストリーミングセマンティクスを使用して Kafka トピックなどのストリーミングテーブルやシンクに書き込むことも、バッチセマンティクスを使用してマテリアライズドビューに書き込むこともできます。 | |
ストリーミングテーブルは、ストリーミングまたは増分データ処理の追加サポートを備えた Delta テーブルです。 これは、宣言型パイプラインの 1 つ以上のフロー LakeFlow ターゲットとして機能します。 | |
マテリアライズドビューは、アクセスを高速化するために結果をキャッシュしたビューです。マテリアライズドビュー は、宣言型パイプライン LakeFlow ターゲットとして機能します。 | |
LakeFlow 宣言型パイプラインは、ターゲットとして外部データ シンクをサポートします。 これらのシンクには、Apache Kafka や Azure Event Hubs などのイベント ストリーミング サービスや、Unity Catalog によって管理される外部テーブルを含めることができます。 |
LakeFlow ジョブ
LakeFlow Jobs は、あらゆるデータや AI ワークロードに対して信頼性の高いオーケストレーションと本番運用 モニタリングを提供します。 ジョブは、ノートブック、パイプライン、マネージド コネクタ、SQL クエリ、機械学習トレーニング、モデルのデプロイと推論を実行する 1 つ以上のタスクで構成できます。ジョブは、if / else ステートメントによる分岐や for each ステートメントによるループなど、カスタム制御フロー ロジックもサポートしています。LakeFlowジョブを参照してください。
機能 | 説明 |
---|---|
ジョブは、オーケストレーションの主要なリソースです。これらは、スケジュールに基づいて実行するプロセスを表します。 | |
ジョブ内の特定の作業単位。ジョブ内で実行できるさまざまなオプションを提供するさまざまなタスクタイプがあります。 | |
制御フロー タスクを使用すると、他のタスクを実行するかどうか、または実行するタスクの順序を制御できます。 |
Apache Spark向けDatabricksランタイム
Databricksランタイム は、バッチやストリーミングなどのSparkワークロードを実行するための、信頼性が高く、パフォーマンスが最適化されたコンピュート環境です。Databricksランタイムは、高性能なDatabricks ネイティブのベクトル化クエリエンジンであるPhoton、オートスケールなどのさまざまなインフラストラクチャ最適化を提供します。Spark と構造化ストリーミングのワークロードを Databricks ランタイム で実行するには、Spark プログラムをノートブック、JAR、または Python ホイールとしてビルドします。Apache Spark向けDatabricksランタイムを参照してください。
機能 | 説明 |
---|---|
Spark は、Databricks Data Intelligence Platform の中核をなすものです。 | |
構造化ストリーミングは、ストリーミング データ用の Spark のほぼリアルタイムの処理エンジンです。 |
Delta Live Tables (DLT) はどうなりましたか?
以前は Delta Live Tables (DLT) と呼ばれていた製品は、現在は 宣言型パイプライン LakeFlow されています。 宣言型パイプラインを使用するために移行 LakeFlow 必要はありません。
Databricks には、DLT 名への参照がまだいくつかあります。LakeFlow宣言型パイプラインの従来の SKU は引き続き DLT
で始まり、名前に DLT
が含まれる API は変更されていません。
追加のリソース
- データエンジニアリングの概念 では、 Databricksのデータエンジニアリングの概念について説明します。
- Delta Lake は、Databricks のレイクハウスのテーブルの基盤を提供する最適化されたストレージ レイヤーです。
- データエンジニアリング のベストプラクティス では、 Databricksでのデータエンジニアリングのベストプラクティスについて説明します。
- Databricks ノートブック は、コラボレーションと開発のための一般的なツールです。
- Databricks SQL では、Databricks での SQL クエリと BI ツールの使用について説明しています。
- Databricks Mosaic AI では、機械学習ソリューションの設計について説明します。