メインコンテンツまでスキップ

Databricks によるデータエンジニアリング

Databricksは、データエンジニア、ソフトウェア開発者、SQL 開発者、アナリスト、およびデータサイエンティストに下流の分析、AI、および運用アプリケーション向けの高品質なデータを提供できるようにするエンドツーエンドのデータエンジニアリング ソリューションであるLakeflowを提供します。LakeFlow は、データのインジェスト、変換、オーケストレーションのための統合ソリューションであり、 LakeFlow Connect、 LakeFlow 宣言型パイプライン、 LakeFlow ジョブが含まれています。

LakeFlow Connect

LakeFlow Connect 、一般的なエンタープライズアプリケーション、データベース、クラウドストレージ、メッセージバス、ローカルファイルへのコネクタにより、データ取り込みを簡素化します。 LakeFlow Connectを参照してください。

機能

説明

マネージド コネクタ

マネージド コネクタは、シンプルな UI と構成ベースのインジェスト サービスを提供し、運用上のオーバーヘッドを最小限に抑え、基になる LakeFlow 宣言型パイプライン API とインフラストラクチャを使用する必要はありません。

標準コネクタ

標準コネクタを使用すると、 LakeFlow 宣言型パイプラインまたはその他のクエリ内から、さまざまなデータソースからデータにアクセスできます。

LakeFlow 宣言型パイプライン

LakeFlow 宣言型パイプラインは、効率的なバッチおよびストリーミング データパイプラインの構築と管理の複雑さを軽減する宣言型フレームワークです。 Lakeflow宣言型パイプラインは、パフォーマンスが最適化されたDatabricksランタイムで実行されます。さらに、 LakeFlow 宣言型パイプラインは、フロー、シンク、ストリーミングテーブル、およびマテリアライズドビューをパイプラインとしてカプセル化して実行することにより、これらの実行を自動的に調整します。 LakeFlow 宣言型パイプラインを参照してください。

機能

説明

フロー

フローは LakeFlow 宣言型パイプラインでデータを処理します。 フロー API は、Apache Spark および構造化ストリーミングと同じ DataFrame API を使用します。フローは、ストリーミングセマンティクスを使用して Kafka トピックなどのストリーミングテーブルやシンクに書き込むことも、バッチセマンティクスを使用してマテリアライズドビューに書き込むこともできます。

ストリーミングテーブル

ストリーミングテーブルは、ストリーミングまたは増分データ処理の追加サポートを備えた Delta テーブルです。 これは、宣言型パイプラインの 1 つ以上のフロー LakeFlow ターゲットとして機能します。

マテリアライズドビュー

マテリアライズドビューは、アクセスを高速化するために結果をキャッシュしたビューです。マテリアライズドビュー は、宣言型パイプライン LakeFlow ターゲットとして機能します。

シンク

LakeFlow 宣言型パイプラインは、ターゲットとして外部データ シンクをサポートします。 これらのシンクには、Apache Kafka や Azure Event Hubs などのイベント ストリーミング サービスや、Unity Catalog によって管理される外部テーブルを含めることができます。

LakeFlow ジョブ

LakeFlow Jobs は、あらゆるデータや AI ワークロードに対して信頼性の高いオーケストレーションと本番運用 モニタリングを提供します。 ジョブは、ノートブック、パイプライン、マネージド コネクタ、SQL クエリ、機械学習トレーニング、モデルのデプロイと推論を実行する 1 つ以上のタスクで構成できます。ジョブは、if / else ステートメントによる分岐や for each ステートメントによるループなど、カスタム制御フロー ロジックもサポートしています。LakeFlowジョブを参照してください。

機能

説明

ジョブ

ジョブは、オーケストレーションの主要なリソースです。これらは、スケジュールに基づいて実行するプロセスを表します。

タスク

ジョブ内の特定の作業単位。ジョブ内で実行できるさまざまなオプションを提供するさまざまなタスクタイプがあります。

ジョブの制御フロー

制御フロー タスクを使用すると、他のタスクを実行するかどうか、または実行するタスクの順序を制御できます。

Apache Spark向けDatabricksランタイム

Databricksランタイム は、バッチやストリーミングなどのSparkワークロードを実行するための、信頼性が高く、パフォーマンスが最適化されたコンピュート環境です。Databricksランタイムは、高性能なDatabricks ネイティブのベクトル化クエリエンジンであるPhoton、オートスケールなどのさまざまなインフラストラクチャ最適化を提供します。Spark と構造化ストリーミングのワークロードを Databricks ランタイム で実行するには、Spark プログラムをノートブック、JAR、または Python ホイールとしてビルドします。Apache Spark向けDatabricksランタイムを参照してください。

機能

説明

DatabricksにおけるApache Spark

Spark は、Databricks Data Intelligence Platform の中核をなすものです。

構造化ストリーミング

構造化ストリーミングは、ストリーミング データ用の Spark のほぼリアルタイムの処理エンジンです。

Delta Live Tables (DLT) はどうなりましたか?

以前は Delta Live Tables (DLT) と呼ばれていた製品は、現在は 宣言型パイプライン LakeFlow されています。 宣言型パイプラインを使用するために移行 LakeFlow 必要はありません。

注記

Databricks には、DLT 名への参照がまだいくつかあります。LakeFlow宣言型パイプラインの従来の SKU は引き続き DLTで始まり、名前に DLT が含まれる API は変更されていません。

追加のリソース