セキュリティ&トラストセンター

データ保護は Databricks の最優先事項です

背景

Databricks では、お客様にとっての貴重な資産であるデータが常に保護されるよう、レイクハウスプラットフォームの全レイヤーにセキュリティを組み込んでいます。また、プラットフォーム利用におけるコンプライアンスを確実にし、お客様に対する透明性を維持することで、お客様に安心して利用していただけるサービスの提供に努めています。

Databricks のセキュリティをお客様にセルフサービスでレビューしていただけるよう、コンプライアンス関連資料をご用意しています。

Accenture
Wehkamp Logo
Wehkamp Logo
「Databricks のプラットフォームは運用とガバナンスの管理がシンプルで、組織全体のデータドリブンな意思決定が促進されています。容易なユーザー追加機能、主要なクラウドプロバイダとのネイティブなセキュリティ統合、充実した API により、データとツールを社員が効率よく利用できるようになりました。」

Wehkamp 社 リードデータサイエンティスト
トム・ムルダー(Tom Mulder) 氏

Adren Street Labs
Wehkamp Logo
Wehkamp Logo
「Azure Databricks を基盤として 10 件ほどのソリューションを構築しました。Azure Databricks を利用したことで、データのセキュリティとコンピュートのスケーラビリティを確保すると同時に、ラボから実運用までの時間を短縮できるようになりました。」

Arden Street Labs 社 CTO ジェフ・フェルドマン(Jeff Feldman)氏

クレディ・スイス
Wehkamp Logo
Wehkamp Logo
「金融サービス業界では、ビッグデータやAIを採用する企業が増加しています。しかし、依然として多くの企業が、データタイプ、プライバシー、スケーリングの面で重大な課題を抱えているのが実情です。世界有数の金融機関クレディ・スイス社は、Azure Databricksなどのクラウドベースのオープンプラットフォームを活用することで、データの標準化を進めてこの課題に対応しています。また、組織全体でのオペレーション効率の向上と大規模データを対象とした機械学習の高速化に取り組んでいます。」

— Credit Suise case study

背景

トラスト

Our trusted platform is built by embedding security throughout the software development and delivery lifecycle. We follow rigorous operational security practices such as penetration testing, vulnerability assessments and strong internal access controls. We believe transparency is the key to winning trust — we publicly share how we operate, and work closely with our customers and partners to address their security needs. We have offerings for PCI-DSS, HIPAA and FedRAMP compliance, and we are ISO 27001, ISO 27017, ISO 27018 and SOC 2 Type IIcompliant

契約上の要件

Beyond the documentation and best practices that you will find in our Security and Trust Center, we also provide a contractual commitment to security written in plain language to all our customers. This commitment is captured in theSecurity Addendumof our customer agreement, which describes the security measures and practices that we follow to keep your data safe.

脆弱性の管理

Detecting and quickly fixing vulnerable software that you rely on is among the most important responsibilities of any software or service provider. We take this responsibility seriously and share our remediation timeline commitments in ourSecurity Addendum

在内部,我们有自动脆弱性管理ment to effectively track, prioritize, coordinate and remediate vulnerabilities in our environment. We perform daily authenticated vulnerability scans of Databricks and third-party/open-source packages used by Databricks, along with static and dynamic code analysis (SAST and DAST) using trusted security scanning tools, before we promote new code or images to production. Databricks also employs third-party experts to analyze our public-facing sites and report potential risks.

Databricks has funded a Vulnerability Response Program for monitoring emerging vulnerabilities before they’re reported to us by our scanning vendors. We accomplish this using internal tools, social media, mailing lists and threat intelligence sources (e.g., US-CERT and other government, industry and open-source feeds). Databricks monitors open vulnerability platforms, such asCVE TrendsandOpen CVDB。We have an established process for responding to these so we can quickly identify the impact on our company, product or customers. This program allows us to quickly reproduce reported vulnerabilities and resolve zero-day vulnerabilities.

Our Vulnerability Management Program is committed to treating Severity-0 vulnerabilities, such as zero days, with the highest urgency, prioritizing their fix above other rollouts.

ペネトレーションテストとバグバウンティ

We perform penetration testing through a combination of our in-house offensive security team, qualified third-party penetration testers and a year-round public bug bounty program. We use a mixture of fuzzing, secure code review and dynamic application testing to evaluate the integrity of our platform and the security of our application. We conduct penetration tests on major releases, new services and security-sensitive features. The offensive security team works with our incident response team and security champions within engineering to resolve findings and infuse learnings throughout the company.

We typically perform 8-10 external third-party penetration tests and 15-20 internal penetration tests per year, and all material findings must be addressed before a test can be marked as passed. As part of our commitment to transparency, we publicly share our platform-wide third-party test report in ourdue diligence package

Ourpublic bug bountyprogram, facilitated by HackerOne, allows a global collective of cybersecurity researchers and penetration testers to test Databricks for security vulnerabilities. Some of the key decisions we’ve made to make the program successful include:

  • Encouraging an engaged community of hackers to be active on our program by providing transparency to our HackerOne program statistics such as response rate and payouts
  • Promptly responding to bug bounty submissions, with an average time-to-bounty under a week
  • Performing variant analysis on every valid submission to identify alternative ways that an exploit may be used, and verifying 100% of fixes
  • Adding bonuses that drive attention to the most important areas of the product

We work hard to make our program successful and to learn from each submission. Our open and collaborative approach to our bug bounty program has resulted in over 100 security researchers being thanked for over 200 reports. Thank you all for helping us keep Databricks secure!

We want our customers to have confidence in the workloads they run on Databricks. If your team would like to run a vulnerability scan or penetration test against Databricks, we encourage you to:

  1. Run vulnerability scans on data plane systems located inside of your cloud service provider account.
  2. Run tests against your code, provided that those tests are entirely contained within the data plane (or other systems) located in your cloud service provider account and are evaluating your controls.
  3. Join theDatabricks Bug Bountyprogram to access a dedicated deployment of Databricks to perform penetration tests. Any penetration test against our multi-tenant control plane requires participation in the program.

Security investigations and incident response

We use Databricks as our SIEM and XDR platform to process over 9 terabytes of data per day for detection and security investigations. We ingest and process logs and security signals from cloud infrastructure, devices, identity management systems, and SaaS applications. We use structured streaming pipelines and Delta Live Tables to identify the most relevant security events using a data-driven approach and statistical ML models to generate novel alerts, or to correlate, de-duplicate and prioritize existing alerts from known security products. We model our runbooks on adversary tactics, techniques and procedures (TTP) tracked using theMITRE ATT&CKframework. Our security investigations team uses collaborative Databricks notebooks to create repeatable investigation processes, continually evolve incident investigation playbooks, and perform threat hunting against more than 2 petabytes of historic event logs handling complex searches over unstructured and semi-structured data.

Our incident response team stays up to date and helps Databricks prepare for incident management scenarios by:

  • Participating in industry-reputed courses from vendors like SANS and attending security conferences like fwd:cloudsec, Black Hat, BSides, RSA
  • Performing regular tabletop exercises with executive leadership and internal teams to practice security response scenarios relevant to Databricks products and corporate infrastructure
  • Collaborating with engineering teams to prioritize platform observability to allow effective security detection and response
  • 定期更新招聘和培训策略based on an evolving incident response skills and capabilities matrix

内部アクセス

本番稼働システム、顧客環境、顧客データへの社員のアクセスについては、厳格なポリシーと制御を適用しています。

We require multifactor authentication to access core infrastructure consoles such as the cloud service provider consoles (AWS, GCP and Azure). Databricks has policies and procedures to avoid the use of explicit credentials, such as passwords or API keys, wherever possible. For example, only appointed security team members can process exception requests for new AWS IAM principals or policies.

Databricks employees can access the production system under very specific circumstances (such as emergency break-fix). Access is governed by a Databricks-built system that validates access and performs policy checks. Access requires that employees are connected to our VPN, and authenticate using our single sign-on solution with multifactor authentication.
Learn more →

Our internal security standards call for the separation of duties wherever possible. For example, we centralize our cloud identity provider’s authentication and authorization process to separate authorizing access (Mary should access a system) from granting access (Mary can now access a system).

We prioritize least privilege access, both in internal systems and for our access to production systems. Least privilege is explicitly built into our internal policies and reflected in our procedures. For example, most customers can control whether Databricks employees have access to their workspace, and we programmatically apply numerous checks before access can be granted and automatically revoke access after a limited time.
Learn more →

セキュアなソフトウェア開発ライフサイクル

Databricks has a software development lifecycle (SDLC) that builds security into all design, development and production steps — from feature requests to production monitoring — supported by tooling designed to trace a feature through the lifecycle. We have automatic security scanning and automated vulnerability tracking of systems, libraries and code.

Databricks leverages anIdeas Portalthat tracks feature requests and allows voting both for customers and employees. Our feature design process includes privacy and security by design. After an initial assessment, high-impact features are subject to a security design review from the product security team in association with the security champions from engineering, along with threat modeling and other security-specific checks.

We use an agile development methodology that breaks up new features into multiple sprints. Databricks does not outsource the development of the Databricks platform, and all developers are required to go through secure software development training — including the OWASP Top 10 — when hired and annually thereafter. Production data and environments are separated from development, QA and staging environments. All code is checked into a source control system that requires single sign-on with multifactor authentication and granular permissions. Code merges require approval from the functional engineering owners of each area impacted, and all code is peer reviewed. The product security team manually reviews security-sensitive code to eliminate business logic errors.

Databricks では、ベストオブブリードのツールを使用して、脆弱性のあるパッケージやコードを特定しています。本番前の環境における自動化では、認証済みホストとコンテナに対して、オペレーティングシステムとインストールされたパッケージの脆弱性スキャン、および動的・静的コード分析スキャンを実行します。脆弱性が確認された場合は、エンジニアリングチケットが自動的に作成され、関連チームに割り当てられます。また、製品のセキュリティチームは、Databricks アーキテクチャにおける重要な脆弱性をトリアージし、その深刻度を評価しています。

We run quality checks (such as unit tests and end-to-end tests) at multiple stages of the SDLC process, including at code merge, after code merge, at release and in production. Our testing includes positive tests, regression tests and negative tests. Once deployed, we have extensive monitoring to identify faults, and users can get alerts about system availability via theStatus Page。在发生任何P0或P1问题,砖utomation triggers a “5 whys” root cause analysis methodology that selects a member of the postmortem team to oversee the review. Findings are communicated to executive leadership, and follow-up items are tracked.

Databricks has a formal release management process that includes a formal go/no-go decision before releasing code. Changes go through testing designed to avoid regressions and validate that new functionality has been tested on realistic workloads. Additionally, there is a staged rollout with monitoring to identify issues early. To implement separation of duties, only our deployment management system can release changes to production, and multiperson approval is required for all deployments.

We follow an immutable infrastructure model, where systems are replaced rather than patched to improve reliability and security and to avoid the risk of configuration drift. When new system images or application code is launched, we transfer workloads to new instances that launch with the new code. This is true both for the control plane and the data plane (see theSecurity Features section for more on the Databricks architecture). Once code is in production, a verification process confirms that artifacts are not added, removed or changed without authorization.

The final phase of the SDLC process is creating customer-facing documentation. Databricks docs are managed much like our source code, and documentation is stored within the same source control system. Significant changes require both technical and docs team review before they can be merged and published.
Visit documentation →

Security Policy and Communication Details

砖遵循RFC 9116, ISO / IEC 30111:2019 (E), and ISO/IEC 29147:2018(E) standards for security vulnerability handling and communications. For details on our secure communications and PGP signature, please refer to oursecurity.txtfile.

背景
ネットワークアクセス クラウド

Option to deploy into a VPC/VNet that you manage and secure. By default there are no inbound network connections to the data plane.

AWSAzure

ユーザーやクライアントから Databricks のコントロールプレーン UI および API へのプライベートアクセス (またはプライベートリンク)

AWSAzure

従来のデータプレーンから Databricks のコントロールプレーンへのプライベートアクセス(またはプライベートリンク)

AWSAzure

従来のデータプレーンからクラウドプラットフォーム上のデータへのプライベートアクセス(またはプライベートリンク)

AWSAzure

IP アクセスリストによる Databricks のコントロールプレーンの UI や API へのインターネット経由のアクセス制御

AWSAzureGCP

ホストベースの自動ファイアウォールによる通信制限

AWSAzureGCP

ユーザーおよびグループの管理 クラウド

クラウドのサービスプロバイダの ID 管理を利用したクラウドリソースとのシームレスな統合

AWSAzureGCP

Azure Active Directory の条件付きアクセスポリシーのサポート

Azure(AWS、GCP は対象外)

SCIM プロビジョニングによるユーザー ID およびグループ管理

AWSAzureGCP

ID プロバイダの統合によるシングルサインオン (ID プロバイダ経由で MFA を有効化できます)

Azure(AWS、GCP は対象外*)

サービスプリンシパルまたはサービスアカウントによる自動化されたアプリケーション ID の管理

AWSAzureGCP

Databricks へのユーザーアクセスを一時的に無効にするユーザーアカウントのロック

Azure(AWS、GCP は対象外*)

パスワード権限を使用したローカルパスワードの無効化

Azure(AWS、GCP は対象外*)

アクセス管理 クラウド

Fine-grained permission based access control to all Databricks objects including workspaces, jobs, notebooks, SQL

AWSAzureGCP

権限管理を使用した個人アクセストークンによるセキュアな API アクセス

AWSAzureGCP

OAuth トークンのサポート

AzureGCP

複数ワークスペースの異なるセキュリティプロファイルを持つユーザー、ワークロード、データのセグメント化

AWSAzureGCP

データセキュリティ クラウド

保存コントロールプレーンデータの暗号化

AWSAzureGCP

カスタマーマネージドキーの暗号化

AWSAzure

コントロールプレーンとデータプレーン間の全ての送受信データの暗号化

AWSAzureGCP

Intra-cluster Spark encryption in transit or platform-optimized encryption in transit

AWSAzure

ダイナミックビューによるきめ細やかなデータセキュリティとマスキング

AWSAzureGCP

データ流出リスクを抑制する管理者コントロール

AWSAzureGCP

Data governance クラウド

Unity カタログによるきめ細やかなデータガバナンス

AWS,Azure

Centralized metadata and user management with Unity Catalog

AWS,Azure

Centralized data access controls with Unity Catalog

AWS,Azure

Data lineage with Unity Catalog

Preview on AWS and Azure

Data access auditing with Unity Catalog

AWS,Azure

Secure data sharing withDelta Sharing

AWS,Azure

ワークロードセキュリティ クラウド

Repos を使用した効率的なコードのバージョン管理

AWS,Azure,GCP

コード内での認証情報のハードコーディングを回避する組み込みのシークレット管理

AWS,Azure,GCP

バッチ、セキュリティスキャン、基本的なハードニングにより定期的に更新されるマネージドデータプレーンのマシンイメージ

AWS, Azure (GCP not applicable)

クラスタポリシーによるコスト抑制、セキュリティと検証ニーズの強化

AWS,Azure,GCP

構成のドリフトを回避する短命のイミューダブルインフラストラクチャ

AWS,Azure,GCP

Enhanced hardening with security monitoring and vulnerability reports of managed data plane images

AWS

監査とロギング クラウド

Databricks ユーザーのアクティビティに関する包括的で構成可能な監査ロギング

AWS,Azure,GCP

Databricks SQL コマンド履歴のロギング

AWS,Azure

Databricks によるクラスタのロギング

AWS,Azure

セキュリティ検証(コンプライアンス) クラウド

ISO 27001、27017、27018 への準拠

AWS, Azure, GCP

SOC 1 Type II, SOC 2 Type II, SOC 3

AWS, Azure, GCP

GDPR/CCPA への準拠

AWS, Azure, GCP

PCI DSS 要件に準拠したデプロイメント

AWS

FedRAMP(中レベル)への準拠

AWS,Azure

FedRAMP(高レベル)への準拠

Azure

HIPAA 要件に準拠したデプロイメント

AWS,Azure,GCP

HITRUST

Azure

* Azure Databricks は Azure Active Directory と統合されており、Databricks on GCP は Google Identity と統合されています。Databricks での設定はできませんが、必要に応じて Azure Active Directory または Google Identity を設定できます。

Security Best Practices

Databricks has worked with thousands of customers to securely deploy the Databricks platform, with the security features that meet their architecture requirements. This document provides a checklist of security practices, considerations and patterns that you can apply to your deployment, learned from our enterprise engagements.

View document forAWS,AzureandGCP

Security Analysis Tool

Security Workspace Analysis Tool (SAT) monitors your workspace hardening by reviewing the deployments against our security best practices. It programmatically verifies workspaces using standard API calls and reports deviations by severity, with links that explain how to improve your security.

Viewblogfor more detail, andGitHubto get started.
(Currently available for AWS)

Databricks Security Documentation

Databricks includes documentation on how to operate our security features and best practices to help our customers deploy quickly and securely. The documentation is targeted primarily at teams that deploy or use Databricks.

Access documentation forAWS,GCPorAzure

Databricks Security and Trust Overview Whitepaper

The Security Overview Whitepaper is designed to provide a summary of all aspects of Databricks for security teams to quickly review.

View document

Shared Responsibility Model

The Databricks shared responsibility model outlines the security and compliance obligations of both Databricks and the customer with respect to the data and services on the Databricks platform.

View document

プラットフォームのアーキテクチャ

Databricks のレイクハウスアーキテクチャは 2 つのプレーンに分割され、権限設定の簡素化、データの重複の回避、リスクの軽減を実現します。コントロールプレーンは、Databricks がワークスペースアプリケーションの実行や、ノートブック、構成、クラスタなどを管理する管理プレーンです。サーバーレスコンピューティングを選択しない限り、データプレーンはユーザーのクラウドサービスプロバイダのアカウント内で実行し、アカウントからデータを取り出すことなく処理します。顧客管理の VPC/VNet や、エクスポートを無効にする管理コンソールオプションなどの機能を使用して、Databricks をデータ漏出保護アーキテクチャに組み込むことができます。

ノートブック、構成、ログ、ユーザー情報などの特定のデータがコントロールプレーン内に存在しても、その情報は、コントロールプレーン内では保存データ暗号化で、コントロールプレーン間の通信では送受信データの暗号化によって保護されます。また、特定のデータの保存場所を選択できます。データテーブルに関する独自のメタデータストア(Hive メタストア)のホストや、クエリ結果をユーザーのクラウドサービスプロバイダのアカウントに格納してからDatabricks Secret APIの使用を決定することも可能です。

Kafka の未加工データを正規化されたデータセットに変換し、Amazon S3 や Azure Data Lake Storage などのストレージに送信するためのノートブックをデータエンジニアが Databricks で作成するとします。その際の流れは次のようになります。

  1. ユーザー認証:データエンジニアをシームレスに認証し、Databricks アカウントでホストされているコントロールプレーンの Databricks Web UI へのアクセスを可能にする(シングルサインオンも選択可能)。
  2. コードの送信:データエンジニアが記述したコードは、 Web ブラウザからコントロールプレーンに送信される。JDBC/ODBC リクエストも同じパスをたどり、認証にはトークンが使用される。
  3. クラスタの作成:コントロールプレーンは、クラウドサービスプロバイダの API を使用し、データプレーンの新しいインスタンスで構成される Databricks クラスタを CSP アカウントに作成する。管理者は、セキュリティプロファイルを強制するためにクラスタポリシーを適用できる。
  4. クラスタへのコード送信:インスタンスの起動後、クラスタマネージャーによってデータエンジニアのコードがクラスタに送信される。
  5. 書き込み:クラスタが、ユーザーのアカウントの Kafka からデータを取得し、変換して、ストレージへの書き込みを行う。
  6. ステータスの通知:クラスタから、ステータスとアウトプットがクラスタマネージャーにレポートされる。

データエンジニアはコードを記述するだけです。Databricks が上記の全ステップを実行します。

コンプライアンス

Databricks は、規制の厳しい業界をはじめとするあらゆる業界のコンプライアンス要件に対応し、機密性の高いものを含む重要なデータを扱う多くのお客様に信頼されています。

デューデリジェンスパッケージ

Databricks のセキュリティをお客様にセルフサービスでレビューしていただけるよう、デューデリジェンスパッケージをご用意しています。このパッケージには、ISO 認証や年次ペネトレーションテストの確認書など、一般的なコンプライアンス関連のドキュメントが含まれています。エンタープライズセキュリティガイドおよび SOC 2 Type II レポートについては、Databricks のアカウントチームにお問い合わせください。

ダウンロード

認証・規格

背景

概要

Databricks では、プライバシーを重要視しています。Databricks を利用して分析するデータは、お客様の組織およびビジネスにおいて極めて重要であり、さまざまなプライバシーに関する法律や規制の対象となる可能性があることを理解しています。

お客様に関連するプライバシー要件に対する Databricks の取り組みについては、下記の資料で詳しく説明しています。

背景

Databricks ワークスペースのセキュリティインシデントの調査にご協力ください

ワークスペースのデータが漏えいしたおそれがある場合、データの不整合などの問題が発生した場合は、速やかに Databricks までご連絡ください。

Databricks から発信されたスパムや不審な通信

Databricks から、スパムメールその他の不審なメッセージ、不適切なコンテンツやマルウェアなど受信された場合は、速やかに Databricks までご連絡ください。

Databricks 製品の内部脆弱性スキャンレポート

脆弱性スキャンレポートの解釈に関するご質問については、Databricks サポートチャネルを通じてサポートリクエストを発行してください。その際に、スキャンの対象となった製品・バージョン、構成、生成されたレポート、スキャンの実施方法についての情報をあわせてご提供ください。

CVE が Databricks のワークスペースまたはランタイムに与える影響

サードパーティまたは Databricks の CVE の影響に関する情報が必要な場合は、Databricks のサポートチャネルを通じてサポートリクエストを発行してください。その際に、脆弱性情報データベース(NVD)に記載されているCVEの説明,重大度,リファレンスをあわせてご提供ください。

Databricks の製品・サービスに関するバグレポート

Databricks 製品における再現可能な脆弱性を発見された場合は、解決のため、情報のご提供をお願いいたします。HackerOne が運営するDatabricks のバグバウンティ(公開バグ報奨金プログラム)にご参加ください。

背景

HIPAA

HIPAAは、保護されるべき健康情報に対するさまざまな保護を含む米国の法規制です。Databricks には HIPAA 準拠のデプロイメントオプションがあります。

対応クラウド

リージョン

Azure マルチテナント - 全てのリージョン

AWS シングルテナント- 全てのリージョン

AWS マルチテナント - us-east-1、us-east-2、ca-central-1、us-west-2