Udostępnij za pośrednictwem


Wdrażanie Azure Databricks w sieci wirtualnej Azure (iniekcja VNet)

Wdróż Azure Databricks w sieci wirtualnej Azure, aby umożliwić dostosowywanie sieci, zabezpieczanie łączności z usługami Azure i lokalnymi źródłami danych oraz możliwości inspekcji ruchu.

Dlaczego warto używać iniekcji sieci wirtualnej

Iniekcja VNet wdraża zasoby klasyczne płaszczyzny obliczeniowej Azure Databricks w ramach własnej sieci wirtualnej, umożliwiając:

  • Prywatna łączność z usługami Azure przy użyciu punktów końcowych usługi lub prywatnych punktów końcowych
  • Dostęp lokalny za pośrednictwem tras zdefiniowanych przez użytkownika
  • Inspekcja ruchu za pomocą wirtualnych urządzeń sieciowych
  • Niestandardowa konfiguracja DNS
  • Kontrola ruchu wychodzącego z dodatkowymi regułami NSG (sieciowej grupy zabezpieczeń)
  • Elastyczne zakresy CIDR (sieć wirtualna: /16 do /24, podsieci: do /26)

Wymagania dotyczące uprawnień

Uprawnienia Azure: Twórca obszaru roboczego musi mieć rolę współtwórcy sieci w sieci wirtualnej lub rolę niestandardową z uprawnieniami Microsoft.Network/virtualNetworks/subnets/join/action i Microsoft.Network/virtualNetworks/subnets/write.

Konfiguracja sieci wirtualnej

  1. Aby wdrożyć obszar roboczy Azure Databricks, należy skonfigurować sieć wirtualną. Możesz użyć istniejącej sieci wirtualnej lub utworzyć nową. Sieć wirtualna musi spełniać następujące wymagania:
    • Region: Sieć wirtualna musi znajdować się w tym samym regionie co obszar roboczy Azure Databricks.
    • Subscription: Sieć wirtualna musi znajdować się w tej samej subskrypcji co obszar roboczy Azure Databricks.
    • Przestrzeń adresowa: blok CIDR między /16 i /24 dla sieci wirtualnej. Aby uzyskać wskazówki dotyczące maksymalnej liczby węzłów klastra na podstawie rozmiaru sieci wirtualnej, zobacz Wskazówki dotyczące przestrzeni adresowej.
    • Subnets: Sieć wirtualna musi zawierać dwie podsieci dedykowane obszarowi roboczemu Azure Databricks:
      • Podsieć kontenera (nazywana czasem podsiecią prywatną)
      • Podsieć hosta (nazywana czasem podsiecią publiczną)
      • Każda podsieć powinna używać bloku CIDR, który jest co najmniej /26. Usługa Databricks nie zaleca podsieci mniejszej niż /26.
      • Nie można udostępniać podsieci między obszarami roboczymi ani wdrażać innych zasobów Azure w podsieciach używanych przez obszar roboczy Azure Databricks.
      • Zalecamy, aby rozmiary podsieci były identyczne.
    • Łączność wychodząca dla ruchu egress: Usługa Databricks zaleca używanie bramy NAT Azure dla obu podsieci w celu uzyskania stabilnych adresów IP egress. Po 31 marca 2026 r. nowe sieci wirtualne wymagają jawnych metod łączności wychodzącej. Zobacz zabezpieczanie łączności klastra.
    • Reguły sieciowej grupy zabezpieczeń: zobacz Reguły sieciowej grupy zabezpieczeń

Uwaga

Podczas wdrażania obszaru roboczego przy użyciu bezpiecznej łączności klastra zarówno podsieć kontenera, jak i podsieć hosta używają prywatnych adresów IP.

Wskazówki dotyczące przestrzeni adresowej

Obszar roboczy Azure Databricks wymaga dwóch podsieci w sieci wirtualnej: podsieci kontenera i podsieci hosta. Azure rezerwuje pięć adresów IP w każdej podsieci. Azure Databricks wymaga dwóch adresów IP dla każdego węzła klastra: jeden adres IP hosta w podsieci hosta i jeden adres IP kontenera w podsieci kontenera.

Podczas planowania przestrzeni adresowej należy wziąć pod uwagę następujące kwestie:

  • Możesz utworzyć wiele obszarów roboczych w jednej sieci wirtualnej. Ponieważ nie można udostępniać podsieci między obszarami roboczymi, zaplanuj podsieci, które nie korzystają z łącznej przestrzeni adresowej sieci wirtualnej.
  • Przydziel przestrzeń adresową dla dwóch nowych podsieci znajdujących się w przestrzeni adresowej sieci wirtualnej i nie nakładają się na przestrzeń adresową bieżących lub przyszłych podsieci w tej sieci wirtualnej.

Obszar roboczy z mniejszą siecią wirtualną może szybciej zabraknie adresów IP (przestrzeni sieciowej) niż obszar roboczy z większą siecią wirtualną. Użyj bloku CIDR między /16 a /24 dla sieci VNet oraz bloku CIDR do /26 dla dwóch podsieci (podsieci kontenera i podsieci hosta). Blok CIDR można utworzyć do /28 dla podsieci, jednak Azure Databricks nie zaleca podsieci mniejszej niż /26.

Krok 1. Tworzenie obszaru roboczego

Utwórz obszar roboczy w portalu Azure i wdróż go w sieci wirtualnej.

  1. W portalu Azure wybierz pozycję + Utwórz zasób > Analytics > Azure Databricks lub wyszukaj Azure Databricks.

  2. Na karcie Sieć wybierz sieć wirtualną.

    Ważne

    Jeśli sieć wirtualna nie jest wyświetlana, sprawdź, czy obszar roboczy i sieć wirtualna znajdują się w tym samym regionie Azure.

  3. Skonfiguruj podsieci z zakresami CIDR do /26 (maksymalnie 80 znaków dla nazw):

    • Istniejące podsieci: wprowadź dokładne nazwy podsieci i pasujące zakresy adresów IP
    • Nowe podsieci: wprowadź nowe nazwy i zakresy adresów IP w przestrzeni adresowej sieci wirtualnej

    Uwaga

    Nie można zmienić zakresów CIDR podsieci po wdrożeniu. Azure Databricks automatycznie konfiguruje reguły grupy zabezpieczeń sieciowych i delegowanie podsieci do Microsoft.Databricks/workspaces.

  4. Kliknij przycisk Utwórz , aby wdrożyć obszar roboczy.

Krok 2: Weryfikacja wdrożenia środowiska pracy

  1. Przejdź do portalu Azure i przejdź do zasobu obszaru roboczego Azure Databricks.

  2. Na stronie Przegląd sprawdź następujące kwestie:

    • Obszar roboczy jest w dobrej kondycji (nie jest uszkodzony).
    • Zostanie wyświetlona grupa zasobów i zarządzana grupa zasobów.
    • Komunikacja równorzędna sieci wirtualnych jest wyłączona (jest to oczekiwane w przypadku iniekcji sieci wirtualnej).

Zarządzana grupa zasobów nie jest modyfikowalna i nie można jej używać do tworzenia maszyn wirtualnych. Utwórz maszyny wirtualne w grupie zasobów, którą zarządzasz.

Krok 3. Weryfikowanie konfiguracji sieciowej grupy zabezpieczeń

  1. W portalu Azure przejdź do swojego VNet.

  2. Kliknij pozycję Podsieci w obszarze Ustawienia.

  3. Sprawdź, czy podsieć kontenera i podsieć hosta mają następujące elementy:

    • Dołączona sieciowa grupa zabezpieczeń
    • Delegowanie do Microsoft.Databricks/workspaces
  4. Kliknij sieciową grupę zabezpieczeń i sprawdź, czy skonfigurowano wymagane reguły przychodzące i wychodzące. Aby uzyskać informacje o oczekiwanych regułach, zobacz Dokumentacja reguł sieciowej grupy zabezpieczeń.

Krok 4. Tworzenie klastra

Po utworzeniu obszaru roboczego utwórz klasyczny klaster obliczeniowy, aby sprawdzić, czy wstrzyknięcie VNet działa prawidłowo.

  1. Przejdź do obszaru roboczego Azure Databricks i kliknij pozycję Uruchom obszar roboczy na stronie Overview.

  2. Kliknij ikonę KomputerKomputer na pasku bocznym.

  3. Na stronie Obliczenia kliknij pozycję Utwórz klaster.

  4. Wprowadź nazwę klastra, pozostaw pozostałe wartości w stanie domyślnym, a następnie kliknij pozycję Utwórz klaster.

Po uruchomieniu klastra zarządzana grupa zasobów zawiera nowe maszyny wirtualne, dyski, adresy IP i interfejsy sieciowe. Interfejs sieciowy jest tworzony w każdej z podsieci publicznych i prywatnych z adresami IP.

Krok 5. Weryfikowanie konfiguracji sieci klastra

  1. W obszarze roboczym Azure Databricks przejdź do zarządzanej grupy zasobów w portalu Azure.

  2. Sprawdź, czy istnieją następujące zasoby:

    • Maszyny wirtualne dla węzłów klastra
    • Dyski dołączone do maszyn wirtualnych
    • Adresy IP węzłów klastra
    • Interfejsy sieciowe w podsieciach publicznych i prywatnych
  3. W obszarze roboczym Azure Databricks kliknij utworzony klaster.

  4. Przejdź do interfejsu użytkownika platformy Spark i kliknij kartę Wykonawcy .

  5. Sprawdź, czy adresy sterownika i wykonawców znajdują się w zakresie podsieci prywatnej. Jeśli na przykład podsieć prywatna to 10.179.0.0/18, sterownik może być 10.179.0.6 i funkcja wykonawcza może mieć wartość 10.179.0.4 i 10.179.0.5. Twoje adresy IP mogą być inne.

Stabilne adresy IP ruchu wychodzącego

W przypadku obszarów roboczych z bezpieczną łącznością klastra i VNet injection, usługa Databricks zaleca skonfigurowanie stabilnego publicznego adresu IP wychodzących połączeń. Stabilne adresy IP umożliwiają zewnętrzne listy dozwolonego dostępu dla usług takich jak Salesforce oraz listy dostępu IP.

Ostrzeżenie

Po 31 marca 2026 r. nowe sieci wirtualne Azure domyślnie będą miały prywatne konfiguracje bez dostępu do Internetu wychodzącego. Nowe obszary robocze Azure Databricks wymagają określonych metod łączności wychodzącej, takich jak brama NAT. Nie ma to wpływu na istniejące obszary robocze. Zobacz ogłoszenie Microsoft.

Aby skonfigurować stabilny adres IP ruchu wychodzącego, zobacz Egress with VNet injection (Ruch wychodzący za pomocą iniekcji sieci wirtualnej).

Reguły sieciowej grupy zabezpieczeń

Azure Databricks automatycznie aprowizuje reguły grupy zabezpieczeń sieci wymienione poniżej poprzez delegację podsieci do usługi Microsoft.Databricks/workspaces. Te reguły są wymagane do operacji obszaru roboczego. Nie modyfikuj ani nie usuwaj tych reguł.

Uwaga

Niektóre reguły używają sieci wirtualnej jako źródła i miejsca docelowego. Zasady sieci wewnętrznej uniemożliwiają komunikację między klastrami, w tym między obszarami roboczymi w tej samej sieci wirtualnej.

Databricks zaleca używanie unikatowej grupy zabezpieczeń sieciowych (NSG) dla każdego obszaru roboczego.

Ważne

Dodaj reguły odmowy dostępu do NSG dołączonych do innych sieci i podsieci w tych samych lub połączonych sieciach wirtualnych. Zastosuj reguły blokady zarówno dla połączeń przychodzących, jak i wychodzących, aby ograniczyć ruch do i z zasobów obliczeniowych Azure Databricks. Zezwalaj tylko na minimalny dostęp wymagany dla klastrów w celu uzyskania niezbędnych zasobów.

Reguły sieciowej grupy zabezpieczeń dla przestrzeni roboczych

Ta tabela zawiera listę reguł sieciowej grupy zabezpieczeń dla obszarów roboczych i zawiera dwie reguły grupy zabezpieczeń dla ruchu przychodzącego, które są dodawane tylko w przypadku wyłączenia bezpiecznej łączności klastra (SCC).

Kierunek Protokół Źródło Port źródłowy Cel Docelowy port Używane
Przychodzący Dowolne Sieć wirtualna Dowolne Sieć wirtualna Dowolne Wartość domyślna
Przychodzący TCP AzureDatabricks (tag usługi)
Tylko wtedy, gdy SCC jest wyłączona
Dowolne Sieć wirtualna 22 Publiczny adres IP
Przychodzący TCP AzureDatabricks (tag usługi)
Tylko wtedy, gdy SCC jest wyłączona
Dowolne Sieć wirtualna 5557 Publiczny adres IP
Wychodzący TCP Sieć wirtualna Dowolne AzureDatabricks (tag usługi) 443, 3306, 8443-8451 Wartość domyślna
Wychodzący TCP Sieć wirtualna Dowolne Magazyn 443 Wartość domyślna
Wychodzący Dowolne Sieć wirtualna Dowolne Sieć wirtualna Dowolne Wartość domyślna
Wychodzący TCP Sieć wirtualna Dowolne Usługa EventHub 9093 Wartość domyślna
Wychodzący TCP Sieć wirtualna Dowolne SQL 3306 Wartość domyślna

Uwaga

Jeśli ograniczysz reguły ruchu wychodzącego, usługa Databricks zaleca otwarcie portów 111 i 2049, aby umożliwić instalację niektórych bibliotek.

Uwaga

Reguła Sql tagu usługi dla portu 3306 jest wymagana dla obszarów roboczych utworzonych przy użyciu bieżącego szablonu aprowizacji sieci. Azure Databricks jest w trakcie usuwania tego wymagania dla nowo utworzonych obszarów roboczych.

Ważne

Azure Databricks to usługa firmy Microsoft Azure wdrożona w infrastrukturze globalnej chmury publicznej Azure. Cała komunikacja między składnikami usługi, w tym między publicznymi adresami IP na płaszczyźnie sterowania i płaszczyzną obliczeniową klienta, pozostaje w sieci szkieletowej Microsoft Azure. Zobacz również Microsoft globalna sieć.

Rozszerzanie pojemności sieci wirtualnej

Jeśli sieć wirtualna obszaru roboczego ma niewystarczającą pojemność dla aktywnych węzłów klastra, dostępne są dwie opcje:

  • Aktualizowanie konfiguracji sieci wirtualnej: ta funkcja jest dostępna w publicznej wersji zapoznawczej. Zobacz Aktualizowanie konfiguracji sieci obszaru roboczego.
  • Rozszerz bieżący zakres CIDR: Skontaktuj się z zespołem ds. konta Azure Databricks, aby poprosić o zwiększenie zakresu CIDR podsieci obszaru roboczego.