Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Wdróż Azure Databricks w sieci wirtualnej Azure, aby umożliwić dostosowywanie sieci, zabezpieczanie łączności z usługami Azure i lokalnymi źródłami danych oraz możliwości inspekcji ruchu.
Dlaczego warto używać iniekcji sieci wirtualnej
Iniekcja VNet wdraża zasoby klasyczne płaszczyzny obliczeniowej Azure Databricks w ramach własnej sieci wirtualnej, umożliwiając:
- Prywatna łączność z usługami Azure przy użyciu punktów końcowych usługi lub prywatnych punktów końcowych
- Dostęp lokalny za pośrednictwem tras zdefiniowanych przez użytkownika
- Inspekcja ruchu za pomocą wirtualnych urządzeń sieciowych
- Niestandardowa konfiguracja DNS
- Kontrola ruchu wychodzącego z dodatkowymi regułami NSG (sieciowej grupy zabezpieczeń)
- Elastyczne zakresy CIDR (sieć wirtualna:
/16do/24, podsieci: do/26)
Wymagania dotyczące uprawnień
Uprawnienia Azure: Twórca obszaru roboczego musi mieć rolę współtwórcy sieci w sieci wirtualnej lub rolę niestandardową z uprawnieniami Microsoft.Network/virtualNetworks/subnets/join/action i Microsoft.Network/virtualNetworks/subnets/write.
Konfiguracja sieci wirtualnej
- Aby wdrożyć obszar roboczy Azure Databricks, należy skonfigurować sieć wirtualną. Możesz użyć istniejącej sieci wirtualnej lub utworzyć nową. Sieć wirtualna musi spełniać następujące wymagania:
- Region: Sieć wirtualna musi znajdować się w tym samym regionie co obszar roboczy Azure Databricks.
- Subscription: Sieć wirtualna musi znajdować się w tej samej subskrypcji co obszar roboczy Azure Databricks.
-
Przestrzeń adresowa: blok CIDR między
/16i/24dla sieci wirtualnej. Aby uzyskać wskazówki dotyczące maksymalnej liczby węzłów klastra na podstawie rozmiaru sieci wirtualnej, zobacz Wskazówki dotyczące przestrzeni adresowej. -
Subnets: Sieć wirtualna musi zawierać dwie podsieci dedykowane obszarowi roboczemu Azure Databricks:
- Podsieć kontenera (nazywana czasem podsiecią prywatną)
- Podsieć hosta (nazywana czasem podsiecią publiczną)
- Każda podsieć powinna używać bloku CIDR, który jest co najmniej
/26. Usługa Databricks nie zaleca podsieci mniejszej niż/26. - Nie można udostępniać podsieci między obszarami roboczymi ani wdrażać innych zasobów Azure w podsieciach używanych przez obszar roboczy Azure Databricks.
- Zalecamy, aby rozmiary podsieci były identyczne.
- Łączność wychodząca dla ruchu egress: Usługa Databricks zaleca używanie bramy NAT Azure dla obu podsieci w celu uzyskania stabilnych adresów IP egress. Po 31 marca 2026 r. nowe sieci wirtualne wymagają jawnych metod łączności wychodzącej. Zobacz zabezpieczanie łączności klastra.
- Reguły sieciowej grupy zabezpieczeń: zobacz Reguły sieciowej grupy zabezpieczeń
Uwaga
Podczas wdrażania obszaru roboczego przy użyciu bezpiecznej łączności klastra zarówno podsieć kontenera, jak i podsieć hosta używają prywatnych adresów IP.
Wskazówki dotyczące przestrzeni adresowej
Obszar roboczy Azure Databricks wymaga dwóch podsieci w sieci wirtualnej: podsieci kontenera i podsieci hosta. Azure rezerwuje pięć adresów IP w każdej podsieci. Azure Databricks wymaga dwóch adresów IP dla każdego węzła klastra: jeden adres IP hosta w podsieci hosta i jeden adres IP kontenera w podsieci kontenera.
Podczas planowania przestrzeni adresowej należy wziąć pod uwagę następujące kwestie:
- Możesz utworzyć wiele obszarów roboczych w jednej sieci wirtualnej. Ponieważ nie można udostępniać podsieci między obszarami roboczymi, zaplanuj podsieci, które nie korzystają z łącznej przestrzeni adresowej sieci wirtualnej.
- Przydziel przestrzeń adresową dla dwóch nowych podsieci znajdujących się w przestrzeni adresowej sieci wirtualnej i nie nakładają się na przestrzeń adresową bieżących lub przyszłych podsieci w tej sieci wirtualnej.
Obszar roboczy z mniejszą siecią wirtualną może szybciej zabraknie adresów IP (przestrzeni sieciowej) niż obszar roboczy z większą siecią wirtualną. Użyj bloku CIDR między /16 a /24 dla sieci VNet oraz bloku CIDR do /26 dla dwóch podsieci (podsieci kontenera i podsieci hosta). Blok CIDR można utworzyć do /28 dla podsieci, jednak Azure Databricks nie zaleca podsieci mniejszej niż /26.
Krok 1. Tworzenie obszaru roboczego
Utwórz obszar roboczy w portalu Azure i wdróż go w sieci wirtualnej.
W portalu Azure wybierz pozycję + Utwórz zasób > Analytics > Azure Databricks lub wyszukaj Azure Databricks.
Na karcie Sieć wybierz sieć wirtualną.
Ważne
Jeśli sieć wirtualna nie jest wyświetlana, sprawdź, czy obszar roboczy i sieć wirtualna znajdują się w tym samym regionie Azure.
Skonfiguruj podsieci z zakresami CIDR do
/26(maksymalnie 80 znaków dla nazw):- Istniejące podsieci: wprowadź dokładne nazwy podsieci i pasujące zakresy adresów IP
- Nowe podsieci: wprowadź nowe nazwy i zakresy adresów IP w przestrzeni adresowej sieci wirtualnej
Uwaga
Nie można zmienić zakresów CIDR podsieci po wdrożeniu. Azure Databricks automatycznie konfiguruje reguły grupy zabezpieczeń sieciowych i delegowanie podsieci do
Microsoft.Databricks/workspaces.Kliknij przycisk Utwórz , aby wdrożyć obszar roboczy.
Krok 2: Weryfikacja wdrożenia środowiska pracy
Przejdź do portalu Azure i przejdź do zasobu obszaru roboczego Azure Databricks.
Na stronie Przegląd sprawdź następujące kwestie:
- Obszar roboczy jest w dobrej kondycji (nie jest uszkodzony).
- Zostanie wyświetlona grupa zasobów i zarządzana grupa zasobów.
- Komunikacja równorzędna sieci wirtualnych jest wyłączona (jest to oczekiwane w przypadku iniekcji sieci wirtualnej).
Zarządzana grupa zasobów nie jest modyfikowalna i nie można jej używać do tworzenia maszyn wirtualnych. Utwórz maszyny wirtualne w grupie zasobów, którą zarządzasz.
Krok 3. Weryfikowanie konfiguracji sieciowej grupy zabezpieczeń
W portalu Azure przejdź do swojego VNet.
Kliknij pozycję Podsieci w obszarze Ustawienia.
Sprawdź, czy podsieć kontenera i podsieć hosta mają następujące elementy:
- Dołączona sieciowa grupa zabezpieczeń
- Delegowanie do
Microsoft.Databricks/workspaces
Kliknij sieciową grupę zabezpieczeń i sprawdź, czy skonfigurowano wymagane reguły przychodzące i wychodzące. Aby uzyskać informacje o oczekiwanych regułach, zobacz Dokumentacja reguł sieciowej grupy zabezpieczeń.
Krok 4. Tworzenie klastra
Po utworzeniu obszaru roboczego utwórz klasyczny klaster obliczeniowy, aby sprawdzić, czy wstrzyknięcie VNet działa prawidłowo.
Przejdź do obszaru roboczego Azure Databricks i kliknij pozycję Uruchom obszar roboczy na stronie Overview.
Kliknij
Komputer na pasku bocznym.Na stronie Obliczenia kliknij pozycję Utwórz klaster.
Wprowadź nazwę klastra, pozostaw pozostałe wartości w stanie domyślnym, a następnie kliknij pozycję Utwórz klaster.
Po uruchomieniu klastra zarządzana grupa zasobów zawiera nowe maszyny wirtualne, dyski, adresy IP i interfejsy sieciowe. Interfejs sieciowy jest tworzony w każdej z podsieci publicznych i prywatnych z adresami IP.
Krok 5. Weryfikowanie konfiguracji sieci klastra
W obszarze roboczym Azure Databricks przejdź do zarządzanej grupy zasobów w portalu Azure.
Sprawdź, czy istnieją następujące zasoby:
- Maszyny wirtualne dla węzłów klastra
- Dyski dołączone do maszyn wirtualnych
- Adresy IP węzłów klastra
- Interfejsy sieciowe w podsieciach publicznych i prywatnych
W obszarze roboczym Azure Databricks kliknij utworzony klaster.
Przejdź do interfejsu użytkownika platformy Spark i kliknij kartę Wykonawcy .
Sprawdź, czy adresy sterownika i wykonawców znajdują się w zakresie podsieci prywatnej. Jeśli na przykład podsieć prywatna to
10.179.0.0/18, sterownik może być10.179.0.6i funkcja wykonawcza może mieć wartość10.179.0.4i10.179.0.5. Twoje adresy IP mogą być inne.
Stabilne adresy IP ruchu wychodzącego
W przypadku obszarów roboczych z bezpieczną łącznością klastra i VNet injection, usługa Databricks zaleca skonfigurowanie stabilnego publicznego adresu IP wychodzących połączeń. Stabilne adresy IP umożliwiają zewnętrzne listy dozwolonego dostępu dla usług takich jak Salesforce oraz listy dostępu IP.
Ostrzeżenie
Po 31 marca 2026 r. nowe sieci wirtualne Azure domyślnie będą miały prywatne konfiguracje bez dostępu do Internetu wychodzącego. Nowe obszary robocze Azure Databricks wymagają określonych metod łączności wychodzącej, takich jak brama NAT. Nie ma to wpływu na istniejące obszary robocze. Zobacz ogłoszenie Microsoft.
Aby skonfigurować stabilny adres IP ruchu wychodzącego, zobacz Egress with VNet injection (Ruch wychodzący za pomocą iniekcji sieci wirtualnej).
Reguły sieciowej grupy zabezpieczeń
Azure Databricks automatycznie aprowizuje reguły grupy zabezpieczeń sieci wymienione poniżej poprzez delegację podsieci do usługi Microsoft.Databricks/workspaces. Te reguły są wymagane do operacji obszaru roboczego. Nie modyfikuj ani nie usuwaj tych reguł.
Uwaga
Niektóre reguły używają sieci wirtualnej jako źródła i miejsca docelowego. Zasady sieci wewnętrznej uniemożliwiają komunikację między klastrami, w tym między obszarami roboczymi w tej samej sieci wirtualnej.
Databricks zaleca używanie unikatowej grupy zabezpieczeń sieciowych (NSG) dla każdego obszaru roboczego.
Ważne
Dodaj reguły odmowy dostępu do NSG dołączonych do innych sieci i podsieci w tych samych lub połączonych sieciach wirtualnych. Zastosuj reguły blokady zarówno dla połączeń przychodzących, jak i wychodzących, aby ograniczyć ruch do i z zasobów obliczeniowych Azure Databricks. Zezwalaj tylko na minimalny dostęp wymagany dla klastrów w celu uzyskania niezbędnych zasobów.
Reguły sieciowej grupy zabezpieczeń dla przestrzeni roboczych
Ta tabela zawiera listę reguł sieciowej grupy zabezpieczeń dla obszarów roboczych i zawiera dwie reguły grupy zabezpieczeń dla ruchu przychodzącego, które są dodawane tylko w przypadku wyłączenia bezpiecznej łączności klastra (SCC).
| Kierunek | Protokół | Źródło | Port źródłowy | Cel | Docelowy port | Używane |
|---|---|---|---|---|---|---|
| Przychodzący | Dowolne | Sieć wirtualna | Dowolne | Sieć wirtualna | Dowolne | Wartość domyślna |
| Przychodzący | TCP | AzureDatabricks (tag usługi) Tylko wtedy, gdy SCC jest wyłączona |
Dowolne | Sieć wirtualna | 22 | Publiczny adres IP |
| Przychodzący | TCP | AzureDatabricks (tag usługi) Tylko wtedy, gdy SCC jest wyłączona |
Dowolne | Sieć wirtualna | 5557 | Publiczny adres IP |
| Wychodzący | TCP | Sieć wirtualna | Dowolne | AzureDatabricks (tag usługi) | 443, 3306, 8443-8451 | Wartość domyślna |
| Wychodzący | TCP | Sieć wirtualna | Dowolne | Magazyn | 443 | Wartość domyślna |
| Wychodzący | Dowolne | Sieć wirtualna | Dowolne | Sieć wirtualna | Dowolne | Wartość domyślna |
| Wychodzący | TCP | Sieć wirtualna | Dowolne | Usługa EventHub | 9093 | Wartość domyślna |
| Wychodzący | TCP | Sieć wirtualna | Dowolne | SQL | 3306 | Wartość domyślna |
Uwaga
Jeśli ograniczysz reguły ruchu wychodzącego, usługa Databricks zaleca otwarcie portów 111 i 2049, aby umożliwić instalację niektórych bibliotek.
Uwaga
Reguła Sql tagu usługi dla portu 3306 jest wymagana dla obszarów roboczych utworzonych przy użyciu bieżącego szablonu aprowizacji sieci. Azure Databricks jest w trakcie usuwania tego wymagania dla nowo utworzonych obszarów roboczych.
Ważne
Azure Databricks to usługa firmy Microsoft Azure wdrożona w infrastrukturze globalnej chmury publicznej Azure. Cała komunikacja między składnikami usługi, w tym między publicznymi adresami IP na płaszczyźnie sterowania i płaszczyzną obliczeniową klienta, pozostaje w sieci szkieletowej Microsoft Azure. Zobacz również Microsoft globalna sieć.
Rozszerzanie pojemności sieci wirtualnej
Jeśli sieć wirtualna obszaru roboczego ma niewystarczającą pojemność dla aktywnych węzłów klastra, dostępne są dwie opcje:
- Aktualizowanie konfiguracji sieci wirtualnej: ta funkcja jest dostępna w publicznej wersji zapoznawczej. Zobacz Aktualizowanie konfiguracji sieci obszaru roboczego.
- Rozszerz bieżący zakres CIDR: Skontaktuj się z zespołem ds. konta Azure Databricks, aby poprosić o zwiększenie zakresu CIDR podsieci obszaru roboczego.