Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Azure Synapse to nieograniczona usługa analizy, która łączy magazynowanie danych przedsiębiorstwa i analizę danych big data. W tym samouczku pokazano, jak nawiązać połączenie z usługą OneLake przy użyciu Azure Synapse Analytics.
Wymagania wstępne
Przed rozpoczęciem upewnij się, że masz następujące elementy:
- Dostęp do obszaru roboczego usługi Synapse, w którym można utworzyć pulę platformy Apache Spark lub użyć jej i uruchomić skrypty SQL.
- Dostęp do lakehouse w Fabric.
- Ścieżka ABFS do folderu Tabele w Lakehouse lub tabel, które chcesz zapytować.
Zapisywanie danych z usługi Synapse przy użyciu platformy Apache Spark
Wykonaj następujące kroki, aby użyć platformy Apache Spark do zapisania przykładowych danych w usłudze OneLake z Azure Synapse Analytics.
Otwórz obszar roboczy Synapse i utwórz pulę Apache Spark z preferowanymi parametrami.
Utwórz nowy notebook Apache Spark.
Otwórz notes, ustaw język na PySpark (Python) i połącz go z nowo utworzoną pulą Spark.
Na osobnej karcie przejdź do swojego jeziora danych Microsoft Fabric i znajdź folder główny Tables.
Kliknij prawym przyciskiem myszy folder Tables i wybierz polecenie Właściwości.
Skopiuj ścieżkę ABFS z okienka właściwości.
Po powrocie do notebooka Azure Synapse w nowej, pierwszej komórce kodu podaj ścieżkę lakehouse. Ta ścieżka wskazuje folder Tables w lakehouse, w którym później zapisujesz przykładowe dane. Uruchom komórkę.
# Replace the path below with the ABFS path to your lakehouse Tables folder. oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'W nowej komórce kodu, załaduj dane z otwartego zestawu danych Azure do ramki danych. Ten zestaw danych to ten, który ładujesz do lakehouse. Uruchom komórkę.
yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet') display(yellowTaxiDf.limit(10))W nowej komórce kodu, filtruj, przekształć lub przygotuj dane. W tym scenariuszu możesz przyciąć zestaw danych w celu szybszego ładowania, dołączania do innych zestawów danych lub filtrowania do określonych wyników. Uruchom komórkę.
filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1) display(filteredTaxiDf.limit(10))W nowej komórce kodu przy użyciu ścieżki OneLake zapisz przefiltrowaną ramkę danych w nowej tabeli Delta-Parquet w Fabric lakehouse. Uruchom komórkę.
filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')Na koniec w nowej komórce kodu przetestuj, czy dane zostały pomyślnie zapisane, odczytując nową tabelę delty z usługi OneLake. Uruchom komórkę.
lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/') display(lakehouseRead.limit(10))
Gratulacje. Teraz możesz odczytywać i zapisywać dane w usłudze OneLake przy użyciu platformy Apache Spark w Azure Synapse Analytics.
Odczytywanie danych z usługi Synapse przy użyciu języka SQL
Wykonaj następujące kroki, aby używać bezserwerowego programu SQL do odczytywania danych z usługi OneLake z Azure Synapse Analytics.
Otwórz Fabric lakehouse i zidentyfikuj tabelę, na której chcesz wykonać zapytanie przy użyciu Synapse.
Kliknij prawym przyciskiem myszy tabelę i wybierz polecenie Właściwości.
Skopiuj ścieżkę ABFS dla tabeli.
Otwórz obszar roboczy usługi Synapse w Synapse Studio.
Utwórz nowy skrypt SQL.
W edytorze zapytań SQL wprowadź następujące zapytanie, zastępując
ABFS_PATH_HEREścieżką skopiowaną wcześniej.SELECT TOP 10 * FROM OPENROWSET( BULK 'ABFS_PATH_HERE', FORMAT = 'delta') as rows;Uruchom zapytanie, aby wyświetlić 10 pierwszych wierszy tabeli.
Gratulacje. Teraz możesz odczytywać dane z usługi OneLake przy użyciu bezserwerowej bazy danych SQL w Azure Synapse Analytics.