Štruktúra kurzu
Modul 1: Preskúmajte možnosti výpočtu a úložiska pre pracovné záťaže dátového inžinierstva
Tento modul poskytuje prehľad možností výpočtovej a úložnej technológie Azure, ktoré sú k dispozícii dátovým inžinierom vytvárajúcim analytické úlohy. Tento modul učí spôsoby, ako štruktúrovať dátové jazero a optimalizovať súbory pre prieskum, streamovanie a dávkovú záťaž. Študent sa naučí, ako organizovať dátové jazero do úrovní spresnenia dát pri transformácii súborov pomocou dávkového a prúdového spracovania. Potom sa naučí, ako vytvárať indexy na svojich dátových sadách, ako sú súbory CSV, JSON a Parquet, a používať ich pre potenciálne zrýchlenie otázok a záťaže.
Lekcie
- Úvod do Azure Synapse Analytics
- Azure Databricks
- Úvod do úložiska Azure Data Lake
- Delta Lake architektúra
- Práca s dátovými streamami pomocou Azure Stream Analytics
Lab : Preskúmajte možnosti výpočtu a úložiska pre pracovné záťaže dátového inžinierstva
- Kombinujte streamovanie a dávkové spracovanie s jediným potrubím
- Usporiadajte dátové jazero do úrovní transformácie súborov
- Index úložiska dátového jazera pre zrýchlenie otázok a záťaže
Po absolvování tohoto modulu budete schopni:
- Popísať Azure Synapse Analytics
- Popísať Azure Databricks
- Popísať Azure Data Lake storage
- Popísať Delta Lake architecture
- Popísať Azure Stream Analytics
Modul 2: Spúšťajte interaktívne otázky pomocou Azure Synapse Analytics bezserverových fondov SQL
V tomto module sa študenti naučia, ako pracovať so súbormi uloženými v dátovom jazere a externými zdrojmi súborov prostredníctvom príkazov T-SQL spúšťaných bezserverovým fondom SQL v Azure Synapse Analytics. Študenti budú pýtať súbory Parquet uložené v dátovom jazere aj súbory CSV uložené v externom dátovom úložisku. Ďalej vytvorí skupiny zabezpečenia Azure Active Directory a vynúti prístup k súborom v dátovom jazere prostredníctvom riadenia prístupu založeného na rolách (RBAC) a zoznamov riadenia prístupu (ACL).
Lekcie
- Možnosti bezserverových fondov SQL Azure Synapse
- Data Lake pomocou Azure Synapse bezserverových fondov SQL
- Vytvárajte objekty metaúdajov v bezserverových fondoch SQL Azure Synapse
- Zabezpečenie dát a správa užívateľa v bezserverových fondoch SQL Azure Synapse
Lab : Spúšťajte interaktívne otázky pomocou bezserverových fondov SQL
- Dáta Parquet pomocou bezserverových fondov SQL
- Vytvorte externé tabuľky pre Parquet a súbory CSV
- Vytvárajte pohľady pomocou bezserverových fondov SQL
- Zabezpečte prístup k dátam v Data Lake pri používaní bezserverových fondov SQL
- Nakonfigurujte zabezpečenie Data Lake pomocou Role-Based Access Control (RBAC) a Access Control List
Po absolvování tohoto modulu budete schopní:
- Pochopiť možnosti bezserverových fondov SQL Azure Synapse
- Opýtať sa na Data lake pomocou Azure Synapse bezserverových fondov SQL
- Vytvárať objekty metadát v bezserverových fondoch SQL Azure Synapse
- Zabezpečiť dáta a spravovať používateľov v bezserverových fondoch SQL Azure Synapse
Tento modul učí, ako používať rôzne metódy Apache Spark DataFrame na preskúmavanie a transformáciu dát v Azure Databricks. Študent sa naučí, ako vykonávať štandardné metódy DataFrame na skúmanie a transformáciu dát. Naučia sa tiež vykonávať pokročilejšie úlohy, ako je odstraňovanie duplicitných dát, manipulácia s hodnotami dátumu a času, premenovanie stĺpcov a agregácia dát.
Lekcie
- Azure Databricks
- Čítanie a zápis dát v Azure Databricks
- Práca s DataFrames v Azure Databricks
- Práca s pokročilými metódami DataFrames v Azure Databricks
- Použite DataFrames v Azure Databricks na preskúmanie a filtrovanie dát
- Uložte DataFrame do medzipamäte pre rýchlejšie následné otázky
- Odstráňte duplicitné údaje
- Manipulujte s hodnotami dátumu/času
- Odoberte a premenujte stĺpce DataFrame
- Agregovať dáta uložené v DataFrame
Po absolvování tohoto modulu budete schopní:
- Popísať Azure Databricks
- Čítať a zapisovať v Azure Databricks
- Pracovať s DataFrames v Azure Databricks
- Pracovať s pokročilými metódami DataFrames v Azure Databricks
Tento modul učí, ako preskúmať dáta uložené v dátovom jazere, transformovať dáta a načítať dáta do úložiska relačných dát. Študent preskúma súbory Parquet a JSON a použije techniky na pátranie a transformáciu súborov JSON s hierarchickou štruktúrou. Potom študent použije Apache Spark na načítanie dát do dátového skladu a spojenie dát Parquet v dátovom jazere s dátami vo vyhradenom fonde SQL.
Lekcie
- Inžinierstvo veľkých dát s Apache Spark v Azure Synapse Analytics
- Spracovanie dát pomocou notebookov Apache Spark v Azure Synapse Analytics
- Transformácia dát pomocou DataFrames v Apache Spark Pools v Azure Synapse Analytics
- Integrácia fondov SQL a Apache Spark do Azure Synapse Analytics
- Vykonajte Data Exploration v Synapse Studio
- Spracovanie dát pomocou poznámkových blokov Spark v Azure Synapse Analytics
- Transformujte dáta pomocou DataFrame vo fondoch Spark v Azure Synapse Analytics
- Integrujte fondy SQL a Spark v Azure Synapse Analytics
Po absolvování tohoto modulu budete schopní:
- Popísať inžinierstvo veľkých dát pomocou Apache Spark v Azure Synapse Analytics
- Spracovať dáta pomocou notebookov Apache Spark v Azure Synapse Analytics
- Transformovať dáta pomocou DataFrames v Apache Spark Pools v Azure Synapse Analytics
- Integrovať fondy SQL a Apache Spark do Azure Synapse Analytics
Modul 5: Ingestujte a načítajte dáta do dátového skladu
Tento modul učí študentov, ako ingestovať dáta do dátového skladu prostredníctvom skriptov T-SQL a integračných kanálov Synapse Analytics. Študent sa naučí načítať dáta do Synapse vyhradených SQL poolov s PolyBase a COPY pomocou T-SQL. Študent sa tiež naučí, ako používať správu záťaže spolu s aktivitou Copy v kanáli Azure Synapse pre príjem dát v petabajtovom meradle.
Lekcie
- Osvedčené postupy načítania dát v Azure Synapse Analytics
- Príjem v petabajtovom meradle pomocou Azure Data Factory
Lab : Spracujte a načítajte dáta do dátového skladu
- Vykonávajte príjem v mierke petabajtov pomocou Azure Synapse Pipelines
- Importujte dáta pomocou PolyBase a COPY pomocou T-SQL
- Použite osvedčené postupy načítania dát v Azure Synapse Analytics
Po absolvování tohoto modulu budete schopní:
- Použiť osvedčené postupy načítania dát v Azure Synapse Analytics
- Prijímať v petabajtovom meradle pomocou Azure Data Factory
Tento modul učí študentov, ako budovať kanály integrácie dát pre ingest z viacerých zdrojov dát, transformovať dáta pomocou mapovania dátových tokov a vykonávať presun dát do jedného alebo viacerých dátových nádrží.
Lekcie
- Integrácia dát s Azure Data Factory alebo Azure Synapse Pipelines
- Transformácia bez kódu vo veľkom pomocou Azure Data Factory alebo Azure Synapse Pipelines
- Vykonávajte transformácie bez kódu vo veľkom pomocou Azure Synapse Pipelines
- Vytvorte dátový kanál pre import zle formátovaných súborov CSV
- Vytvorte mapovanie dátových tokov
Po absolvování tohoto modulu budete schopní:
- Vykonať integráciu dát s Azure Data Factory
- Vykonať transformáciu bez kódu vo veľkom pomocou Azure Data Factory
V tomto module sa naučíte vytvárať prepojené služby a organizovať presun a transformáciu dát pomocou poznámkových blokov v Azure Synapse Pipelines.
Lekcie
- Usporiadajte presun a transformáciu dát v Azure Data Factory
- Integrujte dáta z notebookov s Azure Data Factory alebo Azure Synapse Pipelines
Po absolvování tohoto modulu budete schopní:
- Usporiadajte pohyb a transformáciu dát v Azure Synapse Pipelines
Modul 8: End-to-end zabezpečenia s Azure Synapse Analytics
V tomto module sa študenti naučia, ako zabezpečiť pracovný priestor Synapse Analytics a jeho podpornú infraštruktúru. Študent bude sledovať SQL Active Directory Admin, spravovať pravidlá brány firewall IP, spravovať tajné kľúče pomocou Azure Key Vault a pristupovať k týmto tajným informáciám prostredníctvom služby a aktivít kanála prepojeného s trezorom kľúčov. Študent pochopí, ako implementovať zabezpečenie na úrovni stĺpcov, zabezpečenie na úrovni riadkov a dynamické maskovanie dát pri použití vyhradených fondov SQL.
Lekcie
- Zabezpečenie dátového skladu v Azure Synapse Analytics
- Konfigurácia a správa tajných kľúčov v Azure Key Vault
- Implementujte kontroly súladu pre citlivé dáta
Lab : End-to-end zabezpečenia s Azure Synapse Analytics
- Zabezpečená infraštruktúra podpory Azure Synapse Analytics
- Zabezpečte pracovný priestor Azure Synapse Analytics a spravované služby
- Zabezpečte dáta pracovného priestoru Azure Synapse Analytics
Po absolvování tohoto modulu budete schopní:
- Zabezpečiť dátový sklad v Azure Synapse Analytics
- Konfigurovať a spravovať tajných kľúčov v Azure Key Vault
- Implementovať kontroly súladu pre citlivé dáta
Modul 9: Podporujte hybridné transakčné analytické spracovanie (HTAP) pomocou Azure Synapse Link
Podporujte hybridné transakčné analytické spracovanie (HTAP) pomocou Azure Synapse LinkV tomto module sa študenti naučia, ako Azure Synapse Link umožňuje bezproblémové pripojenie účtu Azure Cosmos DB k pracovnému priestoru Synapse. Študent porozumie, ako povoliť a nakonfigurovať prepojenie Synapse, a ako sa pýtať na analytické úložisko Azure Cosmos DB pomocou Apache Spark a SQL serverless.
Lekcie
- Hybridné transakčné a analytické spracovanie pomocou Azure Synapse Analytics
- Konfigurácia prepojenia Azure Synapse s Azure Cosmos DB
- Azure Cosmos DB pomocou fondov Apache Spark
- Azure Cosmos DB pomocou bezserverových fondov SQL
Lab : Podporujte hybridné transakčné analytické spracovanie (HTAP) pomocou Azure Synapse Link
- Nakonfigurujte prepojenie Azure Synapse s Azure Cosmos DB
- Dopytujte Azure Cosmos DB pomocou Apache Spark pre Synapse Analytics
- Dopytujte Azure Cosmos DB pomocou bezserverového fondu SQL pre Azure Synapse Analytics
Po absolvování tohoto modulu budete schopní:
- Navrhnúť hybridné transakčné a analytické spracovanie pomocou Azure Synapse Analytics
- Nakonfigurovať prepojenie Azure Synapse s Azure Cosmos DB
- Dotazovať Azure Cosmos DB pomocou Apache Spark pre Azure Synapse Analytics
- Dotazovať Azure Cosmos DB pomocou SQL bez servera pre Azure Synapse Analytics
Module 10: Spracovanie streamu v reálnom čase pomocou Stream Analytics
V tomto module sa študenti naučia, ako spracovávať streamované dáta pomocou Azure Stream Analytics. Študent spracuje telemetrické dáta vozidla do Event Hubs a potom tieto dáta spracuje v reálnom čase pomocou rôznych funkcií okien v Azure Stream Analytics. Vydajú dáta do Azure Synapse Analytics. Nakoniec sa študent naučí, ako škálovať úlohu Stream Analytics, aby sa zvýšila priepustnosť.
Lekcie
- Spoľahlivé zasielanie správ pre aplikácie Big Data pomocou Azure Event Hubs
- Práca s dátovými streamami pomocou Azure Stream Analytics
- Spracovanie dátových streamov pomocou Azure Stream Analytics
Lab : Spracovanie dátových streamov pomocou Azure Stream Analytics
- Použite Stream Analytics na spracovanie dát v reálnom čase z Event Hubs
- Použite funkcie okien Stream Analytics na vytváranie agregátov a výstupov do Synapse Analytics
- Škálujte úlohu Azure Stream Analytics, aby ste zvýšili priepustnosť prostredníctvom delenia
- Prerozdeľte vstup dátového prúdu pre optimalizáciu paralelizácie
Po absolvování tohoto modulu budete schopní:
- Povoliť spoľahlivé zasielanie správ pre aplikácie Big Data pomocou Azure Event Hubs
- Práca s dátovými streamami pomocou Azure Stream Analytics
- Spracovanie dátových streamov pomocou Azure Stream Analytics
Modul 11: Vytvorte riešenie pre spracovanie streamov pomocou Event Hubs a Azure Databricks
V tomto module sa študenti naučia, ako ingestovať a spracovávať streamované dáta vo veľkom pomocou Event Hubs a Spark Structured Streaming v Azure Databricks. Študent sa naučí kľúčové vlastnosti a použitie štruktúrovaného streamovania. Študent implementuje posuvné okná pre agregáciu cez kusy dát a použije vodoznak na odstránenie zastaraných dát. Nakoniec sa študent pripojí k Event Hubs, aby mohol čítať a zapisovať streamy.
Lekcie
- Spracovávajte dáta streamovania pomocou štruktúrovaného streamovania Azure Databricks
Lab : Vytvorte riešenie pre spracovanie streamov pomocou Event Hubs a Azure Databricks
- Preskúmajte kľúčové funkcie a použitie štruktúrovaného streamovania
- Streamujte dáta zo súboru a zapisujte ich do distribuovaného systému súborov
- Použite posuvné okná na agregáciu viacerých údajov ako všetkých údajov
- Ak chcete odstrániť zastarané dáta, použite vodoznak
- Pripojte sa k Event Hubs na čítanie a zápis streamov
Po absolvování tohoto modulu budete schopní:
- Spracovávajte dáta streamovania pomocou štruktúrovaného streamovania Azure Databricks