Wyobraź sobie taką scenkę: spotkanie zarządu, temat to wyniki sprzedaży za ostatni kwartał. Dział sprzedaży prezentuje swoje liczby z CSV, finanse mają własnego Excela z tymi samymi danymi… i liczby się nie zgadzają. Zamiast rozmawiać o strategii, wszyscy przez godzinę debatują o tym, które dane są prawdziwe. Znam to z autopsji. I założę się, że ty też. To nie jest problem analityczny. To problem organizacyjny, który wygląda jak analityczny.
Skąd się bierze ten chaos?
Dane w większości organizacji żyją w kilku miejscach jednocześnie. Pliki lokalne, foldery na SharePoint, Excele rozsyłane mailem albo przez Teams, linki do „to-jest-aktualna-wersja” – każdy z tych kanałów tworzy własną kopię rzeczywistości. I każda z tych kopii z czasem rozmija się z pozostałymi.
Efekty są, jakie są: raporty Power BI przestają działać po tym, jak ktoś zmienił nazwę kolumny w pliku źródłowym. Konsolidacja danych z pięciu działów zajmuje dwa dni i jest podatna na błędy. Dostęp do pliku, który miał być wewnętrzny, dostaje się do niepowołanych rąk, bo ktoś udostępnił link bez uprawnień. A dane, które miały być aktualne, mają tydzień opóźnienia, bo nikt nie pamiętał, żeby odświeżyć dataset.
Tradycyjne podejście do tego problemu to ETL – budowanie skomplikowanych mechanizmów, które fizycznie kopiują pliki z jednego miejsca do drugiego. Działa, ale tworzy dokładnie to, z czym próbuje walczyć: kolejne kopie danych, opóźnienia i punkty awarii.
Skrót, który zmienia wszystko
W Microsoft Fabric problem rozproszonych danych rozwiązuje mechanizm Shortcuts (Skrótów).
Shortcut w OneLake to wirtualny wskaźnik na dane, które już gdzieś istnieją – na SharePoint, OneDrive, Azure Storage czy w innym Lakehouse. Nie przenosi danych. Nie kopiuje ich. Po prostu mówi Fabric: „dane są tam, a ty zachowuj się tak, jakby były tutaj".
Dla użytkownika biznesowego nic się nie zmienia – kontroler finansowy zapisuje plik Excel z budżetem w wyznaczonym folderze na SharePoint dokładnie tak jak do tej pory. Dla całej reszty ekosystemu ten plik jest od razu dostępny w strukturze Lakehouse, gotowy do przetworzenia.
To tzw. Zero-Copy: dane nie są przesyłane, nie powstają duplikaty, nie ma opóźnień wynikających z synchronizacji. Shortcut to po prostu logiczny most między tym, gdzie dane fizycznie leżą, a tym, gdzie potrzebujesz ich użyć.
Jak to wygląda w praktyce?
Weźmy konkretny przypadek:
Kontroler finansowy zapisuje plik CSV z danymi operacyjnymi w dedykowanym folderze na SharePoint. Na tym jego praca się kończy – żadnych skryptów, żadnych maili z załącznikiem, żadnego „wyślij do Tomka".
Fabric wykrywa pojawienie się nowego pliku dzięki Shortcut i uruchamia automatyczny proces: Dataflow Gen2 lub Spark Notebook pobiera surowe dane, sprawdza ich poprawność (czy są wymagane kolumny, czy typy danych się zgadzają), a następnie zapisuje je w formacie Delta Parquet – zoptymalizowanym do analityki, z obsługą transakcji i wersjonowania.
Od tej chwili analityk, który przygotowuje raport dla zarządu, nie łączy się z powolnym plikiem Excel i nie walczy z odświeżaniem datasetu. Podpina Power BI pod gotowy model w OneLake. Dzięki trybowi Direct Lake, Power BI czyta dane bezpośrednio z plików Delta Parquet bez importowania ich do pamięci – raporty ładują się szybko nawet przy dużych wolumenach danych.
I co ważne: kontroler finansowy nadal pracuje w Excelu, bo nie musi nic zmieniać. Cały mechanizm działa pod spodem, niewidocznie.
Jeden widok, jedno źródło prawdy
Wracając do scenki z początku: gdyby dział sprzedaży i finanse korzystali z Shortcuts, ich dane trafiałyby do tego samego Lakehouse i były przetwarzane przez ten sam pipeline. Rozbieżności między raportami byłoby widać od razu – nie na spotkaniu zarządu, ale w momencie zapisu pliku, gdy proces walidacji odrzuciłby błędny rekord i wysłał powiadomienie do właściciela danych.
A spotkanie zarządu mogłoby faktycznie dotyczyć strategii.
Webinar o OneLake
Jeśli temat jednego źródła prawdy, wspólnego Lakehouse i spójnych danych dla całej organizacji jest Ci bliski, zapraszam Cię na bezpłatny webinar poświęcony OneLake.
Na webinarze pokazuję, jak w praktyce wykorzystać OneLake, jak porządkować dane z różnych systemów i jak unikać rozbieżności w raportach.
Zarejestruj się tutaj: webinar Od chaosu plików do OneLake.
FAQ
Czy Shortcuts działają tylko z SharePoint i OneDrive?
Nie. Shortcuts w OneLake obsługują różne źródła: SharePoint, OneDrive, Azure Data Lake Storage Gen2, Amazon S3, Google Cloud Storage, a także inne instancje OneLake i Dataverse. Mechanizm jest zaprojektowany tak, żeby działać niezależnie od tego, gdzie dane fizycznie się znajdują.
Co się dzieje z danymi, gdy usunę Shortcut?
Nic – oryginalne dane pozostają w nienaruszonym stanie w swoim źródłowym miejscu. Shortcut to tylko logiczne wskazanie, nie kopia. Jego usunięcie wpływa jedynie na dostęp z poziomu Fabric, nie na same dane.
Jak Shortcuts radzą sobie z kontrolą dostępu?
Fabric obsługuje dwa modele uwierzytelniania. W przypadku SharePoint i OneDrive stosuje tzw. passthrough authentication – to znaczy, że tożsamość użytkownika jest przekazywana do systemu źródłowego i obowiązują tam te same uprawnienia, które ma on na SharePoint. Nie ma możliwości ominięcia uprawnień przez sam fakt istnienia Shortcuta.
Czy Shortcuts nadają się do dużych wolumenów danych?
Tak, a Direct Lake jest właśnie zaprojektowany pod takie scenariusze. Zamiast importować dane do pamięci modelu (jak w klasycznym Power BI Import), Direct Lake czyta je bezpośrednio z Delta Parquet. Dla bardzo często odczytywanych danych z zewnętrznych źródeł OneLake może dodatkowo je cache'ować lokalnie, żeby zminimalizować koszty transferu i opóźnienia.
Co jeśli użytkownik zmieni strukturę pliku na SharePoint?
Jeśli pipeline walidacyjny jest dobrze skonfigurowany, taka zmiana zostanie wykryta podczas przetwarzania – proces odrzuci plik i powiadomi właściciela danych. Raport końcowy nie zostanie zaktualizowany błędnymi danymi, tylko zatrzyma się na ostatniej poprawnej wersji do czasu rozwiązania problemu.
