Ciężko dziś zaprzeczyć, że analiza danych stanowi podstawę w rozwoju każdej firmy. W dobie „Przemysłu 4.0” gromadzenie danych stało się czymś bardzo powszechnym. Mogę wręcz śmiało powiedzieć, że wielu z nas popadło w masowe „zbieractwo”.
Jakie dane mam na myśli ? Każdego typu! Jeśli na chwilę się zastanowić to magazynujemy wszystko – kliknięcia, logi, dane personalne, transakcje, zapisy audio z naszej centrali telefonicznej, nagrania z video rejestratorów, metryki z taśm produkcyjnych, czy średnią prędkość naszego pojazdu. Popatrzmy bliżej naszego biurka a znajdziemy tam stosy ulubionych witryn internetowych, arkusze z wydatkami, przepisy kulinarne, listę ocenionych filmów czy playlisty muzyczne.
Zdarza się, że firmy doskonale wiedzą w jakim celu zbierają dane. To na podstawie takich danych podejmowane są decyzje, inwestycje, przesunięcia funduszy, rozpoczynają się nowe projekty, pojawiają się predykcje i sugestie. Dane mają wielką wartość, nie tylko dla tych firm ale też i na rynku poza – w handlu, reklamie i branżach produkcyjnych.
Jeśli natomiast nasza firma zbiera dane bez konkretnego celu, bo „w przyszłości może się przydać” czy bo „tak mówi prawo” zaczynamy w konsekwencji zauważać stosy plików, tabel, baz i X-bajtów które zdecydowanie nabijają nam koszty. Nie wiemy czy wszystko jest potrzebne i co z tym można zrobić. A co jeśli nasz „firmowy zbieracz”, który w głowie miał schemat tego co jest zbierane gdzie i „po co” odejdzie z pracy? Wyobraźcie sobie terabajty nieopisanych logów, arkuszy, czy małych baz danych. Koszmar!
Dorzućmy jeszcze garść innych typowych sytuacji:
- kończąca się przestrzeń dyskowa,
- brak mocy obliczeniowej,
- dane o niejednolitych schematach zapisane w różnych formatach,
- brudne dane, które nas nie interesują a płacimy za składowanie,
- rozproszone środowisko, które trudno zintegrować pod analitykę.
Każde z wymienionych niesie ze sobą jakieś konsekwencje o których raczej nie muszę tu się rozpisywać. Natomiast podkreślić muszę jedno, jeżeli kiedykolwiek mówimy o jakichś konsekwencjach w rozumieniu IT, rozumiemy to zwykle jako koszt.
Mając ten smutny wniosek z tyłu głowy, spójrzmy na to co mamy. Nasze dane – jest ich dużo i są różne. Nie wiemy co jest gdzie, a przeklikiwanie każdego pliku czy bazy nie jest raczej opłacalne. Nasz przełożony zdecydował, że trzeba się spiąć i poddać to wszystko analityce. Integracja tych danych, opisywanie (katalogowanie w zrozumieniu co mamy), czy też proces oczyszczania lub transformacja przed końcową analityką (Extract, Transform and Load, w skrócie ETL) jest czasochłonna, mamy pliki CSV, Parquet, 6 baz MySQL, logi Apache i bazę Oracle, brakuje miejsca, szef czeka, robi się gorąco.