Dr inż. Janusz Dygaszewicz, Dyrektor Departamentu Systemów Teleinformatycznych, Geostatystyki i Spisów, GUS, w rozmowie z ISBtech o roli statystyki w rozwoju technologicznym, cyfryzacji, a także działalności GUS w obszarze informatyzacji zbierania danych.
Jakie kluczowe kwestie porusza Kongres Statystyki?
Statystyka publiczna jest motorem napędowym rozwoju technologicznego jeśli chodzi o zbieranie, przetwarzanie danych i ich udostępnianie. Rozwój informatyki idzie w parze z rozwojem technologii statystycznych. Teraz coraz częściej mamy sytuację, że to właśnie dzięki nowoczesnym technologiom, które stosujemy, zbieramy coraz więcej danych, coraz częściej udostępniamy w sposób bardzo nowoczesny związany z nowymi technologiami. I to znalazło swój wydźwięk podczas kongresu GUS.
Od 2011 roku porzuciliśmy papier przy badaniach. Statystyka znana z rocznika statystycznego już jest historią. Oczywiście nadal tworzymy roczniki statystyczne, ale one mają charakter bibliograficzny. Natomiast stosujemy coraz bardziej wyrafinowane narzędzia informatyczne do udostępniania danych różnymi kanałami, gdzie można profilować zakres danych, który chce się uzyskać i przeprowadzić analizę. Do tego wprowadziliśmy nowe technologie typu informacja przestrzenna, technologie GIS, gdzie na mapach łatwo dochodzimy do danych określonych obszarów, które nas interesują. Możemy robić analizy przestrzenne, na przykład czy w danym obszarze lepiej budować żłobek, przedszkole, czy dom opieki. To jest wszystko oparte na przestrzennych analizach w oparciu o dane statystyczne, które zbieramy w zakresie działań społecznych, gospodarczych i środowiskowych.
Może Pan podsumować takie najważniejsze rozwiązania technologiczne, które GUS zaimplementował, żeby cyfryzować swoją działalność?
Działania prowadzimy w różnych obszarach. Niewątpliwie cyfryzacja podstawowego etapu, jakim jest zbieranie danych, jest daleko posunięta w tej chwili. Możemy się podłączać do różnych systemów, do rejestrów administracyjnych, których wykorzystujemy ponad 300. W Polsce jest dosyć dużo rejestrów, są dobrej jakości. Stosujemy łącza teleinformatyczne do pobierania danych z innych systemów.
Z drugiej strony jest udostępnianie danych. Już nie udostępniamy papierowych wyciągów czy roczników statystycznych. Użytkownik może wprost sobie zaciągnąć informację, która go interesuje. Pracujemy nad tym aby było to łatwo dostępne. Nazwaliśmy projekt, który unowocześnia nam cały proces Wrotami Statystyki. Do tego technologie GIS, to jest też coś, co zmieniło obraz statystyki. W tej chwili geoportale powstają w Polsce i na całym świecie. Mamy portal geostatystyczny, który umożliwia nam z dokładnością do siatki kilometrowej udostępnianie danych, które jako warstwa z innymi danymi pozwala na przeprowadzenie analiz przestrzennych. To tworzy zupełnie nową jakość analiz wielowymiarowych.
Proszę więcej opowiedzieć o Wrotach Statystyki.
Jest to unowocześnienie procesu technologicznego produkcji wynikowych informacji statystycznych oraz udoskonalenie metod i narzędzi ich udostępniania. Zgodnie ze standardami międzynarodowymi ok. 100 krajów na świecie wykorzystuje ustalony model do przeprowadzania, uspójniania i standaryzacji badań. To właśnie wprowadzamy w tej chwili, a do tego mamy zarówno platformę zbierania danych, jak i platformę udostępniania danych. I tam różnymi kanałami i metodami uspójnione dane udostępniamy . Nad tym zadaniem obecnie pracujemy.
Portal geostatystyczny, który mamy, już jest takim miejscem, w którym można znaleźć gotowe dane statystyczne w odniesieniu przestrzennym. Także gotowe opracowania, te najbardziej interesujące, które były wielokrotnie pobierane, albo sprofilowanie przez użytkownika własne zestawy danych, mogą być udostępnione innym użytkownikom.
Naszym celem jest żeby otworzyć się bardziej, jeśli chodzi o udostępnianie danych statystycznych, żeby to było szybsze, bardziej dokładne, spójne i nowoczesne, tak że właściwie na naszych smartfonach możemy już wiele statystyk w tej chwili zobaczyć i to będziemy rozwijać, to jest tym kierunkiem.
Jak pracujecie nad tym, żeby te dane były jak najbardziej prawidłowe?
Tak, to bardzo istotny temat bo czasami mamy zarzuty, że za długo u nas się opracowuje dane i ale to jest zawsze kwestia ich jakości. Przykładamy dużo wagi, żeby zapewnić najwyższą jakość, taką która jest oczekiwana, bo przecież to są dane referencyjne, ostateczne. Np. PKB, cena jednego metra kwadratowego mieszkań, inflacja, czy zbiory w rolnictwie to są referencyjne dane, które udostępniamy i na których gospodarka się opiera. Nie możemy sobie pozwolić na to żeby szybko, kosztem jakości, publikować te wskaźniki, bo to jest referencja. Nie stać nas na to, żebyśmy sobie pozwolili na jakieś grube błędy, bo wystarczy, że dwa, trzy razy coś takiego zrobić i stracimy markę, autorytet i zaufanie.
Dlatego też z punktu widzenia zapewnienia jakości mamy od lat wypracowane działania i technologie. Te opracowania muszą się obronić w późniejszych analizach, muszą być referencyjne i tutaj mamy coraz lepszą sytuację, bo mamy coraz więcej źródeł, z których możemy skorzystać aby otrzymać wysoką jakość danych wynikowych. Kiedyś wystarczyła do zebrania danych jakaś jedna ankieta, formularz, a dzisiaj mamy wręcz kilkaset źródeł administracyjnych, big data, zdjęcia satelitarne itp. Jakość tych danych ze źródeł alternatywnych jest coraz lepsza, ale też wymaga coraz większego nakładu pracy i kompetencji, tak, żebyśmy umiejętnie wykorzystali różne źródła, umieli je porównać i określić te wartości, które z punktu widzenia referencyjności spełniają najwyższą jakość.
Czy testujecie algorytmy sztucznej inteligencji?
Jesteśmy tutaj mocno zaawansowani. Zresztą, tak jak powiedziałem na początku, statystyka jest motorem rozwoju, więc poszukujemy zawsze nowych technologii, nowych możliwości, nowych źródeł. No i m.in. jeśli chodzi o sztuczną inteligencję, o machine learning, tutaj mamy zespoły ludzi, którzy pracują nad zastosowaniem tych narzędzi. Nazywamy to statystyką eksperymentalną, bo żeby ona się stała referencyjną musi przejść etap sprawdzenia i tutaj dzięki inicjatywie prezesa GUS stworzyliśmy Akademię Data Science, która gromadzi ludzi z potencjałem, żeby się pochylić nad algorytmami. Sztuczna inteligencja to nie jest jakiś byt inteligentny, tylko to są po prostu algorytmy, odpowiednio zaawansowane, uczące się na próbach, które dostarczamy i później poprzez statystyczną bliskość różnych schematów, które się pojawiają, otrzymujemy odpowiedzi.
AI udostępnia odpowiedzi czy rozwiązania, czy wręcz ta generatywna pisze listy w imieniu człowieka, co może być bardzo niebezpieczne, jeśli dobrze tego nie nadzorujemy. Być może na przestrzeni pięciu, dziesięciu lat i w administracji publicznej i w instytucjach publicznych pojawią się też takie rozwiązania. Jednak w tej chwili to budzi pewne daleko idące wątpliwości z względu na etykę. Ale są to zagadnienia, nad którymi teraz dyskutujemy, a z punktu widzenia algorytmów intensywnie pracujemy.
A kwestia Cyberbezpieczeństwa danych i GUS?
Mamy setki ataków codziennie, tak jak na wszystkie instytucje publiczne w tej chwili. Jako GUS mamy Centrum Informatyki Statystycznej, gdzie stworzyliśmy tzw. SOP, który cały czas monitoruje zagrożenia, które się pojawiają w sieci na urządzeniach brzegowych. I chronimy się cały czas, współpracujemy tutaj z ABW, z SIRT-em, i póki co jakiegoś wielkiego nieszczęścia nie było i oby nie było.
Mamy zaawansowane reguły systemu bezpieczeństwa i każdy pracownik też jest świadomy tego, że to nie tylko systemy brzegowe, ale także nasze zachowanie jest istotne z punktu widzenia cyberbezpieczeństwa. Szkolimy ludzi i wystarczy powiedzieć, że w naszej ustawie jest wyraźny zapis dotyczący tego, że w przypadku złego zachowania pracownika – np. ujawnienie jakichś danych – grozi mu od trzech do pięciu lat więzienia. To jest chyba jedyna ustawa i jedyna instytucja, która jest obwarowana taką odpowiedzialnością. Także wszyscy bardzo pilnujemy i mamy wysoką świadomość co do ochrony danych.
Jak może z tego korzystać biznes?
To są dane ogólnodostępne, więc my nie możemy ingerować w to, jak te dane wynikowe są później wykorzystywane. Jeżeli to jest przetworzone to dobrze. Oczekujemy, żeby jednak podawać źródło. Tutaj komercyjnie nie możemy zabronić, bo nikomu nie udostępniamy danych jednostkowych, tylko dane wynikowe jako opracowania, czy agregaty.
Czy myślicie o jakichś rozwiązaniach bardziej dla klientów detalicznych?
Tak, jak najbardziej, to właśnie to są nasi klienci, obywatele, samorządy, województwa, regiony. Cały kraj, a także Unia Europejska i wszystkim serwujemy dane na odpowiednim poziomie, zachowanie tak odpowiedzialnej misji statystycznej polega na tym, żeby nie ujawniać danych jednostkowych – to jest nasz priorytet, natomiast wszystkie agregaty danych z dokładnością do gminy, czy nawet do kilometra kwadratowego udostępniamy. Wystarczy wejść na stronę naszą, obojętnie czy z komputera, czy z telefonu.
Czy jest aplikacja mobilna GUS?
I to już od kilku lat, szczególnie dotyczy to danych geostatystycznych. To jest może nasza wina, że mało agresywnie to komunikujemy na zewnątrz, ale to widzimy wyraźnie, że tutaj z jednej strony stosujemy bardzo wyrafinowane metody przetwarzania danych. Z drugiej strony, być może słabo to komunikujemy, że te dane są. Na pewno statystyka posiada największy zasób danych w Polsce.
Czy GUS ma jakieś sojusze technologiczne z jakimiś firmami, z którymi współpracuje, na przykład z jakimiś projektami cyfrowymi, technologicznymi, albo korzystacie z narzędzi, z rozwiązań czy platform firm technologicznych?
Tu obowiązuje nas ustawa o zamówieniach. Takich sojuszy, że z kimś mamy kontrakt i lata pracujemy to nie ma. Natomiast wykorzystujemy oczywiście know-how sektora prywatnego, ale wszystko przez zamówienia publiczne i oczywiście pewne narzędzia są wytwarzane, ale też coraz szerzej sięgamy po open-source. To jest coś, co szczególnie jeśli chodzi o narzędzia analityczne w językach kodowania są wykorzystywane też przez nas. Czyli mamy swój zestaw narzędzi, który wypracowujemy sami na bazie rozwiązań sektora prywatnego, drogą zamówień publicznych i trzecia noga, to open-source. Do tego mamy własne Centrum Informatyki Statystycznej i tam jest około 200 osób, które zajmują się usługami IT dla statystyki wyłącznie.
Jakie wyzwania, czy projekty na przyszłość?
To jest temat rzeka, ponieważ mamy taką dobrą sytuację, że tzw. granty są udostępniane z Komisji Europejskiej poprzez Eurostat. W tych obszarach merytorycznych, które są przedmiotem obserwacji i badań, możemy wykorzystywać te narzędzia, w związku z tym finansowe narzędzia do tworzenia nowych rozwiązań metodologicznych to dobra, niekończąca się historia To jest kilkadziesiąt w ciągu roku projektów, grantów, które są realizowane, które pozwalają nam się rozwijać.
A szykujecie się do super projektów, np. wykorzystania chmury?
To jest komercyjne myślenie w tym momencie, bo chmura to znaczy 'na czyimś serwerze’, czyli poza naszą kontrolą a dane statystyczne, czasami sensytywne, to z natury rzeczy muszą być przetwarzane w naszym środowisku, na naszych serwerach i nie może być takie przypuszczenie, że statystyka korzysta z chmury jeszcze przez jakichś dużych dostawców i nie wiadomo czy te nasze dane są w Polsce, w Ameryce, na Antarktydzie czy gdzieś indziej , nie wiadomo pod czyją kontrolą.
A możliwość wykorzystania zalet cloud w chmurze prywatnej?
Mamy wirtualizację w naszym środowisku, to jest tak jak chmura praktycznie.
A wyzwanie z którym zmaga się GUS?
Mamy takowe z odpowiednim budżetem na utrzymanie wysokiej klasy specjalistów. Jest ważne, żeby utrzymać capacity, które mamy wśród profesjonalnej załogi. Żeby nam się ludzie nie rozchodzili po firmach prywatnych, czy innych urzędach. Zakładam, że to wyzwanie jest akurat powszechne, zarówno w administracji państwowej jak i nawet w biznesie.