Hurtownia danych statystycznych



Pobieranie 248.08 Kb.
Strona5/7
Data07.05.2016
Rozmiar248.08 Kb.
1   2   3   4   5   6   7

1.3.4. OGÓLNY OPIS STRUKTUR HDS

Przy wyborze odpowiedniej struktury dla hurtowni danych statystycznych należało uwzględnić fakt, że w stosunku do standardowych schematów stosowanych w hurtowniach (schemat gwiazdy i/lub schemat płatka śniegu), rzeczywiste potrzeby struktur danych statystycznych są większe. Wymagane są bowiem dwa dodatkowe warunki:



  • potrzebnych jest wiele tabel faktów, z których każda może być powiązana z wieloma tabelami wymiarów, a wymiary te mogą być wspólne.

  • pomiędzy tabelami faktów mogą występować relacje.

W niniejszym rozdziale przedstawione zostaną struktury bazy danych dla poszczególnych obszarów tematycznych w podziale na podsystemy hurtowni i ich moduły, a szczegółowy opis struktur każdego modułu poszczególnych podsystemów znajduje się w odpowiednim załączniku.


W obrębie istniejącej hurtowni HDS wyodrębnić można podsystemy, które realizują funkcjonalności niezbędne do działania samej hurtowni, jak i zapewniające użytkownikowi dostęp do przechowywanych w niej danych. Są to:

Baza operacyjna

Baza ta spełnia funkcję repozytorium danych pobranych z systemów źródłowych z ostatniego okresu sprawozdawczego. Tu realizowana jest kontrola danych według zadanych algorytmów.



Centralna Baza Danych Hurtowni

Baza ta stanowi centralne repozytorium danych oczyszczonych oraz zweryfikowanych, które mogą być udostępniane użytkownikom. Umożliwia dostęp do danych jednostkowych, jak i agregatów zawierających dodatkowo dane wtórne wyliczone w trakcie przetwarzania.



Data Marty

Data marty, czyli fragmenty tematycznie wydzielonych informacji z centralnej hurtowni danych ukierunkowane są na obsługę wydzielonych grup użytkowników np. pracowników departamentu lub użytkowników zainteresowanych analizą wydzielonego zakresu informacji. Z części informacji zawartych w centralnej bazie hurtowni tworzone są agregaty w podziale na różne wymiary, które stają się podstawą analiz wielowymiarowych.



Metabaza

Metabaza jest istotną częścią całej HDS. Wszystkie pozostałe podsystemy HDS są ściśle z nią zintegrowane. Metabaza HDS składa się z metabazy systemu hurtowni i metabazy statystycznej.

Metabaza systemu hurtowni obejmuje opisy: struktur, formatów danych, indeksów, definicje perspektyw, prawa dostępu do danych, obszary działań użytkowników, partycje itp..

Metabaza statystyczna obejmuje metadane statystyczne, które są elementem specyficznym dla HDS. W skład metabazy statystycznej wchodzą następujące moduły: BJS, Słownik Pojęć, Klasyfikacje i MDane (opis powiązań danych z metadanymi).
Moduł Słownik Pojęć zawiera niezbędne, z punktu widzenia potrzeb hurtowni, elementy systemu Słownik Pojęć, tj.:

    • nazwy pojęć stosowanych w badaniach objętych hurtownią wraz z ich kodami;

    • grupowanie pojęć w LISTY i DZIEDZINY tematyczne – zgodne z PBSSP (Program Badań Statystycznych Statystyki Publicznej).


Moduł Mdane stanowi opis powiązań danych z metadanymi. Na podstawie zawartości tego modułu opracowywane są procedury, wg których odbywa się wczytywanie danych z systemów zewnętrznych do bazy operacyjnej, a następnie dokonywana jest transformacja danych z bazy operacyjnej do tabel bazy centralnej. W pliku MDane zapisane są również algorytmy naliczania wskaźników, tj. zmiennych nie pochodzących wprost z formularza, lecz uzyskanych drogą obliczeń.

Moduł udostępniania danych, raportów i analiz
Dzięki temu komponentowi użytkownicy mogą w sposób interaktywny sięgać do danych znajdujących się w hurtowni. Na ten moduł składają się następujące elementy:

  • serwer aplikacyjny (umożliwiający raportowanie za pośrednictwem przeglądarki internetowej);

  • narzędzia raportowe;

  • interfejsy do systemów zewnętrznych w stosunku do HDS.


1.3.4.1. OPIS STRUKTUR W ZAKRESIE STATYSTYKI GOSPODARCZEJ



Metadane

Metabaza składa się z dwóch części:



  • metabazy hurtowni

  • metadanych statystycznych


Metadane Statystyczne

Jest to zbiór zunifikowanych informacji (słowników, pojęć, klasyfikacji) niezbędnych do utrzymania spójności danych i do przeprowadzania wielowymiarowych analiz statystycznych. Ich rolę pełnią specjalnie w tym celu zaprojektowane struktury bazy Oracle. Po wczytaniu metadanych do bazy operacyjnej są one załadowane do struktur metabazy, a zebrane tam słowniki, pojęcia i klasyfikacje są podstawą dalszych działań na danych. Tabele metadanych statystycznych pełnią często rolę wymiarów (płaskich lub hierarchicznych) w analizach danych.


Baza Jednostek Statystycznych.

Moduł BJS – zawiera tabele z danymi przeniesionymi z Bazy Jednostek Statystycznych z zachowaniem historii, co daje możliwość odtworzenia opisu jednostki aktualnego na konkretną wskazaną datę. W module tym znajduje się również tabela przejścia z identyfikatora jednostki w rejestrze Regon na identyfikator systemowy w hurtowni. Istnienie tej tabeli jest efektem obowiązujących zasad i procedur postępowania z danymi statystycznymi, które stanowią, że zbiory z przechowywanymi danymi pozbawione są cech identyfikujących jednostkę. Dostęp do tej tabeli jest zastrzeżony, w konsekwencji czego dla użytkownika dostępny jest wyłącznie identyfikator systemowy hurtowni jednostki sprawozdawczej.

Zakres podmiotów BJS w hurtowni jest ograniczony do jednostek objętych badaniami – ze względu na ograniczenia pojemności serwera.


Moduł ten składa się z następujących tabel:

  • BJS – zawierający bieżący stan BJS tj. na datę ostatniej aktualizacji danej jednostki statystycznej (dotyczy jednostek objętych badaniem);

  • BJS_HIST – zawierający wszystkie dane historyczne tj. stany BJS na poszczególne miesiące zasilenia identyfikowane datą danych (dotyczy jednostek objętych badaniem);

  • REGON – tabela zawierająca numery REGON przyporządkowane do identyfikatorów jednostek statystycznych.

Tabela BJS jest uzupełniona o wszystkie klasyfikacje wg, których można analizować dane. Zawiera więc PKD i wynikające z niego podziały na sekcje, podsekcje, działy, grupy, klasy. Stan uzupełniony jest także o dane informujące o podziale terytorialnym, czyli do jakiego regionu, województwa, podregionu, powiatu i gminy należy jednostka statystyczna. Pozostałymi klasyfikacjami zawartymi w BJS są: FP-Szczególna Forma Prawna, OP-Podstawowa Forma Prawna, Forma Własności, Forma Finansowania, Forma Własności dla badań, Klasyfikacja Wielkości jednostek statystycznych, Forma finansowania jednostki macierzystej, FF_BR-Forma Finansowania Budżet Rozrachunek, i.t.p..



Klasyfikacje, listy kodów
Moduł KLASYFIKACJE obejmuje tabele z klasyfikacjami stosowanymi w badaniach. Klasyfikacje hierarchiczne mają opisaną w tabelach hierarchię, aby możliwe było drążenie danych wg hierarchii w ramach danej klasyfikacji. Tabele te są wymiarami dla tabel agregatów i danych jednostkowych w Centralnej Bazie Hurtowni oraz modułach Data Mart. Przykładowe komponenty modułu KLASYFIKACJE to: PKD, TERYT (z zachowaniem historii), forma prawna, forma własności.
Słownik Pojęć

Tabele zawierające dane o pojęciach statystycznych (tabela POJECIA) stanowiących podstawowe kryterium analizy danych. Pojęcia są grupowane tworząc listy, o których informacje są zawarte w tabeli LISTY. W tabeli LISTY_POJECIA zawarta jest hierarchia pojęć. Oprócz list pojęcia mogą być pogrupowane w dziedziny statystyczne (tabela DZIEDZINY).


Poniżej znajdują się schematy tabel metabazy:

  • Modułu BJS;

  • Modułu Słownik Pojęć (dla statystyki gospodarczej);

  • Modułu Klasyfikacje.



Metadane statystyczne – BJS (Baza Jednostek Statystycznych)


Słownik pojęć (dla statystyki gospodarczej)




Klasyfikacje

Szczegółowy opis tabel bazy dla metadanych statystycznych w zakresie modułu BJS, modułu Klasyfikacje, modułu Słownik Pojęć znajduje się w załączniku nr 1.




Mdane
Jest to zespół tablic, w których zawarte są m.in. powiązania pomiędzy tabelami Bazy Operacyjnej, a tabelami Centralnej Bazy Hurtowni. Na podstawie zapisu w tych tabelach odbywają się transformacje danych bazy operacyjnej na tabele bazy centralnej dokonywane przez Moduł zasilający centralną bazę hurtowni.

Tabele modułu Mdane:




  • FORMULARZE – zawiera listę formularzy dla których wczytywane są dane;

  • ZRODLA – zawiera listę tabel bazy operacyjnej będących źródłami do zasilania bazy centralnej;

  • ZRODLA_POZYCJE – zawiera powiązanie wymiarów bazy centralnej hurtowni z poszczególnymi polami bazy operacyjnej;

  • JEDNOSTKI_MIARY – zawiera listę jednostek miar z symbolami;

  • SPOSÓB_WYZN_WART – opisuje sposób wyznaczania wartości danych;

  • WYROZN_OKR_SPR – opisuje wyróżnik okresu sprawozdawczego danych;

Poniżej znajduje się schemat tabel metabazy modułu Mdane.



Szczegółowy opis tabel modułu Mdane, znajduje się w Załączniku nr 2, opis składni oraz przykładowe pliki Mdane znajdują się w Załączniku nr 3


Baza operacyjna
Jest to wydzielony zestaw tabel, do których dane są ładowane z systemów zewnętrznych źródłowych.

Źródła danych to pliki tekstowe lub tablice baz danych, a w szczególności:



  • pliki danych formularzowych;

  • pliki danych spisowych;

  • pliki meta danych;

  • dane BJS z bazy danych MS SQL Server.

Tabele bazy operacyjnej zawierają wybrane pola będące odwzorowaniem pól w zbiorach źródłowych. Są to tabele techniczne, przeznaczone wyłącznie do zasilania. Tabele te są podzielone na kilka grup tematycznie ze sobą powiązanych:.



  • tabele z danymi jednostkowymi formularzy przechowujące dane dotyczące jednostek statystycznych;

  • tabele z danymi zagregowanymi przechowujące dane dotyczące jednostek statystycznych.

Zasilanie bazy operacyjnej polega na załadowaniu do niej danych z plików tekstowych o określonym formacie. Źródłem mogą być także tablice baz danych np. dane BJS, z bazy MS SQL Server. Po wczytaniu danych do bazy operacyjnej sprawdzana jest ich poprawność.

Po zatwierdzeniu poprawności danych uruchamiane są procedury przenoszące dane do bazy centralnej oraz procedury naliczające agregaty.

Szczegółowy opis tabel dla bazy operacyjnej znajdują się w Załączniku nr 4.

Poniżej znajdują się schematy tabel bazy operacyjnej.


BAZA OPERACYJNA - DANE JEDNOSTKOWE


BAZA OPERACYJNA - DANE ZAGREGOWANE


Centralna baza hurtowni
Dane do struktur centralnej bazy hurtowni pochodzą z bazy operacyjnej. Na podstawie przygotowanych algorytmów transformacji dane z bazy operacyjnej są przeniesione do struktur docelowych z zachowaniem reguł spójności i integralności (spełnienia nałożonych więzów integralnych). Reguły transformacji i nałożone więzy sprawdzają powiązanie poszczególnych pól we wczytywanych formularzach ze słownikami, pojęciami i klasyfikacjami metadanych statystycznych.
Bazę centralną hurtowni danych w zakresie formularzy statystyki gospodarczej stanowią formularzowe dane jednostkowe, dane uogólnione, zagregowane oraz dane pochodne.
Formularzowe dane jednostkowe w układzie gwiazdy - są to tabele zawierające dane do analiz formularzy DG1, F01, na poziomie jednostki statystycznej. Podstawową tabelą tego modułu jest tabela DANE_FRM, pełniąca rolę tabeli faktów.

Dane zawarte w tej tabeli mogą być analizowane w następujących wymiarach:



  • jednostek statystycznych;

  • pojęć statystycznych;

  • formularzy;

  • daty formularza;

  • daty danych na formularzu;

  • wyróżników okresów obserwacji;

  • klasyfikacji „otwartego boczku”: PKD, PKWIU, TERYT, PKOB, KRAJE.

W tabeli danych jednostkowych DANE_FRM przechowywane są również dane pochodne (wyliczane wg określonych algorytmów w celu udostępniania do analiz), które dotyczą jednostek statystycznych .


Formularzowe dane pochodne w układzie gwiazdy – są to tabele zawierające dane na poziomie agregatów dla badań formularzowych. Moduł ten zawiera dane dla agregatów wczytywanych z systemów źródłowych oraz agregatów naliczanych przez hurtownię. Podstawową tabelą tego modułu jest tabela AGREGATY_FRM dla agregatów wczytywanych dla formularza DG1 oraz agregatów naliczanych przez HDS dla formularzy DG1, F01/I01. Pełni ona rolę tabeli faktów tego modułu. Dane zawarte w tabeli faktów są analizowane w następujących wymiarach:

  • pojęcia;

  • data formularza;

  • data danych na formularzu;

  • wyróżnik okresów obserwacji;

  • formularz;

  • PKD_hist;

  • TERYT_hist;

  • FP – Szczególne Formy Prawne;

  • OP - Podstawowe Formy Prawne;

  • Formy Własności;

  • Formy Własności dla badań;

  • Formy Finansowania;

  • Formy Finansowania jednostki macierzystej;

  • FF_BR – Formy Finansowania budżet-rozrachunek;

  • Wielkość Jednostek;

  • Księgi;

  • Sposoby Wyznaczenia Wartości;

  • PKWiU;

  • KRAJE;

  • PKOB;

  • Przekroje.


Formularzowe dane w układzie kolumnowym

Zestaw tabel zawierających dane przekształcone z układu wierszowego (struktura gwiazdy) do układu kolumnowego. W tym module w poszczególnych kolumnach znajdują się wartości dla pojęć, natomiast jeden wiersz dotyczy jednostki statystycznej lub agregatu (w zależności od tabeli).


Poniżej znajdują się schematy tabel.

TABELA DANE_FRM - formularzowe dane jednostkowe w układzie gwiazdy



TABELA AGREGATY_FRM – dane uogólnione i pochodne w układzie gwiazdy

Formularzowe dane pochodne:


  • Agregaty podstawowe uogólnione (wczytywane);

  • Agregaty wtórne formularzowe (wyliczane).


Formularzowe dane jednostkowe w układzie kolumnowym (przykłady dla wybranego roku):
TABELE:
FRM_F01_2009;

AGR_FRM_F01_2009;

FRM_DG1_JEDN;

FRM_DG1_AGR;

AGR_FRM_DG1.
Poniżej znajdują się schematy tabel



Moduły Data Mart



Data Mart – Sprawozdanie F01

Zestaw tabel bazy danych zawierających dane do formularza F01. Jest to data mart zależny tzn. dane w tabelach tego data martu pochodzą z tabel centralnej bazy danych, a nie ze źródeł zewnętrznych. Dane do tego data martu wygenerowane są przez procedury zasilające na podstawie danych modułu: formularzowe dane jednostkowe. Analiz danych z formularza F01 można dokonywać w następujących przekrojach (wymiarach):



  • Czas;

  • Pojęcia;

  • PKD;

  • Klasa wielkości jednostki;

  • Teryt;

  • Forma własności dla badań (ograniczona do F01);

  • FP – Szczególna Forma prawna;

  • Przedziały wskaźnika rentowności obrotu netto;

  • Przedziały wskaźnika płynności finansowej I stopnia.

Dane w tabeli faktów DMART_F01 ograniczone są tylko do danych zawartych na formularzu F01, natomiast tabele wymiarów:



  • POJECIA,

  • CZAS,

  • TERYT,

  • PKD,

  • KLASYF_WIELK_JEDN,

  • SZCZEGÓLNE FORMY_PRAWNE,

  • FORMY_WLASN_BADANIA

(ograniczone tylko do form własności występujących w badaniu F01) są tabelami modułu metadanych statystycznych i zawierają wszystkie dane słownikowe zawarte w metabazie. Na wymiarach TERYT, PKD, CZAS utworzone są hierarchie tak, aby można było drążyć dane do wybranego poziomu agregacji.
Poniżej znajduje się schemat tabel Data Mart-u.

Szczegółowy opis tabel dla bazy centralnej znajdują się w Załączniku nr 5.


W HDS na potrzeby komunikacji z innymi systemami zewnętrznymi (BDR i Eurostat) utworzone są specjalne struktury danych, które mogą być wykorzystywane w sposób bezpośredni (DBLink), bądź pośredni (pliki zewnętrzne).

1   2   3   4   5   6   7


©absta.pl 2016
wyślij wiadomość

    Strona główna