
Zastosowanie metod matematycznych w statystyce
Prace redakcyjne: Jan Kordos, Jadwiga Rybacka
Biblioteka Wiadomości Statystycznych, tom 7
Główny Urząd Statystyczny, Warszawa 1969
Potrzeba reprezentacji
Powojenna statystyka publiczna początkowo dość skromnie korzystała z metod matematycznych. Na drodze stały przede wszystkim ograniczenia techniczno-organizacyjne. Zmieniło się to w latach 60. XX w., kiedy statystycy na szerszą skalę zaczęli stosować metodę reprezentacyjną, metodę rotacyjną czy metody ekonometryczne.
W pierwszych latach po II wojnie światowej metody matematyczne były wykorzystywane w polskiej statystyce publicznej w niewielkim zakresie. Nie wynikało to bynajmniej z braku znajomości tych metod lub nieufności do nich – choć Polska znalazła się w orbicie Związku Radzieckiego, to nie można powiedzieć, że panująca tam niechęć do „formalnej” statystyki przyjęła się nad Wisłą. Wręcz przeciwnie, w niektórych badaniach z obszaru statystyki rolnej i społecznej stosowano metody matematyczne już w latach 50. XX w. Przewagę badań o charakterze wyczerpującym tuż po wojnie można wyjaśnić chęcią – ujmując rzecz nieco potocznie – policzenia wszystkiego. Badania wyczerpujące wiązały się z nadzieją, że nic nie zostanie pominięte: możliwe będzie poznanie całej populacji czy całej zbiorowości. W dodatku do zastosowania metod matematycznych potrzeba było odpowiednich technologii, zdolności organizacyjnych i przeszkolonego personelu. Wydawać by się mogło, że łatwiej po prostu „policzyć wszystko” niż oszacować to na podstawie odpowiednio dobranej próby.
Jednak badania o charakterze wyczerpującym oznaczały konieczność przeprowadzenia wielkiej akcji. W przypadku statystyki społecznej wymagało to zatrudnienia armii rachmistrzów, którzy musieliby ruszyć w teren, wyposażeni w zestaw formularzy do wypełnienia na podstawie obserwacji, dokumentów lub wywiadów. Istniało duże ryzyko błędów nielosowych: im większy personel badania, tym trudniej go odpowiednio przygotować, a im więcej badanych (osób, gospodarstw domowych, budynków itd.), tym łatwiej o pomyłki przy wypełnianiu kolejnych formularzy. Badania masowe były niezwykle czaso- i pracochłonne, zebrane informacje wymagały żmudnego symbolizowania, zliczania i porządkowania, a ich dokładność pozostawiała wiele do życzenia. Na tym tle od lat 50. XX w. rozwijano m.in. zastosowania metody reprezentacyjnej, która była tańsza (wystarczyło dobrze wybrać próbę), szybsza (zarówno pod względem tempa zbierania, jak i przetwarzania danych) i dokładniejsza (rachmistrzowie mieli do zbadania mniejszą liczbę np. gospodarstw domowych, więc mogli lepiej się przygotować i uważniej wypełniać rubryki ankiet).
Pierwsze użycia metody reprezentacyjnej przez GUS wiązały się z opracowywaniem wyników spisu powszechnego z 1950 r. Co ciekawe, do próby losowano wtedy… całe teczki, w których zebrano formularze spisowe z poszczególnych obwodów (tych ostatnich było ok. 120 tys., a każdy obejmował mniej więcej 240 osób). Jan Kordos w referacie o wykorzystaniu metody reprezentacyjnej przez GUS, opublikowanym w t. 7 serii Biblioteka Wiadomości Statystycznych zatytułowanym Zastosowanie metod matematycznych w statystyce, zauważał, że losowanie całych teczek „było technicznie proste, lecz zmniejszało dokładność wyników opracowanych metodą reprezentacyjną” (s. 52).
Wyciągnięto z tego wnioski dziesięć lat później, kiedy wybierano schemat losowania materiałów ze spisu 1960 r. do opracowania metodą reprezentacyjną. Chodziło o to, żeby z jednej strony jak najszybciej dostarczyć informacji na temat ludności, mieszkań i indywidualnych gospodarstw rolnych, a z drugiej – uniknąć błędów przypadkowych, których udział rośnie wraz ze szczegółowością wyników uzyskanych z użyciem metody reprezentacyjnej. Tym razem zdecydowano się losować nie teczki, lecz formularze spisowe (zawierające dane dotyczące grupy osób), bardziej przydatne do badania cech demograficznych i zawodowych. Zamiast losowania systematycznego skorzystano z tablic liczb żelaznych, a losowanie prowadzono „oddzielnie dla obwodów miejskich danego powiatu i oddzielnie dla obwodów wiejskich, oddzielnie z partii obwodów miejskich i oddzielnie z partii obwodów wiejskich” (s. 53). W ten sposób wybrano próbę 5% podstawowych formularzy, którą podzielono na pięć podprób po 1%, a następnie obliczono odchylenie standardowe –dla 60% pozycji błąd wynosił maks. 5%, a dla następnych 30% – maks. 10%.
Jeszcze w latach 50. XX w. zaczęto stosować metodę reprezentacyjną i losowy dobór próby w badaniach budżetów gospodarstw domowych. Do 1957 r. gospodarstwa do badań wybierano w sposób celowy; później powiększono próbę i zakres badanych cech. Ze względu na brak adekwatnych wykazów gospodarstw domowych posiłkowano się źródłami zastępczymi, a konkretnie listami płac, i zamiast losować gospodarstwa domowe, losowano powarstwowane według województw i działów gospodarki zakłady pracy, a następnie w dwóch fazach – pracowników tych zakładów. Kolejną trudnością była skala odmów udziału w badaniu, która przekraczała 30% wylosowanych gospodarstw. „W rzeczywistości obserwujemy inną zbiorowość niż założono pierwotnie” – przyznawał Kordos (s. 56). Co prawda analizowano, z jakich typów gospodarstw najczęściej przychodziły odmowy, i losowano następne, podobne gospodarstwa, ale nie poprawiało to sytuacji.
Kordos, wtedy związany z Zakładem Badań Statystyczno-Ekonomicznych (ZBSE) GUS, zauważał, że zastosowanie metody reprezentacyjnej wymagało spełnienia określonych warunków, z których pierwszym było posiadanie kompletnego operatu losowania, czyli takiego materiału, który odwzorowywałby badaną zbiorowość. Sprawiało to kłopot, kiedy operaty okazywały się niepełne lub nieaktualne. Kolejny problem wiązał się z wyborem schematu losowania: opracowywano jednocześnie informacje dotyczące różnych cech, a „schemat optymalny ze względu na jedną cechę nie musi być również optymalny dla pozostałych” – była to więc trudność metodologiczna; ponadto opracowanie wyników wymagało zastosowania systemu wag – co stanowiło z kolei trudność techniczną (s. 47). Tę ostatnią udało się wyeliminować dzięki wprowadzeniu obliczeń za pomocą elektronicznej maszyny cyfrowej. Niemniej różne badane cechy – a w przypadku badań budżetów gospodarstw domowych były ich setki – miały odmienny poziom rozproszenia w zbiorowości, co oznaczało niejednakowy stopień precyzji szacunków z jednej próby. W praktyce GUS, pisał Kordos, minimalną liczebność próby określały „możliwości organizacyjne i dostępne środki finansowe”, a w przypadku wybranych parametrów posiłkowano się obliczeniami probabilistycznymi (s. 48).
Ważna była również technika losowania – szczególnie w tych sytuacjach, gdy losowanie odbywało się w terenie, a nie przez wyspecjalizowaną kadrę GUS. W tym wypadku chętnie korzystano z tablic liczb żelaznych, na ogół bardziej efektywnych od tablic liczb losowych i „szczególnie wygodnych przy losowaniu próbek w terenie, gdyż można wtedy wylosować określone frakcje próbki, podając z góry numery jednostek, które należy włączyć do próbki” (s. 49). Dalej pojawiał się problem estymacji, który najczęściej rozwiązywano za pomocą estymatorów prostych, czyli bezpośredniego uogólnienia wyników z próby na całą zbiorowość – było to stosunkowo łatwe i nie wymagało dodatkowych informacji (których w wielu przypadkach nie było). Wreszcie precyzja oszacowania – czyli wielkość możliwych błędów losowych – wymagała pracochłonnych obliczeń, dlatego… w wielu badaniach po prostu nie analizowano stopnia ich precyzji. I tym razem nadzieje na poprawę wiązano z „posiadaną przez GUS elektroniczną maszyną cyfrową, która przy wykorzystaniu programów standardowych z tego zakresu może wykonać żądane obliczenia w krótkim czasie” (s. 50).
W celu rozwoju wykorzystania metody reprezentacyjnej w statystyce publicznej konieczne było podjęcie prac metodologicznych. W GUS zajmowała się nimi Pracownia Metod Matematycznych ZBSE we współpracy z poszczególnymi departamentami, w zależności od tematyki badań. „Potrzeba szerszego stosowania badań reprezentacyjnych wynika przede wszystkim z tego, że ciągle wzrasta i wzrastać będzie w przyszłości zapotrzebowanie na informacje statystyczne” – przewidywał Kordos i dodawał, że zamiast rozszerzać badania prowadzone metodą wyczerpującą lepiej sięgać po metodę reprezentacyjną (s. 76). Pomimo piętrzących się trudności – opracowanie wyników spisu powszechnego i badania budżetów gospodarstw domowych to tylko dwa przykłady – kierunek zmian był jasny.
Xawery Stańczyk
Publikację Zastosowanie metod matematycznych w statystyce (tom 7 serii monograficznej Biblioteka Wiadomości Statystycznych) można pobrać ze strony https://bws.stat.gov.pl/bws_7_zastosowanie_metod_matematycznych_w_statystyce.
Więcej felietonów o archiwalnych tomach Biblioteki Wiadomości Statystycznych znajduje się pod adresem https://nauka.stat.gov.pl/Archiwum