Подготовка на данните за използване.
Ако доставчиците на публични данни предоставят своите данни в MS Excel формат, това е най-удобният вариант. Но не винаги публичните данни се предоставят в MS Excel формат. Другият най-често използван файлов формат е CSV. Той също може да бъде отворен в MS Excel.
CSV е абревиатура на comma-separated values – числови стойности, разделени със запетая.
Съществуват два стандарта за CSV файлове. Според единия стандарт, за десетичен разделител се използва десетична запетая, а многоцифрените числа се представят в групи по три цифри, разделени с празен интервал (например 123 456 789,12). Тогава като разделител между стойностите се използва точка и запетая (;). Според другия стандарт, за десетичен разделител се използва десетична точка, а многоцифрените числа се представят в групи по три цифри, разделени със запетая (например 123,456,789.12). Тогава за разделител между стойностите се използва запетая, а отделните стойности се ограждат в кавички.
Стандартът, които се използва на съответния компютър, се задава още при инсталацията на MS Windows. Ако стандартът на компютъра съвпада със стандарта на файла, тогава файлът се отваря в MS Excel директно, само с двойно кликване върху него. Ако стандартът на компютъра не съвпада със стандарта на файла, тогава отварянето на файла става по следния начин:
Подробно описание може да намерите в прикачения документ тук, секция Отваряне на CSV файлове в MS Excel.
Дори данните вече да са филтрирани и структурирани онлайн, за да се използва файлът от MS Excel в специализиран софтуер, файлът трябва да съдържа заглавията на колоните само на един ред. Ако заглавията на колоните са на повече от един ред, антетката трябва да се преработи.
Подробно описание може да намерите в прикачения документ тук, секция Подготовка на данните в MS Excel.
Много често нужните ни данни не са налични само в един източник, а дори и да са налични, са в отделни файлове. Затова се налага данните да се съберат в един общ файл, преди да се визуализират или анализират.
Самото събиране е техническа дейност и става чрез командите „Копирай“ (Copy) и „Постави“ (Paste). Но преди да се съберат данните, трябва да сме сигурни, че те са сравними. Данните трябва да са сравними по време, по място, по методология, по цени и по обем на съвкупностите.
При статичните данни сравнимост по време означава, че данните трябва да се отнасят за един и същ период или момент от времето. Това обикновено е проблем, тъй като събития се регистрират за определен период, а физически обекти се броят към определен момент. И по този начин данните за събитията не са сравними с данните за физическите обекти. Решението е от два съседни момента, които са в началото и края на даден период, да се изчисли средна аритметична, която е средна за периода и е сравнима с периодните данни. Например, ражданията и умиранията се регистрират през цялата година, а населението се брои към 31-ви декември. Следователно данните за ражданията и умиранията не са сравними с данните за броя на населението. Затова от данните за броя на населението към 31 декември на две съседни години се изчислява средногодишно население, което вече е сравнимо с данните за ражданията и умиранията през годината.
При динамичните данни сравнимост по време означава, че данните трябва се отнасят за еднакво дълги периоди. Решението е стойностите на признака да се разделят на дължината на периода. Например, броят на ражданията през месец март не е сравним с броя на ражданията през месец април, защото в месец март има един ден повече от месец април. Затова броят на ражданията през месец март се разделя на 31, а броят на ражданията през месец април се разделя на 30 и по този начин се получава среднодневният брой на ражданията, който е сравним.
Сравнимост по място означава, че данните трябва да се отнасят за една и съща територия. Това е особено важно при динамичните данни, тъй като териториите се променят във времето. Решението е динамичните данни да започват не по-рано от началото на последната промяна. Например, части от съществуваща община се отделят и образуват самостоятелна община. Ясно е, че данните за първоначалната община преди и след отделянето на новата община не са сравними. Тогава динамичните данни трябва да започнат не по-рано от датата на отделяне на новата община.
При статични данни сравнимост по методология означава, че различните доставчици на публични данни трябва да използват една и съща методология за получаване на данните. Много често това означава и да използват еднакви дефиниции на признаците. Тук няма работещо решение и трябва много да се внимава при използване на данни от различни източници. Например, Агенцията по заетостта и НСИ използват различна дефиниция за безработно лице, а оттам и методологията за броене на безработните на двете институции е различна, което прави данните им несравними.
При динамични данни сравнимост по методология означава, че методологията трябва да е еднаква през целия период. Много често методологиите се променят. Решението е динамичните данни да започнат не по-рано от началото на последната методология. Например, брутен вътрешен продукт (БВП) в България се изчислява от 1995 година. Затова динамичните данни за БВП започват не по-рано от 1995 година.
Когато динамичните данни са стойности на признаци, които се измерват в парично изражение, те се влияят от инфлацията. За да се отстрани влиянието на инфлацията и стойностите да станат сравними по цени, трябва да се работи с постоянни цени, т.е. цените от дадена година се избират за база и всички стойности се преизчисляват по базисните цени. Най-лесно това става като се използват индексите на цените, публикувани от НСИ, и стойностите на признака се разделят на индекса на цените при постоянна база. Например, НСИ публикува индекси на цените при база 1995 година. Тогава, ако стойността на даден признак, измерен в парично изражение, през конкретна година се раздели на индекса на цените през тази конкретна година спрямо 1995 година, ще се получи стойност по постоянни цени от 1995 година.
Когато мерната единица на признаците е абсолютен обем, тогава самият обем на съвкупността оказва влияние върху стойностите. По-големите съвкупности ще имат по-големи стойности на признака, докато по-малките съвкупности ще имат по-малки стойности. За да се има сравнимост по обем, трябва сравняваните съвкупности трябва да имат еднакъв обем. Това се постига като стойността на признака се раздели на обема на съвкупността. Например, броят на ражданията в област Видин не е сравним с броя на ражданията в област София-град, тъй като населението на област Видин е много по-малко от населението на област София-град. Затова се изчислява коефициент на раждаемост, който се получава като броят на ражданията във всяка област се раздели на средногодишното население в областта. Получените коефициенти се представят на глава от населението или на 1000 човека от населението, или на 100 000 човека от населението и т.н., и са сравними за различните области. По същия начин се постъпва и при динамичните данни. Тъй като обемите на съвкупностите са променят във времето, отново стойностите на признаците трябва да се преизчислят към един и същи обем.
Подробно описание може да намерите в прикачения документ тук, секция Използване на данни от различни източници.
За данните
- Защо са ни нужни статистически данни?
- Подготовка на данните за анализ
- В какъв вид са достъпни данните в Интернет?
Статитстически данни на национално ниво
- НСИ
- Портал за отворени данни
- Други доставчици на публични данни в България
Визуализация на данните в графичен вид
- MS Power BI
- Gapminder offline