machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Исследовательский анализ данных в R глобальных данных из GapMinder

Дата публикации Feb 3, 2018

Ханс Рослинг / GapMinder

В этом посте я выполняю исследовательский анализ данных (EDA) на двух наборах данных изGapMinder, Этот пост включает в себя код R используется (также находится в этомGitHub репо). В итоге:

  • Метод: исследовательский анализ данных (EDA), корреляция, линейная регрессия
  • Программа / Платформа: R / RStudio
  • Источники: Всемирная организация здравоохранения, Всемирный банк

Данные

В этом анализе данных я использую данные, доступные наДанные GapMinderстраница в Интернете. В частности, я сосредоточился на:

Вопрос

Вопрос, который я задаю в этом анализе:

Существует ли корреляция между ВВП на душу населения и распространенностью ВИЧ в возрастной группе 15–49 лет? И если да, насколько сильна эта корреляция?

Я ожидаю, что существует отрицательная корреляция между ВВП на душу населения и распространенностью ВИЧ; Это означает, что в более бедных странах распространенность ВИЧ выше.

Спор данных

Давайте подготовим некоторые начальные данные в R для файлов CSV, загруженных из GapMinder, чтобы подготовить наши данные к анализу.

ВВП на душу населения

Данные из GapMinder были в форме файлов CSV, которые необходимо было реорганизовать в соответствии с парами ключ-значение в исходных таблицах CSV. Я использовал функциюсобирать ()из удивительного ‘tidyrБиблиотека

Давайте посмотрим на структуру результирующей структуры фрейма данных и определим, какой период времени охватывает этот набор данных:

## 'data.frame': 14300 obs. of 3 variables: 
## $ Income per person (fixed 2000 US$):
Factor w/ 275 levels "Abkhazia","Afghanistan",..: 1 2 3 5 6 7 8 9 10 12 ...
## $ Year : int 1960 1960 1960 1960 1960 1960 1960 1960 1960 1960 ...
## $ GDP : num NA NA NA NA 1280 ...
## [1] 1960 2011

Результирующий кадр данных содержит 14 300 наблюдений за 3 переменными (Страна, Год, ВВП). В столбце «Страна» перечислены 275 стран. ВВП на душу населения представлен для 275 стран в период 1960–2011 гг.

Данные о распространенности ВИЧ

Давайте выполним аналогичные данные, приводящие данные о распространенности ВИЧ. Опять же, я буду использовать функциюсобирать ()от 'tidyrБиблиотека

Опять же, давайте посмотрим на структуру результирующей структуры фрейма данных:

## 'data.frame': 9075 obs. of 3 variables: 
## $ Estimated HIV Prevalence% - (Ages 15-49):
Factor w/ 275 levels "Abkhazia","Afghanistan",..: 1 2 3 5 6 7 8 9 10 12 ...
## $ Year : int 1979 1979 1979 1979 1979 1979 1979 1979 1979 1979 ...
## $ HIV_prev : num NA NA NA NA NA ...

Результирующий кадр данных содержит 9075 наблюдений за 3 переменными (страна, год, предполагаемая распространенность ВИЧ). В столбце «Страна» перечислены 275 стран. ВВП на душу населения предоставляется для 275 стран в период с 1979 по 2011 годы.

Объединение фреймов данных

Давайте объединим два кадра данных, чтобы мы могли сравнить ВВП на душу населения и распространенность ВИЧ. Я используюслияния ()функция. Давайте теперь посмотрим на структуру результирующего кадра данных.

## 'data.frame': 9075 obs. of 4 variables: 
## $ Country : Factor w/ 275 levels "Abkhazia","Afghanistan",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Year : int 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 ...
## $ GDP : num NA NA NA NA NA NA NA NA NA NA ...
## $ HIV_prev: num NA NA NA NA NA NA NA NA NA NA ...

Теперь у нас есть фрейм данных для нашего последующего исследования данных. Этот информационный кадр организован в четыре столбца: (i) страна, (ii) год, (iii) ВВП на душу населения в этой стране в этом году и (iv) распространенность ВИЧ в этой стране в этом году.

Изучение данных

Наборы данных часто содержат отсутствующие данные. Я подозреваю, что это будет иметь место и с этим набором данных, даже если он был получен из официальной организации. Давайте посмотрим на процент пропущенных данных по ВВП в объединенном фрейме данных.

## [1] 35.30579

Около 35,3% ВВП в расчете на душу населения в объединенном фрейме данных содержат недостающие данные. Это весьма существенно и, скорее всего, связано с тем, что последовательные измерения ВВП являются дорогостоящими и начались только в последние несколько десятилетий (N.B.Всемирный банкСам был основан в 1945 году после Второй мировой войны).

Вместо замены отсутствующих данных усредненными или оценочными, отсутствующие данные будут исключены (то есть не нанесены на график) в последующем анализе.

Давайте посмотрим на процент пропущенных данных по фронту распространения ВИЧ.

## [1] 63.62534

У нас еще более высокий показатель - 63,6% в отношении пропущенных данных о распространенности ВИЧ в объединенном фрейме данных. Это, конечно, связано с тем, что первоначальный период данных от Всемирной организации здравоохранения включал измерения для периода, начинающегося с 1979 года, в то время как наш объединенный период данных начинается с 1960 года.

Отставание в непротиворечивых измерениях показателей, связанных с ВИЧ, действительно было выполнено в широком масштабе только с начала 1980-х годов, когда ВИЧ / СПИД сталпризнан серьезным кризисом в области здравоохранения,

Давайте начнем понимать тип распределения, который мы можем получить из обоих наборов данных. Для ВВП на душу населения:

## Min. - 1st Qu. - Median - Mean - 3rd Qu. - Max. - NA's 
## 54.51 - 590.26 - 2038.88 - 7315.07 - 9239.73 - 108111.21 - 3204

Относительно распространенности ВИЧ:

## Min. - 1st Qu. - Median - Mean - 3rd Qu. - Max. - NA's 
## 0.010 - 0.100 - 0.300 - 1.743 - 1.200 - 26.500 - 5774

Этот быстрый взгляд ясно показывает, что некоторые страны в нашем информационном блоке значительно увеличивают среднее значение распределения (по сравнению со средним значением). Это особенно относится к данным о распространенности ВИЧ.

Сюжеты

В этом разделе я генерирую различные графики (используяggplot) получить представление о распределении и попытаться выявить тенденции и закономерности.

Во-первых, мы смотрим на общий набор данных и генерируем график разброса ВВП на душу населения для 275 стран, перечисленных в нашем наборе данных с 1960 по 2011 год.

Мы также накладываем средние и верхние-нижние пределы (5%; 95%) ВВП на нашем графике Это поможет нам лучше понять, где находится основная часть нашего дистрибутива.

График показывает общую тенденцию роста мирового ВВП в период между 1960 и 2011 годами. Большая часть данных приходится на максимальный ВВП на душу населения в размере 30 000 долларов США (2000 долларов США).

Давайте посмотрим на набор данных о распространенности ВИЧ-инфекции, составив точечный график распространенности ВИЧ-инфекции для 275 стран, перечисленных в нашем наборе данных с 1960 по 2011 год.

Подобно ГПД на душу населения, мы также накладываем средний и верхний нижний пределы (5%; 95%) распространенности ВИЧ на нашем графике. Мы сосредоточимся на данных с 1985 по 2011 год.

По нашим данным, показатель распространенности ВИЧ увеличился в период между 1985 и 2011 годами со средним уровнем стагнации с начала 2000-х годов и небольшим снижением с 2005 года. Это будет соответствовать успехам в профилактических мерах по снижению частоты и вероятности заражения ВИЧ.

Корреляция и линейная регрессия

Теперь давайте сосредоточимся на комбинированном фрейме данных, который мы создали ранее, чтобы исследовать корреляцию между двумя интересующими переменными. Чтобы сначала взглянуть на корреляцию, давайте нарисуем зависимость распространенности ВИЧ от ВВП на душу населения.

Диаграмма разброса четко указывает на то, что точки данных с более низким ВВП на душу населения (т.е. страны) имеют гораздо более высокую распространенность ВИЧ по сравнению со странами с более высоким ВВП на душу населения.

Давайте поближе, создав сюжет сквадратный кореньприменяется к оси х, чтобы дополнительно подчеркнуть страны с более низким ВВП на душу населения. Мы также будем использовать функцию Rgeom_smooth ()выполнить простую линейную регрессию, чтобы лучше визуализировать отношения между двумя переменными.

Диаграмма разброса выше также указывает на то, что в странах, где объем ВВП на душу населения выше, показатель распространенности ВИЧ в среднем выше.

Давайте вычислим коэффициент корреляции между обеими переменными, используяМетод Пирсона,

## ## Pearson's product-moment correlation 
## ## data: gdp.HIV$HIV_prev and gdp.HIV$GDP
## t = -10.938, df = 3183, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2235800 -0.1566303
## sample estimates:
## cor
## -0.1903264

Результирующий коэффициент корреляции равен -0,19, что является отрицательной, но слабой корреляцией. Это соответствует линейной регрессии, приведенной выше.

Эта отрицательная, но слабая корреляция отрицательная корреляция соответствует другимопубликованные результатыкоторые установили, что благосостояние человека (а не ВВП на душу населения страны, в которой он проживает) является более сильным показателем распространенности ВИЧ в конкретной общине человека.

Заключительные замечания

В этом проекте мы собрали данные из открытых источников (GapMinder, WHO, WB). Мы выполнили обработку данных и предварительный анализ данных. Затем мы вывели коэффициент корреляции и применили линейную регрессию для оценки линейной взаимосвязи между двумя интересующими переменными (ВВП на душу населения, распространенность ВИЧ).

раскрытие: это исследование было завершено в рамках урока в UDacityАналитик данных Nanodegree,

Оригинальная статья

Footer decor

© machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map