A Unidade 2 é estruturada considerando os seguintes tópicos:
- Estrutura de dados no R;
- Tipos de dados, importação de base de dados, criação de objeto (vetores, matrizes, data frames), operadores aritméticos, de comparação e lógicos;
- Visualização de dados no R.
Diretrizes gerais
- Baixe o arquivo .Rmd e abra no RStudio.
Siga as diretrizes da atividade.
Rode o arquivo .Rmd por meio do ícone
knitr
Salve o .Rmd e submeta-o por meio da tarefa no Sigaa.
Atividade
Nessa mini-análise trabalharemos com os dados usados no projeto publicada por Five Thirty Eight “The Dollar-And-Cents Case Against Hollywood’s Exclusion of Women”.
Sua tarefa é preencher os espaços em branco assinalados por ___
.
Dados e pacotes
Começamos com o carregamento dos pacotes que vamos utilizar. Lembrem-se que, caso haja algum problema com o carregamento dos pacotes, tente instalá-los novamente.
library(fivethirtyeight)
library(tidyverse)
O conjunto de dados contém informações sobre r nrow(bechdel)
filmes lançados entre r min(bechdel$year)
e r max(bechdel$year)
.
Entretanto, vamos focar nossa análise em filmes lançados entre 1990 e 2013.
bechdel90_13 <- bechdel %>%
filter(between(year, 1990, 2013))
Existem ‘___’ filmes. (insira a quantidade de filmes)
As variáveis financeiras em que vamos nos concentrar são as seguintes:
budget_2013
: Orçamento em dólares de 2013 ajustados à inflação.domgross_2013
: Dólares internos brutos (EUA) em 2013, dólares ajustados pela inflação.intgross_2013
: Total internacional (i.e., mundial) bruto em 2013 dólares corrigidos da inflação.
E também utilizaremos as variáveis binary
e clean_test
para grouping.
Análise
Vamos ver como o orçamento médio e o bruto variam conforme o filme caso tenha passado no teste de Bechdel, que é armazenado na variável “binary”.
bechdel90_13 %>%
group_by(binary) %>%
summarise(med_budget = median(budget_2013),
med_domgross = median(domgross_2013, na.rm = TRUE),
med_intgross = median(intgross_2013, na.rm = TRUE))
Em seguida, vamos ver como o orçamento meidano e o bruto variam por um indicador mais detalhado do resultado do teste de Bechdel.
Essa informação é armazenada na variável ‘clean_test’, que assume os seguintes valores:
ok
= passa no testedubious
.men
= as mulheres só falam de homensnotalk
= as mulheres não falam umas com as outrasnowomen
= menos de duas mulheres
bechdel90_13 %>%
group_by(clean_test) %>%
summarise(med_budget = median(budget_2013),
med_domgross = median(domgross_2013, na.rm = TRUE),
med_intgross = median(intgross_2013, na.rm = TRUE))
A fim de avaliar como o retorno do investimento varia entre os filmes que passam e fracassam no teste de Bechdel, vamos primeiro criar uma nova variável chamada roi
como uma razão do orçamento bruto.
bechdel90_13 <- bechdel90_13 %>%
mutate(roi = (intgross_2013 + domgross_2013) / budget_2013)
Vamos ver quais filmes têm o maior retorno sobre o investimento.
bechdel90_13 %>%
arrange(desc(roi)) %>%
select(title, roi, year)
Abaixo está uma visualização do retorno do investimento por resultado de teste, porém é difícil ver as distribuições devido a algumas observações extremas.
ggplot(data = bechdel90_13,
mapping = aes(x = clean_test, y = roi, color = binary)) +
geom_boxplot() +
labs(title = "Retorno do investimento vs. Resultados do teste Bechdel",
x = "Resultado detalhado de Bechdel",
y = "___",
color = "Resultado binário de Bechdel")
Quais são os filmes com retorno de investimento muito altos?
bechdel90_13 %>%
filter(roi > 400) %>%
select(title, budget_2013, domgross_2013, year)
Veja como é a relação entre os filmes com menor retorno e o resultado detalhado do teste Bechedel.
A ampliação dos filmes com roi < ___
proporciona uma melhor visão de como os medianos através das categorias se comparam:
ggplot(data = bechdel90_13, mapping = aes(x = clean_test, y = roi, color = binary)) +
geom_boxplot() +
labs(title = "Retorno do investimento vs. Resultado do teste de Bechdel",
subtitle = "___", # Something about zooming in to a certain level
x = "Resultado detalhado de Bechdel",
y = "Retorno do investimento",
color = "Resultado binário de Bechdel") +
coord_cartesian(ylim = c(0, 15))