Lab 4 - `ggplot` e `dplyr`

Atividade

Nessa mini-análise trabalharemos com os dados usados no projeto publicada por Five Thirty Eight “The Dollar-And-Cents Case Against Hollywood’s Exclusion of Women”.

Sua tarefa é preencher os espaços em branco assinalados por ___.

Dados e pacotes

Vamos analisar o conjunto de dados bechdel, que contém informações sobre filmes e seu desempenho financeiro, além de informações sobre o teste de Bechdel, que avalia a representação feminina em filmes. O teste de Bechdel é um critério simples que avalia se um filme contém pelo menos duas mulheres que falam entre si sobre algo que não seja um homem.

Começamos com o carregamento dos pacotes que vamos utilizar.

library(pacman)
p_load(fivethirtyeight, tidyverse, tidytuesday)

O conjunto de dados contém informações sobre r nrow(bechdel) filmes lançados entre r min(bechdel$year) e r max(bechdel$year).

Entretanto, vamos focar nossa análise em filmes lançados entre 1990 e 2013.

bechdel90_13 <- bechdel %>% 
  filter(between(year, 1990, 2013))

Existem ‘___’ filmes. (insira a quantidade de filmes)

As variáveis financeiras em que vamos nos concentrar são as seguintes:

budget_2013: Orçamento em dólares de 2013 ajustados à inflação.
domgross_2013: Dólares internos brutos (EUA) em 2013, dólares ajustados pela inflação.
intgross_2013: Total internacional (i.e., mundial) bruto em 2013 dólares corrigidos da inflação.

E também utilizaremos as variáveis binary e clean_test para grouping.

Análise

Vamos ver como o orçamento médio e o bruto variam conforme o filme caso tenha passado no teste de Bechdel, que é armazenado na variável “binary”.

bechdel90_13 %>%
  group_by(binary) %>%
  summarise(med_budget = median(budget_2013),
            med_domgross = median(domgross_2013, na.rm = TRUE),
            med_intgross = median(intgross_2013, na.rm = TRUE))

Em seguida, vamos ver como o orçamento meidano e o bruto variam por um indicador mais detalhado do resultado do teste de Bechdel.

Essa informação é armazenada na variável ‘clean_test’, que assume os seguintes valores:

ok = passa no teste
dubious.
men = as mulheres só falam de homens
notalk = as mulheres não falam umas com as outras
nowomen = menos de duas mulheres

bechdel90_13 %>%
  group_by(clean_test) %>%
  summarise(med_budget = median(budget_2013),
            med_domgross = median(domgross_2013, na.rm = TRUE),
            med_intgross = median(intgross_2013, na.rm = TRUE))

A fim de avaliar como o retorno do investimento varia entre os filmes que passam e fracassam no teste de Bechdel, vamos primeiro criar uma nova variável chamada roi como uma razão do orçamento bruto.

bechdel90_13 <- bechdel90_13 %>%
  mutate(roi = (intgross_2013 + domgross_2013) / budget_2013)

Vamos ver quais filmes têm o maior retorno sobre o investimento.

bechdel90_13 %>%
  arrange(desc(roi)) %>% 
  select(title, roi, year)

Abaixo está uma visualização do retorno do investimento por resultado de teste, porém é difícil ver as distribuições devido a algumas observações extremas.

ggplot(data = bechdel90_13, 
       mapping = aes(x = clean_test, y = roi, color = binary)) +
  geom_boxplot() +
  labs(title = "Retorno do investimento vs. Resultados do teste Bechdel",
       x = "Resultado detalhado de Bechdel",
       y = "___",
       color = "Resultado binário de Bechdel")

Quais são os filmes com retorno de investimento muito altos?

bechdel90_13 %>%
  filter(roi > 400) %>%
  select(title, budget_2013, domgross_2013, year)

Veja como é a relação entre os filmes com menor retorno e o resultado detalhado do teste Bechedel.

A ampliação dos filmes com roi < ___ proporciona uma melhor visão de como os medianos através das categorias se comparam:

ggplot(data = bechdel90_13, mapping = aes(x = clean_test, y = roi, color = binary)) +
  geom_boxplot() +
  labs(title = "Retorno do investimento vs. Resultado do teste de Bechdel",
       subtitle = "___", # Something about zooming in to a certain level
       x = "Resultado detalhado de Bechdel",
       y = "Retorno do investimento",
       color = "Resultado binário de Bechdel") +
  coord_cartesian(ylim = c(0, 15))

Last updated on Oct 15, 2021