Animals.Rmd

---
title: 'Tidy tuesday: Animals Data'
author: "Lucy Njoki"
date: "5/11/2020"
output: html_document
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

```{r package load}
rm(list=ls(all = TRUE))

#package load
library(tidyverse)
library(ggthemes)
library(extrafont)
library(fcuk)
library(RColorBrewer)
extrafont::loadfonts(device = "win")
extrafont::fonttable()

```

```{r getting data}

villagers <- readr::read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-05-05/villagers.csv')

head(villagers, 10)
```

```{r exploring the data variables}
glimpse(villagers)
names(villagers)
sapply(villagers, function(x) sum(is.na(x)))

factor_variables <- c("gender", "species", "personality", "phrase")

villagers[,factor_variables] <- lapply(villagers[,factor_variables], factor)

str(villagers)

new_data <- villagers %>%
  select(-"song")
head(new_data)

table(new_data$personality, new_data$gender)

```

```{r data vizualization}
theme_set(theme_tufte())

#Distribution of personality by gender
Persn <- new_data %>%
  group_by(gender, personality) %>%
summarise(Count=n()) %>%
  mutate(Percent = round(Count * 100/ sum(Count), 2))
Persn


P1 <- ggplot(Persn, aes(x = gender, y = Percent, fill = personality)) +
  geom_bar(stat = "identity", position = position_dodge(), width = 0.6) +
geom_text(aes(label = paste(Percent, "%", sep = "")),
          position = position_dodge(0.5), hjust = 0.5,
          vjust = -0.25, size = 2.3, colour = "black")+
  labs(x = "Personalities", y = "Percent", title = "Distribution of Personalities of the Villagers by Gender") +
  theme(plot.title = element_text(family = "Calibri Light", size = rel(1.2), hjust = 0.5), axis.line = element_line(colour = "black", size = 0.5), axis.text.x = element_text(family = "Calibri Light", size = rel(1.0), hjust = 0.5), axis.text.y = element_text(family = "Calibri Light", size = rel(1.0), hjust = 0.5)) +scale_fill_brewer(palette = "Set1")
P1
```


```{r crosstabulation}
library(Rcmdr)

#Is there a relationship between the personality and species
library(abind)

local({
  .Table <- xtabs(~personality+species, data=villagers)
  cat("\nFrequency table:\n")
  print(.Table) 
  print(fisher.test(.Table, simulate.p.value=TRUE))
})

```
__No significant relationship between species of a villager and their personality.__

#Sentimental Analysis

How negative or positive a comment is?
```{r}
user_reviews <- readr::read_tsv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-05-05/user_reviews.tsv')

head(user_reviews)



```
```{r exploring the user-reviews data}
glimpse(user_reviews)

grades <- user_reviews%>%
  group_by(grade) %>%
  summarise(Count = n())

ggplot(grades, aes(x = grade, y = Count)) +
  geom_bar(stat = "identity")
```
```{r}
user_reviews %>%
  filter(grade > 8) %>%
  sample_n(5) %>%
  pull(text)

user_reviews %>%
  filter(grade <8) %>%
  sample_n(5) %>%
  pull(text)
```
```{r}
#removing the final word "Expand" and creating a new categorical variable
reviews_parsed <- user_reviews %>%
  mutate(text = str_remove(text, "Expand$")) %>%
  mutate(rating = case_when(grade >7 ~ "good",
                            TRUE ~ "bad"))
reviews_parsed
```

#What is the distribution of words per review?
```{r}

library(tidytext)

words_per_review <- reviews_parsed%>%
  unnest_tokens(word, text) %>%
  count(user_name, name = "total_words")
 
words_per_review%>%
  ggplot(aes(total_words))+
  geom_histogram(fill = "midnightblue", alpha = 0.8)
```