tidyverse 패키지는 R 언어로 데이터를 가공하고 시각화하는데 필요한 다양한 패키지들의 집합체입니다. tidyverse 패키지에는 dplyr, ggplot2, tidyr, stringr, lubridate, readr 등 다양한 패키지가 포함되어 있습니다. 이들 패키지는 데이터 분석에서 중요한 역할을 수행하며, 특히 데이터 전처리 및 시각화 분야에서 많은 사용자들에게 인기가 있습니다.
여기서는 tidyverse 패키지의 주요한 함수들을 설명하겠습니다.
- filter 함수
filter 함수는 데이터 프레임에서 특정 조건을 만족하는 행(row)을 추출하는 함수입니다.
예를 들어, 다음과 같은 코드는 iris 데이터 프레임에서 Sepal.Length 값이 6 이상인 행을 추출합니다.
library(tidyverse)
iris %>% filter(Sepal.Length >= 6)
- select 함수
select 함수는 데이터 프레임에서 특정 열(column)을 선택하는 함수입니다.
예를 들어, 다음과 같은 코드는 iris 데이터 프레임에서 Sepal.Length, Petal.Length 열을 선택합니다.
library(tidyverse)
iris %>% select(Sepal.Length, Petal.Length)
- mutate 함수
mutate 함수는 데이터 프레임에 새로운 열(column)을 추가하거나 기존 열의 값을 변경하는 함수입니다.
예를 들어, 다음과 같은 코드는 iris 데이터 프레임에 Sepal.Length 와 Sepal.Width 열의 값을 더한 새로운 열을 추가합니다.
library(tidyverse)
iris %>% mutate(Sepal.Area = Sepal.Length * Sepal.Width)
- group_by 함수
group_by 함수는 데이터 프레임에서 특정 열을 기준으로 그룹을 지정하는 함수입니다.
예를 들어, 다음과 같은 코드는 iris 데이터 프레임에서 Species 열을 기준으로 그룹을 지정하고, 각 그룹에서 Sepal.Length 값의 평균을 계산합니다.
library(tidyverse)
iris %>% mutate(Sepal.Area = Sepal.Length * Sepal.Width)
- ggplot 함수
ggplot 함수는 데이터 시각화를 위한 함수로, ggplot2 패키지에 포함되어 있습니다.
예를 들어, 다음과 같은 코드는 mtcars 데이터 프레임에서 wt 와 mpg 열을 이용하여 산점도를 그리는 코드입니다.
library(tidyverse)
iris %>% group_by(Species) %>% summarise(mean(Sepal.Length))
위와 같은 tidyverse 함수들은 데이터 분석 및 시각화 분야에서 많이 활용되며, 데이터 가공과 분석에 필요한 다양한 기능을 제공합니다. tidyverse 패키지에서는 이 외에도 다양한 함수들이 제공되고 있습니다. 여기서는 그 중 몇 가지를 더 설명하겠습니다.
library(tidyverse)
ggplot(mtcars, aes(x = wt, y = mpg)) + geom_point()
- tidyr 함수
tidyr 함수는 데이터 프레임을 tidy data 형태로 변환하는데 유용한 함수입니다. tidy data 형태란, 열(column)이 변수(variable)를 의미하고 행(row)이 관측값(observation)을 의미하는 데이터 형태입니다. 이를 통해 데이터 분석이 용이해집니다.
예를 들어, 다음과 같은 코드는 pivot_longer 함수를 사용하여 wide-form 데이터를 long-form 데이터로 변환합니다.
library(tidyverse)
wide_data <- data.frame(id = c(1, 2, 3), var1 = c(10, 20, 30), var2 = c(40, 50, 60))
long_data <- pivot_longer(wide_data, cols = starts_with("var"), names_to = "variable", values_to = "value")
위 코드에서 pivot_longer 함수는 var1과 var2 열을 variable 열로, 각 열의 값들을 value 열로 변환합니다
- stringr 함수
stringr 함수는 문자열 처리를 위한 함수로, 문자열을 추출하거나 분리하는 등의 기능을 제공합니다.
예를 들어, 다음과 같은 코드는 str_extract 함수를 사용하여 문자열에서 숫자만 추출합니다.
library(tidyverse)
string <- "abcd1234efgh5678ijkl"
numbers <- str_extract(string, "\\d+")
위 코드에서 "\d+"는 문자열에서 숫자를 의미합니다.
- lubridate 함수
lubridate 함수는 날짜와 시간을 처리하는 함수로, 날짜와 시간에서 연도, 월, 일, 시간, 분, 초 등의 값을 추출하거나 연산하는 등의 기능을 제공합니다.
예를 들어, 다음과 같은 코드는 ymd 함수를 사용하여 날짜를 생성합니다.
library(lubridate)
date <- ymd("20220311")
위 코드에서 ymd 함수는 문자열로 된 날짜를 날짜 형식으로 변환합니다.
위와 같은 tidyverse 함수들은 데이터 분석과 시각화 분야에서 빠른 데이터 가공과 분석을 가능케 하며, 이를 통해 더 정확하고 효과적인 데이터 분석이 가능해집니다.

'데이터분석-R코드' 카테고리의 다른 글
[R] XG Boosting 와인품질 데이터셋으로 품질예측하기 (0) | 2023.03.17 |
---|---|
[R] wine데이터 품질 예측 랜덤포레스트 알고리즘 (0) | 2023.03.12 |