R 기본 함수 정리 2
code : https://github.com/kyeonminsu/R-Study/tree/main/2.기본함수
R 기본 함수 정리 1에 이어서 2입니다.
1. dplyr
dplyr package는 기존의 plyr package의 성능과 기능을 개선한 package이다. plyr package는 R 언어로 구현되었기 때문에 속도가 느렸으나 dplyr package는 C++로 개발되어서 속도가 빠른 장점이 있다.
또한 data frame을 제어하는데 특화된 함수를 제공함으로 정형화된 데이터를 처리하는데 적합하며 %>% 기호를 이용하여 함수들을 나열하는 방식(chaining)으로 코드를 작성할 수 있다.
tbl_df() : 데이터 셋에서 console창의 크기만큼 데이터 셋을 추출하는 기능
rename() : 데이터 셋의 column명을 수정하는 기능
filter() : 데이터 셋에서 조건에 맞는 데이터 셋을 추출하는 기능
select() : 데이터 셋을 대상으로 특정 column들을 추출하는 기능
arrange() : 데이터 셋을 특정 column으로 정렬하는 기능
mutate() : 데이터 셋에 새로운 column을 추가하는 기능
group_by() : 데이터 셋의 범주형 column을 대상으로 그룹화하는 기능
summaries() : 데이터 셋의 특정 column으로 요약 집계하는 기능
- left_join() : 데이터 셋 left join 기능(다른 join도 함수로 제공)
- bind_rows() : 데이터 셋을 행 기준으로 합치는 기능
- bind_cols() : 데이터 셋을 열 기준으로 합치는 기능
2. reshape2
reshape2 package는 수집한 데이터를 분석하기 편한 형태로 가공할 때 사용하는 대표적인 package이며, 대표적인 2개의 함수가 존재하며 주로 이용 melt(), dcast() 함수를 사용을 한다.
melt() 함수
- column을 행(row)으로 바꾸어서 가로로 긴 형태의 데이터를 세로로 길게 전환하는 함수이다.
- melt는 변수(variable)에 대해 값(value)을(value) 매칭 하는 방식으로 넓게 퍼진 데이터를 길게 변형한다.
- melt의 기본 동작 방식은numeric data를 포함하고 있는 모든 열들을 variable로 만드는 것이다.
- melt(data frame, id.var=”기준 열”, measure.vars=c(“…”,”…”))
- R에 기본으로 내장되어 잇는 data set인 airquality를 이용하여 실습함.
data.frame, type을 확인할 수 있다.
melt() 함수를row 수가 153 * 6 =918이 된 것을 확인할 수 있다.
month를 기준으로 생성된 row 수가 153 * 5 =765이 된 것을 확인할 수 있다.
month, day를 기준으로 생성된 row 수가 153 * 4 =612이 된 것을 확인할 수 있다.
month, day를 기준으로 ozone 데이터만으로 생성된 결과를 볼 수 있다.
dcast() 함수
- 세로로 길게 늘어진 데이터(melt 된(melt 데이터)를 가로로 변행해야 하는 경우에 사용한다.
- cast() 함수 종류 중 data frame의 형태를 반환하는 경우에는 dcast()를 사용한다.
- melt 된.
Month를 기준으로 각 값들의 평균 구함.
모든 column 원상 복구를 한다.