code : https://github.com/kyeonminsu/R-Study/tree/main/2.기본함수
R 기본 함수 정리 1에 이어서 2입니다.
dplyr package는 기존의 plyr package의 성능과 기능을 개선한 package이다. plyr package는 R 언어로 구현되었기 때문에 속도가 느렸으나 dplyr package는 C++로 개발되어서 속도가 빠른 장점이 있다.
또한 data frame을 제어하는데 특화된 함수를 제공함으로 정형화된 데이터를 처리하는데 적합하며 %>% 기호를 이용하여 함수들을 나열하는 방식(chaining)으로 코드를 작성할 수 있다.
tbl_df() : 데이터 셋에서 console창의 크기만큼 데이터 셋을 추출하는 기능
rename() : 데이터 셋의 column명을 수정하는 기능
filter() : 데이터 셋에서 조건에 맞는 데이터 셋을 추출하는 기능
select() : 데이터 셋을 대상으로 특정 column들을 추출하는 기능
arrange() : 데이터 셋을 특정 column으로 정렬하는 기능
mutate() : 데이터 셋에 새로운 column을 추가하는 기능
group_by() : 데이터 셋의 범주형 column을 대상으로 그룹화하는 기능
summaries() : 데이터 셋의 특정 column으로 요약 집계하는 기능
reshape2 package는 수집한 데이터를 분석하기 편한 형태로 가공할 때 사용하는 대표적인 package이며, 대표적인 2개의 함수가 존재하며 주로 이용 melt(), dcast() 함수를 사용을 한다.
melt() 함수
data.frame, type을 확인할 수 있다.
melt() 함수를row 수가 153 * 6 =918이 된 것을 확인할 수 있다.
month를 기준으로 생성된 row 수가 153 * 5 =765이 된 것을 확인할 수 있다.
month, day를 기준으로 생성된 row 수가 153 * 4 =612이 된 것을 확인할 수 있다.
month, day를 기준으로 ozone 데이터만으로 생성된 결과를 볼 수 있다.
dcast() 함수
Month를 기준으로 각 값들의 평균 구함.
모든 column 원상 복구를 한다.
R 기본 함수 정리 1 (0) | 2021.09.17 |
---|---|
R의 기본형과 자료 구조 2 (0) | 2021.09.16 |
R의 기본형과 자료 구조 1 (0) | 2021.09.16 |
R소개 및 Rstudio 설치 (0) | 2021.09.15 |
댓글 영역