상세 컨텐츠

본문 제목

R 기본 함수 정리 2

R

by 견오수 2021. 9. 17. 14:17

본문

728x90

code : https://github.com/kyeonminsu/R-Study/tree/main/2.기본함수

R 기본 함수 정리 1에 이어서 2입니다.

 

1. dplyr

dplyr package는 기존의 plyr package의 성능과 기능을 개선한 package이다. plyr packageR 언어로 구현되었기 때문에 속도가 느렸으나 dplyr packageC++로 개발되어서 속도가 빠른 장점이 있다.

 

또한 data frame을 제어하는데 특화된 함수를 제공함으로 정형화된 데이터를 처리하는데 적합하며 %>% 기호를 이용하여 함수들을 나열하는 방식(chaining)으로 코드를 작성할 수 있다.

 

 

tbl_df() : 데이터 셋에서 console창의 크기만큼 데이터 셋을 추출하는 기능

 

rename() : 데이터 셋의 column명을 수정하는 기능

 

filter() : 데이터 셋에서 조건에 맞는 데이터 셋을 추출하는 기능

 

select() : 데이터 셋을 대상으로 특정 column들을 추출하는 기능

 

arrange() : 데이터 셋을 특정 column으로 정렬하는 기능

 

 

mutate() : 데이터 셋에 새로운 column을 추가하는 기능

 

group_by() : 데이터 셋의 범주형 column을 대상으로 그룹화하는 기능

 

 

summaries() : 데이터 셋의 특정 column으로 요약 집계하는 기능

 

  • left_join() : 데이터 셋 left join 기능(다른 join도 함수로 제공)
  • bind_rows() : 데이터 셋을 행 기준으로 합치는 기능
  • bind_cols() : 데이터 셋을 열 기준으로 합치는 기능

 

 

 

2. reshape2

 

reshape2 package는 수집한 데이터를 분석하기 편한 형태로 가공할 때 사용하는 대표적인 package이며, 대표적인 2개의 함수가 존재하며 주로 이용 melt(), dcast() 함수를 사용을 한다.

 

melt() 함수

  • column을 행(row)으로 바꾸어서 가로로 긴 형태의 데이터를 세로로 길게 전환하는 함수이다.
  • melt는 변수(variable)에 대해 값(value)을(value) 매칭 하는 방식으로 넓게 퍼진 데이터를 길게 변형한다.
  • melt의 기본 동작 방식은numeric data를 포함하고 있는 모든 열들을 variable로 만드는 것이다.
  • melt(data frame, id.var=”기준 열”, measure.vars=c(“”,””))
  • R에 기본으로 내장되어 잇는 data setairquality를 이용하여 실습함.

 

data.frame, type을 확인할 수 있다.

 

melt() 함수를row 수가 153 * 6 =918이 된 것을 확인할 수 있다.

 

month를 기준으로 생성된 row 수가 153 * 5 =765이 된 것을 확인할 수 있다.

 

month, day를 기준으로 생성된 row 수가 153 * 4 =612이 된 것을 확인할 수 있다.

 

month, day를 기준으로 ozone 데이터만으로 생성된 결과를 볼 수 있다.

 

dcast() 함수

 

  • 세로로 길게 늘어진 데이터(melt 된(melt 데이터)를 가로로 변행해야 하는 경우에 사용한다.
  • cast() 함수 종류 중 data frame의 형태를 반환하는 경우에는 dcast()를 사용한다.
  • melt 된.

 

 

Month를 기준으로 각 값들의 평균 구함.

 

 

모든 column 원상 복구를 한다.

728x90

'R' 카테고리의 다른 글

R 기본 함수 정리 1  (0) 2021.09.17
R의 기본형과 자료 구조 2  (0) 2021.09.16
R의 기본형과 자료 구조 1  (0) 2021.09.16
R소개 및 Rstudio 설치  (0) 2021.09.15

관련글 더보기

댓글 영역