R 기본 함수 정리 2

R

by 견오수 2021. 9. 17. 14:17

728x90

code : https://github.com/kyeonminsu/R-Study/tree/main/2.기본함수

R 기본 함수 정리 1에 이어서 2입니다.

1. dplyr

dplyr package는 기존의 plyr package의 성능과 기능을 개선한 package이다. plyr package는 R 언어로 구현되었기 때문에 속도가 느렸으나 dplyr package는 C++로 개발되어서 속도가 빠른 장점이 있다.

또한 data frame을 제어하는데 특화된 함수를 제공함으로 정형화된 데이터를 처리하는데 적합하며 %>% 기호를 이용하여 함수들을 나열하는 방식(chaining)으로 코드를 작성할 수 있다.

tbl_df() : 데이터 셋에서 console창의 크기만큼 데이터 셋을 추출하는 기능

rename() : 데이터 셋의 column명을 수정하는 기능

filter() : 데이터 셋에서 조건에 맞는 데이터 셋을 추출하는 기능

select() : 데이터 셋을 대상으로 특정 column들을 추출하는 기능

arrange() : 데이터 셋을 특정 column으로 정렬하는 기능

mutate() : 데이터 셋에 새로운 column을 추가하는 기능

group_by() : 데이터 셋의 범주형 column을 대상으로 그룹화하는 기능

summaries() : 데이터 셋의 특정 column으로 요약 집계하는 기능

left_join() : 데이터 셋 left join 기능(다른 join도 함수로 제공)
bind_rows() : 데이터 셋을 행 기준으로 합치는 기능
bind_cols() : 데이터 셋을 열 기준으로 합치는 기능

2. reshape2

reshape2 package는 수집한 데이터를 분석하기 편한 형태로 가공할 때 사용하는 대표적인 package이며, 대표적인 2개의 함수가 존재하며 주로 이용 melt(), dcast() 함수를 사용을 한다.

melt() 함수

column을 행(row)으로 바꾸어서 가로로 긴 형태의 데이터를 세로로 길게 전환하는 함수이다.
melt는 변수(variable)에 대해 값(value)을(value) 매칭 하는 방식으로 넓게 퍼진 데이터를 길게 변형한다.
melt의 기본 동작 방식은numeric data를 포함하고 있는 모든 열들을 variable로 만드는 것이다.
melt(data frame, id.var=”기준 열”, measure.vars=c(“…”,”…”))
R에 기본으로 내장되어 잇는 data set인 airquality를 이용하여 실습함.

data.frame, type을 확인할 수 있다.

melt() 함수를row 수가 153 * 6 =918이 된 것을 확인할 수 있다.

month를 기준으로 생성된 row 수가 153 * 5 =765이 된 것을 확인할 수 있다.

month, day를 기준으로 생성된 row 수가 153 * 4 =612이 된 것을 확인할 수 있다.

month, day를 기준으로 ozone 데이터만으로 생성된 결과를 볼 수 있다.

dcast() 함수

세로로 길게 늘어진 데이터(melt 된(melt 데이터)를 가로로 변행해야 하는 경우에 사용한다.
cast() 함수 종류 중 data frame의 형태를 반환하는 경우에는 dcast()를 사용한다.
melt 된.

Month를 기준으로 각 값들의 평균 구함.

모든 column 원상 복구를 한다.

728x90

'R' 카테고리의 다른 글

R 기본 함수 정리 1 (0)	2021.09.17
R의 기본형과 자료 구조 2 (0)	2021.09.16
R의 기본형과 자료 구조 1 (0)	2021.09.16
R소개 및 Rstudio 설치 (0)	2021.09.15

IT 공부정리

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

1. dplyr

2. reshape2

'R' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바