R

R소개 및 Rstudio 설치

견오수 2021. 9. 15. 17:48
728x90

R소개 및 Rstudio 설치를 진행해보겠습니다.

 

1. R이란?

 

  • 데이터의 처리, 통계, 계산 및 분석, 그래픽스를 위한 프로그래밍 언어이다.
  • 데이터 입출력, 데이터 차리, 데이터 분석, 그래프 작성 등을 위한 수많은 알고리즘 및 방법론을 제공한다.
  • R의 모태는 S 언어(AT&T Bell 랩의 John Chambers 등이 개발)이다.
  • R은 기본(코어) 패키지와(코어) 99천 개 이상의 추가 패키지들로 구성됨.

 

2. R을 사용해야 하는가??

 

  • 무료 오픈소스

오픈소스로서 무료이다 보니 원하는 사람, 기관, 기업이면 가져다가 바로 사용할 수 있다. 특히, 요즘 우리나라처럼 장기불황의 그림자에 짓눌려 기업에서 ITIT 예산이 긴축 일변도인 상황에서는 무료라는 점이 그 어느 때보다도 큰 매력으로 다가올 것 같다.

 

  • 안 되는 게 없는 분석 기능 (packages)

R에는 2015년 현재 44천 개가 넘는 통계분석 패키지가 있다. 가장 최신의 분석기법이 상용 통계분석 툴에는 없더라고 R에는 있을 가능성이 높다. 오픈소스이다 보니 전 세계의 분석가, 개발자들이 R의 프로그래밍 언어이자 개발환경이라는 장점을 활용해 분석 패키지, 자동화된 사용자 정의 함수를 만들어서 배포, 공유하는 생태계가 형성되어 있으며, 이를 통해 어느 상용 툴보다도 빠르게 또 광범위하게 분석 기능이 확장되고 고도화되고 있는 것이다.

 

  • 강력한 그래프 기능 (graphics)

머리로 생각할 수 있는 거의 대부분의 그래프는 R로 프로그래밍해서 그릴 수 있다. 게다가 이쁘기까지 하다. R로 그래프를 그려서 바로 신문이나 책, 인터넷 포스팅에 사용해도 전혀 손색이 없을 정도로 완성도 높게 그래프가 그려진다. 엑셀에서는 불가능한, 다양한 데이터 조건을 줘서 그래프를 그리는 것도 가능하다.

 

  • 데이터 처리도 거뜬 (data manipulation)

데이터 분석을 하다 보면 데이터 수집/처리/탐색적 분석이/처리/ 투입 공수의 60~80%를 차지하고 모델링은 상대적으로 적은 시간이 소요된다. 데이터를 떡 주무르듯이 자유자재로 다룰 수 있어야지 '데이터 분석 좀 하네'라는 소리를 들을 수 있을 텐데, R은 데이터 처리에 있어서도 매우 강력한 툴이다.

 

  • 객체 지향 프로그래밍 언어 (object-oriented programming language)

 

일회성 분석하고 끝낼게 아니라면, 시스템화/자동화를 해야 하는 상황이라면, 개발자라면 '객체 지향 프로그래밍 언어'라는 말이 가지는 힘, 의미를 잘 알 것이라고 생각한다. R은 벡터 연산과 Indexing이 정말 유용하고 강력하며, 사용자 정의 함수와 루프 돌리는 프로그래밍 언어 또한 강력하고, 지도 등의 애플리케이션과도 연동이 되는데, 거기에 통계분석까지 된다. 구글이 회사차원에서 R을 사용한다고 하는데, 아마 이런 이유들 때문에 상용 통계 툴이 아니라 R을 사용하는 게 아닌가 싶다.

 

  • 커뮤니티, 공개/공유된 자료 (community, google.com, coursera.org, etc)

 

국내는 아직 RR 사용자가 그리 많아 보이지는 않으나, 해외에서는 이미 RR 사용자가 꽤 많다. R 분석하다가 뭔가 잘 안된다거나 궁금한 게 있다면 Google에 검색해보라. 없는 거 빼고 다 있다. R 커뮤니터, 블로그도 많다. R 관련 책도 많다. Coursera와 같은 오픈 강좌에도 R 관련 교육이 있다.

 

 

3. 아나콘다 설치

 

저는 머신러닝 및 딥러닝을 공부할 때 아나콘다를 활용하여 가상 환경을 만든 후 사용을 많이 합니다. 아나콘다에도 Rstudio 설치를 간단하게 할 수 있어서 아나콘다를 통해서 설치를 해보겠습니다.

 

아나콘다(Anaconda)는 패키지 관리와 프로그램 배포를 단순케 할 목적으로 과학 계산(데이터 과학, 기계 학습 애플리케이션, 대규모 데이터 처리, 예측 분석 등)을 위해 파이썬과 R 프로그래밍 언어의 자유-오픈 소스 배포판이다. 패키지 버전들은 패키지 관리 시스템 conda를 통해 관리된다. 아나콘다 배포판은 1300만 명 이상의 사용자들이 사용하며 윈도,, 리눅스, macOS에 적합한 1,400개 이상의 유명 데이터 과학 패키지가 포함되어 있다.

 

 

 

4. RStduo 설치

 

ANACONDA NAVIGATOR를 실행을 시키고 RStudio를 설치를 한다.

 

 

RStudio가 설치가 되면 Application on에서 rstdio 환경으로 변경을 하고 RStudio를 실행을 한다.

 

 

5. RStudio 구성

 

  1. 명령어들을 입력할 수 있는 스크립트이다.
  2. 명령어를 입력하면 실행한 결과가 출력이 된다.
  3. 데이터의 현재 값, 데이터 변화 등을 볼 수 있다.
  4. 파일 창과 사용할 수 있는 패키지를 볼 수 있다.

 

6. RStudio에서 자주 사용하는 단축키

 

  • 스크립트 저장 : Ctrl +
  • 주석 넣기 : Shift + Ctrl + c
  • 텍스트 찾고 바꾸기 : Ctrl + f
  • %>% chain operator 넣기 : Shift + Ctrl + m
  • Console 창 화면 지우기 : Ctrl + l
  • R 명령어 수행 : Ctrl + Enter
  • <- 생성 : Alt + -

 

728x90