R을 잘 활용하기 위한 방법이라고 한다면.
R을 사용한다는 건 데이터를 분석을 한다는 것과 동일한 의미를 가진다. 데이터 분석을 위해서는 툴에 대한 이해도 필요하고 동시에 데이터의 언어인 통계에 대한 이해가 필수다. 통계는 자신의 가설이 일반화가 가능한지 평가를 할 수 있는 도구이다.

R은 상당한 러닝커브를 가진 언어 중에 하나이다. 따라서 잘 쓰기 위해서는 어느 정도의 시간 투자가 반드시 필요하다. 다행히 최근 많은 국내 서적이 출시되어 많은 이들이 언어를 배우기가 예전보다는 쉬워졌는데 환영할 만한 상황임에는 분명하다.

기본서적을 통해 어느 정도 문법을 익힌 이후에는 직접 데이터 분석 주제를 잡아서 분석업무를 R을 기반으로 해보길 권유한다. 그래프도 직접 그려보고 데이터 전처리도 직접해보면 왜 R이 데이터 분석 언어인지 피부로 느끼게 된다.

이 과정에서 SAS나 SPSS, 그리고 엑셀로 쓰면 되지 왜 고생을 하지라는 고민을 한다. 이 고비만 넘긴다면 엑셀보다 편해지는 시점이 오고 초보에서 중반 정도 넘어가는 수준으로 도약하게 된다.

이후엔 다른 사람들의 분석 코드라든지 패키지 코드를 보면서 최적화된 코드를 많이 보는 게 큰 도움이 되며 이 과정을 거치게 되면 R이 어떤 방식으로 동작하게 되는지 알게 된다.

실제 다른 언어에서 데이터 분석은 전처리와 시각화 하는 패턴이 있다. 그 패턴을 매번 가져가기 위해 포문이나 언어로 구현해서 전처리를 하다보면 이게 분석 작업인지 코딩 작업인지 분간이 안 될 때가 있다. 반면 R은 그 패턴을 정형화해서 프레임워크나 평션을 활용할 수 있게 특정 패키지와 함수로 전처리를 쓸 수 있다. 즉 R은 수십 라인 코드로 만든 일반적인 프로그래밍 부분을 한 라인의 코드로 만들 수 있는 만큼 편리함은 물론이고 정확하게 동작할 수 있게 해주는 등 효율적이라고 할 수 있다.

이 때쯤이라면 R로 모든 것을 하려고 하는 중독 현상이 일어난다. 한 외국 사람이 흡사 담배를 배우는 과정과 닮아 있다고 표현하는 것에 매우 공감했다. 담배를 처음 접할 때는 기침도 나고 목도 아프지만 어느 정도 익숙해지면 중독되는 것과 같이 R 역시 초반에 다른 언어에 비해서 배워야하는 부분이 많고 높지만 어느 정도 익숙해지면 모든 작업을 R을 기반으로 하는 중독이 일어난다. 이후 R로 모든 것을 하려고 한다. 그러나 모든 영역에 R을 적용할 수 없다. R의 통계에 특화된 언어로 언어적인 성능은 다른 언어에 비해서 낮다. 만약 R로 모든 영역을 적용하려고 한다면 굉장히 느린 프로세싱 결과를 얻게 되는 것이다. 이는 중독에 대한 부작용이다.

이런 부작용을 벗어나기 위해 최적화 방법론을 찾게 된다. R을 C++과 결합한다든지 느린 부분은 빠른 패키지로 대체하는 식으로 진행하다 보면 빠른 프로세스로 복귀를 하게 되는 것이다. 이 정도면 데이터 분석가라고 불리기엔 충분할 것이다.

마지막으로 통계학에 대한 학사 정도의 지식이 필요하다. R의 매뉴얼 페이지나 심지어 함수의 파라미터 명까지도 통계학에서 따온 용어를 쓰고 있는 만큼 기본 개념을 이해하지 않고서는 R을 제대로 쓴다고 할 수 없을 것이다.



[출처]

[데이터사이언티스트를 찾아서] “개발자와 통계학자 영역 자유롭게 왕복해야”

전희원 SK 텔레콤 매니져

http://m.comworld.co.kr/news/articleView.html?idxno=47869

반응형
Posted by JoeSung
,


21세기 통계학을 배우는 방법


http://statkclee.github.io/window-of-statistics/


- 통계청

반응형
Posted by JoeSung
,