<데이터과학에 대해 제대로 배우는 방법> How to actually learn data science
<헬로 데이터 과학> 에서 소개한 요약에 본문의 텍스트를 조금 추가하여 내용을 소개합니다. 의역이 있으니 본문을 읽어보시는 것을 권합니다.
How to actually learn data science.
지금은 데이터과학의 적기다. 이 분야는 새로우며 매우 빠르게 성장하고 있고, 데이터 과학자에 대한 수요는 아주 크다. 이러한 수요와 공급의 차이는 사람들이 데이터과학을 배워야할 이유가 된다. 데이터과학을 배우는 첫번째 단계로 사람들은 이러한 질문을 한다. "데이터 과학을 배우려면 어떻게 해야하죠" 라고. 이러한 질문은 상당히 많은 이수해야 할 여러가지 코스와 읽어야 할 도서목록으로 이어지며, 선형대수와 통계에 대해서도 배울 것을 권한다. 나는 이러한 것들을 혼자 익혔으며 프로그래밍에 대한 경험도 전혀 없었다. 단지 나는 내가 데이터와 함께 일하는 것을 좋아한다는 것을 알았다.
어떤 맥락적 고려없이 그저 방대한 양의 배워야할 목록이 주어지는 것은 전혀 동기부여되지 않는 일이다. 어떤 사람들은 책으로부터 배우는 것이 최선일지 모른다. 하지만 나는 아니다. 나는 뭔가를 시도함으로서 배우는 것이 최선이었고, 내가 동기부여되었을 때, 그리고 내가 왜 이것을 익혀야 하는지 알고 있을 때야말로 제대로 배울 수 있었다. 당신이 데이터과학에 대해 배우고 싶다면 선형대수나 통계를 익히는 것이 첫걸음이 아니라 데이터를 좋아하고 그걸 위한 방법을 찾아내는 것이 우선이 되어야 한다.
1. Learn to love data
동기부여에 대해 이야기하는 사람은 아무도 없다. 데이터과학은 배우기가 매우 어려운 분야다. 그렇기 때문에 동기부여 없이는 정말로 고된 시간이 될 것이다. 밤을 새는것도 별거 아닐 정도로 강한 동기부여가 되어야 한다. 반드시 필요하다고 생각되는 어려운 것을 배워야 할 때도 동기부여는 매우 중요하다.
2. Learn by doing
뉴럴네트워크, 이미지인식, 커팅엣지테크닉 등은 매우 중요하지만 데이터과학을 행하는 대부분의 시간에서 이것들은 쓰이지 않을수도 있다. 당신의 작업중 무려 90%가 데이터를 정제하는 데 쓰인다. 몇몇 알고리듬에 대해 잘 알고 있는 것이 많은 알고리듬에 대해 얕게 아는 것보다 낫다. 가장 중요한 건 실제 프로젝트를 통해 배우는 것이다. 그것을 통해 실제로 필요하고 유용한 스킬을 익힐 수 있고 포트폴리오도 만들 수 있다. 실제의 경험을 통해 컨텍스트를 얻는 것이 매우 중요하다.
3. Learn to communicate insights
데이터과학자는 자신의 분석결과를 다른 사람에게 보여줘야 한다. 이걸 잘할 수 있느냐에 따라 단순한 데이터과학자와 위대한 데이터과학자가 구분된다. 인사이트를 커뮤니케이션하는 것은 우선 주제와 관련 이론을 잘 이해하고, 깔끔하게 결과를 구성하며, 분석결과를 명확하게 설명할 수 있어야 함을 의미한다. 복잡한 컨셉을 효과적으로 설명하는 건 매우 어렵지만, 아래의 몇가지를 통해 도움을 받을 수 있다.
- 기술적 숙련도가 적은 이들이나 가족들에게 데이터과학의 컨셉에 대해 설명해보라
- Quora, DataTau, mamachine learning subreddit 등의 커뮤니티에서 활동해보라
- 블로그를 만들고, 데이터분석결과를 포스팅해라
- 정기모임에서 발표해보라
- github 를 활용하라
4. Learn from peers
다른 이와 일하면서 성장하는 건 매우 환상적인 일이다. 데이터과학의 잡세팅에서 팀웍은 매우 중요하다. 이걸 도울 수 있는 몇가지 아이디어를 소개한다.
- 데이터과학 블로그를 함께 공동운영할 수 있는 사람들에게 메세지를 보내보라
- 동료를 찾을 수 있다면, 케글이나 머신러닝 컴피티션에 도전해보라
- 밋업에서 함께 일할 사람들을 찾아보라
- 오픈소스 커뮤니티에 기여해보라
5. Constantly increase the degree of difficulty
데이터과학을 하는 건 가파른 산을 오르는 것과 같다. 등반을 멈춘다면 다시는 아무것도 할 수 없다. 지금 하고 있는 프로젝트가 익숙해졌거나 새로운 컨셉을 도출한 것이 오래되었다면, 이제 좀 더 난이도를 높여야할 시기다. 이를 도울 수 있는 몇가지 아이디어다.
- 알고리듬의 다중프로세서에서도 작동하려면 어떻게 해야 하는가. 그걸 해낼 수 있는가
- 더 큰 데이터세트로 작업해보라. 그리고 스파크를 배워라
- 기존의 알고리듬을 더 빠르게 만들 수 있는지 확인해보라
- 지금 하고 있는 일을 초보자에게 가르쳐보라
결론
여기 제시된 것은 데이터과학을 배우기위해 따라야할 대략적인 가이드의 일부분이다. 이걸 잘해낼 수 있다면 자연스럽게 데이터과학에서의 전문성을 잘 개발하고 있는 자신을 보게 될 것이다. 난 방대한 리스트를 주는 방식을 좋아하지 않는다. 그건 배움의 다음 단계로 진입하는 것을 어렵게 만든다. 많은 사람들이 교과서의 무크의 방대한 양에 질려 배우기를 포기한다 나는 올바른 마음으로 접근한다면 누구든지 데이터과학을 배울 수 있다고 생각한다.
아래는 데이터과학을 공부하는 데 도움이 될만한 리스트업.
- Khan Academy – good basic statistics and linear algebra content.
- Introduction to Linear Algebra, 4th Edition – Great linear algebra book by Gilbert Strang.
- Calculus Online Textbook – also by Gilbert Strang, great calculus book.
- Elements of statistical learning – good machine learning book.
- Andrew Ng’s Machine Learning Class – the original coursera machine learning class. Mostly video-based.
- OpenIntro Statistics – Good basic stats book.
- Google Scholar – A paper can be a great way to learn about a topic. For example, here’s Breiman’s original random forest paper.
- Statsoft statistics textbook – Good for looking up statistics concepts.
'모조리 Data' 카테고리의 다른 글
[Gist] 왕복 비행기 일정 만들어주는 코드 (0) | 2016.12.04 |
---|---|
7.31 (0) | 2015.07.31 |
The best books for every data scientist (0) | 2015.06.23 |
6.10 데이터의 단면 (0) | 2015.06.10 |
6.9 페르미 추정 (0) | 2015.06.09 |