통계
#
p-value를
고객에게는 뭐라고 설명하는게 이해하기 편할까요?
##
p-value는
요즘 시대에도 여전히 유효할까요?
언제
p-value가
실제를 호도하는 경향이 있을까요?
##
A/B Test 등
현상 분석 및 실험 설계 상 통계적으로 유의미함의
여부를 결정하기 위한 방법에는 어떤 것이 있을까요?
#
R square의
의미는 무엇인가요?
고객에게는
어떻게 설명하실 예정인가요?
#
평균(mean)과
중앙값(median)중에
어떤 케이스에서 뭐를 써야할까요?
#
중심극한정리는
왜 유용한걸까요?
#
엔트로피(entropy)에
대해 설명해주세요.
가능하면
Information
Gain도요.
###
하지만
또 요즘같은 빅데이터(?)시대에는
정규성 테스트가 의미 없다는 주장이 있습니다.
맞을까요?
##
어떨
때 모수적 방법론을 쓸 수 있고,
어떨
때 비모수적 방법론을 쓸 수 있나요?
#
“likelihood”와
“probability”의
차이는 무엇일까요?
#
통계에서
사용되는 bootstrap의
의미는 무엇인가요.
##
모수가
매우 적은 (수십개
이하)
케이스의
경우 어떤 방식으로 예측 모델을 수립할 수 있을까요.
##
베이지안과
프리퀀티스트간의 입장차이를 설명해주실 수 있나요?
머신러닝
#
Local Minima와
Global
Minima에
대해 설명해주세요.
#
차원의
저주에 대해 설명해주세요
#
dimension reduction기법으로
보통 어떤 것들이 있나요?
##
PCA는
차원 축소 기법이면서,
데이터
압축 기법이기도 하고,
노이즈
제거기법이기도 합니다.
왜
그런지 설명해주실 수 있나요?
###
LSA, LDA, SVD 등의
약자들이 어떤 뜻이고 서로 어떤 관계를 가지는지
설명할 수 있나요?
##
Markov Chain을
고등학생에게 설명하려면 어떤 방식이 제일 좋을까요?
##
텍스트
더미에서 주제를 추출해야 합니다.
어떤
방식으로 접근해 나가시겠나요?
##
SVM은
왜 반대로 차원을 확장시키는 방식으로 동작할까요?
거기서
어떤 장점이 발생했나요?
###
eigenvalue, eigenvector에
대해 설명해주세요.
이건
왜 중요한가요?
##
다른
좋은 머신 러닝 대비,
오래된
기법인 나이브 베이즈(naive
bayes)의
장점을 옹호해보세요.
#
Association Rule의
Support,
Confidence, Lift에
대해 설명해주세요.
###
최적화
기법중 Newton’s
Method와
Gradient
Descent 방법에
대해 알고 있나요?
##
머신러닝(machine)적
접근방법과 통계(statistics)적
접근방법의 둘간에 차이에 대한 견해가 있나요?
##
인공신경망(deep
learning이전의
전통적인)이
가지는 일반적인 문제점은 무엇일까요?
###
지금
나오고 있는 deep
learning 계열의
혁신의 근간은 무엇이라고 생각하시나요?
#
ROC 커브에
대해 설명해주실 수 있으신가요?
#
여러분이
서버를 100대
가지고 있습니다.
이때
인공신경망보다 Random
Forest를
써야 하는 이유는 뭘까요?
##
두
추천엔진간의 성능 비교는 어떤 지표와 방법으로 할
수 있을까요?
검색엔진에서
쓰던 방법을 그대로 쓰면 될까요?
안될까요?
#
K-means의
대표적 의미론적 단점은 무엇인가요?
(계산량
많다는것 말고)
시각화
##
"신규/재방문자별
지역별(혹은
일별)
방문자수와
구매전환율"이나
"고객등급별
최근방문일별 고객수와 평균구매금액"와
같이 4가지
이상의 정보를 시각화하는 가장 좋은 방법을 추천해주세요
##
구매에
영향을 주는 요소의 발견을 위한 관점에서,
개인에
대한 쇼핑몰 웹 활동의 시계열 데이터를 효과적으로
시각화하기 위한 방법은 무엇일까요?
표현되어야
하는 정보(feature)는
어떤 것일까요?
실제시
어떤 것이 가장 고민될까요?
#
파이차트는
왜 구릴까요?
언제
구린가요?
안구릴때는
언제인가요?
#
히스토그램의
가장 큰 문제는 무엇인가요?
#
워드클라우드는
보기엔 예쁘지만 약점이 있습니다.
어떤
약점일까요?
##
어떤
1차원값이,
데이터가
몰려있어서 직선상에 표현했을 때 보기가 쉽지 않습니다.
어떻게
해야할까요?
분석
일반
#
좋은
feature란
무엇인가요.
이
feature의
성능을 판단하기 위한 방법에는 어떤 것이 있나요
#
"상관관계는
인과관계를 의미하지 않는다"라는
말이 있습니다.
설명해주실
수 있나요?
#
A/B 테스트의
장점과 단점,
그리고
단점의 경우 이를 해결하기 위한 방안에는 어떤 것이
있나요?
##
각
고객의 웹 행동에 대하여 실시간으로 상호작용이
가능하다고 할 때에,
이에
적용 가능한 고객 행동 및 모델에 관한 이론을 알아봅시다.
##
고객이
원하는 예측모형을 두가지 종류로 만들었다.
하나는
예측력이 뛰어나지만 왜 그렇게 예측했는지를 설명하기
어려운 random
forest 모형이고,
또다른
하나는 예측력은 다소 떨어지나 명확하게 왜 그런지를
설명할 수 있는 sequential
bayesian 모형입니다.
고객에게
어떤 모형을 추천하겠습니까?
##
고객이
내일 어떤 상품을 구매할지 예측하는 모형을 만들어야
한다면 어떤 기법(예:
SVM, Random Forest, logistic regression 등)을
사용할 것인지 정하고 이를 통계와 기계학습 지식이
전무한 실무자에게 설명해봅시다.
##
나만의
feature
selection 방식을
설명해봅시다.
##
데이터
간의 유사도를 계산할 때,
feature의
수가 많다면(예:
100개
이상),
이러한
high-dimensional
clustering을
어떻게 풀어야할까요?
시스템
엔지니어링
#
처음
서버를 샀습니다.
어떤
보안적 조치를 먼저 하시겠습니까?
##
SSH로의
brute-force
attack을
막기 위해서 어떤 조치를 취하고 싶으신가요?
##
MySQL이
요새 느리다는 신고가 들어왔습니다.
첫번째로
무엇을 확인하시고 조정하시겠나요?
##
동작하는
MySQL에
Alter
table을
하면 안되는 이유를 설명해주세요.
그리고
대안을 설명해주세요.
##
빡세게
동작하고 있는 MySQL을
백업뜨기 위해서는 어떤 방법이 필요할까요?
#
프로세스의
CPU
상태를
보기 위해 top을
했습니다.
user,system,iowait중에
뭐를 제일 신경쓰시나요?
이상적인
프로그램이라면 어떻게 저 값들이 나오고 있어야
할까요?
##
iowait이
높게 나왔다면,
내가
해야하는 조치는 무엇인가요?
(돈으로
해결하는 방법과 소프트웨어로 해결하는 방법을
대답해주세요)
##
동시에
10개의
컴퓨터에 라이브러리를 설치하는 일이 빈번히 발생합니다.
어떤
해결책이 있을까요?
#
screen과
tmux중에
뭘 더 좋아하시나요?
#
vim입니까.
emacs입니까.
소속을
밝히세요.
#
가장
좋아하는 리눅스 배포판은 뭡니까.
왜죠?
##
관리하는
컴퓨터가 10대가
넘었습니다.
중요한
모니터링 지표는 뭐가 있을까요?
뭐로
하실건가요?
##
GIT의
소스가 있고,
서비스
사용중인 웹서버가 10대
이상 넘게 있습니다.
어떻게
배포할건가요?
분산처리
#
좋게
만들어진 MapReduce는
어떤 프로그램일까요?
데이터의
Size
변화의
관점에서 설명할 수 있을까요?
###
여러
MR작업의
연쇄로 최종결과물이 나올때,
중간에
작업이 Fail날수
있습니다.
작업의
Fail은
어떻게 모니터링 하시겠습니까?
작업들간의
dependency는
어떻게 해결하시겠습니까?
##
분산환경의
JOIN은,
보통
디스크,
CPU, 네트워크
중 어디에서 병목이 발생할까요?
이를
해결하기 위해 무엇을 해야 할까요?
##
암달의
법칙에 대해 말해봅시다.
그러므로
왜 shared-nothing
구조로
만들어야 하는지 설명해봅시다.
###
shared-nothing 구조의
단점도 있습니다.
어떤
것이 해당할까요?
##
Spark이
Hadoop보다
빠른 이유를 I/O
최적화
관점에서 생각해봅시다.
###
카산드라는
망한것 같습니다.
왜
망한것 같나요?
그래도
활용처가 있다면 어디인것 같나요.
(작성자의
취향이 반영되었으므로,
상대적
강점,약점
정도로 표현해주세요 ㅎㅎㅎ)
##
TB 단위
이상의 기존 데이터와 시간당 GB단위의
신생 로그가 들어오는 서비스에서 모든 가입자에게
개별적으로 계산된 실시간 서비스(웹)를
제공하기 위한 시스템 구조를 구상해봅시다.
###
대용량
자료를 빠르게 lookup해야
하는 일이 있습니다.
(100GB 이상,
100ms언더로
특정자료 찾기).
어떤
백엔드를 사용하시겠나요?
느린
백엔드를 사용한다면 이를 보완할 방법은 뭐가 있을까요?
###
데이터를
여러 머신으로 부터 모으기 위해 여러 선택지가 있을
수 있습니다.
(flume, fluentd등)
아예
소스로부터 kafka등의
메시징 시스템을 바로 쓸 수도 있습니다.
어떤
것을 선호하시나요?
왜죠?
웹
아키텍쳐
##
트래픽이
몰리는 상황입니다.
AWS의
ELB
세팅을
위해서 웹서버는 어떤 요건을 가져야 쉽게
autoscale가능할까요?
##
왜
Apache보다
Nginx가
성능이 좋을까요?
node.js가
성능이 좋은 이유와 곁들여 설명할 수 있을까요?
##
node.js는
일반적으로 빠르지만 어떤 경우에는 쓰면 안될까요?
###
하나의
IP에서
여러 도메인의 HTTPS
서버를
운영할 수 있을까요?
안된다면
왜인가요?
또
이걸 해결하는 방법이 있는데 그건 뭘까요?
###
개발이
한창 진행되는 와중에도 서비스는 계속 운영되어야
합니다.
이를
가능하게 하는 상용 deploy
환경은
어떻게 구현가능한가요?
WEB/WAS/DB/Cluster 각각의
영역에서 중요한 변화가 수반되는 경우에도 동작
가능한,
가장
Cost가
적은 방식을 구상하고 시나리오를 만들어봅시다.
서비스
구현 (python,
javascript, ...)
#
크롤러를
파이썬으로 구현할 때 스크래핑 입장에서
BeautifulSoup과
Selenium의
장단점은 무엇일까요?
##
빈번한
접속으로 우리 IP가
차단되었을 때의 해결책은?
(대화로
푼다.
이런거
말구요)
#
당장
10분안에
사이트의 A/B
테스트를
하고 싶다면 어떻게 해야 할까요?
타
서비스를 써도 됩니다.
##
신규
방문자와 재 방문자를 구별하여 A/B
테스트를
하고 싶다면 어떻게 해야 할까요?
##
R의
결과물을 python으로
만든 대시보드에 넣고 싶다면 어떤 방법들이 가능할까요?
#
쇼핑몰의
상품별 노출 횟수와 클릭수를 손쉽게 수집하려면 어떻게
해야 할까요?
##
여러
웹사이트를 돌아다니는 사용자를 하나로 엮어서 보고자
합니다.
우리가
각 사이트의 웹에 우리 코드를 삽입할 수 있다고 가정할
때,
이것이
가능한가요?
가능하다면,
그
방법에는 어떤 것이 있을까요?
##
고객사
혹은 외부 서버와의 데이터 전달이 필요한 경우가
있습니다.
데이터
전달 과정에서 보안을 위해 당연히(plain
text)로
전송하는 것은 안됩니다.
어떤
방법이 있을까요?
대
고객 사이드
##
고객이
궁금하다고 말하는 요소가 내가 생각하기에는 중요하지
않고 다른 부분이 더 중요해 보입니다.
어떤
식으로 대화를 풀어나가야 할까요?
##
현업
카운터 파트와 자주 만나며 실패한 분석까지 같이
공유하는 경우와,
시간을
두고 멋진 결과만 공유하는 케이스에서 무엇을
선택하시겠습니까?
#
고객이
질문지 리스트를 10개를
주었습니다.
어떤
기준으로 우선순위를 정해야 할까요?
##
오프라인
데이터가 결합이 되어야 해서,
데이터의
피드백 주기가 매우 느리고 정합성도 의심되는 상황입니다.
우리가
할 수 있는 액션이나 방향 수정은 무엇일까요?
##
동시에
여러개의 A/B테스트를
돌리기엔 모수가 부족한 상황입니다.
어떻게
해야할까요?
##
고객사가
과도하게 정보성 대시보드만을 요청할 경우,
어떻게
대처해야 할까요?
##
고객사에게
위클리 리포트를 제공하고 있었는데,
금주에는
별다른 내용이 없었습니다.
어떻게
할까요?
##
카페24,
메이크샵
같은 서비스에서 데이터를 어떻게 가져오면 좋을까요?
###
기존에
같은 목적의 업무를 수행하던 조직이 있습니다.
어떻게
관계 형성을 해 나가야 할까요.
혹은
일이 되게 하기 위해서는 어떤 부분이 해소되어야
할까요.
##
인터뷰나
강의에 활용하기 위한 백데이터는 어느 수준까지 일반화
해서 사용해야 할까요?
##
고객사가
우리와 일하고 싶은데 현재는 capa가
되지 않습니다.
어떻게
대처해야 할까요?
###
고객사들은
기존 추천서비스에 대한 의문이 있습니다.
주로
매출이 실제 오르는가 하는 것인데,
이를
검증하기 위한 방법에는 어떤 것이 있을까요?
###
위
관점에서 우리 서비스의 성능을 고객에게 명확하게
인지시키기 위한 방법을 생각해봅시다.
개인정보에
대한 이해
#
어떤
정보들이 개인정보에 해당할까요?
ID는
개인정보에 해당할까요?
이를
어기지 않는 합법적 방법으로 식별하고 싶으면 어떻게
해야할까요?
#
국내
개인 정보 보호 현황에 대한 견해는 어떠한지요?
만약
사업을 진행하는데 장애요소로 작용한다면,
이에
대한 해결 방안은 어떤 것이 있을까요?
##
제3자
쿠키는 왜 문제가 되나요?
전 넘버웍스
데이터 사이언티스트 하용호님 글 중 발췌