지금 하는 일은 과거 36개월치를 만들어서 분석하는 것인데, 기존에 Cohort Month 자료를 기준으로 해야 한다. 이러할 경우, 데이터 부하를 줄이기 위해서 자료를 Cohort Month 자료에 직접 매월 Adding하거나 36개월치 자료를 Merge해 놓은 것을 사용하고는 한다. 이런 경우에는 임시 폴더에는 부담이 별로 안가지만 작업을 많이 돌려야 하므로 시간이 오래 걸린다는 문제점이 있다.

 크기가 비대해져 가므로 처음에는 속도가 빨리 나오나, 28개월 정도가 되면 기존의 자료에 추가되는 컬럼들의 양으로 인해서 기하급수적으로 속도가 떨어지게 된다. 예전에는 이런 생각을 못했느데, 지금 보니까 이런 것은 똑똑하고 멍청하고를 떠나서 누가 더 센스가 있느냐의 차이라는 생각을 하게 된다.

 Cohort month를 기준으로 하고, 기존의 데이터를 한 번에 모두 Merge하는 방법을 피하는 가장 중요한 이유는 간단하다.

 '그러다 파일이 깨지는 경우가 생기기 때문이다.'

 SAS는 DB가 아니기 때문에 작업을 하다가 날라가는 경우도 많고 그럴 경우 상당히 머리를 아프게 된다. 가급적 시간이 걸리더라도 안전하게 하자는게 내 주의인데. 주말에 나와서 일을 하다가 애들을 데릴러 가야 되서 이런저런 생각이 많네.
반응형

'SAS, R, 통계' 카테고리의 다른 글

감동의 클러스터링  (0) 2013.10.01
SAS Macro에서 포인터의 향기를 느끼다.  (0) 2013.07.02
sas에서 웹자료 분석  (0) 2013.02.23
SQL Server를 지우고 있다.  (0) 2012.07.22
한스 로슬링(Hans Rosling)  (0) 2012.04.07

+ Recent posts