보통은 유닉스 timestamp 를 많이 사용하기 때문에, 단순하게 아래처럼 하면 된다.
import pandas as pd
data['event_time']=pd.to_datetime(data['event_time'], unit='s')
그런데, 간혹 엑셀에서 나오는 1900/01/01 기반의 날짜수를 계산해서 나오는 것이 존재하고는 한다.
이 문제로 이틀을 고민했는데 해결 방안은 생각보다 어렵지 않았다.
from datetime import datetime, timedelta
data['event_time']=data['event_time'].apply(lambda x: datetime(1900, 1, 1) + timedelta(days=x))
회사 옮기면서 주력으로 사용하는 것은 오라클과 임팔라 그리고 파이썬이다. 파이썬의 경우 모델링을 할 때에는 정말 많이 사용하는데, 한동안 분석 및 솔루션 관련 일만 하면서 파이썬을 안하다 보니까 감이 많이 떨어졌다. 예전에 면접 본다고 할때에는 많이 했는데, 이제 열심히 써봐야겠다는 생각을 많이 한다.
어찌 된게 시각화보다 데이터 핸들링하는데 더 애를 먹느냐는 말이지. :) 그래도 힘내서 즐겁게 일해보자.
반응형
'Python, PySpark' 카테고리의 다른 글
rownumber() over () in python pandas (0) | 2023.05.01 |
---|---|
cosine similarity 계산 (0) | 2023.04.12 |
nltk 다운로드 환경이 아닐때 활용 (0) | 2023.03.08 |
파이썬 여러 DataFrame Merge (0) | 2022.08.30 |
파이썬에서 문자/숫자 컬럼 구분해서 missing값 처리 (0) | 2022.08.30 |