파이썬에서 pandas dataframe으로 자료를 전처리하고 텍스트 파일/CSV 파일로 내보내기를 할때 한글이 있으면 encoding = 'euc-kr'로 인코딩을 해줘야 한다.
보통 'head -10 filename.txt' 이렇게 해주는데, Jupyterlab에서 해당 텍스트를 읽으려면 인코딩 때문에 깨져 나온다.
이럴때 쓸 수 있는 방법이 바로 encoding해서 읽어내는 방법니다.
!iconv -f EUR-KR -t UTF-8 filename.txt | head -3
이렇게 해주면 한글도 정상적으로 잘 보인다.
반응형
'Python, PySpark' 카테고리의 다른 글
PCA와 PLS 차이점(챗지피티 설명) (0) | 2024.09.21 |
---|---|
파이토치 CNN 분석 (2) | 2024.08.28 |
Python 매월 첫 날짜, 마지막 날짜 (0) | 2024.05.29 |
pm4py (0) | 2023.10.31 |
2개의 다른 Decision Tree 의 Feature Importance 수기로 계산하기 (0) | 2023.10.23 |