3월, 2019의 게시물 표시

Mac에서 한글 깨어질 때는 한글 인코딩을 바꾸어보세요.

이미지
저는 맥을 주로 사용합니다. 아이폰과 함께 사용하다보니, 얼마전에도 PC를 바꿀 기회가 있었는데 또 맥을 선택했습니다. Window와 맥의 갈림길에서 기회가 있을 때마다 선택의 갈등을 겪는 일은 맥 사용자들은 누구나 경험해보았을 겁니다. 생각보다 쉽게 결정되지 않아 장시간 결정장애를 겪게 되었습니다. 그런 갈등을 하게 되는 이유 중의 첫번째가 한글 인코딩 문제인것 같습니다. 데이터 처리를 하기 위해서 주고받는 데이터 파일, 파이썬, R등에서 한글이 깨어짐을 해결하기 위해서 제법 많은 시간을 소비합니다. 제가 겪은 문제 몇가지는, excel의 데이터 파일, 파이썬 파일 로딩, R 파일로딩, R의 wordcrowd 폰트 문제 등 다양합니다. 하지만 문제의 핵심은 모두 같습니다. 바로 한글 인코딩 방법이 달라서 생깁니다. Windows는 대부분 완성형인 euc-kr나 cv949를 활용하고, 맥은 utf-8을 사용합니다. 파이썬이나 R의 default가 utf-8입니다만, windows에서 생성된 파일들은 euc-kr인 경우가 많습니다. 좀 배려깊으신 분이 맥사용자를 위해 utf-8로 파일 인코딩을 하셨거나, linux에서 생성된 파일인 경우는 대부분 utf-8이라봅니다. 방법1.  R에서 파일을 읽을 때 인코딩 옵션을 넣어줍니다.  test <- read.csv("./test.csv", fileEncoding = "euc-kr" )  파이썬에서는 아래와 같이 인코딩 옵션을 줍니다.  f = open('test.csv','r',encoding= 'euc-kr' ) 방법2.  아예 맥의 터미널 커맨드를 활용해서 파일 자체의 인코딩 방식을 바꾸어줍니다.  (맥 터미널은 Launch > 기타에서 아래 이미지를 클릭합니다.)  $프롬프트 상태에서 명령을 입력합니다.  $ iconv -c -f euc-kr -t utf-8 test.csv ...

Phython(파이썬) 자료형-숫자형,문자형

이미지
Python 자료형 중 숫자형과 문자형에 대해 요약해봅니다. 숫자형  사칙연산 +,-,*,/ 제곱연산 x**y 나머지 반환 8%3 -> 2 나눗셈 후 소수점 아랫자리 버림 7//4 -> 1  문자형 문자열 만들기 문자열 연산하기 텍스트 분석 전처리 시 아주 많이 사용하는 개행문자 없애기