컴퓨터 일반

자막 파일/텍스트 파일 한글 깨질 때 (EUC-KR -> UTF-8 변환)

Folivora 2020. 1. 10. 08:16

 

EUC-KR로 인코딩된 파일을 열었을 때 한글 깨짐 현상

 

안녕하세요. 가끔 자막이나 한글 텍스트 파일을 열면 위와 같이 한글이 깨져서 표시되곤 하는데요. 이는 문서가 예전 방식인 EUC-KR으로 인코딩 되었기 때문입니다. 이를 해결하기 위한 방법으로는 (1) 현존하는 모든 다국어(emoji 포함)를 지원하는 유니코드 (UTF-8) 형식으로 변환하거나 (2) 프로그램이나 OS의 인코딩 설정을 EUC-KR으로 맞추는 방법들이 있습니다. 그러나 EUC-KR은 다른 다국어 인코딩 방식과 잘 호환이 되지 않습니다. 텍스트 인코딩과 관련해서는 https://folivora.tistory.com/19에서 조금 더 자세하게 설명을 해보았습니다.

 

리눅스나 맥 환경에서는 iconv 명령어로 텍스트 인코딩을 변환할 수 있는데요. 

 

$ cat <파일 이름> | iconv -f euc-kr -t utf-8

윈도우 컴퓨터에서는 iconv가 없고, 타이핑 치는 것이 너무너무 귀찮아서 웹사이트를 예전에 하나 만들었었습니다. 개발 공부하는데도 도움이 많이 되었고요.


::주소입니다::
https://fix-encoding.com/index.ko.php

 

 

 

사이트에 들어가면 처음 보여지는 화면

 

 

변환을 원하는 파일을 드래그 앤 드랍으로 끌어놓거나 아니면 찾아보기 버튼을 눌러 업로드하면, 사이트에서 자동으로 인코딩을 판별하여 유니코드(UTF-8)로 변환해줍니다. 인코딩을 판별하기 위해 chardetect라는 파이썬 라이브러리를 사용하였습니다. 신뢰도도 같이 표기가 되고요.

 

 

신뢰도가 1은 아니지만 EUC-KR로 판별이 되었고, 변환이 성공적으로 이뤄진 것을 확인할 수 있습니다. 파일을 다 받은 다음에는 "즉시 삭제" 버튼을 눌러주세요. 삭제 버튼을 누르지 않더라도 임시로 저장된 파일은 자동으로 삭제가 됩니다.

 

변환이 완료된 파일 (유니코드 UTF-8로 인코딩되었습니다)