출처 : https://www.youtube.com/watch?v=ABPOjjre0C8
제목 : 문자 인코딩 초간단 개념 정리 (UTF-8, 아스키, 유니코드...)
뷁갌앓젏. 살다보면 이런글자를 많이보고 아까도 CSV파일을 여는데 파일 글자가 깨져서 검색후 찾아보게됨.
영상 요약 :
'문자표'라는 개념을 먼저 이해해야된다.
기계끼리는 당연히 숫자로 이야기한다. 그래서 한글로 print하려면 숫자로 말해줘야된다.
ex) '1이 입력되면 '가'라는 글자를 모니터에 print시켜라' 처럼. 근데 컴퓨터끼리도 말이 다를 수 있어서 이걸 표준화시켜야되는데 이게 '문자표'
아스키코드(문자표)같은 초창기때만해도 영어만썼고 개발자들이 많지않아서 표준화하기 쉬웠는데, 이젠 언어도 많아지고 개발자들도 많아져서 통일하기가 점차힘들어짐. 여기서 표준화한거랑 저기서 표준화한거랑 서로 다르게 됐음.
그리고 영어는 1byte, 한글은 2byte, 특수문자는 3byte등 좀 복잡해짐. 그래서 '해당표식앞에는 무조건 1byte로 읽어라' 같은 약속을 하는데 이게 '인코딩'
인코딩도 보면 UTF-8, UTF-16 등등 종류가 다양하고 UTF-8로 읽어야 되는걸 UTF-16으로 읽어버리면 앞의 예시처럼 글자가 깨지게되는것
한국인 대부분 한글윈도우를 사용하고 인코딩 방식이 ECU-KR인데 대부분 웹에서는 UTF-8을 사용함.
파이썬 html 코드 공부할때 계속 매개변수(Parameter)에 왜 encoding=UTF-8을 넣는지 이제 이해가됨.
++추가
출처: https://www.youtube.com/watch?v=1jo6q4dihoU
아스키코드는 문자표, UTF-8은 그걸 읽어내는 인코딩 방식.
유니코드의 각 문자마다있는 숫자(이진법같은)를 어떤 방식으로 컴퓨터에다가 0으로 1로 집어넣는거를 결정하는 게
인코딩 방식이다. UTF-8은 그것중에 하나. UTF-8은 가장 보편적으로 사용돼서 대부분 이걸로 하면 맞는다.
'파이썬 > 코딩 영어단어공부' 카테고리의 다른 글
스칼라 scalar (0) | 2022.06.24 |
---|---|
Pandas DataFrame : apply 해석 (0) | 2022.06.22 |
Pandas : pd.to_timedelta 함수 (0) | 2022.06.20 |
Parameter(매개변수),Argument(인자) : 정의와 차이점 (0) | 2022.06.18 |
Feature : 머신러닝 (0) | 2022.06.17 |