1. 개요
2. 상세
UTF-8
| �
| �
| ||||
바이트
| EF
| BF
| BD
| EF
| BF
| BD
|
EUC-CN / GBK / CP936 / GB2312 / GB18030
| 锟
| 斤
| 拷
| |||
텍스트의 인코딩과 디코딩이 잘못됐을 때 생기는 것. 문서를 UTF-8로 저장하는 과정에서 뭔가 꼬여서 문서가 온전하게 저장되지 못하면 이렇게 된다.
문서를 UTF-8로 저장할 때, UTF-8에서 유효하지 않은 byte sequence는 모두 �[1]로 대체되는데, 이 �는 UTF-8에서 EF BF BD라는 세 바이트로 저장된다.
UTF-8에서 �가 두 번 붙은 ��는 EF BF BD / EF BF BD가 되는데, 이것을 EUC-CN이나 GBK, CP936, GB2312, GB18030으로 해석하면 EF BF / BD EF / BF BD로 나눠지고 셋은 각각 锟, 斤, 拷에 대응된다.
문서를 UTF-8로 저장할 때, UTF-8에서 유효하지 않은 byte sequence는 모두 �[1]로 대체되는데, 이 �는 UTF-8에서 EF BF BD라는 세 바이트로 저장된다.
UTF-8에서 �가 두 번 붙은 ��는 EF BF BD / EF BF BD가 되는데, 이것을 EUC-CN이나 GBK, CP936, GB2312, GB18030으로 해석하면 EF BF / BD EF / BF BD로 나눠지고 셋은 각각 锟, 斤, 拷에 대응된다.
3. 기타
4. 관련 문서
[1] U+FFFD, REPLACEMENT CHARACTER