Кодировка Windows-1251

Unicode Transformation Format — формат преобразования Юникода) — кодировка, реализующая представление Юникода, совместимое с 8-битным кодированием текста.

Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. И наоборот, в тексте UTF-8 любой байт со значением меньше 128 изображает символ ASCII с тем же кодом. Остальные символы Юникода изображаются последовательностями длиной от 2 до 6 байтов (реально только до 4 байт, поскольку использование кодов больше 2²¹ не планируется), в которых первый байт всегда имеет вид 11xxxxxx, а остальные — 10xxxxxx.

Проще говоря, в формате UTF-8 символы латинского алфавита, знаки препинания и управляющие символы ASCII записываются кодами US-ASCII, a все остальные символы кодируются при помощи октетов со старшим битом 1. В результате, даже если программа не распознаёт Юникод, то английский язык и разметка всё равно будут отображаться правильно.

Формат UTF-8 был изобретён 2 сентября 1992 года Кеном Томпсоном и Робом Пайком. Сейчас стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D.

Символы UTF-8 получаются из Unicode следующим образом:

(теоретически возможны, но не включены в стандарт также:)

0x04000000 — 0x7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

В Юникоде для кириллицы выделено два раздела:

В Юникоде нет русских букв с ударением, но их можно делать составными, добавляя символ U+0301 («combining acute accent») после ударной гласной (например, ы́ э́ ю́ я́).

Кодировка Windows-1251 является стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Была создана на базе кодировок, использовавшихся в ранних «самопальных» русификаторах Windows в 1990—1991 гг.

Windows-1251 выгодно отличается от других кириллических кодировок наличием практически всех символов, использующихся в русской типографике для обычного текста (отсутствует только значок ударения); она также содержит все символы для украинского, белорусского, сербского и болгарского языков.

Ђ 402

Ѓ 403

‚ 201A

ѓ 453

„ 201E

… 2026

† 2020

‡ 2021

€ 20AC

‰ 2030

Љ 409

‹ 2039

Њ 40A

Ќ 40C

Ћ 40B

Џ 40F

ђ 452

‘ 2018

’ 2019

“ 201C

” 201D

• 2022

– 2013

— 2014

™ 2122

љ 459

› 203A

њ 45A

ќ 45C

ћ 45B

џ 45F

Ў 40E

ў 45E

Ј 408

¤ A4

Ґ 490

¦ A6

§ A7

Ё 401

Є 404

«AB

¬ AC

® AE

Ї 407

° B0

± B1

І 406

і 456

ґ 491

µ B5

¶ B6

· B7

ё 451

№ 2116

є 454

» BB

ј 458

Ѕ 405

ѕ 455

ї 457

А 410

Б 411

В 412

Г 413

Д 414

Е 415

Ж 416

З 417

И 418

Й 419

К 41A

Л 41B

М 41C

Н 41D

О 41E

П 41F

Р 420

С 421

Т 422

У 423

Ф 424

Х 425

Ц 426

Ч 427

Ш 428

Щ 429

Ъ 42A

Ы 42B

Ь 42C

Э 42D

Ю 42E

Я 42F

а 430

б 431

в 432

г 433

д 434

е 435

ж 436

з 437

и 438

й 439

к 43A

л 43B

м 43C

н 43D

о 43E

п 43F

р 440

с 441

т 442

у 443

ф 444

х 445

ц 446

ч 447

ш 448

щ 449

ъ 44A

ы 44B

ь 44C

э 44D

ю 44E

я 44F

Следующие таблицы содержат все допустимые значения параметра charset в метаописателе HTML-документов <META http-equiv="Content-Type" content="text/html; charset=идентификатор"> и в атрибуте encoding пролога XML-документов. Для каждой кодировки приведены ее название, рекомендуемый в MIME идентификатор, допустимые синонимы этого идентификатора и номер соответствующей кодовой страницы в Windows.

См. также WDH+: О кодировках символов и Unicode и письменности мира.

Таблица П7.1. Стандартные кодировки символов
Наименование	Идентификатор	Синонимы	Кодовая страница
Unicode (UTF-7)	utf-7	csUnicode11UTF7, unicode-utf_7, unicode-1-1-utf-7, unicode-2-0-utf-7, x-unicode-2-0-utf-7
Unicode (UTF-8)	utf-8	unicode-utf_8, unicode-utf_8-1_1, unicode-1-1-utf-8, unicode-2-0-utf-8, x-unicode-2-0-utf-8
Unicode (UTF-16)	unicode-utf_16	csUnicode11, csUnicodeASCII, csUnicodeLatin1, ISO-10646-UCS-2, ISO-10646-UCS-BASIC, ISO-10646-Unicode-Latin1, ISO-10646, ISO-10646-J-1, unicode-utf_16-1.1
Unicode (UTF-32)	unicode-utf_32	ISO-10646-UCS-4
Арабский (ASMO 708)	ASMO-708
Арабский (DOS)	DOS-720
Арабский (ISO)	iso-8859-6	csISOLatinArabic, iso-ir-127, ISO_8859-6, ISO_8859-6:1987, iso-8859_6-1999, ECMA-114, arabic
Арабский (Windows)	windows-1256	cp1256, windows-1256-2000
Балтийские языки (Latin-4)	iso-8859-4	csISOLatin4, iso-ir-110, ISO_8859-4, ISO_8859-4:1988, iso-8859_4-1988, l4, latin4
Балтийские языки (Windows)	windows-1257	windows-1257-2000
Вьетнамский (Windows)	windows-1258	windows-1258-2000
Греческий (ISO)	iso-8859-7	csISOLatinGreek, iso-ir-126, ISO_8859-7, ISO_8859-7:1987, iso-8859_7-1987, ECMA-118, ELOT_928, greek, greek8
Греческий (Windows)	windows-1253	windows-1253-2000, x-cp1253
Европа (Latin-3)	iso-8859-3	iso-8859_3-1999
Европа (Latin-6)	iso-8859-10	iso-8859_10-1999
Европа (Latin-7)	iso-8859-13	iso-8859_13-1999
Европа (Latin-9)	iso-8859-15	iso-8859_15-1999
Западная Европа (ASCII)	us-ascii	ANSI_X3.4-1968, ANSI_X3.4-1986, cp367, csASCII, IBM367, iso-ir-6, ISO646-US, ISO_646.irv:1991, ascii, us, us-ascii-1968, x-ansi
Западная Европа (Latin-1)	iso-8859-1	cp819, ibm819, iso-ir-100, iso8859-1, iso_8859-1, iso_8859-1:1987, iso-8859_1-1998, ISO-8859-1-Windows-3.0-Latin-1, ISO-8859-1-Windows-3.1-Latin-1, latin1, l1
Западная Европа (Mac)	mac-roman-2000	x-mac-roman
Западная Европа (Windows)	windows-1252
Иврит (DOS)	DOS-862
Иврит (ISO–визуальный)	iso-8859-8	csISOLatinHebrew, iso-ir-138, ISO_8859-8, iso-8859_8-1999, ISO-8859-8 Visual, visual, hebrew
Иврит (ISO–логический)	iso-8859-8-i
Иврит (Windows)	windows-1255	ISO_8859-8:1988, iso-ir-138, logical, windows-1255-2000
Кельтские языки (Latin-8)	iso-8859-14	iso-8859_14-1999
Кириллица (DOS)	cp866	ibm866
Кириллица (ISO)	iso-8859-5	csISOLatinCyrillic, iso-ir-144, ISO_8859-5, ISO_8859-5:1988, iso-8859_5-1999, cyrillic
Кириллица (Mac)	mac-cyrillic-2000	x-mac-cyrillic
Кириллица (Windows)	windows-1251	csWindows31Latin5, iso-8859-5-windows-latin-5, windows-1251-2000, x-cp1251
Кириллица (КОИ8-Р)	koi8-r	csKOI8R, koi, ru-koi8_r-2000
Китайский – традиционное письмо (EUC)	x-euc-tw	osf-euc_tw-2000
Китайский – традиционное письмо (Windows)	big5	csBig5, CN-Big5, windows-950, windows-950-2000, x-x-big5
Китайский – упрощенное письмо (GB2312)	gb2312	csGB2312, csISO58GB23128, iso-ir-58, GB2312, GBK, GB_2312-80, gb-3212-2000, chinese, CN-GB, CN-GB-ISOIR165
Китайский – упрощенное письмо (HZ)	hz-gb-2312
Корейский (EUC)	euc-kr	csEUCKR, ks_c_5601, kcs5601, osf-euc_kr-2000
Корейский (ISO)	iso-2022-kr	csISO2022KR, posix-2022_kr
Корейский (Windows)	ks_c_5601-1987	csKSC56011987, korean, windows-949, windows-949-2000
Тайский (Windows)	iso-8859-11	windows-874, windows-874-2000
Турецкий (ISO)	iso-8859-9	csISOLatin5, iso-ir-148, l5, ISO_8859-9, ISO_8859-9:1989, iso-8859_9-1999, latin5
Турецкий (Windows)	windows-1254	windows-1254-2000, x-cp1254
Украинский (КОИ8-У)	koi8-u
Центральная Европа (DOS)	ibm852	cp852
Центральная Европа (Latin-2)	iso-8859-2	csISOLatin2, iso-ir-101, iso8859-2, iso_8859-2, iso_8859-2:1987, iso_8859_2-1999, ISO-8859-2-Windows-Latin-2, l2, latin2
Центральная Европа (Mac)	mac-ce-2000	x-mac-ce
Центральная Европа (Windows)	windows-1250	x-cp1250
Японский (EUC)	euc-jp	csEUCPkdFmtJapanese, Extended_UNIX_Code_Packed_Format_for_Japanese, osf-euc_jp-2000, x-euc, x-euc-jp
Японский (JIS)	iso-2022-jp	csISO2022JP, csISO2022JP2, iso-2022-jp-2, posix-2022_jp-2000
Японский (JIS – допускающий однобайтовую кану – SO/SI)	iso-2022-jp	csISO2022JP, _iso-2022-jp$SIO
Японский (JIS – допускающий однобайтовую кану)	csISO2022JP	_iso-2022-jp$ESC
Японский (Windows)	shift_jis	csShiftJIS, csWindows31J, ms_Kanji, shift-jis, x-ms-cp932, x-sjis, Windows-31J, windows-932-2000

Таблица П7.2. Нестандартные кодировки символов в Internet Explorer
Наименование	Идентификатор	Кодовая страница
Unicode	unicode
Unicode (левый байт старший)	unicodeFEFF
Определенный пользователем	x-user-defined
Автоматический выбор	_autodetect_all
Корейский (автовыбор)	_autodetect_kr
Японский (автовыбор)	_autodetect