Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Кодировка Windows-1251

Кодировка Windows-1251

UTF-8

Unicode Transformation Format — формат преобразования Юникода) — кодировка, реализующая представление Юникода, совместимое с 8-битным кодированием текста.

Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. И наоборот, в тексте UTF-8 любой байт со значением меньше 128 изображает символ ASCII с тем же кодом. Остальные символы Юникода изображаются последовательностями длиной от 2 до 6 байтов (реально только до 4 байт, поскольку использование кодов больше 221 не планируется), в которых первый байт всегда имеет вид 11xxxxxx, а остальные — 10xxxxxx.

Проще говоря, в формате UTF-8 символы латинского алфавита, знаки препинания и управляющие символы ASCII записываются кодами US-ASCII, a все остальные символы кодируются при помощи октетов со старшим битом 1. В результате, даже если программа не распознаёт Юникод, то английский язык и разметка всё равно будут отображаться правильно.

Формат UTF-8 был изобретён 2 сентября 1992 года Кеном Томпсоном и Робом Пайком. Сейчас стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D.

Символы UTF-8 получаются из Unicode следующим образом:

Unicode UTF-8

0x00000000 — 0x0000007F: 0xxxxxxx

0x00000080 — 0x000007FF: 110xxxxx 10xxxxxx

0x00000800 — 0x0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx

0x00010000 — 0x001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

(теоретически возможны, но не включены в стандарт также:)

0x00200000 — 0x03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

0x04000000 — 0x7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

В Юникоде для кириллицы выделено два раздела:

  1. Cyrillic (U+0400 — U+04FF)
  2. Cyrillic Supplement (U+0500 — U+052F).

Символы можно разделить на 3 группы:

  1. U+0400 — U+045F — это символы из ISO 8859-5, но перемещённые вверх на 864 позиции (36016).
  2. U+0460 — U+0489 — исторические буквы.
  3. U+048A — U+052F — это дополнительные буквы для разных языков, использующих кириллицу.

В Юникоде нет русских букв с ударением, но их можно делать составными, добавляя символ U+0301 («combining acute accent») после ударной гласной (например, ы́ э́ ю́ я́).

Кодировка Windows-1251 является стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Была создана на базе кодировок, использовавшихся в ранних «самопальных» русификаторах Windows в 1990—1991 гг.

Windows-1251 выгодно отличается от других кириллических кодировок наличием практически всех символов, использующихся в русской типографике для обычного текста (отсутствует только значок ударения); она также содержит все символы для украинского, белорусского, сербского и болгарского языков.

  .0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
8. Ђ 402 Ѓ 403 ‚ 201A ѓ 453 „ 201E … 2026 † 2020 ‡ 2021 € 20AC ‰ 2030 Љ 409 ‹ 2039 Њ 40A Ќ 40C Ћ 40B Џ 40F
9. ђ 452 ‘ 2018 ’ 2019 “ 201C ” 201D • 2022 – 2013 — 2014   ™ 2122 љ 459 › 203A њ 45A ќ 45C ћ 45B џ 45F
A. A0 Ў 40E ў 45E Ј 408 ¤ A4 Ґ 490 ¦ A6 § A7 Ё 401 © A9 Є 404 «AB ¬ AC ­ AD ® AE Ї 407
B. ° B0 ± B1 І 406 і 456 ґ 491 µ B5 ¶ B6 · B7 ё 451 № 2116 є 454 » BB ј 458 Ѕ 405 ѕ 455 ї 457
C. А 410 Б 411 В 412 Г 413 Д 414 Е 415 Ж 416 З 417 И 418 Й 419 К 41A Л 41B М 41C Н 41D О 41E П 41F
D. Р 420 С 421 Т 422 У 423 Ф 424 Х 425 Ц 426 Ч 427 Ш 428 Щ 429 Ъ 42A Ы 42B Ь 42C Э 42D Ю 42E Я 42F
E. а 430 б 431 в 432 г 433 д 434 е 435 ж 436 з 437 и 438 й 439 к 43A л 43B м 43C н 43D о 43E п 43F
F. р 440 с 441 т 442 у 443 ф 444 х 445 ц 446 ч 447 ш 448 щ 449 ъ 44A ы 44B ь 44C э 44D ю 44E я 44F

Приложение:

Следующие таблицы содержат все допустимые значения параметра charset в метаописателе HTML-документов <META http-equiv="Content-Type" content="text/html; charset=идентификатор"> и в атрибуте encoding пролога XML-документов. Для каждой кодировки приведены ее название, рекомендуемый в MIME идентификатор, допустимые синонимы этого идентификатора и номер соответствующей кодовой страницы в Windows. См. также WDH+: О кодировках символов и Unicode и письменности мира.
Таблица П7.1. Стандартные кодировки символов
Наименование Идентификатор Синонимы Кодовая страница
Unicode (UTF-7) utf-7 csUnicode11UTF7, unicode-utf_7, unicode-1-1-utf-7, unicode-2-0-utf-7, x-unicode-2-0-utf-7  
Unicode (UTF-8) utf-8 unicode-utf_8, unicode-utf_8-1_1, unicode-1-1-utf-8, unicode-2-0-utf-8, x-unicode-2-0-utf-8  
Unicode (UTF-16) unicode-utf_16 csUnicode11, csUnicodeASCII, csUnicodeLatin1, ISO-10646-UCS-2, ISO-10646-UCS-BASIC, ISO-10646-Unicode-Latin1, ISO-10646, ISO-10646-J-1, unicode-utf_16-1.1  
Unicode (UTF-32) unicode-utf_32 ISO-10646-UCS-4  
Арабский (ASMO 708) ASMO-708    
Арабский (DOS) DOS-720    
Арабский (ISO) iso-8859-6 csISOLatinArabic, iso-ir-127, ISO_8859-6, ISO_8859-6:1987, iso-8859_6-1999, ECMA-114, arabic  
Арабский (Windows) windows-1256 cp1256, windows-1256-2000  
Балтийские языки (Latin-4) iso-8859-4 csISOLatin4, iso-ir-110, ISO_8859-4, ISO_8859-4:1988, iso-8859_4-1988, l4, latin4  
Балтийские языки (Windows) windows-1257 windows-1257-2000  
Вьетнамский (Windows) windows-1258 windows-1258-2000  
Греческий (ISO) iso-8859-7 csISOLatinGreek, iso-ir-126, ISO_8859-7, ISO_8859-7:1987, iso-8859_7-1987, ECMA-118, ELOT_928, greek, greek8  
Греческий (Windows) windows-1253 windows-1253-2000, x-cp1253  
Европа (Latin-3) iso-8859-3 iso-8859_3-1999  
Европа (Latin-6) iso-8859-10 iso-8859_10-1999  
Европа (Latin-7) iso-8859-13 iso-8859_13-1999  
Европа (Latin-9) iso-8859-15 iso-8859_15-1999  
Западная Европа (ASCII) us-ascii ANSI_X3.4-1968, ANSI_X3.4-1986, cp367, csASCII, IBM367, iso-ir-6, ISO646-US, ISO_646.irv:1991, ascii, us, us-ascii-1968, x-ansi  
Западная Европа (Latin-1) iso-8859-1 cp819, ibm819, iso-ir-100, iso8859-1, iso_8859-1, iso_8859-1:1987, iso-8859_1-1998, ISO-8859-1-Windows-3.0-Latin-1, ISO-8859-1-Windows-3.1-Latin-1, latin1, l1  
Западная Европа (Mac) mac-roman-2000 x-mac-roman  
Западная Европа (Windows) windows-1252    
Иврит (DOS) DOS-862    
Иврит (ISO–визуальный) iso-8859-8 csISOLatinHebrew, iso-ir-138, ISO_8859-8, iso-8859_8-1999, ISO-8859-8 Visual, visual, hebrew  
Иврит (ISO–логический) iso-8859-8-i    
Иврит (Windows) windows-1255 ISO_8859-8:1988, iso-ir-138, logical, windows-1255-2000  
Кельтские языки (Latin-8) iso-8859-14 iso-8859_14-1999  
Кириллица (DOS) cp866 ibm866  
Кириллица (ISO) iso-8859-5 csISOLatinCyrillic, iso-ir-144, ISO_8859-5, ISO_8859-5:1988, iso-8859_5-1999, cyrillic  
Кириллица (Mac) mac-cyrillic-2000 x-mac-cyrillic  
Кириллица (Windows) windows-1251 csWindows31Latin5, iso-8859-5-windows-latin-5, windows-1251-2000, x-cp1251  
Кириллица (КОИ8-Р) koi8-r csKOI8R, koi, ru-koi8_r-2000  
Китайский – традиционное письмо (EUC) x-euc-tw osf-euc_tw-2000  
Китайский – традиционное письмо (Windows) big5 csBig5, CN-Big5, windows-950, windows-950-2000, x-x-big5  
Китайский – упрощенное письмо (GB2312) gb2312 csGB2312, csISO58GB23128, iso-ir-58, GB2312, GBK, GB_2312-80, gb-3212-2000, chinese, CN-GB, CN-GB-ISOIR165  
Китайский – упрощенное письмо (HZ) hz-gb-2312    
Корейский (EUC) euc-kr csEUCKR, ks_c_5601, kcs5601, osf-euc_kr-2000  
Корейский (ISO) iso-2022-kr csISO2022KR, posix-2022_kr  
Корейский (Windows) ks_c_5601-1987 csKSC56011987, korean, windows-949, windows-949-2000  
Тайский (Windows) iso-8859-11 windows-874, windows-874-2000  
Турецкий (ISO) iso-8859-9 csISOLatin5, iso-ir-148, l5, ISO_8859-9, ISO_8859-9:1989, iso-8859_9-1999, latin5  
Турецкий (Windows) windows-1254 windows-1254-2000, x-cp1254  
Украинский (КОИ8-У) koi8-u    
Центральная Европа (DOS) ibm852 cp852  
Центральная Европа (Latin-2) iso-8859-2 csISOLatin2, iso-ir-101, iso8859-2, iso_8859-2, iso_8859-2:1987, iso_8859_2-1999, ISO-8859-2-Windows-Latin-2, l2, latin2  
Центральная Европа (Mac) mac-ce-2000 x-mac-ce  
Центральная Европа (Windows) windows-1250 x-cp1250  
Японский (EUC) euc-jp csEUCPkdFmtJapanese, Extended_UNIX_Code_Packed_Format_for_Japanese, osf-euc_jp-2000, x-euc, x-euc-jp  
Японский (JIS) iso-2022-jp csISO2022JP, csISO2022JP2, iso-2022-jp-2, posix-2022_jp-2000  
Японский (JIS – допускающий однобайтовую кану – SO/SI) iso-2022-jp csISO2022JP, _iso-2022-jp$SIO  
Японский (JIS – допускающий однобайтовую кану) csISO2022JP _iso-2022-jp$ESC  
Японский (Windows) shift_jis csShiftJIS, csWindows31J, ms_Kanji, shift-jis, x-ms-cp932, x-sjis, Windows-31J, windows-932-2000  

 

Таблица П7.2. Нестандартные кодировки символов в Internet Explorer
Наименование Идентификатор Кодовая страница
Unicode unicode  
Unicode (левый байт старший) unicodeFEFF  
Определенный пользователем x-user-defined  
Автоматический выбор _autodetect_all  
Корейский (автовыбор) _autodetect_kr  
Японский (автовыбор) _autodetect  

 

 

 

<== предыдущая лекция | следующая лекция ==>
Кодировка KOI8-R | Особенности редактора формул
Поделиться с друзьями:


Дата добавления: 2014-01-05; Просмотров: 1296; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.009 сек.