Как расположена буква е в кодировках
Перейти к содержимому

Как расположена буква е в кодировках

  • автор:

Латинская строчная буква e с акутом é

Латинская строчная буква e с акутом. Дополнение к латинице — 1.

Символ «Латинская строчная буква e с акутом» входит в Подраздел «Буквы» Раздела «Дополнение к латинице — 1» и был утвержден как часть Юникода версии 1.1 в 1993 г.

Название в Юникоде Latin Small Letter E with Acute
Номер в Юникоде U+00E9
HTML -код é
CSS-код \00E9
Мнемоника é
Раздел Юникода Дополнение к латинице — 1
Подраздел Юникода Буквы
Прописная É
Версия Юникода 1.1 (1993)
Версия 1.1
Блок Дополнение к латинице — 1
Тип парной зеркальной скобки (bidi) Нет
Композиционное исключение Нет
Изменение регистра 00E9
Простое изменение регистра 00E9
Кодировка hex dec (bytes) dec binary
UTF-8 C3 A9 195 169 50089 11000011 10101001
UTF-16BE 00 E9 0 233 233 00000000 11101001
UTF-16LE E9 00 233 0 59648 11101001 00000000
UTF-32BE 00 00 00 E9 0 0 0 233 233 00000000 00000000 00000000 11101001
UTF-32LE E9 00 00 00 233 0 0 0 3909091328 11101001 00000000 00000000 00000000

Подборки с этим символом

Все изображения Emoji и символов на сайте предназначены исключительно для информационных целей, права принадлежат их авторам и не могут быть использованы для коммерческих целей без их согласия.

Все названия символов являются официальными названиями Юникод®. Указанные номера символов являются частью стандарта Юникод.

Как расположена буква е в кодировках

БлогNot. Таблица кодов кириллицы в Unicode, UTF-8 и Windows-1251

Таблица кодов кириллицы в Unicode, UTF-8 и Windows-1251

Во-первых, напомню, что Юникод — не кодировка, а стандарт кодирования, кодировки — это UTF-8, UTF-16 и т.д., но, в силу инерции, разработчики и пользователи часто говорят о «кодировке Юникод», имея в виду распространённую именно в их деревне форму представления символов 🙂

Во-вторых, на самом деле кодирование там довольно замудрённое, возьмём, скажем русскую заглавную «Ж».

Представляемые в Юникоде символы кодируются целыми числами без знака, их можно называть «кодами символов Unicode».

Так, для буквы «Ж» Unicode = 104610 или 041616 или 10000 0101102. Unicode в двоичном виде разбивается на две части: пять левых бит и шесть правых. Левая часть в старших разрядах дополняется до байта признаком 110 двухбайтного кода UTF-8, получаем 11010000. К правой части в старших разрядах приписываются два бита 10 признака продолжения многобайтного кода, получаем 10010110. Окончательно код буквы «Ж» в UTF-8 будет иметь вид 11010000 100101102 или D0 9616.

Именно последний код мы увидим в любом 16-ричном вьюере файла, например, создав в текстовом редакторе файл со словом «Жора» и сохранив его в UTF-8 (только не из Блокнотика Windows, который добавит в начало файла 3-байтовую метку BOM):

просмотр файла в 16-ричном виде из Far Manager
просмотр файла в 16-ричном виде из Far Manager

То есть, каждая буква кодируется как бы дважды, сначала в 11-битный Unicode, затем в 16-битный UTF-8.

Ниже приведена таблица кодов кириллицы в Unicode, UTF-8 и однобайтовой кодировке Windows-1251.

Таблица кодов windows 1251 для русских букв

Во-первых, напомню, что Юникод — не кодировка, а стандарт кодирования, кодировки — это UTF-8, UTF-16 и т.д., но, в силу инерции, разработчики и пользователи часто говорят о «кодировке Юникод», имея в виду распространённую именно в их деревне форму представления символов ��

Во-вторых, на самом деле кодирование там довольно замудрённое, возьмём, скажем русскую заглавную «Ж».

Представляемые в Юникоде символы кодируются целыми числами без знака, их можно называть «кодами символов Unicode».

Так, для буквы «Ж» Unicode = 104610 или 041616 или 10000 0101102. Unicode в двоичном виде разбивается на две части: пять левых бит и шесть правых. Левая часть в старших разрядах дополняется до байта признаком 110 двухбайтного кода UTF-8, получаем 11010000. К правой части в старших разрядах приписываются два бита 10 признака продолжения многобайтного кода, получаем 10010110. Окончательно код буквы «Ж» в UTF-8 будет иметь вид 11010000 100101102 или D0 9616.

Именно последний код мы увидим в любом 16-ричном вьюере файла, например, создав в текстовом редакторе файл со словом «Жора» и сохранив его в UTF-8 (только не из Блокнотика Windows, который добавит в начало файла 3-байтовую метку BOM):

То есть, каждая буква кодируется как бы дважды, сначала в 11-битный Unicode, затем в 16-битный UTF-8.

Ниже приведена таблица кодов кириллицы в Unicode, UTF-8 и однобайтовой кодировке Windows-1251.

23.09.2018, 12:37; рейтинг: 30197

Таблицы кодировок ASCII, CP1251 (windows1251), ISO-8859-5

Таблица ASCII

Таблица ASCII (American standard code for information interchange) является мировым стандартом для кодирования букв английского алфавита, популярных спец символов (! $ # % & и т.д.) и некоторых непечатных символов (например, возврат каретки 0x0D и перенос строки 0х0А).

Таблица создавалась те времена, когда возникла необходимость связать символы и числа. А такое соответствие необходимо было для того что бы с помощью чисел можно было передать текстовое сообщение между разными устройствами с цифровой связью.

Таблица CP1251 (windows-1251)

Эта кодировочная таблица может называться или CP1251 или Windows-1251 Это стандарт кодирования кириллических символов в операционных системах windows с русскоязычным интерфейсом.

Первая часть этой таблицы (до байта 0x7F) повторяет таблицу ASCII, а вторая часть (от 0x80 до 0xFF) кодирует кириллические символы в алфавитном порядке.

Таблица IS0-8859-5

Эта кодировка применяется в дисплеях Nextion для кодирования кириллических символов.

Стоит обратить внимание, что в данной таблице кириллические символы расположены в алфавитном порядке и сдвинуты ровно на 16 байт по сравнению с кодировочной таблицей windows-1251.

Кодировка UTF-8
(Unicode Transformation Format)

Очень распространенный формат кодирования символов, позволяющий кодировать символы переменным количеством байт.

Например, если для кодирования номера символа требуется 21 бит, то используется 4 байта для кодировки. Если для кодирования достаточно 11 бит, то используют 2 байта. А если номер символа может быть закодирован 7 битами, то используется один байт.

Все ASCII символы в кодировке UTF8 закодированы без изменений, то есть 1 байтом, как в стандартной таблице ASCII.

https://amdy.su/wp-admin/options-general.php?page=ad-inserter.php#tab-8

А вот остальные символы закодированы количеством байт от 2 до 4.

Кириллические символы закодированы двумя байтами.

Кодирование текстовой информации

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа «=», «(«, «&» и т.п. и даже (обратите особое внимание!) пробелы между словами. Да, не удивляйтесь: пустое место в тексте тоже должно иметь свое обозначение.

Вспомним некоторые известные нам факты:

Множество символов, с помощью которых записывается текст, называется алфавитом.

Число символов в алфавите – это его мощность.

Формула определения количества информации: N = 2 b ,

где N – мощность алфавита (количество символов),

b – количество бит (информационный вес символа).

В алфавит мощностью 256 символов можно поместить практически все необходимые символы. Такой алфавит называется достаточным.

Т.к. 256 = 2 8 , то вес 1 символа – 8 бит.

Единице измерения 8 бит присвоили название 1 байт:

Двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.

Каким же образом текстовая информация представлена в памяти компьютера?

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер — по их коду.

Удобство побайтового кодирования символов очевидно, поскольку байт — наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу.

Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

Международным стандартом для ПК стала таблица ASCII (читается аски) (Американский стандартный код для информационного обмена).

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Порядковый номер

Символ

0 — 31

00000000 — 00011111

Символы с номерами от 0 до 31 принято называть управляющими.
Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

32 — 127

00100000 — 01111111

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.
Символ 32 — пробел, т.е. пустая позиция в тексте.
Все остальные отражаются определенными знаками.

128 — 255

10000000 — 11111111

Альтернативная часть таблицы (русская).
Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.
Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

Первая половина таблицы кодов ASCII

Обращаю ваше внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

Вторая половина таблицы кодов ASCII

К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией, 8-битный»). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 («CP» означает «Code Page», «кодовая страница»).

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251.

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode. Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Ё моЁ почему Ё находится не на своЁм месте Ё?

Ё моЁ почему Ё находится не на своЁм месте Ё? ⇐ За Ё!

Модератор: Коровка

Сообщение Vladimir NN » 16 авг 2018, 16:23

Сообщение Марго » 17 авг 2018, 13:46

Сообщение daslex » 18 авг 2018, 13:57

Филологи, конечно, очень грешны в навязчивости отрицаемой ими, в том числе их влияние очень сильно поспособствовало отсутствию «ё» на первых клавиатурах и решению не выделять отдельный код этой букве, но само то решение — это решение именно программистов, и не по указке филологов.

Первые русские кодировки KOI-7 располагались в таблице, умещающей 128 символов (7 бит, 2⁷ = 128 символов) , в те времена игнорировали «ё». Оправдывалось это элементарной экономией места. Ради одного символа расширять таблицу до 256 символов (255 из которых пустые) (8 бит, 2⁸ = 256 символов) не солидно. Кроме русского алфавита в таблице занимают места и латинские символы, и спецзнаки. Да и просто алфавит из 32 символов достаточно символично для программиста, ведь число 32 — это 5 бит (2⁵). Дальше всё пошло по накатанной, и вместо того, чтобы всё поменять, исправить недостаток: вписать эту «ё» в стройный ряд букв, решено было оставлять что есть как есть, так и оставили этот хвост, оправдывая тогда это тем, что из-за изменения в кодировке написанные программы могут засбоить. Думали о сопровождении ПО, но не думали, что будет очень резкий скачок и всё очень скоро устареет. Теперь по традиции в любой кодировке «ё» отщепенец.

Экономия некоторых символов и букв была распространённой традицией, которая прослеживалась с момента создания пишущих машинок.

Сообщение Vladimir NN » 18 авг 2018, 15:12

Сообщение daslex » 18 авг 2018, 16:02

А что на клавиатуре? Были разные клавиатуры, в разных местах бывала.

И при чём тут клавиатура, другие буквы алфавита на клавиатуре все на «странных» местах.

Сообщение Vladimir NN » 18 авг 2018, 18:19

Сообщение Vladimir NN » 18 авг 2018, 19:50

Сообщение daslex » 18 авг 2018, 20:40

Когда был принят первый стандартный набор символов, тогда буквы «ё» не было, от того стандарта все пляски.

Отправлено спустя 31 минуту 9 секунд:
Экскурс в историю.

Раскладку придумали в США в конце XIX века (в России производство собственных пишущих машинок было налажено только к 1930-м годам). Конструкция печатающего узла была достаточно отработана, и важнейшие буквы расположили под указательными пальцами — в отличие от QWERTY. В то время раскладка официально называлась «стандард-клавиатура». До середины 50-х годов XX века русскую раскладку вернее было называть ЙІУКЕН, так как после реформы орфографии, когда, в частности, из алфавита был исключен ряд букв, раскладка приняла современный вид не сразу. Буквы Ц и Э размещались среди цифр, а цифры 0, 1 и 3 вообще отсутствовали, так как считалось, что их можно заменить буквами О, І и З.

Экономия некоторых символов и букв была распространённой традицией, которая прослеживалась с момента создания пишущих машинок. В русских раскладках зачастую экономили букву Ё, точку с запятой, звёздочку, скобки. При этом часть знаков заменялась внешне схожими, как это было с цифрами 0, 1, 3; другую часть получали так называемым «составным методом», заключавшимся в том, что несколько знаков печатались друг поверх друга.

Как известно, компьютерные клавиатуры берут своё начало от клавиатур пишущих машинок. На русских печатающих машинках буква ё занимала место справа в нижнем ряду, около буквы ю.

На стандартной русской клавиатуре для IBM PC-совместимых компьютеров ё заняла довольно странное место, вдали от остальных букв: в самом левом краю ряда с цифрами. На той же клавише, где в английской раскладке находятся знаки «`» (гравис) и «

Особенности существования ё в различных кодировках символов в основном определяются двумя факторами:

Уже упомянутая необязательность использования буквы, приводящая к тому, что часто необязательным считалось даже выделить под букву отдельный код (этой участи удостоилась также буква ъ).
Размер полного русского алфавита — 33 буквы — всего на единицу превышает ближайшую, пятую, степень двойки 32 („сакральный“ ряд для современной вычислительной техники: 1, 2, 2²=4, 2³=8. ). Это породило великий соблазн выкинуть одну букву и уложить-таки весь алфавит в 32 кода.

В ранних компьютерных кодировках буква ё частенько отсутствовала, например в КОИ-7.

Во многих остальных кодировках оказывалось, что остальные 32 буквы компактно уложены в пространство кодов двумя группами по 32 (заглавные и строчные), а ё оказалась неприкаянной, ей отводилось отдельное место вне основной группы букв кириллицы, и частенько блуждала даже внутри одной кодировки, порождая семейство чуть-чуть различающихся кодировок. Не избежала участи быть изгоем буква ё даже в кодировке «Unicode».

Из того, что ещё мной не было сказано, это то, что очень много людей умели и умеют печатать слепым методом и внедрение буквы «ё» вовнутрь привычного строя было бы им своего рода чувствительной пакостью. При наборе текста слепым десятипальцевым методом периферия клавиатуры жмётся мизинцами, и потому туда вынесены самые редко употребляемые буквы. Так что и тогдашнее, и нынешнее положение в общем равноценны. Раньше было справа внизу, теперь слева вверху. Редкость употребления — это упомянутое мной вмешательство филологов и тех, кто очень пытался побыть филологом, сказалось. Вопросом, какой мизинец для буквы удобнее, никто не задавался.

С вашего позволения, некоторые разговоры программистов приводить не буду, они непосвящённым (включая меня как непосвящённого в специфику) непонятны.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *