Для кодирования символа в кодировке windows кои 8 отводится

Контрольная работа «Кодирование и обработка текста»

1 вариант

1. Для
представления текстовой информации достаточно:

а) 33
символа в) 256 символов

б) 128 символов
г) 1024 символа

2. Для
кодирования символа в кодировке Windows, КОИ-8 отводится:

а) 1
байт в) 8 байт

б) 1
бит г) 2 байта

3.
Редактирование – это …

4. При
форматировании страницы устанавливаются:

а)
Ориентация г) Поля ж) Отступы

б)
Начертание д) Цвет з) Гарнитура

в) Выравнивание
е) Размер

5. Абзацем
в текстовом редакторе является:

а) фрагмент
документа до нажаия клавиши Enter

б) выделенный
фрагмент документа

в) строка символов

г) фрагмент
документа, начинающийся с красной строки

6. К
форматированию символа НЕ относится:

а)
Гарнитура в) Выравнивание

б)
Начертание г) Размер

7. В каком
из перечисленных ниже предложений правильно расставлены пробелы между словами
и знаками препинания?

а) С родной
земли–умри, не сходи.

б) С родной
земли–умри , не сходи.

в) С родной земли –
умри, не сходи.

г) С родной земли –
умри , не сходи .

8.
Положение курсора в слове с ошибкой отмечено чёрточкой: МО|АНИТОР

Чтобы исправить
ошибку, следует нажать клавишу:

а) Delete в) Delete или Backspace

б) Backspace

Контрольная работа «Кодирование и обработка текста»

2 вариант

1. Международная
кодовая таблица ASCII содержит:

а) латинские буквы,
цифры

б) русские буквы,
цифры, знаки препинания

в) латинские буквы,
цифры, знаки препинания

г) русские и
латинские буквы, цифры, знаки препинания

2. Для кодирования символов
в Unicode отводится:

а) 1
байт в) 8 байт

б) 1
бит г) 2 байта

3.
Форматирование – это …

4. При
форматировании абзаца устанавливаются:

а)
Ориентация г) Поля ж) Отступы

б)
Начертание д) Интервалы з) Гарнитура

в) Выравнивание
е) Размер

5. В
маркированном списке для обозначения элемента списка используются:

а) латинские буквы
в) римские цифры

б) русские буквы
г) графические значки

6. К
форматированию страницы НЕ относится:

а)
Отступы в) Поля

б)
Размер г) Ориентация

а) Говорить –
смешно , утаить – грешно .

б) Говорить–смешно,
утаить–грешно.

в) Говорить –
смешно, утаить – грешно.

г) Говорить–смешно
, утаить–грешно.

8.
Положение курсора в слове с ошибкой отмечено чёрточкой: ДИАГРАМ|ММА

Чтобы исправить
ошибку, следует нажать клавишу:

а) Delete в) Delete или
Backspace

б) Backspace

Контрольная работа «Кодирование и обработка текста»

3 вариант

1. Для
кодирования одного символа из 256 необходимо:

а) 1
байт в) 8 байт

б) 1
бит г) 2 байта

2. Часть таблицы
кодировки национальных символов содержит:

а) 33
символа в) 256 символов

б) 128 символов г)
1024 символа

3. Назовите операции
редактирования текстового документа.

4. При форматировании
символа устанавливается:

а)
Ориентация г) Поля ж) Отступы

б)
Начертание д) Цвет з) Гарнитура

в) Выравнивание
е) Размер

5. В
нумерованном списке для обозначения элемента списка используются:

а) латинские буквы
в) римские цифры

б) русские буквы
г) графические значки

6. К
форматированию абзаца НЕ относится:

а)
Интервалы в) Выравнивание

б)
Начертание г) Отступы

7. В каком из перечисленных
ниже предложений правильно расставлены пробелы между словами и знаками
препинания?

а) Пора, что
железо:куй, поколе кипит!

б) Пора, что
железо: куй, поколе кипит!

в) Пора, что
железо: куй , поколе кипит!

г) Пора, что железо
: куй , поколе кипит !

8. Положение
курсора в слове с ошибкой отмечено чёрточкой: ПРОЦЕССС|ОР

Чтобы исправить
ошибку, следует нажать клавишу:

а) Delete

б) Backspace

в) Delete или Backspace

Контрольная работа «Кодирование и обработка текста»

4
вариант

1. Кодировкой, в которой для кодирования одного
символа используется 2 байта является:

а) MS—DOS б) КОИ-8 в) Unicode
г) ISO

2. Размер страницы определяется:

а) Форматом б) Ориентацией в) Колонтитулами

г) Отступами

3. Пустые заготовки документов определенного
назначения называют

а) Мастерами б) Шаблонами в) Формами

г) Колонтитулами

4. К форматам текстовых файлов относятся:

а) Txt, doc, odt, xls б) Txt, odt, docx, rtf

в) doc, docx, xls, rtf г)Txt, doc, jpg, rtf

5. Известно, что один символ некоторого алфавита
несет количество информации, равное 7 битам. Какова мощность данного
алфавита:

а) 128 бит б) 7 байт в) 128 г) 256

6. В маркированном списке для обозначения элемента
списка используются:

а) латинские буквы; б) римские цифры; в) графические значки.

7. Абзацем в тестовом редакторе является:

а) фрагмента документа, заканчивающийся нажатием клавиши Enter;

б) выделенный фрагмент документа;

в) фрагмент документа, начинающийся с красной строки.

8. Какой вид списка вы используете для написания
инструкции:

а) нумерованный;

б) маркированный;

в) многоуровневый.

Источник

Сегодня я хочу поговорить о кодировках. Зачем вообще нужны кодирование текстов и почему это так важно? Какие кодировки текста существуют и какие из них следует использовать?

У вас встречалась ситуация, когда вы получаете электронное письмо, но
не можете его прочитать – вместо текста идут какие-то непонятные знаки?
То же самое случается и в интернете – открываете страницу, а разобрать
ничего не возможно. Причем заметьте, подобное происходит именно с
русским текстом, с английским подобные проблемы маловероятны. Причина
проблем – открытие файла в неверной кодировке.

Соответствие между набором символов и набором числовых значений называется кодировкой символа.

В процессе вывода символа на экран производится обратная операция –
декодирование, т.е. преобразование кода символа в изображение.

Присвоенный каждому символу конкретный числовой код фиксируется в
кодовых таблицах. Причем, в разных таблицах одному и тому же символу
могут соответствовать разные числовые коды. Обычно перекодированием
текста занимаются специальные программы-конвертеры, они встроены в
большинство приложений.

Зачем нужны кодировки

Символы на экране вашего компьютера формируются на основе двух
вещей — наборов векторных форм (представлений) всевозможных символов
(они находятся в файлах со шрифтами, которые установлены на вашем
компьютере) и кода, который позволяет выдернуть из этого набора
векторных форм (файла шрифта) именно тот символ, который нужно будет
вставить в нужное место.

Кодировка ASCII

Для начала немного посчитаем. Помните, что такое бит? Это минимальный
носитель информации, ноль или один. А байт содержит восемь битов.
Сколько может быть комбинаций из нулей и единиц длины 8? Ответ –
2*2*2*2*2*2*2*2=256. Именно столько значений может принимать один байт.
Иногда еще байт называют символом – потому что как раз для кодировки
символа и стали использовать один байт. Даже меньше, изначально была
придумана кодировка ASCII, которая использовала 7 битов – в первые 128
значений можно было вольготно разместить английский алфавит в обоих
регистрах, диакритические знаки, цифры и набор спец-символов. И эта
кодировка действительно стала универсальной, поэтому англоязычные
пользователи крайне редко могут испытывать проблемы с кодировкой.

Кодировка ASCII (American Standard Code for
Information Interchange, которая по русски обычно произносится как
«аски») описывает первые 128 символов из наиболее часто используемых
англоязычными пользователями — латинские буквы, арабские цифры и знаки
препинания. Так же еще в эти 128 символов кодировки ASCII попадали
некоторые служебные символы, навроде скобок, решеток, звездочек и т.п.
Именно эти 128 символов из первоначального вариант ASCII стали
стандартом, и в любой другой кодировке текста вы их обязательно
встретите и стоять они будут именно в таком порядке. Но дело в том, что с
помощью одного байта информации можно закодировать не 128, а целых 256
различных значений (двойка в степени восемь равняется 256), поэтому
вслед за базовой версией ASCII появился целый ряд расширенных кодировок ASCII, в которых можно было кроме 128 основных символов закодировать еще и символы национальной кодировки (например, русской).

Кодировка КОИ-8R

Принцип работы кодировки KOI-8R такой— каждый символ текста кодируется одним единственным байтом.

Среди особенностей кодировки KOI-8R можно отметить то, что русские
буквы в ее таблице идут не в алфавитном порядке. В кодировке KOI-8R
русские буквы расположены в тех же ячейках таблицы, что и созвучные им
буквы латинского алфавита из первой части таблицы ASCII. Это было
сделано для удобства перехода с русских символов на латинские путем
отбрасывания всего одного бита (два в седьмой степени или 128).

Кодировка Unicode

Перейдем к кириллице. Для нее стали использовать вторую половину
кодовой таблицы – символы 129-256. Однако так сложилось, что различные
кодировки были изобретены независимо – одни изобретатели располагали
буквы, стремясь к соответствию расположения на пишущих машинках, другие –
к тому, чтобы одинаково выглядящие кириллические и латинские буквы
находились на расстоянии в 128 (что приводило к тому, что даже
программы, не умевшие работать со второй половиной таблицы, более-менее
читаемо отображали русский текст). Были и другие идеи; появление Windows
также принесло свою кодировку. Но главное, такая кодировка
принципиально не могла стать универсальной, так как если латиница была
нужна везде (хотя бы для командной строки), то кириллица была лишь одним
из национальных алфавитов.

У единой, потенциально универсальной кодировки, существует название:
Unicode, и придумана она была уже давно, в 1991 году. В Юникоде
используется 6 байтов для отображения символа.

Например, в операционной системе Windows вы можете пройти по пути Пуск — Программы — Стандартные — Служебные — Таблица символов. В результате откроется таблица с векторными формами всех установленных у вас в системе шрифтов. Если вы выберите в Дополнительных параметрах
набор символов Юникод, то сможете увидеть для каждого шрифта в
отдельности весь ассортимент входящих в него символов. Кстати, щелкнув
по любому из этих символов вы сможете увидеть его двухбайтовый код в
кодировке UTF 16, состоящий из четырех шестнадцатеричных цифр.

Кодировки кириллицы

Как правило, для хранения кода символа используется 1 байт (8 битов).

Поэтому коды символов могут принимать значение от 0 до 255. Такие кодировки называют однобайтными.
Они позволяют использовать 256 символов (2 в восьмой степени равно
256). Таблица однобайтных кодов символов ASCII состоит из двух частей.
Первая часть таблицы ASCII-кодов (от 0 до 127) стандартна для всех
компьютеров и содержит:

коды управляющих символов,
коды цифр, арифметических операций, знаков препинания,
некоторые специальные символы,
коды больших и маленьких латинских букв.

Вторая часть таблицы (коды от 128 до 255) бывает различной в различных компьютерах. Она содержит:

коды букв национального алфавита,
коды некоторых математических символов,
коды символов псевдографики.

Для русских букв используются такие различные кодовые таблицы: КОИ-8, ISO, Mac, CP1251, CP866.

В последнее время широкое распространение получил новый международный стандарт Unicode.

В Unicode отводится по 2 байта (16 битов) для кодирования каждого символа.

Поэтому с его помощью можно закодировать 65536 различных символов (2 в
шестнадцатой степени равно 65536). Коды символов могут принимать
значение от 0 до 65535.

Примеры решения задач

1. С помощью кодировки Unicode закодирована следующая фраза: Я хочу поступить в университет!
Оцените информационный объем этой фразы.
Решение:

В данной фразе содержится 31 символ (включая пробелы и знак
препинания). Поскольку в кодировке Unicode каждому символу отводится 2
байта памяти, для всей фразы понадобится 31*2 = 62 байта или 31*2*8 =
496 битов.

2. Статья, набранная на компьютере, содержит 8 страниц, на каждой
странице 40 строк, в каждой строке 64 символа. В одном из представлений
Unicode каждый символ кодируется 16 битами. Определите информационный
объем статьи в этом варианте Unicode. Выберите верный ответ из
предложенных: а) 320 байт, б) 35 Кбайт , в) 640 байт, г) 40 Кбайт.

Определим количество символов: 8*40*64 = 20480. Поскольку в кодировке
Unicode каждому символу отводится 16 битов памяти, для всей фразы
понадобится 20480*16 = 327680 битов.

Переведем полученное значение в байты. Т.к. 8 бит = 1 байт, то 327680 : 8 = 40960 байт

Теперь в Кбайты. Т.к. 1024 байт = 1 Кбайт, то 40960 : 1024 = 40 Кбайт.

Из предложенных вариантов подходит вариант г) 40 Кбайт.

Решите самостоятельно

В кодировке КОИ-8 каждый символ кодируется 1 байтом. Определите
информационный объем сообщения из 20 символов в этой кодировке. Варианты
ответов: а) 20 бит, б) 80 бит, в) 160 бит, г) 320 бит.
В кодировке Unicode на каждый символ отводится 2 байта. Определите
информационный объем слова из 24 символов в этой кодировке. Найдите
верный ответ: а) 384 бита, б) 192 бита, в) 256 бит, г) 48 бит.

Сайт: http://school.dtv.su/obo-mne/

Источник

У этого термина существуют и другие значения, см. КОИ.

КОИ-8 (код обмена информацией, 8 битов), KOI8 — восьмибитовая ASCII-совместимая кодовая страница, разработанная для кодирования букв кириллических алфавитов.

Существует также семибитовая версия кодировки, не полностью совместимая с ASCII — КОИ-7. КОИ-7 и КОИ-8 описаны в ныне не действующем ГОСТ 19768-74.

Разработчики КОИ-8 поместили символы русского алфавита в верхней части кодовой таблицы таким образом, что позиции кириллических символов соответствуют их фонетическим аналогам в английском алфавите в нижней части таблицы. Это означает, что если в тексте, написанном в КОИ-8, убирать восьмой бит каждого символа, то получается «читаемый» текст, подобный транслиту. Например, слова «Русский Текст» превратились бы в «rUSSKIJ tEKST». Как побочное следствие, символы кириллицы оказались расположены не в алфавитном порядке.

Существует несколько вариантов кодировки КОИ-8 для различных кириллических алфавитов, расширяющие определённые коды (общий диапазон 192—255 с 32 русскими буквами в двух регистрах остаётся неизменным во всех вариантах). Русский алфавит описывается в кодировке KOI8-R, украинский — в KOI8-U.

KOI8-R стал фактически стандартом для русской кириллицы в 1990-х годах в юникс-подобных операционных системах и электронной почте. Автор данной кодировки (RFC1489), которая стала первой русской стандартизированной кодировкой в интернете — Андрей Чернов, в начале 1990-х годов работал в компании Демос (сеть Релком) и непосредственно участвовал в запуске и наладке первого интернет-канала между Россией и западными странами.

IETF утвердил несколько RFC по вариантам кодировки KOI-8:

RFC1489 — KOI8-R;
RFC2319 — KOI8-U;
RFC1345 — ISO-IR-111 (с ошибкой в определении основного диапазона).

IANA зарегистрировала их в своём списке.

Стандарт RFC 1489 предписывает наличие графических символов «рамок» (псевдографики), однако это требование выполняется довольно редко.

В Microsoft Windows KOI8-R присвоен код страницы 20866, KOI8-U — 21866.

Начало таблицы кодировки (латиница) полностью соответствует кодировке ASCII.

В приведённых таблицах числа под буквами обозначают шестнадцатеричный код буквы в Юникоде.

Содержание

1 Кодировка KOI8-R (русская)
2 Другие варианты
- 2.1 Кодировка KOI8-U (русско-украинская)
- 2.2 Кодировка KOI8-RU (русско-белорусско-украинская)
- 2.3 Кодировка KOI8-C (кавказская)
- 2.4 Кодировка KOI8-T (таджикская)
- 2.5 Кодировка KOI8-O, KOI8-C (славянская, старая орфография)
- 2.6 Кодировка ISO-IR-111, KOI8-E
- 2.7 Кодировка KOI8-Unified, KOI8-F
3 Некириллические варианты КОИ-8
4 Примечания
5 Ссылки

[править] Кодировка KOI8-R (русская)

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	─ 2500	│ 2502	┌ 250C	┐ 2510	└ 2514	┘ 2518	├ 251C	┤ 2524	┬ 252C	┴ 2534	┼ 253C	▀ 2580	▄ 2584	█ 2588	▌ 258C	▐ 2590
9.	░ 2591	▒ 2592	▓ 2593	⌠ 2320	■ 25A0	∙ 2219	√ 221A	≈ 2248	≤ 2264	≥ 2265	A0	⌡ 2321	° B0	² B2	· B7	÷ F7
A.	═ 2550	║ 2551	╒ 2552	ё 451	╓ 2553	╔ 2554	╕ 2555	╖ 2556	╗ 2557	╘ 2558	╙ 2559	╚ 255A	╛ 255B	╜ 255C	╝ 255D	╞ 255E
B.	╟ 255F	╠ 2560	╡ 2561	Ё 401	╢ 2562	╣ 2563	╤ 2564	╥ 2565	╦ 2566	╧ 2567	╨ 2568	╩ 2569	╪ 256A	╫ 256B	╬ 256C	© A9
C.	ю 44E	а 430	б 431	ц 446	д 434	е 435	ф 444	г 433	х 445	и 438	й 439	к 43A	л 43B	м 43C	н 43D	о 43E
D.	п 43F	я 44F	р 440	с 441	т 442	у 443	ж 436	в 432	ь 44C	ы 44B	з 437	ш 448	э 44D	щ 449	ч 447	ъ 44A
E.	Ю 42E	А 410	Б 411	Ц 426	Д 414	Е 415	Ф 424	Г 413	Х 425	И 418	Й 419	К 41A	Л 41B	М 41C	Н 41D	О 41E
F.	П 41F	Я 42F	Р 420	С 421	Т 422	У 423	Ж 416	В 412	Ь 42C	Ы 42B	З 417	Ш 428	Э 42D	Щ 429	Ч 427	Ъ 42A

[править] Другие варианты

Показаны только не совпадающие строки таблиц, поскольку всё остальное совпадает.

[править] Кодировка KOI8-U (русско-украинская)

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
A.	═ 2550	║ 2551	╒ 2552	ё 451	є 454	╔ 2554	і 456	ї 457	╗ 2557	╘ 2558	╙ 2559	╚ 255A	╛ 255B	ґ 491	╝ 255D	╞ 255E
B.	╟ 255F	╠ 2560	╡ 2561	Ё 401	Є 404	╣ 2563	І 406	Ї 407	╦ 2566	╧ 2567	╨ 2568	╩ 2569	╪ 256A	Ґ 490	╬ 256C	© A9

[править] Кодировка KOI8-RU (русско-белорусско-украинская)

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
A.	═ 2550	║ 2551	╒ 2552	ё 451	є 454	╔ 2554	і 456	ї 457	╗ 2557	╘ 2558	╙ 2559	╚ 255A	╛ 255B	ґ 491	ў 45E	╞ 255E
B.	╟ 255F	╠ 2560	╡ 2561	Ё 401	Є 404	╣ 2563	І 406	Ї 407	╦ 2566	╧ 2567	╨ 2568	╩ 2569	╪ 256A	Ґ 490	Ў 40E	© A9

[править] Кодировка KOI8-C (кавказская)

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	ғ 493	җ 497	қ 49B	ҝ 49D	ң 4A3	ү 4AF	ұ 4B1	ҳ 4B3	ҷ 4B7	ҹ 4B9	һ 4BB	▀ 2580	ҝ 49D	ӣ 4E3	ө 4E9	ӯ 4EF
9.	Ғ 492	Җ 496	Қ 49A	Ҝ 49C	Ң 4A2	Ү 4AE	Ұ 4B0	Ҳ 4B2	Ҷ 4B6	Ҹ 4B8	Һ 4BA	⌡ 2321	Ә 4D8	Ӣ 4E2	Ө 4E8	Ӯ 4EE
A.	A0	ђ 452	ѓ 453	ё 451	є 454	ѕ 455	і 456	ї 457	ј 458	љ 459	њ 45A	ћ 45B	ќ 45C	ґ 491	ў 45E	џ 45F
B.	№ 2116	Ђ 402	Ѓ 403	Ё 401	Є 404	Ѕ 405	І 406	Ї 407	Ј 408	Љ 409	Њ 40A	Ћ 40B	Ќ 40C	Ґ 490	Ў 40E	Џ 40F

[править] Кодировка KOI8-T (таджикская)

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	қ 49B	ғ 493	‚ 201A	Ғ 492	„ 201E	… 2026	† 2020	‡ 2021		‰ 2030	ҳ 4B3	‹ 2039	Ҳ 4B2	ҷ 4B7	Ҷ 4B6
9.	Қ 49A	‘ 2018	’ 2019	“ 201C	” 201D	• 2022	– 2013	— 2014		™ 2122		› 203A
A.		ӯ 4EF	Ӯ 4EE	ё 451	¤ A4	ӣ 4E3	¦ A6	§ A7				« AB	¬ AC	AD	® AE
B.	° B0	± B1	² B2	Ё 401		Ӣ 4E2	¶ B6	· B7		№ 2116		» BB				© A9

[править] Кодировка KOI8-O, KOI8-C (славянская, старая орфография)

0407

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	Ђ 0402	Ѓ 0403	¸ 00B8	ѓ 0453	„ 201E	… 2026	† 2020	§ 00A7	€ 20AC	¨ 00A8	Љ 0409	‹ 2039	Њ 040A	Ќ 040C	Ћ 040B	Џ 040F
9.	ђ 0452	‘ 2018	’ 2019	“ 201C	” 201D	• 2022	– 2013	— 2014	£ 00A3	· 00B7	љ 0459	› 203A	њ 045A	ќ 045C	ћ 045B	џ 045F
A.	00A0	ѵ 0475	ѣ 0463	ё 0451	є 0454	ѕ 0455	і 0456	ї 0457	ј 0458	® 00AE	™ 2122	« 00AB	ѳ 0473	ґ 0491	ў 045E	´ 00B4
B.	° 00B0	Ѵ 0474	Ѣ 0462	Ё 0401	Є 0404	Ѕ 0405	І 0406	Ї 0407	Ј 0408	№ 2116	¢ 00A2	» 00BB	Ѳ 0472	Ґ 0490	Ў 040E	© 00A9

[править] Кодировка ISO-IR-111, KOI8-E

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
A.	00A0	ђ 0452	ѓ 0453	ё 0451	є 0454	ѕ 0455	і 0456	ї 0457	ј 0458	љ 0459	њ 045A	ћ 045B	ќ 045C	00AD	ў 045E	џ 045F
B.	№ 2116	Ђ 0402	Ѓ 0403	Ё 0401	Є 0404	Ѕ 0405	І 0406	Ї 0407	Ј 0408	Љ 0409	Њ 040A	Ћ 040B	Ќ 040C	¤ 00A4	Ў 040E	Џ 040F

[править] Кодировка KOI8-Unified, KOI8-F

Является предложением компании Fingertip Software^[1]

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
8.	─ 2500	│ 2502	┌ 250C	┐ 2510	└ 2514	┘ 2518	├ 251C	┤ 2524	┬ 252C	┴ 2534	┼ 253C	▀ 2580	▄ 2584	█ 2588	▌ 258C	▐ 2590
9.	░ 2591	‘ 2018	’ 2019	“ 201C	” 201D	• 2022	– 2013	— 2014	© 00A9	™ 2122	00A0	» 00BB	® 00AE	« 00AB	· 00B7	¤ 00A4
A.	00A0	ђ 0452	ѓ 0453	ё 0451	є 0454	ѕ 0455	і 0456	ї 0457	ј 0458	љ 0459	њ 045A	ћ 045B	ќ 045C	ґ 0491	ў 045E	џ 045F
B.	№ 2116	Ђ 0402	Ѓ 0403	Ё 0401	Є 0404	Ѕ 0405	І 0406	Ї 0407	Ј 0408	Љ 0409	Њ 040A	Ћ 040B	Ќ 040C	Ґ 0490	Ў 040E	Џ 040F

[править] Некириллические варианты КОИ-8

В некоторых странах СЭВ были созданы модификации КОИ-8 для национальных вариантов латиницы. Базовая идея была та же самая — при «срезании» восьмого бита текст должен оставаться более или менее понятным. Например, в чешском варианте КОИ-8 (ČSN 369103) буквы Čč должны превращаться в cC, Žž — в zZ и т. д. В настоящее время эти кодировки используются в 1C.^{[источник не указан 763 дня]}

[править] Примечания

↑ KOI8 Unified // Fingertip Software site

[править] Ссылки

Сводка кириллических 8-битных кодировок
RFC 1489
RFC 2319

Кодировки символов
Основы →	алфавит • текст ( файл • данные ) • набор символов • конверсия
Исторические кодировки →	Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2	Комп.: 6 бит • УПП • RADIX-50 • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646
совре- менное 8-битное представ- ление	символы →	ASCII ( управляющие • печатные )	не-ASCII ( псевдографика )
8бит. код.стр.	Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • MacCyrillic
ISO 8859 →	1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16
Windows →	1250 1251(кир.) 1252 1253 1254 1255 1256 1257 1258 \| WGL4
IBM&DOS →	437 • 850 • 852 • 855 • 866 «альт.» • ( МИК ) • ( НИИ ЭВМ )
Много- байтные	Традиционные →	DBCS ( GB2312 ) • HTML
Unicode →	UTF-16 • UTF-8 • список символов ( кириллица )
Связанные темы →	интерфейс пользователя • раскладка клавиатуры • локаль • перевод строки • шрифт • кракозябры • транслит • нестандартные шрифты • текст как изображение	Утилиты: iconv • recode

Источник

Проблемы для кодирования национальных алфавитов

Любые числа (в определенных пределах) в памяти компьютера кодируются числами двоичной системы счисления. Для этого существуют простые и понятные правила перевода. Однако на сегодняшний день компьютер используется куда шире, чем в роли исполнителя трудоемких вычислений. Например, в памяти ЭВМ хранятся текстовая и мультимедийная информация. Поэтому возникает первый вопрос:

Как в памяти компьютера хранятся символы (буквы)?

Каждая буква принадлежит определенному алфавиту, в котором символы следуют друг за другом и, следовательно, могут быть пронумерованы последовательными целыми числами. Каждой букве можно сопоставить целое положительное число и назвать его кодом символа. Именно этот код будет храниться в памяти компьютера, а при выводе на экран или бумагу «преобразовываться» в соответствующий ему символ. Чтобы отличить представление чисел от представления символов в памяти компьютера, приходится также хранить информацию о том, какие именно данные закодированы в конкретной области памяти.

Соответствие букв определенного алфавита с числами-кодами формирует так называемую таблицу кодирования. Другими словами, каждый символ конкретного алфавита имеет свой числовой код в соответствии с определенной таблицей кодирования.

Однако алфавитов в мире очень много (английский, русский, китайский и др.). Поэтому следующий вопрос:

Как закодировать все используемые на компьютере алфавиты?

В 60-х годах XX века в американском национальном институте стандартизации (ANSI) была разработана таблица кодирования символов, которая впоследствии была использована во всех операционных системах. Эта таблица называется ASCII (American Standard Code for Information Interchange – американский стандартный код для обмена информацией). Чуть позже появилась расширенная версия ASCII.

В соответствие с таблицей кодирования ASCII для представления одного символа выделяется 1 байт (8 бит). Набор из 8 ячеек может принять 28 = 256 различных значений. Первые 128 значений (от 0 до 127) постоянны и формируют так называемую основную часть таблицы, куда входят десятичные цифры, буквы латинского алфавита (заглавные и строчные), знаки препинания (точка, запятая, скобки и др.), а также пробел и различные служебные символы (табуляция, перевод строки и др.). Значения от 128 до 255 формируют дополнительную часть таблицы, где принято кодировать символы национальных алфавитов.

Поскольку национальных алфавитов огромное множество, то расширенные ASCII-таблицы существуют во множестве вариантов. Даже для русского языка существуют несколько таблиц кодирования (распространены Windows-1251 и Koi8-r). Все это создает дополнительные трудности. Например, мы отправляем письмо, написанное в одной кодировке, а получатель пытается прочитать ее в другой. В результате видит кракозябры. Поэтому читающему требуется применить для текста другую таблицу кодирования.

Есть и другая проблема. В алфавитах некоторых языков слишком много символов и они не помещаются в отведенные им позиции с 128 до 255 однобайтовой кодировки.

Чтобы решить эти проблемы одним разом была разработана кодировка Unicode.

Стандарт кодирования символов Unicode

Для решения вышеизложенных проблем в начале 90-х был разработан стандарт кодирования символов, получивший название Unicode. Данный стандарт позволяет использовать в тексте почти любые языки и символы.

В Unicode для кодирования символов предоставляется 31 бит (4 байта за вычетом одного бита). Количество возможных комбинаций дает запредельное число: 231 = 2 147 483 684 (т.е. более двух миллиардов). Поэтому Unicode описывает алфавиты всех известных языков, даже «мертвых» и выдуманных, включает многие математические и иные специальные символы. Однако информационная емкость 31-битового Unicode все равно остается слишком большой. Поэтому чаще используется сокращенная 16-битовая версия (216 = 65 536 значений), где кодируются все современные алфавиты.

В Unicode первые 128 кодов совпадают с таблицей ASCII.

Источник

Перевод текста в цифровой код.

Давайте разберемся как же все таки переводить тексты в цифровой код? Кстати, на нашем сайте вы можете перевести любой текст в десятичный, шестнадцатеричный, двоичный код воспользовавшись Калькулятором кодов онлайн.

Кодирование текста.

По теории ЭВМ любой текст состоит из отдельных символов. К этим символам относятся: буквы, цифры, строчные знаки препинания, специальные символы ( «»,№, (), и т.д.), к ним, так же, относятся пробелы между словами.

Необходимый багаж знаний. Множество символов, при помощи которых записываю текст, называется АЛФАВИТОМ.

Число взятых в алфавите символов, представляет его мощность.

Количество информации можно определить по формуле : N = 2b

Алфавит, в котором будет 256 может вместить в себя практически все нужные символы. Такие алфавиты называют ДОСТАТОЧНЫМИ.

Если взять алфавит мощностью 256, и иметь в виду что 256 = 28

Если перевести каждый символ в двоичный код, то этот код компьютерного текста будет занимать 1 байт.

Как текстовая информация может выглядеть в памяти компьютера?

Любой текст набирают на клавиатуре, на клавишах клавиатуры, мы видим привычные для нас знаки (цифры, буквы и т.д.). В оперативную память компьютера они попадают только в виде двоичного кода. Двоичный код каждого символа, выглядит восьмизначным числом, например 00111111.

Поскольку, байт – это самая маленькая адресуемая частица памяти, и память обращена к каждому символу отдельно – удобство такого кодирование очевидно. Однако, 256 символов – это очень удобное количество для любой символьной информации.

Естественно, встал вопрос: Какой конкретно восьми разрядный код принадлежит каждому символу? И как осуществить перевод текста в цифровой код?

Этот процесс условный, и мы вправе придумать различные способы для кодировки символов. Каждый символ алфавита имеет свой номер от 0 до 255. И каждому номеру присвоен код от 00000000 до 11111111.

Таблица для кодировки – это «шпаргалка», в которой указаны символы алфавита в соответствии порядковому номеру. Для различных типов ЭВМ используют разные таблицы для кодировки.

ASCII(или Аски), стала международным стандартом для персональных компьютеров. Таблица имеет две части.

Таблица кода символов ASCII.

Первая половина для таблицы ASCII. (Именно первая половина, стала стандартом.)

Соблюдение лексикографического порядка, то есть, в таблице буквы (Строчные и прописные) указаны в строгом алфавитном порядке, а цифры по возрастанию, называют принципом последовального кодирования алфавита.

Для русского алфавита тоже соблюдают принцип последовательного кодирования.

Сейчас, в наше время используют целых пять систем кодировок русского алфавита(КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за количества систем кодировок и отсутствия одного стандарта, очень часто возникают недоразумения с переносом русского текста в компьютерный его вид.

Одним из первых стандартов для кодирования русского алфавита на персональных компьютерах считают КОИ8(«Код обмена информацией, 8-битный»). Данная кодировка использовалась в середине семидесятых годов на серии компьютеров ЕС ЭВМ, а со средины восьмидесятых, её начинают использовать в первых переведенных на русский язык операционных системах UNIX.

С начала девяностых годов, так называемого, времени, когда господствовала операционная система MS DOS, появляется система кодирования CP866 («CP» означает «Code Page», «кодовая страница»).

Гигант компьютерных фирм APPLE, со своей инновационной системой, под упралением которой они и работали (Mac OS), начинают использовать собственную систему для кодирования алфавита МАС.

Международная организация стандартизации (International Standards Organization, ISO)назначает стандартом для русского языка еще одну систему для кодирования алфавита, которая называется ISO 8859-5.

А самая распространенная, в наши дни, система для кодирования алфавита, придумана в Microsoft Windows, и называется CP1251.

С второй половины девяностых годов, была решена проблема стандарта перевода текста в цифровой код для русского языка и не только, введением в стандарт системы, под названием Unicode. Она представлена шестнадцатиразрядной кодировкой, это означает, что на каждый символ отводится ровно по два байта оперативной памяти. Само собой, при такой кодировке, затраты памяти увеличены в два раза. Однако, такая кодовая система позволяет переводить в электронный код до 65536 символов.

Специфика стандартной системы Unicode, является включением в себя абсолютно любого алфавита, будь он существующим, вымершим, выдуманным. В конечном счете, абсолютно любой алфавит, в добавок к этом, система Unicode, включает в себя уйму математических, химических, музыкальных и общих символов.

Давайте с помощью таблицы ASCII посмотрим, как может выглядеть слово в памяти вашего компьютера.

Очень часто случается так, что ваш текст, который написан буквами из русского алфавита, не читается, это обусловлено различием систем кодирования алфавита на компьютерах. Это очень распространенная проблема, которая довольно часто обнаруживается.

Источник

Коды с какими номерами используются для кодирования букв национального алфавита

Кодирование текстовой информации

Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.

Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа «=», «(«, «&» и т.п. и даже (обратите особое внимание!) пробелы между словами.

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.

В процессе вывода символа на экран компьютера производится обратный процесс — декодирование, то есть преобразование кода символа в его изображение. Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу. Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Виды таблиц кодировок

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Символы с номерами от 0 до 31 принято называть управляющими.

Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.

Все остальные отражаются определенными знаками.

Альтернативная часть таблицы (русская).

Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.

Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

Обращается внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией, 8-битный»). Эта кодировка применялась еще в 70-е годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 («CP» означает «Code Page», «кодовая страница»).

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251. Введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение.

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode.

Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Внутреннее представление слов в памяти компьютера

с помощью таблицы ASCII

Таким образом, каждая кодировка задается своей собственной кодовой таблицей. Как видно из таблицы, одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.

Н апример, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово «ЭВМ» (Рис. 10), тогда как в других кодировках это будет бессмысленный набор символов.

К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.

Источник

Учитель информатики

Сайт учителя информатики. Технологические карты уроков, Подготовка к ОГЭ и ЕГЭ, полезный материал и многое другое.

Кодирование текстовой информации

Информатика. 10 класса. Босова Л.Л. Оглавление

§14. Кодирование текстовой информации

Компьютеры третьего поколения «научились» работать с текстовой информацией.

Текстовая информация по своей природе дискретна, т. к. представляется последовательностью отдельных символов.

Для компьютерного представления текстовой информации достаточно:

1) определить множество всех символов (алфавит), требуемых для представления текстовой информации;
2) выстроить все символы используемого алфавита в некоторой последовательности (присвоить каждому символу алфавита свой номер);
3) получить для каждого символа n-разрядный двоичный код (n ≤ 2 n ), переведя номер этого символа в двоичную систему счисления.

В памяти компьютера хранятся специальные кодовые таблицы, в которых для каждого символа указан его двоичный код. Все кодовые таблицы, используемые в любых компьютерах и любых операционных системах, подчиняются международным стандартам кодирования символов.

14.1. Кодировка ASCII и её расширения

Основой для компьютерных стандартов кодирования символов послужил код ASCII (American Standard Code for Information Interchange) — американский стандартный код для обмена информацией, разработанный в 1960-х годах в США и применявшийся для любых, в том числе и некомпьютерных, способов передачи информации (телеграф, факсимильная связь и т. д.). Этот код 7-битовый: общее количество символов составляет 2 7 = 128, из них первые 32 символа — управляющие, а остальные — изображаемые, т. е. имеющие графическое изображение. К изображаемым символам в ASCII относятся буквы латинского алфавита (прописные и строчные), цифры, знаки препинания и арифметических операций, скобки и некоторые специальные символы. Кодировка ASCII приведена в табл. 3.8.

Таблица 3.8

Кодировка ASCII

Хотя для кодирования символов в ASCII достаточно 7 битов, в памяти компьютера под каждый символ отводится ровно 1 байт (8 битов), при этом код символа помещается в младшие биты, а в старший бит заносится 0.

Например, 01000001 — код прописной латинской буквы «А»; с помощью шестнадцатеричных цифр его можно записать как 41.

Впоследствии использование кодовых таблиц было несколько упорядочено: каждой кодовой таблице было присвоено особое название и номер. Для русского языка наиболее распространёнными стали однобайтовые кодовые таблицы CP-866, Windows-1251 (табл. 3.9) и КОИ-8 (табл. 3.10). В них первые 128 символов совпадают с ASCII-кодировкой, а русские буквы размещены во второй части таблицы. Обратите внимание на то, что коды русских букв в этих кодировках различны.

Таблица 3.9

Кодировка Windows-1251

Таблица 3.10

Кодировка КОИ-8

Мы выяснили, что при нажатии на алфавитно-цифровую клавишу в компьютер посылается некоторая цепочка нулей и единиц. В текстовых файлах хранятся не изображения символов, а их коды.

При выводе текста на экран монитора или принтера необходимо восстановить изображения всех символов, составляющих данный текст, причём изображения эти могут быть разнообразны и достаточно причудливы. Внешний вид выводимых на экран символов кодируется и хранится в специальных шрифтовых файлах. Современные текстовые процессоры умеют внедрять шрифты в файл. В этом случае файл содержит не только коды символов, но и описание используемых в этом документе шрифтов. Кроме того, файлы, создаваемые с помощью текстовых процессоров, включают в себя и такие данные о форматировании текста, как его размер, начертание, размеры полей, отступов, межстрочных интервалов и другую дополнительную информацию.

14.2. Стандарт Unicode

Ограниченность 8-битной кодировки, не позволяющей одновременно пользоваться несколькими языками, а также трудности, связанные с необходимостью преобразования одной кодировки в другую, привели к разработке нового кода. В 1991 году был разработан новый стандарт кодирования символов, получивший название Unicode (Юникод), позволяющий использовать в текстах любые символы любых языков мира.

Unicode — это «уникальный код для любого символа, независимо от платформы, независимо от программы, независимо от языка» (www.unicode.org).

Стандарт Unicode описывает алфавиты всех известных, в том числе и «мёртвых», языков. Для языков, имеющих несколько алфавитов или вариантов написания (например, японского и индийского), закодированы все варианты. В кодировку Unicode внесены все математические и иные научные символьные обозначения и даже некоторые придуманные языки (например, язык эльфов из трилогии Дж. Р. Р. Толкина «Властелин колец»).

Всего современная версия Unicode позволяет закодировать более миллиона различных знаков, но реально используется чуть менее 110 000 кодовых позиций.

Для представления символов в памяти компьютера в стандарте Unicode имеется несколько кодировок.

В операционных системах семейства Windows используется кодировка UTF-16. В ней все наиболее важные символы кодируются с помощью 2 байт (16 бит), а редко используемые — с помощью 4 байт.

В операционной системе Linux применяется кодировка UTF-8, в которой символы могут занимать от 1 (символы, входящие в таблицу ASCII) до 4 байт. Если значительную часть текста составляют цифры и латинские буквы, то это позволяет в несколько раз уменьшить размер файла по сравнению с кодировкой UTF-16.

Кодировки Unicode позволяют включать в один документ символы самых разных языков, но их использование ведёт к увеличению размеров текстовых файлов.

14.3. Информационный объём текстового сообщения

Мы уже касались этого вопроса, рассматривая алфавитный подход к измерению информации.

Информационным объёмом текстового сообщения называется количество бит (байт, килобайт, мегабайт и т. д.), необходимых для записи этого сообщения путём заранее оговоренного способа двоичного кодирования.

Оценим в байтах объём текстовой информации в современном словаре иностранных слов из 740 страниц, если на одной странице размещается в среднем 60 строк по 80 символов (включая пробелы).

Будем считать, что при записи используется кодировка «один символ — один байт». Количество символов во всем словаре равно:

80 • 60 • 740 = 3 552 000.

Следовательно, объём равен

3 552 000 байт = 3 468,75 Кбайт ≈ 3,39 Мбайт.

Если же использовать кодировку UTF-16, то объём этой же текстовой информации в байтах возрастёт в 2 раза и составит 6,78 Мбайт.

САМОЕ ГЛАВНОЕ

Основой для компьютерных стандартов кодирования символов послужил код ASCII, рассчитанный на передачу только английского текста. Расширения ASCII — кодировки, в которых первые 128 символов кодовой таблицы совпадают с кодировкой ASCII, а остальные (со 128-го по 255-й) используются для кодирования букв национального алфавита, символов национальной валюты и т. п.

В 1991 году был разработан новый стандарт кодирования символов, получивший название Unicode (Юникод), позволяющий использовать в текстах любые символы любых языков мира. Кодировки Unicode позволяют включать в один документ символы самых разных языков, но их использование ведёт к увеличению размеров текстовых файлов.

Вопросы и задания

1. Какова основная идея представления текстовой информации в компьютере?

2. Что представляет собой кодировка ASCII? Сколько символов она включает? Какие это символы?

3. Как известно, кодовые таблицы каждому символу алфавита ставят в соответствие его двоичный код. Как, в таком случае, вы можете объяснить вид таблицы 3.8 «Кодировка ASCII»?

4. С помощью таблицы 3.8:

1) декодируйте сообщение 64 65 73 6В 74 6F 70;
2) запишите в двоичном коде сообщение TOWER;
3) декодируйте сообщение
01101100 01100001 01110000 01110100 01101111 01110000

5. Что представляют собой расширения ASCII-кодировки? Назовите основные расширения ASCII-кодировки, содержащие русские буквы.

6. Сравните подходы к расположению русских букв в кодировках Windows-1251 и КОИ-8.

7. Представьте в кодировке Windows-1251 текст «Знание — сила!»:

1) шестнадцатеричным кодом;
2) двоичным кодом;
3) десятичным кодом.

8. Представьте в кодировке КОИ-8 текст «Дело в шляпе!»:

1) шестнадцатеричным кодом;
2) двоичным кодом;
3) десятичным кодом.

9. Что является содержимым файла, созданного в современном текстовом процессоре?

10. В кодировке Unicode на каждый символ отводится 2 байта. Определите в этой кодировке информационный объём следующей строки:

Где родился, там и сгодился.

11. Набранный на компьютере текст содержит 2 страницы. На каждой странице 32 строки, в каждой строке 64 символа. Определите информационный объём текста в кодировке Unicode, в которой каждый символ кодируется 16 битами.

12. Текст на русском языке, первоначально записанный в 8-битовом коде Windows, был перекодирован в 16-битную кодировку Unicode. Известно, что этот текст был распечатан на 128 страницах, каждая из которых содержала 32 строки по 64 символа в каждой строке. Каков информационный объём этого текста?

13. В текстовом процессоре MS Word откройте таблицу символов (вкладка Вставка ⇒ Символ ⇒ Другие символы):

В поле Шрифт установите Times New Roman, в поле из — кириллица (дес.).

Вводя в поле Код знака десятичные коды символов, декодируйте сообщение:

Источник

Вопросы урока:

·
кодовая
таблица;

·
восьмиразрядный
код;

·
информационный
объем текста.

Ежедневно каждый человек сталкивается с разными видами
информации. Увидев важную информацию, можно записать её в компьютер, чтобы
затем воспользоваться ей. В компьютер можно поместить фотографию своего друга
или видеосъёмку о том, как вы провели каникулы. Но ввести в компьютер вкус
мороженого или мягкость пледа никак нельзя.

Компьютер
— это электронная машина, которая работает с сигналами. То есть он работать
только информацией, которую можно превратить в сигналы. Если бы люди умели
превращать в сигналы вкус или запах, то компьютер мог бы работать и с такой
информацией.

Как вы уже знаете, вся информация, независимо от того,
какая она графическая, видео или звуковая, представляется в компьютере с
помощью чисел, это всего два символа двоичного кода, 0 и 1, которые легко перевести
в сигналы.

Более 60% информации, представленной в компьютере,
является текстовой информацией. В компьютерном алфавите 256 символов. Сюда
входят заглавные и прописные буквы латинского и русского алфавитов, знаки
препинания, печатные и непечатные символы, а также комбинации клавиш. человек
различает текст по начертанию символов.

А вот компьютер различает символы, которые вводят в
компьютер, по их двоичному коду. Вы нажимаете на клавиатуре символьную клавишу,
в компьютер мгновенно поступает определённая последовательность электрических
импульсов разной силы, которую можно представить в виде цепочки из восьми нулей
и единиц (двоичного кода).

Мы уже говорили о том, что разрядность двоичного кода i
и количество возможных кодовых комбинаций N связаны соотношением:

Восьмиразрядный двоичный код позволяет получить 256
различных кодовых комбинаций, то есть:

С помощью 256 кодовых комбинаций можно закодировать
все символы, расположенные на клавиатуре компьютера, — строчные и прописные русские
и латинские буквы, цифры, знаки препинания, знаки арифметических операций,
скобки и т. д., а также ряд управляющих символов, без которых невозможно создание
текстового документа (удаление предыдущего символа, переход на новую строку строки,
пробел и др.).

Для создания 256 комбинаций необходимо 8 ячеек,
содержащих 1 или 0. Поэтому каждому символу компьютерного алфавита в памяти
компьютера отводится регистр – 8 ячеек.

Чтобы информация на всех компьютерах читалась
одинаково, были созданы различные таблицы кодов. В СССР – это КОИ7 и КОИ8, в
Америке –ASCII. Для кодирования информации в Windows используют таблицу ANSI.

С помощью кодовых таблиц устанавливается соответствие
между изображениями и кодами символов.

Кодовая таблица содержит коды для 256 различных
символов, пронумерованных от 0 до 255. Первые 128 кодов во всех кодовых таблицах
соответствуют одним и тем же символам:

·
коды
с номерами от 0 до 32 соответствуют управляющим символам;

·
коды
с номерами от 33 до 127 соответствуют изображаемым символам — латинским буквам,
знакам препинания, цифрам, знакам арифметических операций и т. д.

·
Коды
с номерами от 128 до 255 используются для кодирования букв национального
алфавита, символов национальной валюты и т. п.

Поэтому в кодовых таблицах для разных языков одному и
тому же коду соответствуют разные символы. Более того, для многих языков существует
несколько вариантов кодовых таблиц. Так для русского языка их более десятка.

Например, последовательности двоичных кодов:

в кодировке Windows будет соответствовать слово «Урок»,
а в кодировке КОИ-8 — бессмысленный набор символов.

Естественно, пользователь не будет каждый раз
перекодировать текстовые документы, это делают специальные программы-конверторы,
встроенные в операционную систему и приложения.

Однако, восьмиразрядные кодировки обладают одним
серьёзным ограничением: их количество различных кодов символов не хватает, для
того чтобы можно было одновременно пользоваться более чем двумя языками. Для
того чтобы на компьютере можно было устанавливать больше языков был разработан
новый стандарт кодирования символов, получивший название Юникод.

Юнико́д или Унико́д (англ. Unicode) —
стандарт кодирования символов, позволяющий представить знаки практически всех
письменных языков.

Этот стандарт был предложен в 1991 году некоммерческой
организацией «Консорциум Юникода».

С помощью этого стандарта можно закодировать очень
большое число символов из разных письменностей: в документах Unicode могут
соседствовать китайские иероглифы, математические символы, буквы греческого
алфавита, латиницы и кириллицы, при этом становится ненужным переключение
кодовых страниц.

Универсальная система кодирования (Юникод)
представляет собой набор графических символов и способ их кодирования для
компьютерной обработки текстовых данных.

В Юникод каждый символ кодируется шестнадцатиразрядным
двоичным кодом. Такое количество разрядов позволяет закодировать

различных символов.

С каждым годом Юникод получает всё более широкое
распространение.

Вам известно, что информационный объём сообщения

В зависимости от разрядности используемой кодировки
информационный вес символа текста, создаваемого на компьютере, может быть
равен:

• 8 битов или 1 байт — если используется восьмиразрядная
кодировка;

• 16 битов или 2 байта — если используется шестнадцатиразрядная
кодировка.

Информационным объёмом фрагмента текста будем называть
количество битов, байтов или производных единиц (килобайтов, мегабайтов и т. д.),
необходимых для записи этого фрагмента заранее оговорённым способом двоичного
кодирования.

Перейдём к практической части урока.

Давайте практически найдём информационный объем
текста.

Итак, Книга содержит 150 страниц. На каждой странице —
40 строк. В каждой строке 60 символов (включая пробелы). Нужно найти
информационный объем текста, если используется восьмиразрядная кодировка.

Рассмотрим следующую задачу

Информационный объем текста, подготовленного с помощью
компьютера, равен 3,5 Мегабайт. Нужно найти сколько символов содержит этот
текст, если используется восьмиразрядная кодировка.

Рассмотрим следующую задачу

Информационное сообщение на русском языке,
первоначально записанное в восьми — битном коде Windows, было перекодировано в шестнадцати
— битную кодировку Unicode. В результате информационный объём сообщения стал
равен 2 Мегабайта. Нужно найдите количество символов в сообщении.

Следующая задача.

Средняя скорость передачи данных по некоторому каналу
связи равна 29 Килобит в секунду. Сколько секунд потребуется для передачи по
этому каналу 50 страниц текста, если считать, что один символ кодируется одним
байтом и на каждой странице в среднем 96 символов?

И последняя задача.

Пользователь компьютера, хорошо владеющий навыками
ввода информации с клавиатуры, может вводить в минуту 100 знаков. Мощность
алфавита, используемого в компьютере равна 256. Какое количество информации в
байтах может ввести пользователь в компьютер за 1 минуту.

Пришло время подвести итоги урока.

Текст состоит из символов
— букв, цифр, знаков препинания и т. д., которые человек различает по
начертанию. Компьютер различает вводимые символы по их двоичному коду.

Соответствие между изображениями и кодами символов
устанавливается с помощью кодовых таблиц.

В зависимости от разрядности используемой кодировки информационный
вес символа текста, создаваемого на компьютере, может

быть равен:

• 8 бит (1 байт) — если используется восьмиразрядная
кодировка;

• или 16 бит (2 байта) — если используется шестнадцатиразрядная
кодировка.

Информационный объём фрагмента текста
— это количество битов, байтов (килобайтов, мегабайтов), необходимых для записи
фрагмента оговорённым способом кодирования.

Источник