Теория:
Алфавитный (объёмный) подход к измерению информации позволяет определить количество информации, заключенной в тексте, записанном с помощью некоторого алфавита.
Алфавит - множество используемых символов в языке.
Обычно под алфавитом понимают не только буквы, но и цифры, знаки препинания и пробел.
Мощность алфавита \((N)\) - количество символов, используемых в алфавите.
Например, мощность алфавита из русских букв равна \(32\) (буква ё обычно не используется).
Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ, вычисляется по формуле Хартли:
,
где \(N\) - мощность алфавита.
Формула Хартли задает связь между количеством возможных событий \(N\) и количеством информации \(i\):
Из базового курса информатики известно, что в компьютерах используется двоичное кодирование информации. Для двоичного представления текстов в компьютере чаще всего используется равномерный восьмиразрядный код. С его помощью можно закодировать алфавит из \(256\) символов, поскольку .
В стандартную кодовую таблицу (например, ASCII) помещаются все необходимые символы: английские и русские прописные и строчные буквы, цифры, знаки препинания, знаки арифметических операций, всевозможные скобки и пр.
В двоичном коде один двоичный разряд несет одну единицу информации, которая называется 1 бит.
Например, в \(2\)-символьном алфавите каждый символ «весит» \(1\) бит (); в \(4\)-символьном алфавите каждый символ несет \(2\) бита информации (); в \(8\)-символьном - \(3\) бита () и т. д.
Один символ из алфавита мощностью \(256\) () несет в тексте \(8\) битов информации. Такое количество информации называется байтом.
\(1\) байт \(= 8\) битов
Информационный объем текста в памяти компьютера измеряется в байтах. Он равен количеству знаков в записи текста.
Название единицы измерения | Численная величина в байтах | Точное количество байтов |
Килобайт (Кбайт) | \(1024\) байт | |
Мегабайт (Мбайт) | \(1024\) килобайт байт | |
Гигабайт (Гбайт) | \(1024\) мегабайт байт | |
Терабайт (Тбайт) | \(1024\) гигабайт байт | |
Петабайт (Пбайт) | \(1024\) терабайт байт | |
Эксабайт (Эбайт) | \(1024\) петабайт байт | |
Зеттабайт (Збайт) | \(1024\) эксабайт байт | |
Йоттабайт (Йбайт) | \(1024\) зеттабайт байт |
Единицы измерения количества информации, в названии которых есть приставки «кило», «мега» и т. д., с точки зрения теории измерений не являются корректными, поскольку эти приставки используются в метрической системе мер, в которой в качестве множителей кратных единиц используется коэффициент
\(10\), где \(n = 3, 6, 9\) и т. д.
Для устранения этой некорректности Международная электротехническая комиссия, занимающаяся созданием стандартов для отрасли электронных технологий, утвердила ряд новых приставок для единиц измерения количества информации: киби (kibi), меби (mebi), гиби (gibi), теби (tebi), пети (peti), эксби (exbi). Однако пока используются старые обозначения единиц измерения количества информации, и требуется время, чтобы новые названия начали широко применяться.
Обрати внимание!
Поблема применения десятичных приставок к единицам измерения в двоичном счислении - ссылка
Последовательность действий при переводе одних единиц измерения информации в другие приведена на следующей схеме:

Если весь текст состоит из \(K\) символов, то при алфавитном подходе объём \(V\) содержащейся в нем информации равен:
где \(i\) - информационный вес одного символа в используемом алфавите.
Зная, что , данную выше формулу можно представить в другом виде:
если количество символов алфавита равно \(N\), а количество символов в записи сообщения - \(K\), то информационный объем \(V\) данного сообщения вычисляется по формуле:
При алфавитном подходе к измерению информации информационный объем текста зависит только от размера текста и от мощности алфавита, а не от содержания. Поэтому нельзя сравнивать информационные объемы текстов, написанных на разных языках, по размеру текста.
Пример:
1. Считая, что каждый символ кодируется одним байтом, оцените информационный объем следующего предложения: Белеет Парус Одинокий В Тумане Моря Голубом!
Решение.
Так как в предложении \(44\) символа (считая знаки препинания и пробелы), то информационный объем вычисляется по формуле:
2. Объем сообщения равен \(11\) Кбайт. Сообщение содержит \(11 264\) символа. Какова мощность алфавита?
Решение.
Выясним, какое количество бит выделено на \(1\) символ. Для этого переведем объем сообщения в биты:
и разделим его на число символов.
На \(1\) символ приходится: .
Мощность алфавита определяем из формулы Хартли:
Источники:
Семакин И. Г. Информатика и ИКТ. Базовый уровень : учебник для 10-11 классов / И. Г. Семакин, Е. К. Хеннер. - 8-е изд. - М. : БИНОМ. Лаборатория знаний, 2012, стр. 17-20
Информатика и ИКТ. Задачник-практикум: в 2т. Т. 1 / Л. А. Залогова [и др.] ; под ред. И. Г. Семакина, Е. К. Хеннера. - 3-е изд. - М. : БИНОМ. Лаборатория знаний, 2011, стр. 18-19
Информатика и ИКТ. Задачник-практикум: в 2т. Т. 1 / Л. А. Залогова [и др.] ; под ред. И. Г. Семакина, Е. К. Хеннера. - 3-е изд. - М. : БИНОМ. Лаборатория знаний, 2011, стр. 18-19
Самылкина Н. Н. Информатика : все темы для подготовки к ЕГЭ. (В помощь старшекласснику). М. : Эксмо, 2011, стр. 12-13