Видеоурок: Оценка количественных параметров текстовых документов.

 

Представление текстовой информации в памяти компьютера

Текст состоит из символов - букв, цифр, знаков препинания и    других элементов, которые компьютер различает по их двоичному коду.

Мы знаем с вами связь между разрядностью двоичного кода i и количество возможных кодовых комбинаций N формулой N=2i. Восьмиразрядный двоичный код позволяет получить 256 различных кодовых комбинаций: 28=256. С помощью такого количество кодовых комбинаций можно закодировать все символы, расположенные на клавиатуре компьютера.

Соответствие между изображениями символов и кодами символов устанавливается с помощью кодовых таблиц. Все кодовые таблицы, используемые в любых компьютерах и любых операционных системах, подчиняются международным стандартам кодирования символов.

ASCII английский стандартный од для обмена информацией. Эти коды были разработаны в США.

Фрагмент кодовой таблицы ASCII

Коды с номерами от 128 до 255 используются для кодирования букв национального алфавита, символов национальной валюты и т. п. Поэтому в кодовых таблицах для разных языков одному и тому же коду соответствует разные символы. Более того, для многих языков существует несколько вариантов кодовых таблиц (например, для русского языка их около десятка).

В таблице представлены десятичные и двоичные коды нескольких букв русского алфавита в двух различных кодировках.

Коды русских букв в разных кодировках

Как правило, пользователь не должен заботиться о перекодировании текстовых документов, так как это делают специальные программы-конверторы, встроенные в операционную систему и приложения.

Восьмиразрядные кодировки обладают одним серьёзным ограничением: количество различных кодов символов в этих кодировках недостаточно велико, чтобы можно было одновременно пользоваться более чем двумя языками. Для устранения этого ограничения был разработан новый стандарт кодирования символов, получивший название Unicode. В Unicode каждый символ кодируется 16-разрядным двоичным кодом.

Информационный объём фрагмента текста

Вам известно, что информационный объём I сообщения равен произведению количества  К символов в сообщении на информационный  вес i одного символа алфавита: I=K*i.

В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен:

8 битов (1 байт) - восьмиразрядная кодировка;

6 битов (2 байта) - шестнадцатиразрядная кодировка.

Информационный объем фрагмента текста - это количество битов, байтов (килобайтов, мегабайтов), необходимых для записи фрагмента оговоренным способом кодирования.