Видеоурок: Оценка количественных параметров текстовых документов.
Представление текстовой информации в памяти компьютера
Текст состоит из символов - букв, цифр, знаков препинания и других элементов, которые компьютер различает по их двоичному коду.
Мы знаем с вами связь между разрядностью двоичного кода i и количество возможных кодовых комбинаций N формулой N=2i. Восьмиразрядный двоичный код позволяет получить 256 различных кодовых комбинаций: 28=256. С помощью такого количество кодовых комбинаций можно закодировать все символы, расположенные на клавиатуре компьютера.
Соответствие между изображениями символов и кодами символов устанавливается с помощью кодовых таблиц. Все кодовые таблицы, используемые в любых компьютерах и любых операционных системах, подчиняются международным стандартам кодирования символов.
ASCII – английский стандартный од для обмена информацией. Эти коды были разработаны в США.
Фрагмент кодовой таблицы ASCII
Коды с номерами от 128 до 255 используются для кодирования букв национального алфавита, символов национальной валюты и т. п. Поэтому в кодовых таблицах для разных языков одному и тому же коду соответствует разные символы. Более того, для многих языков существует несколько вариантов кодовых таблиц (например, для русского языка их около десятка).
В таблице представлены десятичные и двоичные коды нескольких букв русского алфавита в двух различных кодировках.
Коды русских букв в разных кодировках
Как правило, пользователь не должен заботиться о перекодировании текстовых документов, так как это делают специальные программы-конверторы, встроенные в операционную систему и приложения.
Восьмиразрядные кодировки обладают одним серьёзным ограничением: количество различных кодов символов в этих кодировках недостаточно велико, чтобы можно было одновременно пользоваться более чем двумя языками. Для устранения этого ограничения был разработан новый стандарт кодирования символов, получивший название Unicode. В Unicode каждый символ кодируется 16-разрядным двоичным кодом.
Информационный объём фрагмента текста
Вам известно, что информационный объём I сообщения равен произведению количества К символов в сообщении на информационный вес i одного символа алфавита: I=K*i.
В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен:
• 8 битов (1 байт) - восьмиразрядная кодировка;
• 6 битов (2 байта) - шестнадцатиразрядная кодировка.
Информационный объем фрагмента текста - это количество битов, байтов (килобайтов, мегабайтов), необходимых для записи фрагмента оговоренным способом кодирования.