Текстовые редакторы — это программы для создания, редактирования, форматирования сохранения и печати документов. Современный документ может содержать, кроме текста, и другие объекты (таблицы, диаграммы, рисунки и т. д.).
Более совершенные текстовые редакторы, имеющие целый спектр возможностей по созданию документов (например, поиск и символов, средства проверки орфографии, вставка таблиц и др.), называют иногда текстовыми процессорами. Примером такой программы является Word из офисного пакета Microsoft Office.
Мощные программы обработки текста — настольные издательские системы — предназначены для подготовки документов к публикации. Пример подобной системы — Adobe PageMaker.
Редактирование – преобразование, обеспечивающее добавление, удаление, перемещение или исправление содержания документа. Редактирование документа обычно производится путем добавления, удаления или перемещения символов или фрагментов текста.
Объектно-ориентированный подход дает возможность реализовывать механизм встраивания и внедрения объектов (OLE — Object Linking Embedding). Этот механизм позволяет копировать и вставлять объекты из одного приложения в другое. Например, работая с документом в текстовом редакторе Word, в него можно встроить изображения, анимацию, звук и даже видеофрагменты и таким образом из обычного текстового документа получить мультимедиа-документ.
Форматирование — преобразование, изменяющее форму представления документа. В начале работы над документом целесообразно задать параметры страницы: ее формат (размер), ориентацию, размер полей и др.
Форматирование абзаца. Абзац является одним из основных объектов текстового документа. В компьютерных документах абзацем считается любой текст, заканчивающийся управляющим символом (маркером) конца абзаца. Ввод конца абзаца обеспечивается нажатием клавиши {Enter} и отображается символом ¶.
В процессе форматирования абзаца задаются параметры его выравнивания (выравнивание отражает расположение текста относительно границ полей страницы), отступы (абзац целиком может иметь отступы слева и справа) и интервалы (расстояние между строк абзаца), отступ красной строки и др.
Форматирование символов. Символы - это буквы, цифры, пробелы, знаки пунктуации, специальные символы, такие как @, *, &. Символы можно форматировать (изменять их вид), задавая шрифт, размер и начертание.
Шрифт - полный набор символов определенного начертания, включая прописные и строчные буквы, знаки препинания, специальные символы, цифры и знаки арифметических действий. Для каждого исторического периода и разных стран характерен шрифт определенного рисунка. Каждый шрифт имеет свое название, например Times New Roman, Arial, Courier и др.
По способу представления в компьютере различаются шрифты растровые и векторные. Для представления растровых шрифтов служат методы растровой графики, символы шрифта - это группы пикселей. Растровые шрифты допускают масштабирование только с определенными коэффициентами.
В векторных шрифтах символы описываются математическими формулами и возможно произвольное их масштабирование. Среди векторных шрифтов наибольшее распространение получили шрифты типа True Type.
Размер шрифта. Единицей измерения размера шрифта является пункт (1 пт = 0,376 мм). В текстовом редакторе Word по умолчанию используется шрифт Times New Roman размером 12 пт. Ниже приведены примеры представления текста с помощью шрифта различного размера:
Шрифт размером 14 пт.
Шрифт размером 10 пт.
Шрифт размером 6 пт.
Начертание. Кроме нормального (обычного) начертания символов обычно применяют полужирное, курсивное и полужирное курсивное.
Формат файла определяет способ хранения текста в файле. Простейший формат текстового файла (ТХТ) содержит только символы (числовые коды символов), другие же форматы (DOC, RTF) содержат дополнительные управляющие коды, которые обеспечивают форматирование текста.
Различные кодировки кириллицы
Начиная с конца 60-х годов компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации.
Традиционно для кодирования одного символа используется количество информации, равное 1 байту, т. е. I = 1 байт = 8 бит.
Если рассматривать символы как возможные события, то можно вычислить какое количество различных символов можно закодировать:
N=2I =28= 256.
Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и заглавные буквы русского и латинского алфавита, цифры, знаки, графические символы и т. д.
Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер - по их коду.
При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом - и в компьютер определеннаянная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает одну ячейку.
В процессе вывода символа на экран компьютера производится обратный процесс - декодирование, т. е. преобразование кода символа в его изображение.
Важно, что присвоение символу конкретного кода - это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) обозначают не символы, а операции (перевод строки, ввод пробела и т. д.).
Коды с 33 по 127 интернациональные и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
Коды с 128 по 255 являются национальными, т. е. в национальных кодировках одному и тому же коду отвечают различные символы. К сожалению, в настоящее время существует пять различных кодовых таблиц для русских букв (КОИ-8, СР1251, СР866, Маc, ISO), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.
Каждая кодировка задается своей собственной кодовой таблицей. Одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.
В последнее время появился новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, и потому с его помощью можно закодировать не 256 символов, а N = 2 = 65 536 различных символов.