Главная
Регистрация
Вход
Понедельник
20.05.2024
09:10
Приветствую Вас Гость | RSS
Сайт для подготовки к госникам

Меню сайта

Мини-чат

Статистика

Онлайн всего: 1
Гостей: 1
Пользователей: 0

Форма входа


 Основные понятия технологии обработки текстовой информации 

Текстовые редакторы — это программы для создания, редактирования, форматирования сохранения и печати документов. Современный документ может содержать, кроме текста, и другие объекты (таблицы, диаграммы, рисунки и т. д.).

Более совершенные текстовые редакторы, имеющие целый спектр возможностей по созданию документов (например, поиск и символов, средства проверки орфографии, вставка таблиц и др.), называют иногда текстовыми процессорами. Примером такой программы является Word из офисного пакета Microsoft Office.

Мощные программы обработки текста — настольные издательские системы — предназначены для подготовки документов к публикации. Пример подобной системы — Adobe PageMaker.

Редактирование – преобразование, обеспечивающее добавление, удаление, перемещение или исправление содержания документа. Редактирование документа обычно производится путем добавления, удаления или перемещения символов или фрагментов текста.

Объектно-ориентированный подход дает возможность реализовывать механизм встраивания и внедрения объектов (OLE — Object Linking Embedding). Этот механизм позволяет копировать и вставлять объекты из одного приложения в другое. Например, работая с документом в текстовом редакторе Word, в него можно встроить изображения, анимацию, звук и даже видеофрагменты и таким образом из обычного текстового документа получить мультимедиа-документ.

Форматирование — преобразование, изменяющее форму представления документа. В начале работы над документом целесообразно задать параметры страницы: ее формат (размер), ориентацию, размер полей и др.

Форматирование абзаца. Абзац является одним из основных объектов текстового документа. В компьютерных документах абзацем считается любой текст, заканчивающийся управляющим символом (маркером) конца абзаца. Ввод конца абзаца обеспечивается нажатием клавиши {Enter} и отображается символом ¶.

В процессе форматирования абзаца задаются параметры его выравнивания (выравнивание отражает расположение текста относительно границ полей страницы), отступы (абзац целиком может иметь отступы слева и справа) и интервалы (расстояние между строк абзаца), отступ красной строки и др.

Форматирование символов. Символы - это буквы, цифры, пробелы, знаки пунктуации, специальные символы, такие как @, *, &. Символы можно форматировать (изменять их вид), задавая шрифт, размер и начертание.

Шрифт - полный набор символов определенного начертания, включая прописные и строчные буквы, знаки препинания, специальные символы, цифры и знаки арифметических действий. Для каждого исторического периода и разных стран характерен шрифт определенного рисунка. Каждый шрифт имеет свое название, например Times New Roman, Arial, Courier и др.

По способу представления в компьютере различаются шрифты растровые и векторные. Для представления растровых шрифтов служат методы растровой графики, символы шрифта - это группы пикселей. Растровые шрифты допускают масштабирование только с определенными коэффициентами.

В векторных шрифтах символы описываются математическими формулами и возможно произвольное их масштабирование. Среди векторных шрифтов наибольшее распространение получили шрифты типа True Type.

Размер шрифта. Единицей измерения размера шрифта является пункт (1 пт = 0,376 мм). В текстовом редакторе Word по умолчанию используется шрифт Times New Roman размером 12 пт. Ниже приведены примеры представления текста с помощью шрифта различного размера:

Шрифт размером 14 пт.

Шрифт размером 10 пт.

Шрифт размером 6 пт.

Начертание. Кроме нормального (обычного) начертания символов обычно применяют полужирное, курсивное и полужирное курсивное.

Формат файла определяет способ хранения текста в файле. Простейший формат текстового файла (ТХТ) содержит только символы (числовые коды символов), другие же форматы (DOC, RTF) содержат дополнительные управляющие коды, которые обеспечивают форматирование текста.

Различные кодировки кириллицы

Начиная с конца 60-х годов компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации.

Традиционно для кодирования одного символа используется количество информации, равное 1 байту, т. е. I = 1 байт = 8 бит.

Если рассматривать символы как возможные события, то можно вычислить какое количество различных символов можно закодировать:

N=2I =28= 256.

Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и заглавные буквы русского и латинского алфавита, цифры, знаки, графические символы и т. д.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер - по их коду.

При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом - и в компьютер определеннаянная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает одну ячейку.

В процессе вывода символа на экран компьютера производится обратный процесс - декодирование, т. е. преобразование кода символа в его изображение.

Важно, что присвоение символу конкретного кода - это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) обозначают не символы, а операции (перевод строки, ввод пробела и т. д.).

Коды с 33 по 127 интернациональные и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Коды с 128 по 255 являются национальными, т. е. в национальных кодировках одному и тому же коду отвечают различные символы. К сожалению, в настоящее время существует пять различных кодовых таблиц для русских букв (КОИ-8, СР1251, СР866, Маc, ISO), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.

Каждая кодировка задается своей собственной кодовой таблицей. Одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.

В последнее время появился новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, и потому с его помощью можно закодировать не 256 символов, а N = 2 = 65 536 различных символов.


Поиск

Календарь
«  Май 2024  »
ПнВтСрЧтПтСбВс
  12345
6789101112
13141516171819
20212223242526
2728293031

Архив записей

Друзья сайта
  • Официальный блог
  • Сообщество uCoz
  • FAQ по системе
  • Инструкции для uCoz

  • Copyright MyCorp © 2024
    Бесплатный хостинг uCoz