Теория:

Текстовая информация представляет собой набор символов, которыми могут быть буквы, цифры, знаки препинания. В компьютерной технике символы закодированы с помощью чисел, каждый символ кодируется своим набором цифр — кодом.
Существуют специальные таблицы кодировок, в которых хранятся такие наборы кодов символов.
Кодовая таблица — это представление символов в компьютерной технике на внутреннем уровне.
Базой для компьютерных стандартов кодирования является кодировка ASCII. Однако этот стандарт рассчитан на передачу текстовой информации, которая состоит из букв английского алфавита. Таблица ASCII-кодов состоит из двух частей: стандартная (содержит коды от \(0\) до \(127\)) и расширенная (содержит символы с кодами от \(128\) до \(255\)).
 
\(0\)–\(31\)
Управляющие коды (для управления выводом данных)
\(32\)–\(127\)
Интернациональные символы (символы английского алфавита, знаки препинания, цифры, арифметические символы)
\(128\)–\(255\)
Символы национальных алфавитов, научные символы
 
Для русского языка используют чаще всего однобайтовые кодовые таблицы КОИ-\(8\), CP-\(866\), Windows-\(1251\), ISO \(8859\)-\(5\). Первые \(128\) символов идентичны с таблицей ASCII-кодов, следующие символы (с \(128\) по \(255\)) предназначены для русских букв.
 
Стандарт Unicode кодирует все алфавиты современных, мёртвых и вымышленных языков. Современная компьютерная техника и операционные системы работают на базе \(16\)-битной версии Unicode.
Форматы текстовых файлов
Наиболее распространённый и простой формат текстовых файлов:
  • .txt.
Усовершенствованный формат, который позволяет хранить форматирование:
  • .rtf.
Для документов Microsoft Word:
  • .doc;
  • .docx.
Позволяет работать с презентациями, формами, анимацией, аудио и видео:
  • .pdf.
Для документов OpenOffice:
  • .odt.
Для чтения электронных книг:
  • .fb2;
  • .djvu;
  • .mobi;
  • .epub.