No Image

Укажите форматы текстовых файлов

СОДЕРЖАНИЕ
1 просмотров
10 марта 2020
Текстовый файл
MIME-тип text/plain
Противоположно двоичный файл и графический файл [d]
Расширение файла .txt или .text
Медиафайлы на Викискладе

Те́кстовый файл — компьютерный файл, содержащий текстовые данные. Текстовым файлам противопоставляются двоичные (бинарные) файлы, в которых содержатся данные, не рассчитанные на интерпретацию в качестве текстовых (например, файлы, хранящие текст в закодированном или сжатом виде, или хранящие не текст, а звук, изображение или иные данные).

В отличие от термина «текстовые данные» (текстовый формат данных), характеризующего содержимое данных, термин «текстовый файл» относится к файлу и характеризует его как контейнер, хранящий такие данные.

Содержание

Описание [ править | править код ]

Текстовый файл содержит последовательность символов (в основном печатных знаков, принадлежащих тому или иному набору символов). Эти символы обычно сгруппированы в строки (англ. lines, rows ). В современных системах строки разделяются разделителями строк, в прошлом же применялось хранение строк в виде записей постоянной или переменной длины (см.: Перфокарта). Иногда конец текстового файла (особенно если в файловой системе не хранится информация о размере файла) также отмечается одним или более специальными знаками, известными как маркеры конца файла.

Преимущества и недостатки [ править | править код ]

  • Универсальность — текстовый файл может быть прочитан (так или иначе) на любой системе илиОС, особенно если речь идёт об однобайтных кодировках вроде ASCII, которые не подвержены проблеме, характерной для других форматов файлов — для них не важна разница в порядке байтов или длине машинного слова на разных платформах.
  • Устойчивость — каждое слово и символ в таком файле самодостаточны и, если случится повреждение байтов в таком файле, то обычно можно восстановить данные или продолжить обработку остального содержимого, в то время как у сжатых или двоичных файлов повреждение нескольких байтов может сделать файл совершенно невосстановимым. Многие системы управления версиями рассчитаны на текстовые файлы и с двоичными файлами могут работать только как с единым целым.
  • Формат текстового файла крайне прост и его можно изменять текстовым редактором — программой, входящей в комплект практически любой ОС.
  • У больших несжатых текстовых файлов низкая информационная энтропия — эти файлы занимают больше места, нежели минимально необходимо. Хотя эта избыточность и определяет повышенную устойчивость к сбоям в каналах передачи данных и при получении данных с носителей, например, с магнитной ленты.
  • Некоторые операции с текстовыми файлами неэффективны. Например, если в файле встретится число, вычислительная система до начала операций с ним должна будет перевести его в свой внутренний формат, применив сравнительно сложную процедуру конвертации числа; чтобы перейти на 1000-ю строку, требуется считать 999 строк, идущих до неё; сложно заменить одну строку другой и т. д. Поэтому при работе с большими объёмами данных текстовые файлы применяют только как промежуточный формат, обеспечивающий интероперабельность.

Форматы, основанные на текстовых файлах [ править | править код ]

В силу своей простоты текстовые файлы нередко используются для хранения служебной информации (например, логов): так как операция добавления в конец текстового файла новых данных не требует сколь-нибудь значительных вычислительных ресурсов независимо от уже имеющегося объёма файла и вида добавляемых текстовых данных, ведение текстовых лог-файлов обычно происходит эффективно и незаметно для пользователя и для других приложений (вплоть до исчерпания дискового пространства).

Читайте также:  Мельница для соли и перца отличие

Текстовый формат служит основой для многих более специализированных форматов (например, .ini, SGML, HTML, XML, TeX, исходных текстов языков программирования). В некоторых из таких форматов определённые сочетания символов могут использоваться как средства разметки текста. В таком случае файл может хранить форматированный текст, в котором для символов дополнительно может быть задан шрифт, начертание, размер и т. п. (например, Rich Text Format, HTML).

Расширения имён файлов [ править | править код ]

В DOS, Mac OS и Windows для файлов с неформатированным текстом обычно используется расширение .txt. Тем не менее, текстовыми могут являться файлы с любым другим расширением или без оного. Например, исходные коды программ обычно хранятся в файлах с расширениями, соответствующими языку программирования, на котором написаны программы (.java, .bas, .pas, .c).

Форматированный текст (текст с разметкой) обычно хранится в файлах с расширением, соответствующим формату или языку разметки — .rtf, .htm, .html.

Кодировки [ править | править код ]

8-битный текст [ править | править код ]

Исторически для кодирования текстовых файлов применялись 7-битный набор символов ASCII, а также 8-битные EBCDIC и различные расширения ASCII. В 8-битных кодовых страницах общепринято использовать в первой половине кодовой таблицы символы, соответствующие ASCII.

Преимуществом 8-битного представления текста является программная простота и независимость от проблемы порядка байтов или длины машинного слова на разных платформах. Недостаток — большое количество различных стандартов, что может приводить к несовместимости.

Unicode в текстовых файлах [ править | править код ]

Применение Unicode в текстовых файлах хотя в основном решает «проблему кодировок» и стандартизирует употребление управляющих символов, но создаёт свои проблемы. В большинстве современных систем неделимой единицей информации в потоке данных является байт (8 бит), которых для кодирования одного символа из Юникода требуется несколько. В качестве решения применяются несовместимые между собой системы UTF-8 и две версии UTF-16 (UTF-16LE и UTF-16BE с противоположным порядком байтов). Иногда в начало файла добавляют специальный символ-маркер (U+FEFF [1] ), позволяющий распознать формат однозначно. UTF-8 имеет преимущество обратной совместимости с ASCII, однако программная обработка текста в UTF-8 усложняется непостоянным размером символа. Также тексты в Юникоде отличаются ещё большей избыточностью, нежели 8-битные.

Управляющие символы [ править | править код ]

Различные операционные системы придерживаются своего представления перевода строки и конца файла. В UNIX перевод строки состоит из одного символа LF (код 0xA), в Mac OS (но не OS X) — из символа CR (код 0xD), а в DOS и Windows перевод строки кодируется последовательностью двух символов: CR и LF.

Такой разнобой продиктован принципами работы пишущих машинок: чтобы перейти на новую строку, надо вернуть каретку в начало строки (carriage return), а затем провернуть барабан на одну строку (line feed). При печати на принтере тот и другой символ мог стоять обособленно (например, чтобы выделить строку, пропечатав её дважды, или прокрутить барабан на несколько строк), но в текстовых файлах в этом нет нужды.

Читайте также:  Asus rog strix b360 g gaming обзор

Помимо названных, в текстовых файлах встречаются такие символы, как табуляция (код 9) и перевод страницы (код 0xC). Последний использовался старыми текстовыми редакторами наподобие ЛЕКСИКОН, а также в файлах, предназначенных для распечатки на принтере.

Формат – это способ представления инфрмационных объектов (текста, звука, изображения) в файле.

Текстовые файлы могут иметь различные форматы, в зависимости от программных средств, их создающих. При создании текстовых элементов мультимедиа необъходимо учитывать возможность их преобразования в другой формат для чтения в других программных средствах.

.TXT – расширенный набор символов для кодировки Microsoft Windows. Блокнот – простой редактор, позволяющий вводить текст с минимальными возможностями его обработки. TXT легко доступен для чтения в разных приложениях и на разных платформах.

.RTF – усовершенствованный формат текстов. Rich Text Format – так расшифровывается аббревиатура, стоящая в названии формата, созданного корпорацией Microsoft. RTF представляет собой текст, размеченный с помощью специальных «управляющих слов», что позволяет производить и сохранять достаточно сложное форматирование, вставлять сноски, колонтитулы, рисунки, таблицы и формулы, хотя в обработке этих дополнительных объектов RTF уступает формату DOC. Уступает он DOC и в объеме файлов: использование для форматирования текста «управляющих слов» вместо стилевой таблицы не приводит к компактности. Однако, RTF выигрывает спор с DOC в отношении безопасности, т.к. его внутренняя организация не предусматривает хранения макрокода и, следовательно, неуязвима к макровирусам.

Word Pad – текстовый процессор со средними возможностями.

.DOC – Microsoft Word – самый мощный из всех текстовых процессоров. В формат DOC включены самые широкие возможности обработки и форматирования текста, включая создание сносок и комментариев, а также возможности создания, размещения и редактирования таблиц, диаграмм, изображений и других элементов. Правда, в полном объеме и наиболее корректно все эти возможности реализованы только в MS Word, чему способствует позиция Microsoft, не раскрывающей текущих спецификаций популярного формата. Несмотря на то, что DOC «понимают» и другие программы, их производителям не всегда удается обеспечить его корректное распознавание. В отличие от TXT и RTF, DOC является бинарным форматом, что делает его нечитабельным в простых тектовых редакторах и, более того, не обеспечивает полной совместимости его собственных версий.

.HTML –для создания гипертекстовых документов в Интернете. HTML-документы – это текстовые файлы, доступные для просмотра и редактирования в любом текстовом редакторе. Отличие этих файлов от обычных текстовых файлов заключается в наличии специальных меток (тегов), которые определяют структуру и форматирование документа.

.PDF(Portable Document Format) – формат для хранения и просмотра документов, используются для создания веб-страниц, полностью сохраняет формат созданного документа при передаче в сети интернет. Кросплатформенный документ предназначенный для представления в электронном виде полиграфической продукции, открывает Adobe Reader и Foxit Reader.

.XML (Extensible Markup Language) – метаязык создания документов.

Читайте также:  Delete account telegram plus

.DJVU — формат разработанный для хранения сканированных документов, достаточно распостраненный формат электронных библиотек, файл формата djvu открывает DjVu Reader.

.INI — текстовый файл конфигурации используется для хранения настроек в программах Windows. Открыть этот формат можно любым текстовым редактором включая Notepad и WordPad.

Для подготовки рекламных буклетов, оформления книг и журналов используются настольные издательские системы. Наиболее известные – PageMaker, QuarkXPress и Ventura

CASE-технологии

CASE-технологии – относительно новое направление, сформировавшееся на рубеже 80-х гг.

Не нашли то, что искали? Воспользуйтесь поиском:

Подготавливая на компьютере текстовые документы, вы не могли не обратить внимание на большое количество форматов текстовых файлов. Давайте попробуем разобраться в этом изобилии форматов и посмотрим, для чего каждый из них предназначен.

Какие бывают текстовые форматы

Данный формат появился вместе с первым компьютером. В *.txt-файле содержится только текстовая информация и ничего больше – данные о форматировании, шрифтах, картинках там сохранить не получится. Формат является наиболее универсальным – он может открыться на всех устройствах с помощью любого приложения.

Расширенный текстовый формат (Rich Text Format) был разработан компанией Microsoft как универсальный кросс-платформенный формат для хранения текстовой информации. Сохраняет данные форматирования, позволяет производить вставку дополнительных объектов:

Основная «фишка» rtf-формата – использование специальных «управляющих» слов, выделенных спецсимволами, что приводит к значительному увеличению объема файла.

Формат *.doc также разработан корпорацией Microsoft и использовался в текстовом редакторе Word. Если быть точным, то doc-файлы на самом деле бинарные, их можно открыть в большинстве современных текстовых редакторов. Имеют возможности сохранения форматирования, стилевого оформления, вложения картинок и других объектов в текст, а также поддержку гиперссылок.

Усовершенствованный и лицензированный формат от Microsoft, появившийся впервые с пакетом Office 2007. Представляет собой следующий этап формата *.doc.

Достаточно популярны сейчас форматы, основанные на Hyper Text Markup Language (HTML) – HTM, CHM, MHT и др. Язык HTML был разработан специально для создания веб-страниц, но благодаря своей универсальности, удобству и небольшому размеру стал широко использоваться для хранения текстовых данных. Любой HTML-документ можно прочитать с помощью стандартных инструментов операционной системы, без использования сторонних программ.

Формат разработан компанией Adobe специально для нужд полиграфии. Впоследствии пользователи оценили удобство использования pdf-файлов, и этот формат стал стандартом для обмена документами.

Формат файлов для документов OpenOffice. Альтернатива закрытому формату docx от Microsoft. Поддерживает большую часть форматирования что и «DOCX», включая вставку изображений, таблиц и гиперссылок.

Форматы для электронных книг

Кроме вышеописанных, существует также много форматов текстовых файлов, разработанных специально для чтения в электронном виде. Такие файлы нельзя отредактировать, а для просмотра необходима специальная программа. К таким форматам можно отнести:

Вместо послесловия

Мы рассмотрели с вами основные типы форматов текстовых файлов. Конечно, со временем некоторые из них могут устареть, уступив место более современным, с расширенными возможностями.
А встречались ли вам текстовые файлы, которые не удалось открыть на компьютере или мобильном гаджете?

Комментировать
1 просмотров
Комментариев нет, будьте первым кто его оставит

Это интересно
Adblock detector