Age of Web ::: Библиотека ::: Статьи ::: Контент ::: Особенности интернет-статей

Статья опубликована по адресу /lib/content/articles_articles.html.
Copyright © 1999-2002 Age of Web.

Особенности интернет-статей
::: Автор: Юрий Колоколов
::: Категория: Контент



Это небольшое исследование было предпринято с целью выявления характерных особенностей текстов на сайтах и в печатных изданиях. Исследование было проведено силами автора и двух помощников за очень короткий срок и с использованием весьма скудного набора средств, поэтому говорить о его высоком качестве не приходится. Но при отсутствии лучшей статистики, и эта может сослужить неплохую службу.

Итак, мы решили сравнить некоторые характеристики различных текстов из различных источников. Для сравнения источники были поделены на условные группы. От каждой группы брались по три статьи наиболее типичного объема, но из разных источников.

Вот какие группы были выделены (в скобках указаны три конкретных источника):
  1. Ежедневная пресса ("Комсомольская правда", "Известия", "Московский комсомолец");

  2. Научная публицистика ("Наука и жизнь", "Техника-молодежи", "Квант");

  3. Компьютерные издания ("Мир ПК", "Компьютер Пресс", "PC Mag. RE");

  4. Статьи классиков (А.С. Пушкин, А.А. Блок, А.П. Чехов);

  5. Статьи новостных сайтов (RBC, Lenta.ru, Gazeta.ru);

  6. Статьи дизайнерских сайтов (mrdesign.krasline.ru, www.design.ru, pro.net.ru).
Бумажные статьи сканировались, затем три статьи из каждой группы сливались в единое целое. Ряд тестов проводился на таком слитом тексте; для некоторых тестов, помеченных звездочкой, из текста удалялись все слова, неизвестные старой системе ОРФО для ДОС (то есть предпринималась попытка удалить узкопрофессиональные термины).

Краткие итоги исследования объединены в следующей таблице:


Показатели группы средний
1 2 3 4 5 6
Основные характеристики
Средний объем текста (кб) 14,70 42,10 37,70 48,40 7,60 12,60 27,18
Средний объем текста без специальных терминов (кб)* 14,50 39,30 33,60 48,10 7,40 10,70 25,60
Доля терминов и специальных выражений (%) 0,01 0,07 0,11 0,01 0,03 0,15 0,06
Средняя длина предложений без служебных частей (союзов, предлогов и т.п.) (сл.) 9,70 13,10 14,20 10,20 8,10 11,70 11,17
 
Информационные характеристики
Размер сжатого текста (%) 21,50 39,70 36,20 28,40 22,40 27,10 29,22
Размер сжатого текста (%)* 21,50 38,60 36,30 28,70 22,50 26,90 29,08
 
Характеристики стиля
Доля "украшений" (вводных слов, частиц, междометий, идиом и т.п.) (%) 9,40 6,40 6,70 6,90 4,80 7,30 6,92
Доля оборотов уточняющего, доказательного характера (так как, потому что, по этой причине и т.п.) (%)* 3,10 9,90 6,80 6,20 2,10 4,50 5,43
Доля акцентирующих оборотов (заметьте, надо сказать, внимание и т.п.) (%)* 0,80 1,60 1,40 1,20 0,70 0,90 1,10
Доля оценочных оборотов (%)* 1,20 1,60 1,90 1,60 1,10 1,30 1,45
Доля перечислений (%) 2,00 11,20 15,60 3,60 1,80 6,40 6,77
Среднее количество внутренних ссылок 0,60 8,70 4,10 5,70 0,40 1,30 3,47
то же на кб. Текста 0,04 0,21 0,11 0,12 0,05 0,10 0,10
 
Корреляция по показателям стиля
6 группа 0,80 0,69 0,81 0,70 0,87 1,00 0,96
5 группа 0,98 0,37 0,43 0,69 1,00 0,87 0,78

Конечно же, все приведенные данные имеют весьма слабую связь с качеством текста, точно также как сведения о мощности и частотных характеристиках акустических систем не имеют прямой связи с качеством звука. Однако, их совокупность позволяет сделать некоторые объективные, основанные на количественных данных оценки. Качество же текста, разумеется, понятие чисто субъективное - как и качество звучания.

Общие характеристики в комментариях не нуждаются. Внимание стоит обратить, пожалуй, на среднюю длину предложения. Несмотря на авторские особенности, она все же показывает сложность предложений, так как некоторые тезисы или оттенки трудно выразить короткими предложениями.

Особенно спорными выглядят данные об информативности. Это просто процент сжатия, выдаваемый архиватором ZIP. Но принимая во внимание их значительное расхождение для разных текстов, об информативности все же судить можно. Даже если приписать ошибку в несколько процентов особенностям конкретных тем, разница все равно остается значительной.

Как ни странно, те издания, которые несут нам информацию каждый день, как раз и являются наименее информативными. Причина, как мне кажется, отчасти в том, что эти издания часто цитируют пустую и уклончивую "болтовню" различных чиновников и прочих персон. Прислушайтесь к ним: а много ли информации на единицу текста они выдают в действительности?

Общие и информационные характеристики даны единственно из стремления к некоторой законченности исследования. Основное значение в данном обзоре имеют характеристики стиля. Они затем участвовали в анализе схожести или различия стилей.

Для описания количественных показателей стиля специалистом-филологом после некоторых раздумий были сформулированы несколько критериев. Все оценки были сделаны вручную. Фразы, подходящие под определенный критерий, выделялись, затем редактор подсчитывал объем выделения. Для более полного представления о сущности и предназначении этих оценок, приведем их краткое описание.

"Украшения" - текстовые элементы, не несущие непосредственной информации о существе рассматриваемого вопроса, а служащие для выражения оттенков, отношения автора, либо просто стилизации или художественного оформления текста. Это могут быть вводные слова, частицы, междометия, идиомы и т.п. Их доля возрастает при эмоциональном изложении, при субъективных оценках, при преимущественном желании автора сформировать определенное отношение к теме, предпочитаемом информированию читателя.

Обороты доказательного характера - обороты, применяемые при пояснении, доказательстве ("так как", "потому что", "по этой причине", "ввиду того" и т.п.). Практически всегда применяются, если в тексте соседствуют изложение некоторых фактов и описание их причины. Их доля возрастает при желании автора аргументировать свои рассуждения, придать своему тексту систематичность и последовательность.

Акцентирующие обороты - элементы, призванные обратить особенное внимание читателей на некоторые фрагменты изложения ("заметьте", "надо сказать", "внимание" и т.п.). Применяются при развернутых объяснениях, желании автора подвести итог сказанному или подготовить читателя к восприятию некоторой важной информации, которая последует ниже по тексту. Их доля возрастает в сложных текстах, излагающих материал в соответствии с некоторым планом или традицией.

Оценочные обороты - элементы, служащие для сравнения некоторых объектов, описания их характеристик (сравнительные и превосходные степени, количественные и качественные элементы, ссылки на некоторые возможности). Ими изобилуют материалы, посвященные прикладным вопросам, обзоры, аналитические материалы.

Перечисления повсеместно применяются при различных видах анализа, подведении итогов, формулировании критериев и оценок. Большое их количество косвенно свидетельствует о глубине проработки темы, о желании автора всесторонне проанализировать ситуацию и преподнести ее читателю в развернутом виде, с тем чтобы он самостоятельно сформировал свое отношение.

Внутренние ссылки - это ссылки на другие фрагменты той же публикации. Их число неизбежно возрастает при активном доказательном процессе, развернутой аргументации. Так, в учебнике математики на одной странице может быть около полутора десятков ссылок на нее же, и столько же - на соседние страницы. Большое количество их также свидетельствует о систематичности и последовательности изложения.

Теперь коротко рассмотрим особенности, выявленные для различных групп. Газетные статьи поверхностны, малоинформативны, навязывают свое отношение (много "оформительских" элементов), избегают серьезной аргументации, хотя не стесняются давать оценки. В научной публицистике видна самая высокая информативность, серьезное отношение к тексту, стремление к глубокому анализу и четкой аргументации. "Украшения" служат в основном для снятия излишней сухости материалов. Компьютерная пресса также склонна к серьезной аргументации, несколько менее - к анализу. Характерно стремление оценивать, но оно подкреплено аргументами. Несколько тяжеловесный стиль. У классиков в целом очень сбалансированный, гармоничный стиль, без выделения каких-либо тенденций. При этом они сохраняют достаточную информативность и доступность. Новостные сайты менее всех склонны что-либо пояснять или аргументировать. Однако и излишнее украшение, эмоциональность тоже отсутствуют. Склонность к чисто информационной стороне изложения.

Самую странную и бесхарактерную группу составляют дизайнерские сайты. Стоит остановиться на них особо. Характерно: стремление писать на узкие темы (самая большая доля терминов), некоторая склонность к субъективным оценкам и стремление преподнести собственное мнение (увеличенная доля "украшательств" в сочетании со средним стремлением оценивать и слабой систематизированностью материалов), слабый уровень аргументации в сочетании со средней склонностью к анализу. Беспорядочность, эмоциональность аргументов (мало перечислений и внутренних ссылок). Отсутствие выделения наиболее важных частей.

В нижней части таблицы даны корреляционные оценки похожести для новостных и дизайнерских сайтов (пятая и шестая группа соответственно). Как нетрудно заметить, новостные сайты имеют уже достаточно оформленный стиль. Они сильно напоминают ежедневную прессу (0,98), но склонны к статьям меньшего объема, написанных более простым языком. Дизайнерские сайты, как это ни странно, больше похожи на новостные сайты (0,87) и ежедневную прессу (0,8), хотя, казалось бы, у них больше причин быть сильнее похожими на компьютерную прессу (0,81) и научную публицистику, ввиду необходимости профессионализма при изложении, либо на статьи классиков - ввиду "харизматичности" авторов. Просто поразительно то, что материалы дизайнерских сайтов так сильно похожи на "усредненные материалы" (последняя колонка в таблице). Остается думать, что выделение собственного стиля этой группы - дело ближайшего будущего.

Мы решили не делать никаких выводов из этих данных. Исследование наше недостаточно объемно для этого. Остается пожелать того, что эти данные послужат хорошей пищей для размышлений, а возможно и исходной точкой для дальнейшего изучения вопроса. Хочется надеяться, что кому-нибудь они помогут и в работе над собственными публикациями.