Discussion:
Проблема минимизации текста
(слишком старое сообщение для ответа)
Dmitry Surrentchick
2006-11-29 04:16:21 UTC
Permalink
Проблема минимизации текста

А.А.Леонтьев, А.М.Шахнарович, В.И.Батов


Речь в криминалистике и судебной психологии

Глава 3. Проблема минимизации текста

В настоящее время в экспертизе авторства текстов используются в основном
методы анализа формальные характеристик письменной речи. Эти
характеристики представляют собой показатели частоты встречаемости тех
или иных единиц речи в исследуемом тексте. Лингвистическая природа,
количество и уровень организации формальных характеристик могут быть
самыми различными. К их числу относятся, например: характеристики
лексического богатства текстов, выражающиеся через показатели отношений
различных слов ко всем славам данного текста; относительная
распространенность различных частей речи в данном тексте; средняя длина
предложений и пр.

Что же касается количества используемых при атрибуции формальных
характеристик, то и здесь диапазон достаточно широкий. Так, харьковские
исследователи выделяют до 63-х формальных характеристик: от сравнительно
простых (относительное число знаменательных слов в тексте) до достаточно
сложных (частотность определенных грамматических конструкций в
тексте)^1.

Теоретическим основанием для использования формальных характеристик в
целях атрибуции является стохастическая (вероятностная) модель
порождения речевого высказывания. Как следствие подобного рассмотрения
процессов речепорождения возникает вопрос минимизации атрибутируемого
текста. Действительно, с возрастанием объема (длины) текста частота того
или иного речевого элемента стабилизируется. И тогда те частотные
показатели, которые характеризуют организацию речевых элементов у
данного индивида, в конечном счете могут быть выявлены. (Примером тому
служат вычисленные показатели лексического богатства, например, языка А.
С. Пушкина.)

Иными словами, принцип индивидуализации речевого опыта, речевого общения
позволяет предположить, что указанные показатели будут сугубо
индивидуальны и могут служить в качестве идентификационных признаков. Hо
это справедливо лишь при условии достаточного по объему текста данного
автора. Hо какова "достаточность" объема речевого массива для вывода о
возможном авторстве, пока неясно. Это осложняется тем обстоятельством,
что различные исследователи используют совершенно различные
характеристики при анализе письменной речи.

Характерно, что вопрос о минимальном объеме атрибутируемого текста
ставился еще в начале текущего столетия отечественными
исследователями^2. Используя сравнительно немного формальных
характеристик, А. А. Марков, H. А. Морозов пришли к выводу, что объем
исследуемого теиста должен быть порядка нескольких тысяч слов.
Исследования последнего времени, где используется современный
математический аппарат, показали, что минимальный объем текста при
атрибуции должен быть не менее пяти тысяч слов^3.

Hо эксперты-криминалисты при проведении экспертиз по атрибуции текста
практически никогда не располагают текстами такого объема. При анализе
текстов меньших по объему (порядка нескольких сот слов), как показали
последние исследования^4, формальные характеристики непригодны,
поскольку они очень изменчивы. Однако уже появилась возможность
преодолеть и эти трудности. Эта возможность основана на использовании
принципов, имеющих психологический и психолингвистический характер.

Установлено, что при условии нормального развития речевого навыка
человек, как правило, адекватно воспринимает речевую информацию даже в
случае ее частичного искажения или неполного представления. Hапример, в
условиях сравнительно плохой слышимости часть сообщения может быть не
воспринята, однако смысл его все же осознается. Эти и другие наблюдения
дают основания считать, что известное в психологии явление
"константности восприятия" (исследованное главным образом в сфере
зрительного восприятия) имеет место и в сфере речевой деятельности. Hа
это указывают, в частности, результаты исследований частотных измерений
элементов речи. Так, например, показано, что субъективная оценка частоты
встречаемости тех или иных слов при определенных условиях эксперимента
хорошо согласуется с объективной частотой распространенности этих слов,
полученной из частотных словарей^5.

Выводы, следующие из предположения о константности восприятия речевой
информации, весьма перспективны для обсуждаемой проблемы. Речь идет о
возможности разработки метода атрибуции на основе не самих формальных
характеристик письменной речи, а на основе их субъективных образов,
которые менее изменчивы. Психолингвистические и
математико-статистические процедуры к настоящему времени достаточно
разработаны, для того чтобы осуществить эту попытку. Получены
определенные результаты в исследованиях по атрибуции с применением
методов анализа психологических образований в процессе восприятия
речевой информации. Эти вопросы интенсивно и детально разрабатываются
как у нас, так и за рубежом. У нас предпринято исследование по атрибуции
опорных текстов М. Е. Салтыкова-Щедрина. Положительные результаты
получены и в зарубежных исследованиях ^6. Все это дает основания
оптимистически оценивать возможность применения подобных методов в
автороведческих экспертизах.



------------------

^1 С. М. Вул. Об использовании признаков письменной речи в
криминалистической экспертизе письма, автореф. канд. дисс., Харьков,
1975.

^2 H. А. Морозов, Лингвистические спектры,--"Известия отделения
русского языка и словесности", т. 20, кн. 4, 1915; А. А. Марков. Пример
статистических исследований над текстом "Евгения Онегина",
иллюстрирующих связь испытаний в цепь,-- "Известия Императорской
Академии наук", серия 6, 1913, т. 7, No. 3.

^3 Е. Вороичак, Методы вычисления показателей лексического
богатства текстов,-- "Семиотика и искусствометрия", сборник переводов,
М., 1972.

^4 В. И. Батов, Ю. А. Сорокин, Атрибуция текста на основе
объективных характеристик (итоги эксперимента),--"Известия АH СССР",
серия литературы и языка, 1975, т. 34.

^5 Р. М. Фрумкина, Вероятность элементов текста и речевое
поведение, М., 1971.

^6 Д. Б. Кэролл, Факторный анализ стилевых характеристик прозы,--
"Семиотика и искусствометрия", сборник переводов, М, 1972.
--
*/_Dmitry_/*
Geor V Shaten
2006-11-30 17:04:22 UTC
Permalink
Hi Dmitry Surrentchick, как Ваша Conceptio?

DS> Установлено, что при условии нормального развития речевого навыка
DS> человек, как правило, адекватно воспринимает речевую информацию даже в
DS> случае ее частичного искажения или неполного представления. Hапример, в
DS> условиях сравнительно плохой слышимости часть сообщения может быть не
DS> воспринята, однако смысл его все же осознается. Эти и другие наблюдения
DS> дают основания считать, что известное в психологии явление
DS> "константности восприятия" (исследованное главным образом в сфере
DS> зрительного восприятия) имеет место и в сфере речевой деятельности. Hа
DS> это указывают, в частности, результаты исследований частотных измерений
DS> элементов речи. Так, например, показано, что субъективная оценка частоты
DS> встречаемости тех или иных слов при определенных условиях эксперимента
DS> хорошо согласуется с объективной частотой распространенности этих слов,
DS> полученной из частотных словарей^5.
Hаск.я помню, отцы-ревизионисты (Фоменко и Ко) вкратце излагали свою
методику, благодаря которой они и. Она принципиально такая же. И вот,
они получили, что частота слов при описании "как бы" "разных" событий
сильно совпадает и пришли к гипотезе, что т.н.летописцы описали
практически современные события (с примесью разных фантазий), но
их время отнесли сильно назад. И получилась т.о., что одно и то же
событие (война, голод, мор итп) происходили в т.н.истории 2-3-4 раза.
..ВОт, что-то в этом роде.



-=> По делам и воздатся, Geor V Shaten <=-

Loading...