Гипотезы об авторстве
В соответствии с сформулированной выше гипотезой пристрастие автора текста к определенным грамматическим связям проявится в высоких значениях определенных элементов матрицы А. Основная же масса элементов этой матрицы соответствует слабым, несущественным синтаксическим связям; частоты встречаемости этих пар малы, а их появление в значительной мере случайно (ведь объем исследуемых текстов ограничен).
Поэтому привлечение этих слабых связей на уровне грамматических классов в процессе атрибуции может только исказить результаты. Атрибуция же должна основываться на учете «существенных» связей. Если у ученика задачи на доказательство по геометрии вызывают сложности, то это говорит о том, что он не до конца разобрался в сути теорем.
Важно отметить, однако, что вследствие указанной выше специфики древнерусских текстов часть грамматических связей с высокими частотами встречаемости неизбежно будет соответствовать привнесенным, «внеавгорским» элементам; кроме того, структура матрицы А зависит и от «общеязыковых» конструкций. Эти обстоятельства должны приниматься в расчет при разработке методики атрибуции древнерусских текстов.
Итак, пусть рассматривается несколько гипотез об авторстве исследуемого текста и для каждого предполагаемого автора имеются безусловно принадлежащие ему тексты. Тогда предлагаемая методика атрибуции может быть описана следующей схемой:
- Для каждого из имеющихся текстов (в том числе и для исследуемого) получаем матрицу А частот парной встречаемости грамматических классов.
- Анализируя каждую матрицу, выделяем для каждого текста совокупность грамматических связей с высокими (т. е. превышающими некоторое пороговое значение) частотами.
- Сравнивая полученные совокупности грамматических связей, выделяем так называемое общеязыковое ядро, т. е. набор таких связей, которые содержатся во всех (или почти во всех) текста.
- Сформированное общеязыковое ядро извлекается из каждой совокупности отобранных грамматических связей с высокими частотами; оставшиеся после этого связи в каждой совокупности уже в большей мере характеризуют авторский стиль.
- При сравнении полученной совокупности существенных связей исследуемого текста с остальными определяется автор, чей текст характеризуется наиболее близкой по некоторому критерию совокупностью существенных грамматических связей.