Определение жанра и автора литературного произведения статистическими методами

0.0

О книге

Входит в серию: Прикладная информатика. Научные статьи

В работе решается задача кластеризации литературных текстов по авторам и жанрам статистическими методами. Основным инструментом анализа являются функции распределения текста по буквам и буквосочетаниям, а также выборочные буквенные распределения, построенные по фрагментам текстов. Для набора текстов, объём наименьшего из которых достаточен для того, чтобы считать буквенное распределение каждого из них стационарным с ошибкой не более 3%, вычисляются расстояния между распределениями букв в пространстве суммируемых функций. Критерий кластеризации, основанный на близости между двухбуквенными распределениями текстов, позволяет правильно идентифицировать автора с ошибкой не более 5%, а жанр – с ошибкой не более 15%. Однобуквенные распределения дают ошибку 15% и 25% соответственно.

Рейтинги этой книги за 2010 год за всё время
Компьютерное 'железо' (аппаратное обеспечение), цифровая обработка сигналов 73 1565
Зарубежная компьютерная, околокомпьютерная литература 73 1719
Среди всех книг 8274

Другие книги автора – Ю. Н. Орлов 7 книг