Главная > Мысли, Наука > Анализ текстов

Анализ текстов

Этот пост – продолжение изысканий на тему статистического анализа текстов. В прошлый раз, я строил функцию распределения текста по длине предложений. В этот раз я исследую слова из которых состоит текст. Строится функция распределения по длине слов. Также находится среднее число букв в слове и дисперсия распределения.

Вот например функции распределения по длинам слов для Чеховских рассказов. Было взято два куска текста (по нескольку рассказов в каждом) и вот что получилось:

Длина текста 1: 44041 символа

Длина текста 2: 42092 символа

Результаты (текст 1):
Среднее число букв в слове: 4.9152414106251
Дисперсия: 3.0963669515686

Результаты (текст 2):
Среднее число букв в слове: 4.957320971867
Дисперсия: 3.0301554718235

И график:
Анализ текста: Чехов

Сравнение текстов Чехова и Бунина (Жизнь Арсеньева):

Длина текста 1 (Чехов):42092

Длина текста 2 (Бунин):51693

Результаты (текст 1):
Среднее число букв в слове: 4.957320971867
Дисперсия: 3.0301554718235

Результаты (текст 2):
Среднее число букв в слове: 5.0579781353642
Дисперсия: 3.0793189863174

Графики:
Анализ текста: Чехов, Бунин

Потестировать анализатор текста можно:
тут , если нужно сравнивать два разных текста, и тут , если нужно проанализировать один текст.

Графики строятся с помощью AJAX API Google.

Очисти свою карму - поделись с друзьями ссылкой на эту страницу в соц. сетях!
  • Добавить ВКонтакте заметку об этой странице
  • Мой Мир
  • Facebook
  • Twitter
  • LiveJournal
  • Одноклассники



Также Вас может заинтересовать:


  1. Пока что нет комментариев.



Антиспам: если Вы - человек, то скопируйте и вставьте.

* Скопируйте это:

* И вставьте сюда:

Switch to our mobile site

Protected by Copyscape Online Plagiarism Detection Рейтинг блогов

| MySQL: 39запросов / 0.269 Потребление памяти: 29.28MB