Частотная статистика русского языка
Некоторые статистические данные об использовании русских слов
- Средняя длина слова 5,3 символа.
- Средняя длина предложения 10,4 слова.
- 1000 наиболее частотных лемм покрывает 64,1% текста.
- 2000 наиболее частотных лемм покрывают 75,0% текста.
- 3000 наиболее частотных лемм покрывают 76,5% текста.
- 5000 наиболее частотных лемм покрывают 82,1% текста.
Отсюда.