Задался мыслью о том, сколько же нужно знать слов языка, чтобы смочь на
нем читать и общаться. В различных местах фигурируют всякие разные цифры
типа 2000 слов - минимум плюс-минус (чаще плюс:) лапоть. И лапоть может
быть большим. Провел небольшой эксперимент - посмотрел распределение
слов по частоте использования на примере "Брауновского корпуса",
включающего в себя всяких разных текстов (из газет, статей,
художественных книг и т.п.) суммой в миллион слов. Если считать
уникальными словами все, что отделяется пробелами и знаками препинания,
то в этом миллионе получается около 40 тысяч разных слов. Если же за
одно слово считать все формы do (do/did/done/does/doing), все формы car
(car/cars), hopeful (hopeful/hopefully) и т.д. и т.п. и учитывать всякие
приставки, то уникальных слов на самом деле окажется поменьше - сколько
пока не прикидывал (втрое меньше? впятеро?).
Пролистывая список
слов, упорядоченных по частоте употребления, определил, что я где-то
12-15 тысяч из 40 знаю очень хорошо (редко что-то незнакомое
проскакивало), а дальше - заметно хуже.
Потом мне стало интересно
само распределение. Оказалось, что на списке из миллиона слов
количество повторений слова примерно равно стам тысячам, поделенным на
позицию слова в частотном списке (например, 100-е слово повторяется
около 1000 раз в миллионе). Конечно, зависимость не четко
обратно-пропорциональная, но качественно и количествеено ее очень и
очень напоминает.
А теперь главное... Если проскладывать
повторения слов с самого первого (the) до того, которое примерно
приходится на конец твоих познаний, и поделить на полное количество слов
корпуса, то можно очень грубо оценить в процентах понимание текста
корпуса и даже знания языка.
Складывать повторения влом, по-этому беру свое примерное обратно-пропорциональное распределение и считаю интеграл... Считаю интеграл от 1 (позиция слова the) до N (позиция последнего известного мне слова) от выражения 105/x. Получаю 105 * ln(N). К миллиону это будет 10 * ln(N) %.
Расклад следующий:
N (тысяч) % корпуса 0.1 46 0.5 62 1 69 2 76 4 83 8 90 12 94 16 97 20 99 32 103 40 106
Да,
да, не может (не должно) быть больше ста процентов, но распределение я
выбрал грубое (на самом деле the встретится 70 тысяч раз на миллион, а
не 100 тысяч по моему распределению - вот уже и 3% лишних у меня
объясняются), и считать нужно было сумму, а не интеграл. Все это правда,
но тем не менее...
Что мы видим из таблицы: 1. В целом,
наиболее эффективно учить слова, начиная с самых частых и продолжая в
порядке убывания частоты использования, что вроде-бы очевидно. Нужен
только частотный словарь/список чтобы его придерживаться. 2.
Следствия к предыдущему пункту: если учили как вышло, без частотного
списка, то можно подметить очевидные пробелы в знаниях, глядя в список,
на незнакомые слова, расположенные между знакомыми. А можно узнать
примерно где вы находитесь, вспомнить, что вы знали, но забыли, или
забыли, что знали. :) 3. 50% корпуса покрывается где-то 500-ми самыми частыми словами, 75% - 4-мя тысячами, 90% - 16-ю тысячами. 4.
Каждые последующие 7% приходят с удвоением словарного запаса. Каждый
последующий процент дается все более трудно, особенно после 75% или 4-х
тысяч слов. Нужно еще не забывать, что запоминается слово тем чаще, чем
употребляется, а значит под конец дело усложняются не только за счет
удвоения на каждые 7%, но и еще из-за того, что эти новые 7% более
редкие, чем все, что было выучено до них. 5. Следствие предыдущего пункта: язык можно учить практически бесконечно. :) Даже родной. :))
В
4-м пункте можно еще одну оценку дать. Положим, слово находится на
позиции x в частотном списке. Сколько в среднем нужно прочесть слов,
прежде чем это слово встретится один раз? Считаем... В нашем миллионе
число встретится 105/x раз. А нужно 1. Делим. 106/(105/x) = 10 * x. Т.е.
слово встретится через 10 * x слов, где x - позиция этого слова в
частотном списке. И, например, слово на 5000-й позиции появится через
50000 слов или, если принять 300 за кол-во слов на странице книги, 167
страниц. А тысячное - всего через 33.
Так сколько же нужно знать слов чтобы читать и общаться на языке?
А
фиг его знает. :) Число зависит от того, как хорошо требуется знать
язык, в какой области, от того какие слова учить, и от того, как эти
слова считать (ну, или что считать уникальным словом). Еще стоит не
забывать про то, что слова в языке часто имеют несколько различных
смыслов, а также достаточно часто объединяются в пары, тройки и более
длинные выражения, которые нередко несут дополнительный смысл по
отношению к индивидуальным значениям составляющих слов (вспоминаем
фразовые глаголы и идиомы и моментально хватаемся за голову :).
Но
без двух-четырех тысяч наиболее употребимых слов никак не обойтись.
Если знать меньше, то половина смысла книг точно пройдет мимо, а то и
больше. К слову, я уже достаточно уверенно читаю по-испански, зная более
двух тысяч слов. Недавно книгу прочел практически без словаря (нарочно)
и не очень сильно мучался при этом.
P.S. в средней книжке около
ста тысяч слов (80 - 150). Миллион слов - это десяток книг. Очевидно,
что частотный список будет зависеть от того, какой корпус брать по
размеру и типу вошедших в него текстов (сравните политические или
экономические новости с любовным романом или научным трудом).
Источник: http://archaicos.livejournal.com/78467.html |