Задался мыслью о том, сколько же нужно знать слов языка, чтобы смочь на нем читать и общаться. В различных местах фигурируют всякие разные цифры типа 2000 слов - минимум плюс-минус (чаще плюс:) лапоть. И лапоть может быть большим. Провел небольшой эксперимент - посмотрел распределение слов по частоте использования на примере "Брауновского корпуса", включающего в себя всяких разных текстов (из газет, статей, художественных книг и т.п.) суммой в миллион слов. Если считать уникальными словами все, что отделяется пробелами и знаками препинания, то в этом миллионе получается около 40 тысяч разных слов. Если же за одно слово считать все формы do (do/did/done/does/doing), все формы car (car/cars), hopeful (hopeful/hopefully) и т.д. и т.п. и учитывать всякие приставки, то уникальных слов на самом деле окажется поменьше - сколько пока не прикидывал (втрое меньше? впятеро?). Пролистывая список слов, упорядоченных по частоте употребления, определил, что я где-то 12-15 тысяч из 40 знаю очень хорошо (редко что-то незнакомое проскакивало), а дальше - заметно хуже. Потом мне стало интересно само распределение. Оказалось, что на списке из миллиона слов количество повторений слова примерно равно стам тысячам, поделенным на позицию слова в частотном списке (например, 100-е слово повторяется около 1000 раз в миллионе). Конечно, зависимость не четко обратно-пропорциональная, но качественно и количествеено ее очень и очень напоминает. А теперь главное... Если проскладывать повторения слов с самого первого (the) до того, которое примерно приходится на конец твоих познаний, и поделить на полное количество слов корпуса, то можно очень грубо оценить в процентах понимание текста корпуса и даже знания языка. Складывать повторения влом, по-этому беру свое примерное обратно-пропорциональное распределение и считаю интеграл... Считаю интеграл от 1 (позиция слова the) до N (позиция последнего известного мне слова) от выражения 105/x. Получаю 105 * ln(N). К миллиону это будет 10 * ln(N) %. Расклад следующий: N (тысяч) % корпуса 0.1 46 0.5 62 1 69 2 76 4 83 8 90 12 94 16 97 20 99 32 103 40 106 Да, да, не может (не должно) быть больше ста процентов, но распределение я выбрал грубое (на самом деле the встретится 70 тысяч раз на миллион, а не 100 тысяч по моему распределению - вот уже и 3% лишних у меня объясняются), и считать нужно было сумму, а не интеграл. Все это правда, но тем не менее... Что мы видим из таблицы: 1. В целом, наиболее эффективно учить слова, начиная с самых частых и продолжая в порядке убывания частоты использования, что вроде-бы очевидно. Нужен только частотный словарь/список чтобы его придерживаться. 2. Следствия к предыдущему пункту: если учили как вышло, без частотного списка, то можно подметить очевидные пробелы в знаниях, глядя в список, на незнакомые слова, расположенные между знакомыми. А можно узнать примерно где вы находитесь, вспомнить, что вы знали, но забыли, или забыли, что знали. :) 3. 50% корпуса покрывается где-то 500-ми самыми частыми словами, 75% - 4-мя тысячами, 90% - 16-ю тысячами. 4. Каждые последующие 7% приходят с удвоением словарного запаса. Каждый последующий процент дается все более трудно, особенно после 75% или 4-х тысяч слов. Нужно еще не забывать, что запоминается слово тем чаще, чем употребляется, а значит под конец дело усложняются не только за счет удвоения на каждые 7%, но и еще из-за того, что эти новые 7% более редкие, чем все, что было выучено до них. 5. Следствие предыдущего пункта: язык можно учить практически бесконечно. :) Даже родной. :)) В 4-м пункте можно еще одну оценку дать. Положим, слово находится на позиции x в частотном списке. Сколько в среднем нужно прочесть слов, прежде чем это слово встретится один раз? Считаем... В нашем миллионе число встретится 105/x раз. А нужно 1. Делим. 106/(105/x) = 10 * x. Т.е. слово встретится через 10 * x слов, где x - позиция этого слова в частотном списке. И, например, слово на 5000-й позиции появится через 50000 слов или, если принять 300 за кол-во слов на странице книги, 167 страниц. А тысячное - всего через 33. Так сколько же нужно знать слов чтобы читать и общаться на языке? А фиг его знает. :) Число зависит от того, как хорошо требуется знать язык, в какой области, от того какие слова учить, и от того, как эти слова считать (ну, или что считать уникальным словом). Еще стоит не забывать про то, что слова в языке часто имеют несколько различных смыслов, а также достаточно часто объединяются в пары, тройки и более длинные выражения, которые нередко несут дополнительный смысл по отношению к индивидуальным значениям составляющих слов (вспоминаем фразовые глаголы и идиомы и моментально хватаемся за голову :). Но без двух-четырех тысяч наиболее употребимых слов никак не обойтись. Если знать меньше, то половина смысла книг точно пройдет мимо, а то и больше. К слову, я уже достаточно уверенно читаю по-испански, зная более двух тысяч слов. Недавно книгу прочел практически без словаря (нарочно) и не очень сильно мучался при этом. P.S. в средней книжке около ста тысяч слов (80 - 150). Миллион слов - это десяток книг. Очевидно, что частотный список будет зависеть от того, какой корпус брать по размеру и типу вошедших в него текстов (сравните политические или экономические новости с любовным романом или научным трудом). Источник: http://archaicos.livejournal.com/78467.html
1 2 3 4 5 Категория: Методы словарных минимумов \| Добавил: deni (24.05.2012)
Просмотров: 542 \| Комментарии: 1 \| Рейтинг: 0.0/0

Всего комментариев: 0

Английский - ВСЕМ!

Каталог статей