Воскресенье, 05.05.2024, 08:47
Приветствую Вас Гость | RSS

Английский - ВСЕМ!

Категории раздела
Классификация методов [5]
Коммуникативный метод [6]
Эмоционально-смысловой метод [3]
Фундаментальный метод [1]
Визуальные методы [2]
Сознательно-практический метод [3]
Грамматико-переводной метод [11]
Лексико-переводной [5]
Интенсивные методы [12]
Структурный метод [3]
Натуральный метод [6]
ПРЯМОЙ МЕТОД [4]
Метод погружения [10]
Метод гувернантки [8]
Психологические методы [10]
Правополушарные методы [6]
Лингвосоциокультурный метод [4]
Мнемонические методы [7]
Эксплицитные [1]
Имплицитные [1]
Дифференцированные методы [2]
Методы словарных минимумов [13]
Аналитико-имитативный метод [3]
Дедуктивный метод [2]
Исследовательский метод [4]
Личностно-ориентированный метод [2]
Сексуальный метод [7]
Суггестопедия. [1] 25 кадр [1]
Метод Оксфордского Университета [0]
Метод Кембридского Университета [0]
25 кадр [8]
Индуктивный метод [2]
Матричный метод [4]
Сознательно-сопоставительный метод [2]
Метод учебных проектов [5]
Метод Effortless English [2]
Статистика

Онлайн всего: 1
Гостей: 1
Пользователей: 0
Форма входа

Каталог статей

Главная » Статьи » Методы изучения языков » Методы словарных минимумов

Сколько нужно знать слов?
Задался мыслью о том, сколько же нужно знать слов языка, чтобы смочь на нем читать и общаться. В различных местах фигурируют всякие разные цифры типа 2000 слов - минимум плюс-минус (чаще плюс:) лапоть. И лапоть может быть большим.
Провел небольшой эксперимент - посмотрел распределение слов по частоте использования на примере "Брауновского корпуса", включающего в себя всяких разных текстов (из газет, статей, художественных книг и т.п.) суммой в миллион слов. Если считать уникальными словами все, что отделяется пробелами и знаками препинания, то в этом миллионе получается около 40 тысяч разных слов. Если же за одно слово считать все формы do (do/did/done/does/doing), все формы car (car/cars), hopeful (hopeful/hopefully) и т.д. и т.п. и учитывать всякие приставки, то уникальных слов на самом деле окажется поменьше - сколько пока не прикидывал (втрое меньше? впятеро?).

Пролистывая список слов, упорядоченных по частоте употребления, определил, что я где-то 12-15 тысяч из 40 знаю очень хорошо (редко что-то незнакомое проскакивало), а дальше - заметно хуже.

Потом мне стало интересно само распределение. Оказалось, что на списке из миллиона слов количество повторений слова примерно равно стам тысячам, поделенным на позицию слова в частотном списке (например, 100-е слово повторяется около 1000 раз в миллионе). Конечно, зависимость не четко обратно-пропорциональная, но качественно и количествеено ее очень и очень напоминает.

А теперь главное... Если проскладывать повторения слов с самого первого (the) до того, которое примерно приходится на конец твоих познаний, и поделить на полное количество слов корпуса, то можно очень грубо оценить в процентах понимание текста корпуса и даже знания языка.

Складывать повторения влом, по-этому беру свое примерное обратно-пропорциональное распределение и считаю интеграл...
Считаю интеграл от 1 (позиция слова the) до N (позиция последнего известного мне слова) от выражения 105/x.
Получаю 105 * ln(N).
К миллиону это будет 10 * ln(N) %.

Расклад следующий:

N (тысяч) % корпуса
0.1       46
0.5       62
1         69
2         76
4         83
8         90
12        94
16        97
20        99
32        103
40        106


Да, да, не может (не должно) быть больше ста процентов, но распределение я выбрал грубое (на самом деле the встретится 70 тысяч раз на миллион, а не 100 тысяч по моему распределению - вот уже и 3% лишних у меня объясняются), и считать нужно было сумму, а не интеграл. Все это правда, но тем не менее...

Что мы видим из таблицы:
1. В целом, наиболее эффективно учить слова, начиная с самых частых и продолжая в порядке убывания частоты использования, что вроде-бы очевидно. Нужен только частотный словарь/список чтобы его придерживаться.
2. Следствия к предыдущему пункту: если учили как вышло, без частотного списка, то можно подметить очевидные пробелы в знаниях, глядя в список, на незнакомые слова, расположенные между знакомыми. А можно узнать примерно где вы находитесь, вспомнить, что вы знали, но забыли, или забыли, что знали. :)
3. 50% корпуса покрывается где-то 500-ми самыми частыми словами, 75% - 4-мя тысячами, 90% - 16-ю тысячами.
4. Каждые последующие 7% приходят с удвоением словарного запаса. Каждый последующий процент дается все более трудно, особенно после 75% или 4-х тысяч слов. Нужно еще не забывать, что запоминается слово тем чаще, чем употребляется, а значит под конец дело усложняются не только за счет удвоения на каждые 7%, но и еще из-за того, что эти новые 7% более редкие, чем все, что было выучено до них.
5. Следствие предыдущего пункта: язык можно учить практически бесконечно. :) Даже родной. :))

В 4-м пункте можно еще одну оценку дать. Положим, слово находится на позиции x в частотном списке. Сколько в среднем нужно прочесть слов, прежде чем это слово встретится один раз? Считаем... В нашем миллионе число встретится 105/x раз. А нужно 1.
Делим. 106/(105/x) = 10 * x.
Т.е. слово встретится через 10 * x слов, где x - позиция этого слова в частотном списке. И, например, слово на 5000-й позиции появится через 50000 слов или, если принять 300 за кол-во слов на странице книги, 167 страниц. А тысячное - всего через 33.

Так сколько же нужно знать слов чтобы читать и общаться на языке?

А фиг его знает. :) Число зависит от того, как хорошо требуется знать язык, в какой области, от того какие слова учить, и от того, как эти слова считать (ну, или что считать уникальным словом). Еще стоит не забывать про то, что слова в языке часто имеют несколько различных смыслов, а также достаточно часто объединяются в пары, тройки и более длинные выражения, которые нередко несут дополнительный смысл по отношению к индивидуальным значениям составляющих слов (вспоминаем фразовые глаголы и идиомы и моментально хватаемся за голову :).

Но без двух-четырех тысяч наиболее употребимых слов никак не обойтись. Если знать меньше, то половина смысла книг точно пройдет мимо, а то и больше. К слову, я уже достаточно уверенно читаю по-испански, зная более двух тысяч слов. Недавно книгу прочел практически без словаря (нарочно) и не очень сильно мучался при этом.

P.S. в средней книжке около ста тысяч слов (80 - 150). Миллион слов - это десяток книг. Очевидно, что частотный список будет зависеть от того, какой корпус брать по размеру и типу вошедших в него текстов (сравните политические или экономические новости с любовным романом или научным трудом).


Источник: http://archaicos.livejournal.com/78467.html
Категория: Методы словарных минимумов | Добавил: deni (24.05.2012)
Просмотров: 542 | Комментарии: 1 | Рейтинг: 0.0/0
Всего комментариев: 0
Имя *:
Email *:
Код *: