Распределённое внимание — Когнитивная способность
Что такое распределённое внимание?
Распределённое внимание — это способность нашего мозга реагировать на различные стимулы или задачи одновременно, отвечая, таким образом, на многочисленные запросы окружающей среды. Распределённое внимание является своего рода одновременным вниманием, которое позволяет нам обрабатывать различные источники информации и успешно выполнять более одной задачи в одно и то же время. Эта когнитивная способность очень важна, поскольку она позволяет нам быть эффективными в повседневной жизни.
Тем не менее, наша способность реагировать и выполнять несколько задач параллельно имеет свои пределы. При распределении внимания производительность и эффективность действий, которые происходят в одно и то время, снижается. Когда человек испытывает трудности с одновременным откликом на многочисленные запросы окружающей среды, возникает явление, известное как интерференция. Интерференции возникают потому, что наш мозг может обрабатывать только ограниченное количество информации. Однако практика и когнитивные тренировки могут улучшить распределённое внимание, и, следовательно, способность выполнять более одного вида деятельности одновременно.
Примеры распределённого внимания
- Распределённое внимание играет важную роль в процессе учёбы, поскольку нам приходится одновременно слушать учителя, смотреть на доску или учебные материалы, делать записи, и в этом нам помогает способность распределять внимание. Поэтому она так важна для успешной учёбы. Это может быть одной из причин, почему люди с проблемами внимания получают плохие оценки.
- Водитель готовится совершить обгон и вдруг замечает знак, указывающий необходимость смены полосы. Если он не в состоянии одновременно и должным образом отреагировать на знак и завершить обгон, он либо свернёт с намеченного маршрута, либо создаст аварийную ситуацию, если вовремя не совершит манёвр. Для управления автомобилем следует поддерживать внимание в очень хорошем состоянии.
- Официант использует распределённое внимание, когда запоминает то, что говорит клиент, стараясь при этом не забыть, что заказали за четвёртым столиком, и вдобавок не уронить поднос с грязной посудой в руке.
- Если кассир продуктового магазина должен ответить одному покупателю, в то время как обслуживает другого, он использует распределённое внимание.
- Если вы танцуете с бокалом в руке, вы используете распределённое внимание, чтобы не отставать от ритма, и в то же время не разлить напиток.
- Даже когда мы одновременно едим и разговариваем, или смотрим телевизор и общаемся в чате по телефону, мы задействуем наше распределённое внимание.
Расстройства или патологии, связанные с распределённым вниманием
Распределённое внимание может пострадать в результате многих расстройств, а также из-за проблем в самом процессе распределения внимания, или проблем в части субпроцессов внимания, от которых оно зависит. Если распределённое внимание функционирует недостаточно хорошо, любая интерференция может нарушить ход задач, выполняемых одновременно. Таким образом, если распределённое внимание нарушено, мы не можем одновременно разговаривать и выехать на машине на перекрёсток, поскольку это может создать аварийную ситуацию. Аналогичным образом, если «Реакция Пробуждения» (уровень активации или общая настороженность) претерпевает изменения, это ведёт к «коматозному состоянию», в котором мы не можем управлять автомобилем и говорить одновременно (на самом деле, на этой стадии невозможно выполнить ни одну из этих задач по отдельности).
Несмотря на то, что распределённое внимание может пострадать в результате психиатрических расстройств, таких как шизофрения, или различных нарушений, таких как Синдром дефицита внимания и гиперактивности (СДВГ), поражается, прежде всего, общее внимание. Кроме того, довольно часто внимание нарушается после перенесённых черепно-мозговых травм или кровоизлияния в мозг (инсульт). В этих случаях расстройство внимания и его составляющих может быть различной степени тяжести, в зависимости от поражённых областей мозга.
Принимая во внимание всё вышесказанное, распределённое внимание нарушается практически при любых расстройствах, при которых внимание повреждается даже минимально. Таким образом, если у пациента наблюдается контралатеральный геминеглект (неспособность распознавать поле зрения, противоположное области черепно-мозговой травмы), гипопрозексия (отвлекаемость), гиперпрозексия (чрезмерное внимание и повышенная концентрация) или апрозексия (невнимательность, неспособность фиксировать внимание), он будет испытывать трудности при выполнении задач, которые требуют распределённого внимания.
Как измерять и оценивать распределённое внимание?
Распределённое внимание — это важнейшая когнитивная способность в нашей жизни, позволяющая нам быть более эффективными. Корректное и одновременное выполнение любой задачи, которая включает в себя более одного действия (перцептивного, моторного или когнитивного), напрямую зависит от нашей способности распределять внимание. Тест на распределённое внимание может быть полезен в различных профессиональных сферах, где необходимо оценивать производительность работы (водители или работники транспорта, монтажники, спортсмены и т.д.). Кроме того, оценка распределённого внимания может пригодиться в учёбе (например, нуждается ли ученик в дополнительной помощи при конспектировании или решении задач) или в клинических условиях (возможно, некоторым пациентам нужно объяснять информацию проще и доступнее). Во всех этих областях может представлять большой интерес выполнение когнитивного тестирования, поскольку это может принести ощутимую пользу в работе, учёбе и повседневной жизни.
Для измерения распределённого внимания команда CogniFit («КогниФит») взяла за основу классический Тест Струпа. Так был разработан Тест на Многозадачность, который кроме распределённого внимания оценивает когнитивную гибкость и зрительно-моторную координацию.
- Тест на многозадачность DIAT-SHIF: с помощью стрелки следуйте за движением белого шара, обращая внимания на слова, которые появляются в центре экрана. Когда слово, которое находится в центре экрана, совпадает с цветом, которым оно написано, необходимо дать ответ (обращая внимание на два стимула одновременно). В этой игре нужно адаптироваться к изменениям стратегии, новым ответам, а также одновременно управлять способностями мониторинга и визуализации.
Как восстановить или улучшить распределённое внимание?
Распределённое внимание, как и другие когнитивные навыки, можно тренировать, улучшать и даже научиться его использовать. CogniFit («КогниФит») предлагает это сделать профессионально. Практикуясь, мы можем увеличить скорость функционирования нашего внимания, научитьcя задействовать меньше ресурсов мозга в момент одновременной реакции на разные стимулы, а также улучшить способность обрабатывать информацию, хотя это и непростая задача.
Реабилитация распределённого внимания базируется на нейронной пластичности. Следуя этой идее, CogniFit («КогниФит») предлагает серию упражнений, предназначенных для реабилитации распределённого внимания и других когнитивных способностей. Мозг и его нейронные связи могут быть усилены за счёт использования функций, которые зависят от них. Таким образом, если мы регулярно тренируем распределённое внимание, мы сможем автоматически выполнять действия, которые пытаемся совместить, повышая тем самым их эффективность. За счет автоматизации различных видов деятельности нашему мозгу будет гораздо проще выполнять их одновременно.
Команда профессионалов CogniFit («КогниФит»), специализирующаяся на изучении синаптической пластичности и процессов нейрогенеза, создала программу персональной когнитивной стимуляции, адаптирующейся к потребностям каждого пользователя. Эта программа начинается с точной оценки распределённого внимания и других основных когнитивных функций. На основании полученного отчёта программа когнитивной стимуляции CogniFit («КогниФит») автоматически предлагает персональную когнитивную тренировку для улучшения распределённого внимания и других когнитивных функций, укрепление которых необходимо по результатам теста (в данном случае, вероятно, других субпроцессов внимания, от которых зависит распределённое внимание).
Для улучшения распределённого внимания важна последовательность и регулярность тренировок. CogniFit («КогниФит») предлагает инструменты оценки и реабилитации для оптимизации этой когнитивной функции. Для правильной стимуляции требуется уделять тренировкам 15 минут в день, два или три раза в неделю.
Программа когнитивной стимуляции CogniFit («КогниФит») доступна онлайн. С помощью компьютера можно выполнять разнообразные интерактивные задания в форме увлекательных умных игр. В конце каждой сессии CogniFit («КогниФит») покажет вам детальный график динамики улучшений вашего когнитивного состояния.
Основные свойства внимания
- Details
- Просмотров: 17659
- Предыдущая статья Внимание и его физиологические основы
- Следующая статья Основные виды внимания
Настроить шрифт
- Размер
- Стиль
- Режим чтения
Поскольку наличие внимания означает связь сознания с определенным объектом, его сосредоточенность на нем, прежде всего встает вопрос о степени этой сосредоточенности, т.е. о концентрированности внимания. Концентрированностъ внимания — в противоположность его распыленности — означает наличие связи с определенным объектом или стороной деятельности и выражает интенсивность этой связи. Концентрация — это сосредоточенность, т. е. центральный факт, в котором выражается внимание. Концентрированность внимания означает, что имеется фокус, в котором собрана психическая или сознательная деятельность.
Наряду с этим пониманием концентрации внимания под концентрированным вниманием часто в психологической литературе понимают внимание интенсивной сосредоточенности на одном или небольшом числе объектов. Концентрированность внимания в таком случае определяется единством двух признаков — интенсивности и узости внимания. Объединение в понятии концентрации интенсивности и узости внимания исходит из той предпосылки, что интенсивность внимания и его объем обратно пропорциональны друг другу. Эта предпосылка в общем правильна, лишь когда поле внимания состоит из элементов, друг с другом не связанных. Но когда в него включаются смысловые связи, объединяющие различные элементы между собой, расширение поля внимания дополнительным содержанием может не только не снизить концентрированности, но иногда даже повысить ее. Мы потому определяем концентрацию внимания только интенсивностью сосредоточения и не включаем в нее узости внимания. Вопрос об
объеме внимания, т. е. количестве однородных предметов, которые охватывает внимание, — особый вопрос. Для определения объема внимания пользовались до сих пор главным образом тахистоскопическим методом. В тахистоскопе на короткое, точно измеряемое время выставлялись подлежащие наблюдению экспонаты, как-то: буквы, цифры, фигуры.
Согласно ряду исследований, обнаруживших при этом существование довольно значительных индивидуальных различий в объеме внимания, объем внимания взрослого человека достигает в среднем примерно до 4—5, максимум 6 объектов; у ребенка он равен в среднем не более 2—3 объектам. Речь при этом идет о числе друг от друга не зависимых, не связанных между собой объектов (чисел, букв и т. п.). Количество находящихся в поле нашего внимания связанных между собой элементов, объединенных в осмысленное целое, может быть много больше. Объем внимания является поэтому изменчивой величиной, зависящей от того, насколько связано между собой то содержание, на котором сосредоточивается внимание, и от умения осмысленно связывать и структурировать материал. При чтении осмысленного текста объем внимания может оказаться существенно отличным от того, который дает его измерение при концентрации на отдельных осмысленно между собой не связанных элементах. Поэтому результаты тахистоскопического изучения внимания на отдельные цифры, буквы, фигуры не могут быть перенесены на объем внимания в естественных условиях восприятия связанного осмысленного материала. В практике, в частности педагогической, школьной, следовало бы, тщательно учитывая доступный учащимся объем внимания, не создавая в этом отношении непосильной перегрузки, расширять объем внимания, систематизируя предъявляемый материал, вскрывая его взаимосвязи, внутренние отношения.
С объемом внимания тесно связана и распределяемость внимания. Говоря об объеме, можно, с одной стороны, подчеркивать ограничение поля внимания. Но оборотной стороной ограничения, поскольку оно не абсолютно, является распределение внимания между тем или иным числом разнородных объектов, одновременно сохраняющихся в центре внимания. При распределении внимания речь, таким образом, идет о возможности не одного, а много-, по крайней мере двухфокального внимания, концентрации его не в одном, а в двух или большем числе различных фокусов. Это дает возможность одновременно совершать несколько рядов действий и следить за несколькими независимыми процессами, не теряя ни одного из них из поля своего внимания. Наполеон мог, как утверждают, одновременно диктовать своим секретарям семь ответственных дипломатических документов. Некоторые шахматисты могут вести одновременно с неослабным вниманием несколько партий. Распределенное внимание является профессионально важным признаком для некоторых профессий, как, например, для текстильщиков, которым приходится одновременно следить за несколькими станками.
Распределение внимания очень важно и для педагога, которому нужно держать в поле своего зрения всех учеников в классе. Распределение внимания зависит от ряда условий, прежде всего от того, насколько связаны друг с другом различные объекты и насколько автоматизированы действия, между которыми должно распределяться внимание. Чем теснее связаны объекты и чем значительнее автоматизация, тем легче совершается распределение внимания. Способность к распределению внимания весьма упражняема.
При определении концентрированности и объема внимания необходимо учитывать не только количественные условия. Из качественных моментов, в частности, один играет особенно значительную роль: связность смыслового содержания. Внимание — как и память — подчиняется различным законам, в зависимости от того, на каком материале оно осуществляется. Очень рельефно это сказывается на устойчивости внимания.
Устойчивость внимания определяется длительностью, в течение которой сохраняется концентрация внимания, т. е. его временной экстенсивностью. Экспериментальное исследование показало, что внимание первично подвержено периодическим непроизвольным колебаниям. Периоды колебаний внимания по данным ряда прежних исследований, в частности Н. Ланге, равны обычно 2—3 сек., доходя максимум до 12 сек. К колебаниям внимания относились, во-первых, колебания сенсорной ясности. Так, часы, которые держат неподвижно на одном и том же расстоянии от испытуемого, кажутся ему, если он их не видит, то приближающимися, то удаляющимися, в силу того, что он то более, то менее явственно слышит их биение.
Эти и подобные им случаи колебания сенсорной ясности, очевидно, непосредственно связаны с утомлением и адаптацией органов чувств. Иной характер носят колебания внимания, сказывающиеся при наблюдении многозначных фигур; в них попеременно то одна, то другая часть выступает как фигура: глаз соскальзывает с одного поля на другое. В этом можно убедиться если посмотреть на рисунок, в котором мы поочередно видим то вазу, то два профиля.
Такой же эффект дает изображение усеченной пирамиды, стоит более длительное время на нее посмотреть, чтобы убедиться в том, что усеченное основание то выступает вперед, то отступает назад. Однако традиционная трактовка проблемы устойчивости внимания, связанная с установлением периодических его колебаний, требует некоторой ревизии.
Положение с этой проблемой аналогично тому, какое создалось в психологии памяти в связи с установленной Эббингаузом и его последователями кривой забывания. Учебная работа была бы бесплодным, сизифовым трудом, если бы кривая Эббингауза отражала общие закономерности забывания всякого материала. Учебная и производственная работа была бы вообще невозможна, если бы пределы устойчивости внимания определялись периодами, установленными в опытах с элементарными сенсорными раздражителями. Но в действительности такие малые периоды колебания внимания, очевидно, ни в коем случае не составляют всеобщую закономерность. Об этом свидетельствуют наблюдения на каждом шагу.
Очевидно, проблема устойчивости внимания должна быть поставлена и разработана заново. При этом существенно не столько экспериментально установить собственно очевидный факт значительно большей устойчивости внимания, сколько вскрыть конкретные условия, которыми объясняются частые периодические колебания в одних случаях, значительная устойчивость — в других. Наша гипотеза заключается в следующем: наиболее существенным условием устойчивости внимания является возможность раскрывать в том предмете, на котором оно сосредоточено, новые стороны и связи. Там, где в связи с поставленной перед собой задачей мы, сосредоточиваясь на каком-нибудь предмете, можем развернуть данное в восприятии или мышлении содержание, раскрывая в нем новые аспекты в их взаимосвязях и взаимопереходах, внимание может очень длительное время оставаться устойчивым. Там, где сознание упирается как бы в тупик, в разрозненное, скудное содержание, не открывающее возможности для дальнейшего развития, движения, перехода к другим его сторонам, углубления в него, там создаются предпосылки для легкой отвлекаемости и неизбежно наступают колебания внимания.
Подтверждение этого положения имеется еще в одном наблюдении Гельмгольца. Изучая борьбу двух полей зрения (см. рис.), Гельмгольц отметил замечательный факт, в котором заключается ключ для объяснения устойчивости внимания, несмотря на периодические колебания сенсорных установок. «Я чувствую, — пишет Гельмгольц, — что могу направлять внимание произвольно то на одну, то на другую систему линий и что в таком случае некоторое время только одна эта система сознается мною, между тем как другая совершенно ускользает от моего внимания. Это бывает, например, в том случае, если я попытаюсь сосчитать число линий в той или другой системе. Крайне трудно бывает надолго приковать внимание к одной какой-нибудь системе линий, если только мы не связываем предмета нашего внимания с какими-нибудь особенными целями, которые постоянно обновляли бы активность нашего внимания. Так поступаем мы, задаваясь целью сосчитать линии, сравнить их размеры и т. п. Внимание, предоставленное самому себе, обнаруживает естественную наклонность переходить от одного нового впечатления к другому; как только его объект теряет свой интерес, не доставляя никаких новых впечатлений, внимание, вопреки нашей воле, переходит на что-нибудь другое. Если мы хотим сосредоточить наше внимание на определенном объекте, то нам необходимо постоянно открывать в нем все новые и новые стороны, в особенности когда какой-нибудь посторонний импульс отвлекает нас в сторону» (см. рис. выше, на этой стр.). Эти наблюдения Гельмгольца вскрывают самые существенные условия устойчивости внимания. Наше внимание становится менее подверженным колебаниям, более устойчивым, когда мы включаемся в разрешение определенных задач, в интеллектуальных операциях раскрываем новое содержание в предмете нашего восприятия или нашей мысли. Сосредоточение внимания — это не остановка мыслей на одной точке, а их движение в едином направлении. Для того чтобы внимание к какому-нибудь предмету поддерживалось, его осознание должно быть динамическим процессом. Предмет должен на наших глазах развиваться, обнаруживать перед нами все новое содержание. Лишь изменяющееся и обновляющееся содержание способно поддерживать внимание. Однообразие притупляет внимание, монотонность угашает его.
На вопрос о том, благодаря чему ему удалось прийти к открытию законов тяготения, Ньютон ответил: «Благодаря тому, что я непрестанно думал об этом вопросе». Ссылаясь на эти слова Ньютона, Кювье определяет гений как неустанное внимание. Основание гениальности Ньютона он видит в устойчивости его внимания. Но обратная зависимость более существенна. Богатство и содержательность его ума, открывавшего в предмете его мысли все новые стороны и зависимости, было, очевидно, существенным условием устойчивости его внимания. Если бы мысль Ньютона при размышлении о тяготении уперлась в одну неподвижную точку, будучи не в силах развернуть этот вопрос, раскрывая в нем новые перспективы, его внимание быстро иссякло бы.
Но если бы мысль лишь переходила с одного содержания на другое, можно было бы скорее говорить о рассеянности, чем о сосредоточенности внимания. Для наличия устойчивого внимания необходимо, очевидно, чтобы изменяющееся содержание было объединено совокупностью отношений в одно единство. Тогда, переходя от одного содержания к другому, оно остается сосредоточенным на одном предмете. Единство предметной отнесенности соединяется с многообразием предметного содержания. Устойчивое внимание — это форма предметного сознания. Оно предполагает единство предметной отнесенности многообразного содержания. Таким образом, осмысленная связанность, объединяющая многообразное, динамическое содержание в более или менее стройную систему, сосредоточенную вокруг одного центра, отнесенную к одному предмету, составляет основную предпосылку устойчивого внимания.
Если бы внимание при всех условиях было подвержено таким колебаниям, какие имеют место, когда нам даны разрозненные и скудные по содержанию чувственные данные, никакая эффективная умственная работа не была бы возможна. Но оказывается, что самое включение умственной деятельности, раскрывающей в предметах новые стороны и связи, изменяет закономерности этого процесса и создает условия для устойчивости внимания. Устойчивость внимания, будучи условием продуктивной умственной деятельности, является в известной мере и ее следствием.
Осмысленное овладение материалом, раскрывающее посредством анализа и синтеза систематизацию материала и т. д., внутренние связи четко расчлененного содержания, существенно содействует высшим проявлениям внимания.
Устойчивость внимания зависит, конечно, помимо того, от целого ряда условий. К числу их относятся: особенности материала, степень его трудности, зна-комости, понятности, отношение к нему со стороны субъекта — степени его интереса к данному материалу и, наконец, индивидуальные особенности личности. Среди последних существенна прежде всего способность посредством сознательного волевого усилия длительно поддерживать свое внимание на определенном уровне, даже если то содержание, на которое оно направлено, не представляет непосредственного интереса, и сохранение его в центре внимания сопряжено с определенными трудностями.
Устойчивость внимания не означает его неподвижности, она не исключает его переключаемости. Переключаемость внимания заключается в способности быстро выключаться из одних установок и включаться в новые, соответствующие изменившимся условиям. Способность к переключению означает гибкость внимания — весьма важное и часто очень нужное качество.
Переключаемость, как и устойчивость, и объем внимания, и как внимание в целом, не является какой-то самодовлеющей функцией. Она — сторона сложной и многообразно обусловленной сознательной деятельности, в отличие от рассеяния или блуждания ни на чем не концентрированного внимания и от внимания неустойчивого, попросту неспособного длительно удержаться на одном объекте. Переключаемость означает сознательное и осмысленное перемещение внимания с одного объекта на другой. В таком случае очевидно, что переключаемость внимания в сколько-нибудь сложной и быстро изменяющейся ситуации означает способность быстро ориентироваться в ситуации и определить или учесть изменяющуюся значимость различных в нее включающихся элементов.
Легкость переключения у разных людей различна: одни — с легкой переключаемостью — легко и быстро переходят от одной работы к другой; у других «вхождение» в новую работу является трудной операцией, требующей более или менее длительного времени и значительных усилий. Легкая или затруднительная переключаемость зависит от целого ряда условий. К числу их относятся соотношение между содержанием предшествующей и последующей деятельности и отношение субъекта к каждой из них: чем интереснее предшествующая и менее интересна последующая деятельность, тем, очевидно, труднее переключение; и оно тем легче, чем выраженное обратное соотношение между ними. Известную роль в быстроте переключения играют и индивидуальные особенности субъекта, в частности его темперамент. Переключаемость внимания принадлежит к числу свойств, допускающих значительное развитие в результате упражнения. Рассеянность в житейском смысле слова является по преимуществу плохой переключаемостью. Имеется бесчисленное множество более или менее достоверных анекдотов о рассеянности ученых. Тип рассеянного профессора не сходит со страниц юмористических журналов. Однако, вопреки прочно укоренившемуся в обывательском понимании представлению, «рассеянность» ученых является, наоборот, выражением максимальной собранности и сосредоточенности; но только сосредоточены они на основном предмете своих мыслей. Поэтому при столкновении с рядом житейских мелочей они могут оказаться в том смешном положении, которое живописуют анекдоты. Для того чтобы уяснить себе наличие сосредоточенности у «рассеянного» ученого, достаточно сравнить его внимание с вниманием ребенка, который выпускает из рук только что привлекшую его игрушку, когда ему показывают другую; каждое новое впечатление отвлекает его внимание от предыдущего; удержать в поле своего сознания оба он не в состоянии. Здесь отсутствуют и концентрированность, и распределяемость внимания. В поведении рассеянного ученого также обнаруживается дефект внимания, но он заключается, очевидно, не в легкой отвлекаемости, так как его внимание, наоборот, очень сосредоточено, а в слабой переключаемости. Рассеянность в обычном смысле слова обусловлена двумя различными механизмами — сильной отвлекаемостью и слабой переключаемостью.
Различные свойства внимания — его концентрация, объем и распределяемость, переключаемость и устойчивость — в значительной мере независимы друг от друга: внимание хорошее в одном отношении может быть не столь совершенным в другом. Так, например, высокая концентрация внимания может, как об этом свидетельствует пресловутая рассеянность ученых, соединяться со слабой переключаемостью.
Мы охарактеризовали внимание как проявление избирательной направленности психической деятельности, как выражение избирательного характера процессов сознания. Можно было бы к этому прибавить, что внимание выражает не только как бы объем сознания, поскольку в нем проявляется избирательный характер сознания, но и его уровень — в смысле степени интенсивности, яркости.
Внимание неразрывно связано с сознанием в целом. Оно, поэтому, естественно, связано со всеми сторонами сознания. Действительно, роль эмоциональных факторов ярко сказывается в особенно существенной для внимания зависимости его от интереса. Значение мыслительных процессов, особенно в отношении объема внимания, а также его устойчивости, была уже отмечена. Роль волы находит себе непосредственное выражение в факте произвольного внимания.
Поскольку внимание может отличаться различными свойствами, которые, как показывает опыт, в значительной мере независимы друг от друга, можно, исходя из разных свойств внимания, различать разные типы внимания, а именно: 1) широкое и узкое внимание — в зависимости от их объема; 2) хорошо и плохо распределяемое; 3) быстро и медленно переключаемое; 4) концентрированное и флюктуирующее; 5) устойчивое и неустойчивое.
Высшие формы произвольного внимания возникают у человека в процессе труда. Они продукт исторического развития. «Оставляя в стороне напряжение тех органов, которыми выполняется труд, целесообразная воля, выражающаяся во внимании, — пишет Маркс, — необходима во все время труда, и притом необходима тем более, чем меньше труд увлекает рабочего своим содержанием и способом исполнения, следовательно, чем меньше рабочий наслаждается трудом как игрой физических и интеллектуальных сил». * Труд направлен на удовлетворение потребностей человека. Продукт этого труда представляет поэтому непосредственный интерес. Но получение этого продукта связано с деятельностью, которая по своему содержанию и способу исполнения может не вызывать непосредственного интереса. Поэтому выполнение этой деятельности требует перехода от непроизвольного к произвольному вниманию. При этом внимание должно быть тем более сосредоточенным и длительным, чем более сложной становится трудовая деятельность человека в процессе исторического развития. Труд требует и он воспитывает высшие формы произвольного внимания.
* Маркс К. Капитал. T.I. Гл. V. 1931. С. 120.
В психологической литературе Рибо подчеркнул эту мысль о связи произвольного внимания с трудом. Он пишет: «Как только возникла необходимость в труде, произвольное внимание стало в свою очередь фактором первостепенной важности в этой новой форме борьбы за жизнь. Как только у человека явилась способность отдаваться труду, по существу своему не привлекательному, но необходимому как средство к жизни, явилось на свет и произвольное внимание. Легко доказать, что до возникновения цивилизации произвольное внимание не существовало или появлялось на мгновение, как мимолетное сверкание молнии. Труд составляет наиболее резкую конкретную форму внимания». Рибо заключает: «Произвольное внимание — явление социологическое. Рассматривая его как таковое, мы лучше поймем его генезис и непрочность… Произвольное внимание есть приспособление к условиям высшей социальной жизни».
Рубинштейн С.Л. Основы общей психологии. — Спб: Питер, 2005. -713 с. — С. 425-431.
- Предыдущая статья Внимание и его физиологические основы
- Следующая статья Основные виды внимания
Внимание в классе – Эмоциональный ученик
На что нужно обращать внимание? Почему иногда я могу быть вовлечен в беседу, когда внезапно фокус моего внимания отвлекается от нее, чтобы вернуться только тогда, когда я понимаю, что от меня ждут ответа на комментарий, который я не уловил? И что было нарушено вниманием в первую очередь? Был ли это пинг уведомления на моем телефоне, или меня просто поглотили мои внутренние размышления? В мире, казалось бы, замусоренном бесчисленными отвлекающими факторами, удивительно, что нам вообще удается удерживать внимание на чем-либо.
Внимание и обучение.
Внимание важно для успешного обучения, поскольку оно играет ключевую роль в памяти и механизмах, обеспечивающих успешное запоминание. Однако невидимая природа внимания ставит учителей в затруднительное положение, поскольку они никогда не могут быть уверены в том, в какой степени их ученики сосредотачиваются на том, что им нужно, даже если их внешнее поведение предполагает, что это так. Но что происходит, когда люди «обращают внимание», и как учителя могут поощрять учеников оставаться сосредоточенными?
Чтобы получить более четкое представление о том, что происходит, нам сначала нужно исследовать концепцию внимания с точки зрения когнитивной психологии, где, как и память, многие годы были потрачены на тестирование, изучение и формулирование моделей, чтобы объяснить, как это происходит и как. важно это.
Что это за
обратите внимание ?Существует несколько определений внимания, но все они подчеркивают процесс выбора релевантной для задачи информации и сведения к минимуму нерелевантной информации (Hanania & Smith, 2010). Таким образом, внимание направлено на то, чтобы выбрать то, что необходимо в данный момент, и отфильтровать конкурентов. Понятно, почему эта способность важна в классе, не в последнюю очередь из-за ее связи с памятью — если мы не будем внимательны, мы, вероятно, не будем помнить очень четко.
Но дело не только в выборе, но и в переключении с одного информационного потока на другой, часто довольно быстром. Люди довольно искусны в этом, несмотря на когнитивные ограничения, в конце концов, сколько раз мы оказываемся в шумной переполненной комнате и все же можем сосредоточиться на одном конкретном разговоре? Не менее интересна, пожалуй, наша способность переключать внимание на другой разговор, особенно если мы слышим свое имя. Обе эти сложные задачи были воплощены в рамках того, что когнитивный психолог Колин Черри назвал «девяткой».0003 Задача на вечеринках с коктейлями (он предложил ее в 1953 году, предположительно, когда люди посещали вечеринки с коктейлями), чтобы показать, как люди подвергаются воздействию нескольких конкурирующих факторов, но должны сосредоточиться только на одном.
Это избирательное внимание может показаться довольно простым, но внимание — ограниченный ресурс, и наш собственный опыт показывает, что очень трудно разделить наше внимание между более чем одной задачей. Когда мы пытаемся разделить внимание, когнитивные ресурсы приходится распределять между задачами, что приводит к снижению производительности при выполнении всех из них. Люди довольно плохо справляются с многозадачностью, что бы вам ни говорили.
Ранние модели внимания предполагали, что эти ограниченные когнитивные ресурсы приводят к узким местам, из-за которых полностью обрабатывается только информация, на которую обращают внимание, а информация, оставшаяся без внимания, отфильтровывается. Более поздние модели предлагали более гибкий фильтр, при котором вся информация обрабатывалась в той или иной степени, а для более глубокой обработки отбиралась только та информация, на которую обращали внимание (вот почему иногда мы можем уловить суть того, на что не обращали внимания). Согласно этой последней модели, предложенной когнитивным психологом Анной Трисман в XIX в.60-х годов информация анализируется на наличие определенных свойств, включая звуки, слоговые структуры, грамматическую структуру и значение.
Этот анализ может объяснить явление, наблюдаемое в экспериментальной технике, известной как дихотическое слушание, когда добровольцы надевают наушники, а конкурирующие сообщения воспроизводятся через левое и правое ухо. Если входные данные различаются по языку, то добровольцы, скорее всего, выберут язык, который они понимают, и отфильтруют тот, который им непонятен, даже до такой степени, что не смогут идентифицировать невыбранное сообщение как написанное на другом языке. Таким образом, смысл играет важную роль в избирательном внимании. Но когда добровольцев просто просят обратить внимание на одно сообщение, они не могут вспомнить информацию из неконтролируемого ввода, что указывает на то, что внимание действительно требует усилий.
Современные представления о внимании напрямую связывают его с ограничениями рабочей памяти. Рабочая память считается кратковременной и необходима для удержания информации, требующей обработки в текущий момент. Рабочая память наиболее очевидна при выполнении арифметических действий в уме или запоминании инструкций до тех пор, пока действия не будут завершены. С точки зрения преподавания и обучения рабочая память жизненно важна для способности ученика понимать как то, что говорит учитель, так и выполнять связанные с этим задачи.
Но рабочая память ограничена, и количество информации, которое она может хранить в любой момент времени, как правило, составляет около четырех фрагментов (или фрагментов) информации (Cowan, 2000). Это имеет важные последствия для того, как мы выбираем информацию для внимания. Эта емкость ниже, чем считалось ранее, особенно в отношении так называемого магического числа Миллера 7 (плюс-минус 2).
Клаус Оберауер, профессор когнитивной психологии Цюрихского университета, предполагает, что внимание представляет собой совокупность механизмов, которые позволяют нам фокусироваться на этих порциях информации либо как широкий фокус внимания, представляющий собой верхнюю способность примерно четырех порций. , или узкий фокус внимания, когда за один раз выбирается один патрон (Oberauer & Hein, 2012). Таким образом, ученик может попытаться решить математическое уравнение, требующее нескольких этапов, удерживая в рабочей памяти несколько частей задачи (широкий фокус), но выбирая только один фрагмент для завершения определенного этапа (узкий фокус).
Таким образом, внимание необходимо для выполнения задач, а также для того, чтобы информация имела гораздо больше шансов сохраниться в долговременной памяти. Информация, которой не уделяется должное внимание, не обрабатывается глубоко и, вероятно, очень быстро забывается.
Но внимание также связано с сохранением концентрации во времени, и продолжительность времени также ограничена. И рабочая память, и внимание являются частью управляющей функции , группы когнитивных навыков более высокого порядка, которые помогают людям выполнять другие функции. Как и все исполнительные функции, внимание развивается по определенной траектории, а это означает, что маленькие дети гораздо менее способны концентрировать свое внимание, чем старшие. Таким образом, дети младшего школьного возраста легче отвлекаются, чем подростки, а пожилые люди лучше умеют сосредотачиваться на конкретной задаче. Определенные индивидуальные различия могут ограничивать это, включая тревогу, депрессию и состояния, такие как СДВГ и расстройство аутистического спектра. Тем не менее, другие биологические и физиологические условия также играют роль, в том числе качество сна и прием некоторых лекарств.
Поэтому определить среднюю продолжительность концентрации внимания сложно. Некоторые исследования показали, что продолжительность концентрации внимания студентов бакалавриата составляет от десяти до пятнадцати минут, после чего они все больше отвлекаются и отключаются (Bradbury, 2016). Тем не менее, эти исследования чаще всего проводятся в лекционных залах, поэтому распространение результатов на другие среды, такие как классная комната, невозможно. Возможно, внимание также связано с тем, насколько актуальна, важна или интересна информация, в конце концов, подростки часто могут сохранять интенсивную концентрацию, играя в видеоигры или занимаясь деятельностью, не связанной со школой. Таким образом, внимание также влияет на мотивацию, которая, в свою очередь, связана с другими факторами, включая вознаграждение, воспринимаемую ценность задачи и то, служит ли деятельность более широкой цели.
Что отвлекает?
Жизнь полна мелких отвлекающих факторов, и нас часто влечет к вещам, которые не имеют ничего общего с поставленной задачей. Кажется, что с появлением мобильных телефонов и социальных сетей эти отвлекающие факторы значительно выросли. Некоторые исследования даже предполагают, что наличие мобильного телефона рядом с нами ухудшает нашу способность концентрироваться (Thornton, Faires, Robbins, & Rollins, 2014).
Джессика Мендоса из Университета Алабамы и ее коллеги-исследователи обнаружили, что мобильные телефоны действительно мешают обучению студентов во время лекций. Однако у учащихся, набравших высокие баллы по показателям номофобии (беспокойства и дискомфорта, которые возникают, когда люди разлучены со своими телефонами), обучение было нарушено, когда их телефоны отобрали (Mendoza, Pody, Lee, Kim, & McDonough, 2018). Но, опять же, лекционные залы — это не то же самое, что классы, а номофобия представляет собой совсем недавнее явление, поэтому мы могли бы с осторожностью относиться к этим выводам.
Тем не менее, мобильные телефоны, безусловно, все больше и больше отвлекают нас от жизни, и вполне логично, что некоторые школы решили полностью запретить их использование, в то время как другие придерживаются строгих правил в отношении их использования.
Другим интересным потенциальным отвлечением являются дисплеи в классе. В исследовании, проведенном в 2014 году, Анна Фишер и ее коллеги из Университета Карнеги-Меллона обнаружили, что богато украшенные классы вредят концентрации и обучению (Fisher, Godwin, & Seltman, 2014). Кроме того, исследователи из Даремского университета в Великобритании обнаружили, что демонстрация в классе особенно проблематична для детей с расстройствами аутистического спектра (Hanley et al., 2017).
Стоит отметить, что исследования влияния дисплеев в классе немногочисленны, и исследования сосредоточены на детях начальных классов. Поскольку развивается способность отфильтровывать отвлекающие факторы и оставаться внимательными, дети старшего возраста, вероятно, будут меньше отвлекаться на то, что висит на стенах. Другие факторы, без сомнения, также будут играть роль, такие как расположение и содержание дисплеев, переменные, которые еще предстоит полностью изучить.
Другими источниками отвлечения могут быть пустая болтовня, шум в коридоре или события, происходящие за окном классной комнаты. Не всех отвлекающих факторов можно избежать, и это может помочь выработать более эффективные стратегии избегания отвлекающих факторов.
Телефоны и дисплеи в классе представляют собой внешние источники отвлечения, но часто отвлечение подпитывается нашими мыслями. Блуждание ума может быть более серьезной проблемой, чем внешние отвлекающие факторы, потому что его труднее идентифицировать и, следовательно, с ним бороться. Блуждание ума происходит, когда наш мозг отключается от задачи, и наши мысли начинают дрейфовать. Было подсчитано, что люди блуждают в мыслях около пятидесяти процентов времени (Killingswroth & Gilbert, 2010), и недавние исследования нейровизуализации связали этот феномен с кластером областей мозга, которые вместе составляют то, что было названо сетью режима по умолчанию. или ДМН. DMN активируется, когда мозг находится в состоянии покоя или после того, как мы выполнили задачу, предполагая, что это настройка мозга по умолчанию. Однако блуждание мыслей не так уж и плохо, и оно связано с творчеством и решением проблем (Fox & Beaty, 2019).).
Улучшение внимания
Способность поддерживать фокус и внимание является компонентом исполнительной функции, поэтому инициативы, направленные на улучшение этих когнитивных навыков более высокого порядка, будут, следовательно, полезны. К ним относятся поведенческие изменения, такие как соблюдение распорядка и поощрение формирования хороших привычек в учебе.
Способы улучшения внимания учителей могут принимать различные формы. Целенаправленные вмешательства малоэффективны. Валентин Бенцинг из Бернского университета, например, получил обнадеживающие результаты от использования специально разработанных карточных игр (Benzing et al., 2019).). Игры нацелены на три навыка, связанных с исполнительной функцией, и поощряют такое поведение, как очередность и концентрация. Созерцательные практики, включая осознанность и йогу, также дали многообещающие результаты (например, Shapiro et al., 2014).
Некоторые коммерческие продукты даже продаются как вспомогательные средства для концентрации внимания, способные помочь людям сосредоточиться дольше. Одним из видов устройств, которые стали очень популярными пару лет назад, был спиннер, к большому неудовольствию школьных учителей. Несмотря на заявления, 2019 г.исследование показало, что устройства не влияют на внимание и приводят к снижению производительности в тестах памяти. Исследование проводилось среди студентов бакалавриата, посетивших видеолекцию, но, как указывает ответственная группа, результаты такого типа имеют далеко идущие последствия для всех этапов обучения и в различных условиях (Soares & Storm, 2019).
Особенно полезный и простой способ обойти ограничения внимания — разбить уроки на более мелкие, управляемые компоненты. Продолжительность концентрации внимания ограничена, поэтому в какой-то момент даже самый опытный учитель заметит падение концентрации внимания. То, как учителя преподносят материал, важно, но разбивка структуры уроков поможет решить как проблемы с вниманием, так и проблемы, связанные с ограничениями рабочей памяти.
Одно интересное открытие заключается в том, что когда информация чередуется (смешивается или перетасовывается с другой информацией, а не представлена в блоке похожих элементов), люди склонны уделять больше внимания чередующимся элементам. С другой стороны, когда информация представлена блоком, блуждание ума увеличивается (Firth, Rivers, & Boyle, 2019). Это указывает на то, что, представляя различные темы в течение более короткого периода времени и вставляя (или чередуя) эти темы, учителя могут уменьшить блуждание ума и повысить внимание.
Дуг Лемов, автор очень популярной книги Teach Like a Champion , выступает за использование техники, обычно называемой аббревиатурой SLANT (сиди, слушай, задавай вопросы и отвечай на них, кивни головой, следи за говорящим). Хотя в настоящее время существует мало научных данных, подтверждающих эту технику, она интуитивно понятна. Подготовка к сосредоточению внимания путем сосредоточения внимания на осанке и четкого указания ученикам слушать способствует позитивному поведению в обучении и может вызвать адаптивные привычки. Задавая вопросы и отвечая на них, учитель получает обратную связь, в то время как кивание головой и отслеживание можно рассматривать как показатель внимания. Является ли кивание полезным заместителем, возможно, более сомнительно и может быть просто признаком уступчивости в отсутствие внимания. Отслеживание говорящего также может разделить внимание, а не сфокусировать его, особенно если отслеживание требуется в течение длительного времени. Некоторым ученикам зрительный контакт может даже казаться трудным или неудобным, и несколько исследований показали, что нарушение зрительного контакта (или отведение взгляда) часто необходимо для снижения нагрузки на ограниченные когнитивные ресурсы (например, Doherty-Sneddon, Riby, & Whittle, 2012). ).
Знание того, как работает внимание, в том числе его взаимосвязь с другими когнитивными процессами, может помочь учителям работать над стратегиями его улучшения. Кроме того, понимание аспектов развития внимания приведет к тому, что некоторые стратегии будут эффективны для учащихся старшего возраста, а не для младших. Ограничение отвлекающих факторов — самый простой и очевидный способ действий. Однако в настоящее время успешному выявлению аспектов школьной среды несколько мешает отсутствие соответствующих исследований.
Ссылки .
Бензинг В., Шмидт М., Ягер К., Эггер Ф., Конзельманн А. и Роберс К. М. (2019). Вмешательство в классе для улучшения исполнительных функций у детей младшего школьного возраста: слишком «стары» для улучшений? Британский журнал педагогической психологии , 89 (2), 225–238. https://doi.org/10.1111/bjep.12232
Брэдбери, Н. А. (2016). Концентрация внимания во время лекций: 8 секунд, 10 минут и более? Успехи в физиологическом образовании , 40 (4), 509–513. https://doi.org/10.1152/advan.00109.2016
Коуэн, Н. (2000). Волшебное число 4 в кратковременной памяти: переосмысление умственной емкости памяти. Науки о поведении и мозге , 24 (1), 87–185. https://doi.org/10.1017/S0140525X01003922
Доэрти-Снеддон Г., Риби Д. М. и Уиттл Л. (2012). Отвращение взгляда как стратегия управления когнитивной нагрузкой при расстройствах аутистического спектра и синдроме Вильямса. Журнал детской психологии и психиатрии и смежных дисциплин , 53 (4), 420–430. https://doi.org/10.1111/j.1469-7610.2011.02481.x
Ферт, Дж., Риверс, И., и Бойл, Дж. (2019). Систематический обзор чередования как стратегии концептуального обучения. Протоколы социальных наук , 2 (июль), 1–7. https://doi.org/10.7565/ssp.2019.2650
Фишер, А. В., Годвин, К. Э., и Селтман, Х. (2014). Визуальная среда, распределение внимания и обучение у маленьких детей: когда слишком много хорошего может быть плохим. Психологическая наука , 25 (7), 1362–1370. https://doi.org/10.1177/0956797614533801
Fox, KC, & Beaty, RE (2019). Блуждание ума как творческое мышление: нейронные, психологические и теоретические соображения. Current Opinion in Behavioral Sciences , 27 (февраль 2019 г.), 123–130. https://doi.org/10.1016/j.cobeha.2018.10.009
Ханания, Р., и Смит, Л. Б. (2010). Избирательное внимание и переключение внимания: к единому подходу к развитию. Наука о развитии , 13 (4), 622–635. https://doi.org/10.1111/j.1467-7687.2009.00921.x
Хэнли М., Хайрат М., Тейлор К., Уилсон Р., Коул-Флетчер Р. и Риби , Д. М. (2017). Дисплеи в классе: притяжение или отвлечение? Доказательства воздействия на внимание и обучение у детей с аутизмом и без него. Психология развития , 53 (7), 1265–1275. https://doi.org/10.1037/dev0000271
Киллингсврот, Массачусетс, и Гилберт, Д. Т. (2010). Блуждающий ум — несчастный ум. Science , 330 (ноябрь), 932. (2018). Влияние мобильных телефонов на внимание и обучение: влияние времени, отвлечение внимания и номофобия. Компьютеры в поведении человека , 86 , 52–60. https://doi.org/10.1016/j.chb.2018.04.027
Oberauer, K., & Hein, L. (2012). Внимание к информации в рабочей памяти. Современные направления психологической науки , 21 (3), 164–169. https://doi.org/10.1177/0963721412444727
Шапиро, С.Л., Лайонс, К.Е., Миллер, Р.К., Батлер, Б., Витен, К., и Зелазо, П.Д. (2014). Созерцание в классе: новое направление совершенствования образования детей. Educational Psychology Review , 27 (1). https://doi.org/10.1007/s10648-014-9265-3
Соарес, Дж. С., и Сторм, Б. К. (2019). Негативное вращение: использование прядильщика может ухудшить память для видеолекции. Прикладная когнитивная психология , (октябрь), 1–8. https://doi.org/10.1002/acp.3610
Торнтон, Б. , Файрес, А., Роббинс, М., и Роллинз, Э. (2014). Само присутствие мобильного телефона может отвлекать внимание и выполнять задачи. Социальная психология , 45 (6), 479–488. https://doi.org/10.1027/1864-9335/a000216
Нравится:
Нравится Загрузка…
The Illustrated Transformer — Джей Аламмар — Визуализация машинного обучения по одной концепции за раз.
Обсуждения:
Hacker News (65 баллов, 4 комментария), Reddit r/MachineLearning (29 баллов, 3 комментария)
Переводы: Арабский, Китайский (упрощенный) 1, Китайский (упрощенный) 2, Французский 1, Французский 2, Японский, Корейский, Персидский, Русский, Испанский 1, Испанский 2, Вьетнамский
Смотреть: лекция MIT Deep Learning State of the Art со ссылкой на этот пост
В предыдущем посте мы рассмотрели внимание — вездесущий метод в современных моделях глубокого обучения. Внимание — это концепция, которая помогла повысить производительность приложений нейронного машинного перевода. В этом посте мы рассмотрим Трансформер — модель, использующая внимание для повышения скорости обучения этих моделей. Transformer превосходит модель нейронного машинного перевода Google в определенных задачах. Однако самое большое преимущество заключается в том, как The Transformer поддается распараллеливанию. На самом деле Google Cloud рекомендует использовать Transformer в качестве эталонной модели для использования своего предложения Cloud TPU. Итак, давайте попробуем разобрать модель на части и посмотреть, как она работает.
Трансформатор был предложен в статье «Внимание — это все, что вам нужно». Его реализация TensorFlow доступна как часть пакета Tensor2Tensor. Гарвардская группа НЛП создала руководство, аннотирующее документ с реализацией PyTorch. В этом посте мы попытаемся немного упростить вещи и представить концепции одну за другой, чтобы, надеюсь, их было легче понять людям, не обладающим глубокими знаниями предмета.
Обновление 2020 : Я создал видео «Рассказанный трансформер», которое представляет собой более мягкий подход к теме:
youtube.com/embed/-QH8fRhqFHM» frameborder=»0″ allow=»accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture» allowfullscreen=»»>Взгляд высокого уровня
Давайте начнем с рассмотрения модели как единого черного ящика. В приложении для машинного перевода оно берет предложение на одном языке и выводит его перевод на другом.
Открывая этот Оптимус Прайм, мы видим компонент кодирования, компонент декодирования и связи между ними.
Компонент кодирования представляет собой стопку энкодеров (бумага укладывает их шесть друг на друга — в числе шесть нет ничего волшебного, с другими расположениями определенно можно поэкспериментировать). Компонент декодирования представляет собой стек декодеров с одинаковым номером.
Все энкодеры идентичны по структуре (однако они не имеют общего веса). Каждый из них разбит на два подуровня:
Входные данные кодировщика сначала проходят через уровень внутреннего внимания — слой, который помогает кодировщику смотреть на другие слова во входном предложении, когда он кодирует конкретное слово. Мы подробнее рассмотрим само-внимание позже в этом посте.
Выходные данные уровня внутреннего внимания передаются в нейронную сеть с прямой связью. К каждой позиции независимо применяется одна и та же сеть прямой связи.
Декодер имеет оба этих уровня, но между ними находится уровень внимания, который помогает декодеру сосредоточиться на соответствующих частях входного предложения (аналогично тому, что делает внимание в моделях seq2seq).
Привнесение тензоров в картину
Теперь, когда мы рассмотрели основные компоненты модели, давайте начнем рассматривать различные векторы/тензоры и то, как они перетекают между этими компонентами, чтобы превратить ввод обученной модели в выход.
Как и в случае с приложениями НЛП в целом, мы начинаем с преобразования каждого входного слова в вектор с помощью алгоритма встраивания.
Каждое слово встроено в вектор размером 512. Мы будем представлять эти векторы с помощью этих простых прямоугольников.Встраивание происходит только в самом нижнем кодировщике. Абстракция, общая для всех кодировщиков, заключается в том, что они получают список векторов, каждый из которых имеет размер 512. В нижнем кодировщике это будут вложения слов, но в других кодировщиках это будут выходные данные кодировщика, который находится непосредственно ниже. . Размер этого списка — это гиперпараметр, который мы можем установить — в основном это будет длина самого длинного предложения в нашем наборе обучающих данных.
После встраивания слов в нашу входную последовательность каждое из них проходит через каждый из двух слоев кодировщика.
Здесь мы начинаем видеть одно ключевое свойство Преобразователя, а именно то, что слово в каждой позиции проходит в кодировщике по своему пути. Между этими путями на уровне внимания к себе существуют зависимости. Однако уровень прямой связи не имеет таких зависимостей, и поэтому различные пути могут выполняться параллельно при прохождении через уровень прямой связи.
Далее мы переключим пример на более короткое предложение и посмотрим, что происходит на каждом подуровне кодировщика.
Теперь кодируем!
Как мы уже упоминали, энкодер получает на вход список векторов. Он обрабатывает этот список, передавая эти векторы в слой «самовнимания», затем в нейронную сеть с прямой связью, а затем отправляет выходные данные вверх следующему кодировщику.
Слово в каждой позиции проходит через процесс внутреннего внимания. Затем каждый из них проходит через нейронную сеть с прямой связью — точно такую же сеть, в которой каждый вектор проходит через нее отдельно.Внимание к себе на высоком уровне
Не дайте себя одурачить тем, что я разбрасываюсь словом «внимание к себе», как будто это понятие, с которым должен быть знаком каждый. Я лично никогда не сталкивался с этой концепцией, пока не прочитал статью «Внимание — это все, что вам нужно». Давайте разберемся, как это работает.
Допустим, следующее предложение является входным предложением, которое мы хотим перевести:
” Животное не перешло улицу, потому что оно слишком устало
”
Что означает «оно» в этом предложении? Это относится к улице или к животному? Это простой вопрос для человека, но не такой простой для алгоритма.
Когда модель обрабатывает слово «оно», внутреннее внимание позволяет ей ассоциировать «оно» с «животным».
По мере того, как модель обрабатывает каждое слово (каждую позицию во входной последовательности), собственное внимание позволяет ей искать в других позициях во входной последовательности подсказки, которые могут помочь улучшить кодирование этого слова.
Если вы знакомы с RNN, подумайте о том, как поддержание скрытого состояния позволяет RNN объединять свое представление предыдущих слов/векторов, которые она обрабатывала, с текущим, который она обрабатывает. Самовнимание — это метод, который Трансформер использует, чтобы встроить «понимание» других релевантных слов в то, которое мы сейчас обрабатываем.
Поскольку мы кодируем слово «оно» в кодировщике № 5 (верхнем кодировщике в стеке), часть механизма внимания фокусируется на «Животном» и запекает часть его представления в кодировку «оно».Обязательно ознакомьтесь с записной книжкой Tensor2Tensor, где вы можете загрузить модель Transformer и изучить ее с помощью этой интерактивной визуализации.
Самовнимание в деталях
Давайте сначала рассмотрим, как рассчитать самовосприятие с помощью векторов, а затем перейдем к тому, как это на самом деле реализуется — с помощью матриц.
Первый шаг в вычислении собственного внимания заключается в создании трех векторов из каждого из входных векторов кодировщика (в данном случае встраивания каждого слова). Итак, для каждого слова мы создаем вектор запроса, вектор ключа и вектор значения. Эти векторы создаются путем умножения вложения на три матрицы, которые мы обучали в процессе обучения.
Обратите внимание, что эти новые векторы имеют меньшую размерность, чем вектор вложения. Их размерность равна 64, в то время как векторы ввода/вывода встраивания и кодирования имеют размерность 512. Они НЕ ДОЛЖНЫ быть меньше, это выбор архитектуры, чтобы сделать вычисление многоголового внимания (в основном) постоянным.
Умножение x1 на весовую матрицу WQ дает q1, вектор «запроса», связанный с этим словом. В итоге мы создаем «запрос», «ключ» и «значение» проекции каждого слова во входном предложении.Что такое векторы «запрос», «ключ» и «значение»?
Это абстракции, полезные для расчета внимания и размышлений о нем. Как только вы продолжите читать ниже, как рассчитывается внимание, вы узнаете почти все, что вам нужно знать о роли, которую играет каждый из этих векторов.
Второй шаг в подсчете внимания к самому себе заключается в подсчете балла. Скажем, мы вычисляем само-внимание для первого слова в этом примере «Думаю». Нам нужно сопоставить каждое слово входного предложения с этим словом. Оценка определяет, сколько внимания нужно уделять другим частям входного предложения, когда мы кодируем слово в определенной позиции.
Оценка рассчитывается путем скалярного произведения вектора запроса на ключевой вектор соответствующего слова, которое мы оцениваем. Итак, если мы обрабатываем самовнимание для слова в позиции № 1, первая оценка будет скалярным произведением q1 и k1. Вторая оценка будет скалярным произведением q1 и k2.
третий и четвертый шаги должны разделить баллы на 8 (квадратный корень из размерности ключевых векторов, использованных в статье – 64. Это приводит к более стабильным градиентам. Здесь могут быть и другие возможные значения , но это значение по умолчанию), затем передайте результат через операцию softmax. Softmax нормализует оценки, чтобы все они были положительными и в сумме давали 1.
Эта оценка softmax определяет, насколько каждое слово будет выражено в этой позиции. Очевидно, что слово в этой позиции будет иметь наивысший балл softmax, но иногда полезно обратить внимание на другое слово, имеющее отношение к текущему слову.
Пятый шаг заключается в умножении каждого вектора значений на оценку softmax (при подготовке к их суммированию). Интуиция здесь состоит в том, чтобы сохранить нетронутыми значения слов, на которых мы хотим сосредоточиться, и заглушить нерелевантные слова (например, умножив их на крошечные числа, такие как 0,001).
Шестой шаг заключается в суммировании взвешенных векторов значений. Это производит вывод слоя внутреннего внимания в этой позиции (для первого слова).
На этом расчет собственного внимания завершен. Результирующий вектор — это тот, который мы можем отправить в нейронную сеть с прямой связью. Однако в реальной реализации этот расчет выполняется в матричной форме для более быстрой обработки. Итак, давайте посмотрим на это теперь, когда мы увидели интуицию расчета на уровне слов.
Матрица расчета собственного внимания
Первым шагом является вычисление матриц запроса, ключа и значения. Мы делаем это, упаковывая наши вложения в матрицу X и умножая ее на матрицы весов, которые мы обучили (WQ, WK, WV).
Каждая строка в матрице X соответствует слову во входном предложении. Мы снова видим разницу в размере вектора вложения (512 или 4 прямоугольника на рисунке) и векторов q/k/v (64 или 3 прямоугольника на рисунке)Наконец , так как мы имеем дело с матрицами, мы можем объединить шаги со второго по шестой в одну формулу, чтобы рассчитать выходы слоя само-внимания.
Расчет собственного внимания в матричной формеМногоголовый зверь
В статье дополнительно усовершенствовали уровень само-внимания, добавив механизм, называемый «многоголовым» вниманием. Это улучшает производительность уровня внимания двумя способами:
Расширяет возможности модели фокусироваться на разных позициях. Да, в приведенном выше примере z1 содержит немного любой другой кодировки, но в ней может доминировать само фактическое слово. Если мы переводим предложение вроде «Животное не перешло улицу, потому что слишком устало», было бы полезно знать, к какому слову относится «оно».
Это дает слою внимания несколько «подпространств представления». Как мы увидим далее, при многоголовом внимании у нас есть не один, а несколько наборов весовых матриц Запрос/Ключ/Значение (преобразователь использует восемь головок внимания, поэтому мы получаем восемь наборов для каждого кодировщика/декодера). . Каждый из этих наборов инициализируется случайным образом. Затем, после обучения, каждый набор используется для проецирования входных вложений (или векторов из нижних кодеров/декодеров) в другое подпространство представления.
Если мы проведем тот же расчет собственного внимания, который мы описали выше, только восемь раз с разными весовыми матрицами, мы получим восемь разных Z-матриц
Это ставит перед нами небольшую задачу. Слой прямой связи не ожидает восьми матриц — он ожидает одну матрицу (вектор для каждого слова). Поэтому нам нужен способ сжать эти восемь в одну матрицу.
Как нам это сделать? Мы объединяем матрицы, а затем умножаем их на дополнительную матрицу весов WO.
Это почти все, что нужно для многоголового самовнимания. Я понимаю, что это довольно много матриц. Позвольте мне попытаться поместить их все в одно изображение, чтобы мы могли смотреть на них в одном месте.
Теперь, когда мы коснулись головок внимания, давайте вернемся к нашему примеру, приведенному выше, чтобы увидеть, на чем фокусируются разные головки внимания, когда мы кодируем слово «это» в нашем примере предложения:
Когда мы кодируем слово «это», одна головка внимания больше всего сосредотачивается на «животном», в то время как другая сосредотачивается на «усталом» — в некотором смысле модельное представление слова «это» запекается в некоторых репрезентациях. как «животного», так и «усталого».Однако, если мы добавим все головы внимания к картинке, интерпретировать вещи будет труднее:
Представление порядка последовательности с использованием позиционного кодирования
Одна вещь, которая отсутствует в модели, как мы ее описывали до сих пор это способ учета порядка слов во входной последовательности.
Чтобы решить эту проблему, преобразователь добавляет вектор к каждому входному встраиванию. Эти векторы следуют определенному шаблону, который изучает модель, что помогает ей определять положение каждого слова или расстояние между разными словами в последовательности. Интуиция здесь такова, что добавление этих значений к вложениям обеспечивает значимые расстояния между векторами вложений после их проецирования в векторы Q/K/V и во время скалярного произведения внимания.
Чтобы дать модели представление о порядке слов, мы добавляем векторы позиционного кодирования, значения которых следуют определенному шаблону.Если предположить, что размерность встраивания равна 4, фактическое позиционное кодирование будет выглядеть так:
Реальный пример позиционного кодирования с игрушечным встраиванием размера 4Как может выглядеть этот узор?
На следующем рисунке каждая строка соответствует позиционному кодированию вектора. Таким образом, первая строка будет вектором, который мы добавим к встраиванию первого слова во входную последовательность. Каждая строка содержит 512 значений, каждое со значением от 1 до -1. Мы пометили их цветом, чтобы узор был виден.
Реальный пример позиционного кодирования для 20 слов (строк) с размером встраивания 512 (столбцов). Вы можете видеть, что он кажется разделенным пополам по центру. Это потому, что значения левой половины генерируются одной функцией (использующей синус), а правой половины генерируются другой функцией (использующей косинус). Затем они объединяются для формирования каждого из векторов позиционного кодирования. Формула позиционного кодирования описана в статье (раздел 3.5). Вы можете увидеть код для генерации позиционных кодировок в get_timing_signal_1d()
. Это не единственный возможный метод позиционного кодирования. Это, однако, дает преимущество, заключающееся в возможности масштабирования последовательностей невидимой длины (например, если нашу обученную модель просят перевести предложение длиннее, чем любое из предложений в нашем обучающем наборе).
Обновление от июля 2020 г.: Позиционное кодирование, показанное выше, взято из реализации Transformer в Transformer2Transformer. Метод, показанный в статье, немного отличается тем, что он не объединяет напрямую, а переплетает два сигнала. На следующем рисунке показано, как это выглядит. Вот код для его генерации:
Остатки
Одна деталь в архитектуре кодировщика, которую мы должны упомянуть, прежде чем двигаться дальше, заключается в том, что каждый подуровень (само-внимание, ffnn) в каждом кодировщике имеет остаточную связь вокруг него и следует за ним. шаг нормализации слоя.
Если мы хотим визуализировать векторы и операцию нормы слоя, связанную с вниманием к себе, это будет выглядеть так:
Это относится и к подуровням декодера. Если бы мы подумали о преобразователе из двух сложенных кодеров и декодеров, это выглядело бы примерно так:
Сторона декодера
Теперь, когда мы рассмотрели большинство концепций на стороне кодировщика, мы в основном знаем, как работают компоненты декодеров. Но давайте посмотрим, как они работают вместе.
Кодер запускается с обработки входной последовательности. Затем выходные данные верхнего кодировщика преобразуются в набор векторов внимания K и V. Они должны использоваться каждым декодером в его слое «внимание кодировщика-декодера», который помогает декодеру сосредоточиться на соответствующих местах во входной последовательности:
После завершения фазы кодирования мы начинаем фазу декодирования. Каждый шаг в фазе декодирования выводит элемент из выходной последовательности (в данном случае предложение английского перевода).Следующие шаги повторяют процесс до тех пор, пока не будет достигнут специальный символ, указывающий, что декодер преобразователя завершил свой вывод. Выходные данные каждого шага подаются на нижний декодер на следующем временном шаге, и декодеры выводят результаты декодирования так же, как это делали кодеры. И точно так же, как мы делали с входными данными кодировщика, мы внедряем и добавляем позиционное кодирование к этим входным данным декодера, чтобы указать положение каждого слова.
Слои самоконтроля в декодере работают немного иначе, чем в кодере:
В декодере уровень самоконтроля может обращать внимание только на более ранние позиции в выходной последовательности. Это делается путем маскирования будущих позиций (устанавливая их на -inf
) перед шагом softmax в расчете собственного внимания.
Уровень «Внимание кодировщика-декодера» работает так же, как многоголовое самовнимание, за исключением того, что он создает свою матрицу запросов из слоя, расположенного ниже, и берет матрицу ключей и значений из выходных данных стека кодировщика.
Последний линейный слой и слой Softmax
Стек декодера выводит вектор чисел с плавающей запятой. Как мы превратим это в слово? Это работа последнего линейного слоя, за которым следует слой Softmax.
Линейный слой представляет собой простую полностью связанную нейронную сеть, которая проецирует вектор, созданный стеком декодеров, в гораздо больший вектор, называемый логитс-вектором.
Предположим, что наша модель знает 10 000 уникальных английских слов («выходной словарь» нашей модели), которые она изучила из обучающего набора данных. Это сделало бы логит-вектор шириной 10 000 ячеек, каждая из которых соответствовала бы счету уникального слова. Вот как мы интерпретируем выходные данные модели, за которыми следует линейный слой.
Затем слой softmax превращает эти оценки в вероятности (все положительные, все в сумме дают 1,0). Выбирается ячейка с наибольшей вероятностью, и слово, связанное с ней, создается в качестве выходных данных для этого временного шага.
Этот рисунок начинается снизу с вектора, полученного в качестве выходных данных стека декодера. Затем оно превращается в выходное слово.Итоги обучения
Теперь, когда мы рассмотрели весь процесс прямого прохода через обученный Трансформер, было бы полезно взглянуть на интуицию обучения модели.
Во время обучения необученная модель будет проходить точно такой же прямой проход. Но поскольку мы обучаем его на помеченном обучающем наборе данных, мы можем сравнить его вывод с фактическим правильным выводом.
Для наглядности предположим, что наш выходной словарь содержит только шесть слов («а», «ам», «я», «спасибо», «студент» и «<эос>» (сокращение от «конец предложения»). )).
Выходной словарь нашей модели создается на этапе предварительной обработки еще до того, как мы начнем обучение.Как только мы определили наш выходной словарь, мы можем использовать вектор той же ширины для обозначения каждого слова в нашем словаре. Это также известно как однократное кодирование. Так, например, мы можем указать слово «ам», используя следующий вектор:
Пример: горячее кодирование нашего выходного словаряПосле этого резюме давайте обсудим функцию потерь модели — показатель, который мы оптимизируем на этапе обучения, чтобы получить обученную и, надеюсь, удивительно точную модель.
Функция потерь
Допустим, мы обучаем нашу модель. Скажем, это наш первый шаг на этапе обучения, и мы тренируем его на простом примере — переводим «merci» в «спасибо».
Это означает, что мы хотим, чтобы на выходе было распределение вероятностей, указывающее слово «спасибо». Но поскольку эта модель еще не обучена, это вряд ли произойдет.
Поскольку все параметры модели (веса) инициализируются случайным образом, (необученная) модель создает распределение вероятностей с произвольными значениями для каждой ячейки/слова. Мы можем сравнить его с фактическим выходом, а затем настроить все веса модели с помощью обратного распространения, чтобы сделать результат ближе к желаемому результату.Как сравнить два распределения вероятностей? Просто вычитаем одно из другого. Для получения дополнительной информации посмотрите на кросс-энтропию и дивергенцию Кульбака-Лейблера.
Но учтите, что это слишком упрощенный пример. Более реалистично, мы будем использовать предложение длиннее одного слова. Например, ввод: «je suis étudiant» и ожидаемый вывод: «я студент». На самом деле это означает, что мы хотим, чтобы наша модель последовательно выводила распределения вероятностей, где:
- Каждое распределение вероятностей представлено вектором ширины vocab_size (6 в нашем игрушечном примере, но более реалистично число вроде 30 000 или 50 000)
- Первое распределение вероятностей имеет наибольшую вероятность в ячейке, связанной со словом «i»
- Второе распределение вероятностей имеет наибольшую вероятность в ячейке, связанной со словом «am»
- И так далее, пока в пятом выходном распределении не будет указан символ ‘
<конец предложения>
’, с которым также связана ячейка из словаря из 10 000 элементов.
После обучения модели в течение достаточного времени на достаточно большом наборе данных мы надеемся, что полученные распределения вероятностей будут выглядеть следующим образом:
Надеемся, что после обучения модель выдаст правильный перевод, который мы ожидаем. Конечно, это не является реальным указанием на то, что эта фраза была частью обучающего набора данных (см.: перекрестная проверка). Обратите внимание, что каждая позиция получает небольшую долю вероятности, даже если она вряд ли будет результатом этого временного шага — это очень полезное свойство softmax, которое помогает процессу обучения.Теперь, поскольку модель выдает выходные данные по одному, мы можем предположить, что модель выбирает слово с наибольшей вероятностью из этого распределения вероятностей и отбрасывает остальные. Это один из способов сделать это (называемый жадным декодированием). Другой способ сделать это состоит в том, чтобы удерживать, скажем, два верхних слова (например, «я» и «а»), а затем на следующем шаге запускать модель дважды: один раз, предполагая, что первая выходная позиция была слово «I», а в другой раз, предполагая, что первой выходной позицией было слово «a», и сохраняется та версия, которая дает меньше ошибок с учетом обеих позиций № 1 и № 2. Мы повторяем это для позиций № 2 и № 3… и т. д. Этот метод называется «поиск луча», где в нашем примере beam_size был равен двум (это означает, что всегда в памяти хранятся две частичные гипотезы (незавершенные переводы)), а top_beams также равен двум (это означает, что мы вернем два перевода). ). Это оба гиперпараметра, с которыми вы можете поэкспериментировать.
Идти вперед и трансформироваться
Я надеюсь, что вы нашли это полезным местом, чтобы начать растопить лед с основными концепциями Transformer. Если вы хотите углубиться, я бы предложил следующие шаги:
- Прочтите статью «Внимание — это все, что вам нужно», запись в блоге Transformer (Transformer: новая архитектура нейронной сети для понимания языка) и объявление Tensor2Tensor.
- Посмотрите выступление Лукаша Кайзера, рассказывающее о модели и ее деталях
- Играйте с Jupyter Notebook, входящим в репозиторий Tensor2Tensor .
- Ознакомьтесь с репозиторием Tensor2Tensor.
Последующие работы:
- Разделимые по глубине свертки для нейронного машинного перевода
- Одна модель, чтобы изучить их все
- Дискретные автоэнкодеры для моделей последовательностей
- Создание Википедии путем суммирования длинных последовательностей
- Преобразователь изображения
- Советы по обучению для Transformer Model
- Самостоятельное внимание с репрезентациями относительного положения
- Быстрое декодирование в моделях последовательности с использованием дискретных скрытых переменных
- Adafactor: адаптивные скорости обучения с сублинейной стоимостью памяти
Благодарности
Спасибо Илье Полосухину, Якобу Ушкорейту, Ллиону Джонсу, Лукашу Кайзеру, Ники Пармар и Ноаму Шазиру за отзывы о предыдущих версиях этого поста.