Тесты способностей. Часть 3. Надежность и валидность
30.10.2019
Надежность и валидность — ключевые характеристики психометрического теста
Надежность показывает, что результаты проводимого исследования близки к истине.
Валидность – признак того, что результаты действительно относятся к тому явлению, которое изучается исследователем.
1. НАДЕЖНОСТЬ
НАДЕЖНОСТЬ КАК УСТОЙЧИВОСТЬ
Относительное постоянство, устойчивость, согласованность результатов теста. Независимость методики от действия случайных факторов
Устойчивость определяется с помощью повторного тестирования (ретеста)
1.1. Метод повторного тестирования (ретеста)
Ретестовая надежность определяется путем повторного обследования одних и тех же лиц при помощи одной и той же методики. Основан на подсчете корреляции индивидуальных баллов испытуемых, полученных в результате двукратного выполнения ими одного и того же теста. Чем выше коэффициент корреляции, тем выше надежность, и мы получаем примерно то же самое распределение. Обычно повторное тестирование проводится через 1-2 недели. Наименьшим удовлетворительным значением для ретестовой надежности является 0.76
Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Ещё один недостаток повторного тестирования — это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.
1.2. Метод параллельных форм
Проверяется с помощью взаимозаменяемых форм теста (т.е. одни и те же обследуемые сначала обследуются с помощью одного теста, затем (через определенный интервал) с помощью другого теста). Метод эффективен, когда изначально разрабатываются параллельные варианты теста с целью ротации.
НАДЕЖНОСТЬ КАК СОГЛАСОВАННОСТЬ
Внутренняя согласованность (англ. — internal consistency) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.
Для проверки внутренней согласованности применяются различные методы:
1.
Характеристика надежности осуществляется путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста. Для этого тест расщепляется/ разделяется на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным. Другие названия — одномоментная надежность, надежность-согласованность.
1.4. Метод эквивалентных бланков
Состоит в применении двух сопоставимых друг с другом форм теста для большой выборки. Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен.
1.5. Метод альфа Кронбаха
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, то каждый отдельный вопрос направлен на исследование одного и того же общего основания.
Если все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха будет равен 1. При случайном разбросе результатов ответов на вопросы, коэффициент альфа Кронбаха будет равен 0, и тест ненадежен.
2. ВАЛИДНОСТЬ ТЕСТА
Валидность теста (от англ. valid – актуальный, подходящий, действительный) – понятие, указывающее, что именно тест измеряет и насколько хорошо он это делает. Это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность.
Не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства.
2.1. Концептуальная валидность
Понимается как обоснование с позиции соответствия авторским представлениям об особенностях диагностируемых свойств, как мера соответствия заданий теста авторской концепции этих свойств.
2.2. Содержательная (логическая) валидность
Под содержанием понимается фактический материал, входящий в пункты тестов. Валидность по содержанию оценивает соответствие содержания теста (заданий, вопросов) той реальной деятельности, в которой проявляется измеряемое в методике свойство.
Например, чтобы тест математических способностей имел достаточный уровень содержательной валидности, его пункты не должны иметь таких формулировок, при которых для испытуемого решающими оказываются вербальные способности, необходимые для того, чтобы понять, о чём спрашивается в этом пункте.
Содержание должно быть уравновешено таким образом, чтобы все тестируемые аспекты были представлены. Тест не должен быть перегружен, допустим, пунктами на умножение в ущерб пунктам на сложение.
2.3. Конструктная валидность (концептуальная, понятийная, внутренняя валидность)
Под конструктом понимают психологический феномен, который невозможно наблюдать непосредственно, но можно вывести из поведения человека, например, экстраверсия, общий интеллект, открытость, умения и т.д.
Конструктная валидность определяет наличие взаимосвязи между новым и ранее существующим тестом-эталоном, изучающим тот же конструкт, валидность которого была ранее определена. Она указывает на то, что разрабатываемый тест измеряет примерно ту же сферу поведения, способность, личностное качество, что и эталонная методика
При анализе конструктной валидности методики формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми. Конструктная валидность характеризуется не только связями проверяемого теста с близкородственными показателями эталонного теста, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно.
2.4. Операциональная валидность
Определяет степень соответствия используемой экспериментальной методики (экспериментальных утверждений) теоретическим положениям, которые положены в основу организации и проведения данного эксперимента
2.5. Очевидная (доверительная) валидность
Очевидная валидность показывает в какой степени содержание теста и его заданий (пунктов) выглядит в глазах тестируемого подходящим для данной ситуации. Именно она в первую очередь определяет отношение испытуемых к обследованию. Тест должен восприниматься испытуемым как серьезный инструмент познания его личности.
Наличие очевидной валидности способствует воспринимаемой целесообразности психологического теста и создает у тестируемого впечатления, что тест учитывает его индивидуальность и опыт работы. Позволяет добиться сотрудничества и хорошего раппорта между тестирующим и тестируемыми.
Недостаток очевидной валидности (независимо от технической валидности, или точности, теста) может вызывать у тестируемых чувства раздражения, неудовлетворенности и обманутости, создавать негативное общественное мнение.
2.6. Критериальная (прагматическая, эмпирическая) валидность
Такая валидность показывает ее практическую полезность. Для этого используется независимый внешний относительно самого теста критерий – показатель проявления изучаемого свойства в повседневной жизни.
Критериальная (прагматическая, эмпирическая) валидность позволяет выяснить насколько высокие или низкие результаты теста соответствуют высокой или низкой оценке того поведенческого проявления — критерия, которое он должен предсказать
Например, практическая задача теста – выявить тех, кто будет эффективен в будущей работе. Критерий «эффективность» определен как % выполнения плана продаж. В таком случае, валидный тест позволяет с определенной вероятностью отделить «выполняющих план» от «не выполняющих план».
Важно можно ли с помощью теста разделить испытуемых на эти две группы. Обладает ли тест дискриминативностью. Важно, что тест или отдельное его задание успешно (с высокими баллами) проходят «эффективные», а неуспешно (с низкими баллами) «неэффективные». В случае, когда группы отличаются друг от друга только по одной переменной, причина дифференциации бывает понятна. Но это не важно. Важно, чтобы тест умел хорошо разделять группы по целевому критерию.
Для вычисления коэффициента валидности сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).
Виды критериальной валидности:
- «Прогностическая» (предсказательная) валидность показывает возможность экстраполирования результатов на будущее. Определяется также по достаточно надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешним критерием обычно бывает выраженная в каких-нибудь оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний.
- «Ретроспективная» валидность определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики.
Надежность и валидность методов исследования
1. Надежность и валидность методов исследования
Критерии и показатели в оценке методов исследования.Надежность методов психолого-педагогического исследования во многом
зависит от критериев и показателей, по которым происходит изучение
выбранного для исследования образовательного феномена.
Критерий (от греч. kriterion – средство для суждения) – это признак, на
основании которого производится оценка, определение или классификация
чего-либо.
В диагностике критерием является переменная величина, принимающая разные
значения в различных случаях или в разные моменты времени в рамках одного
случая. Критерии дают возможность судить о состоянии объекта исследования.
Показатель (indicator – то, что доступно восприятию, то, что «показывает»
наличие чего-либо) – это некоторая величина или качество переменной
(критерия), которое может проявляться у конкретного объекта, т.е. это мера
проявления критерия, его количественная или качественная характеристика, по
которой судят о различных состояниях объекта; это внешне хорошо
различимый признак измеряемого критерия. Можно сказать, что показатель
выполняет роль эмпирического индикатора критерия.
Принято считать, что количество критериев должно составлять не менее трех, а
по каждому критерию следует выделять как минимум три показателя. Только
тогда можно говорить о полном отображении объекта и предмета диагностики и
проявлении каждого соответствующего критерия
4.
Общие требования к методам исследованиякаждая методика должна иметь следующие составляющие:описание, обеспечивающее ее адекватное использование в
точном соответствии со стандартами: предмет диагностики,
сфера применения, контингент испытуемых, процедура
применения;
подробные
сведения о процедуре разработки методики,
полученных при этом данных о надежности и валидности;
однозначное описание выборки стандартизации и характера
диагностической ситуации в обследовании;
процедура подсчета баллов и интерпретации должна быть
описана с однозначной ясностью, позволяющей получить
идентичные
результаты
при
обработке
одинаковых
протоколов разными пользователями руководства.
Под операционализацией понимается требование, согласно которому при
введении новых научных понятий необходимо четко указывать на конкретные
процедуры, приемы и методы, с помощью которых можно практически
удостовериться в том, что явление, описанное в понятии, действительно
существует.
Операционализация предполагает указание на практические действия или
операции, которые может выполнить любой диагност, чтобы убедиться в том,
что определенное в понятии явление обладает именно теми свойствами,
которые ему приписываются.
Требование верификации означает, что всякое новое понятие, вводимое в
научный оборот и претендующее на получение статуса научного, обязательно
должно пройти проверку на наличие методики экспериментальной
диагностики описанного в нем явления. Качество результатов диагностики при
этом принято оценивать по общепринятым критериям объективности,
надежности, валидности и др.
Объективность
характеризуется
корреляцией
(совпадением
или
согласованностью) между результатами, полученными двумя оценивающими
лицами. Необходимо, чтобы коэффициенты корреляции в этом случае были
близки к единице (r = 1).
Стандартизация – это единообразие процедуры проведения и оценки
выполнения диагностического метода. Стандартизированность в диагностике –
это неизменность заданных вопросов и задач, точность соблюдения
испытуемыми инструкции, а диагностами – способов вычисления и
интерпретации полученных показателей.
7. Надежность метода исследования
Надежность – один из критериев качества результата вдиагностике, относящийся к степени точности и устойчивости
показателей диагностируемого признака. Чем больше
надежность методики, тем свободнее она от погрешностей
измерения.
В самом широком смысле надежность – это характеристика
того, в какой степени выявленные у испытуемых различия по
результатам проведения методики являются отражением
действительных различий в измеряемых свойствах и в какой
мере они могут быть приписаны случайным ошибкам.
Приемы для оценки надежности диагностической методики
1. Прием ретеста, или повторной диагностики, позволяет обработать одни и те же
задания, выполненные одними и теми же испытуемыми в разное время, и
просчитать
взаимосвязь
результатов,
выраженную
в
коэффициенте
самокорреляции.
2. Прием деления пополам – подборка однажды выполненных заданий делится
пополам (например, в первый полутест входят задания с нечетным порядковым
номером, а во второй полутест – с четным), затем устанавливаются результаты
каждого испытуемого по обоим полутестам и вычисляется коэффициент
корреляции между полученными результатами.
3. Прием параллельного теста – для измерения одних и тех же знаний
конструируются два различных набора заданий, которые по своему содержанию
напоминают близнецов; оба параллельных набора заданий предлагаются
непосредственно друг за другом или при удобном случае.
Во всех случаях при коэффициенте корреляции методик r > 0,7 методика считается
надежной.
В тестовой методике принято учитывать три коэффициента надежности:
– коэффициент стабильности, или постоянства, – показатель корреляции между
результатами первого и повторного испытаний одним тестом одной и той же
выборки испытуемых;
– коэффициент эквивалентности, или коэффициент корреляции, результатов
тестирования одного и того же контингента испытуемых с помощью вариантов
одного и того же теста либо разными, но эквивалентными по форме и цели,
тестами;
– коэффициент внутреннего постоянства, или внутренней однородности,
который соответствует корреляции результатов частей теста, показанных
одними и теми же испытуемыми.
10. Валидность метода
исследования и диагностики показывает, вкакой мере измеряется то качество (свойство, характеристика),
для оценки которого он предназначен.
Валидность (адекватность) говорит о степени соответствия
метода своему назначению. Чем ближе раскрывается в
диагностике тот признак, для обнаружения и измерения которого
предназначен метод, тем выше его валидность .
Понятие валидности относится не только к методике, но и к
критерию оценки ее качества, критерию валидности.
Такими критериями могут стать следующие:
– поведенческие показатели – реакции, действия и поступки испытуемого в
различных жизненных ситуациях;
– достижения испытуемого в различных видах деятельности – учебной,
трудовой, творческой и др.;
– самоорганизация, данные, свидетельствующие о выполнении различных
контрольных проб и заданий;
– данные, получаемые при помощи других методик, валидность или связь
которых с проверяемой методикой считается достоверно установленной.
Чем выше коэффициент корреляции методики с критерием, тем выше
валидность.
Виды валидности диагностических методик
1. Теоретическая (концептуальная) валидность определяется по соответствию
показателей исследуемого качества, получаемых с помощью данной методики,
показателям, получаемым посредством других методик (с показателями которых
должна существовать теоретически обоснованная зависимость). Теоретическую
валидность проверяют по корреляциям показателей одного и того же свойства,
получаемым при помощи разных методик, связанных с одной и той же теорией.
2. Эмпирическая (прагматическая) валидность проверяется по соответствию
диагностических показателей реальному жизненному поведению, наблюдаемым
действиям и реакциям испытуемого. Если, например, с помощью некой методики
мы оцениваем черты характера у данного испытуемого, то применяемая
методика будет считаться практически или эмпирически валидной тогда, когда
мы установим, что данный человек ведет себя в жизни именно так, как
предсказывает методика, т. е. в соответствии с имеющейся у него чертой
характера
3. Внутренняя валидность означает соответствие содержащихся в методике
заданий, субтестов, суждений и т.п. общей цели и замыслу методики в целом.
Она считается внутренне невалидной или недостаточно внутренне валидной
тогда, когда все или часть включенных в нее вопросов, заданий или субтестов
измеряют не то, что требуется от данной методики.
4. Внешняя валидностъ – это примерно то же самое, что и эмпирическая
валидность, с той лишь разницей, что в данном случае речь идет о связи между
показателями методики и наиболее важными, ключевыми внешними признаками, относящимися к поведению испытуемого.
5. Очевидная валидность описывает представление о методе, сложившееся у
испытуемого, т.е. это валидность с точки зрения испытуемого. Методика должна
восприниматься обследуемым как серьезный инструмент познания его личности,
чем-то схожий с медицинским диагностическим инструментарием.
6. Конкурентная валидность оценивается по корреляции разработанной
методики с другими, валидность которых относительно измеряемого параметра
установлена.
7. Прогностическая валидность устанавливается с помощью корреляции
между показателями методики и некоторым критерием, характеризующим
измеряемое свойство, но в более позднее время.
8. Инкрементная валидность имеет ограниченное значение и относится к
случаю, когда один тест из батареи тестов может иметь низкую корреляцию с
критерием, но не перекрываться другими тестами из этой батареи. В этом
случае данный тест обладает инкрементной валидностью. Это может быть
полезно при проведении профотбора с помощью психологических тестов.
9. Дифференциальная валидностъ может быть проиллюстрирована на
примере тестов интересов. Тесты интересов обычно коррелируют с
академической успеваемостью, но по-разному для разных дисциплин.
Значение дифференциальной валидности, так же как и инкрементной,
ограничено.
10. Содержательная валидность определяется через подтверждение того, что
задания методики отражают все аспекты изучаемой области поведения.
Содержательную валидность часто называют «логической валидностью» или
«валидностью по определению». Она означает, что методика валидна по
мнению специалистов. Обычно она определяется у тестов достижений. На
практике для определения содержательной валидности подбираются эксперты,
которые указывают, какая область (области) поведения наиболее важна.
11. Конструктная валидность демонстрируется полным, насколько это
возможно, описанием переменной, для измерения которой предназначается
методика. Конструктная валидность включает в себя все подходы к
определению валидности, которые были перечислены выше.
Существует прямая связь валидности с надежностью. Методика с низкой
надежностью не может обладать высокой валидностью, поскольку неверен
измерительный инструмент и нестабилен тот признак, который он измеряет.
16. Дополнительные требования к методам исследования
Точностьметодики отражает ее способность тонко
реагировать на малейшие изменения оцениваемого свойства,
происходящие в ходе эксперимента.
Однозначность методики характеризуется тем, в какой степени
получаемые с ее помощью данные отражают изменения
именно и только того свойства, для оценивания которого
данная методика применяется.
Репрезентативность означает, что свойства более широкого
множества объектов представлены в свойствах подмножества.
Диагностическая
ценность методики определяется путем
проведения предварительного опыта с так называемой
нейтральной группой, результаты которого в дальнейшей
диагностической работе не используются.
Надежность и достоверность исследований
Опубликован в 3 июля 2019 г. к Фиона Миддлтон. Отредактировано 30 января 2023 г.
Надежность и достоверность — понятия, используемые для оценки качества исследований. Они указывают, насколько хорошо тот или иной метод, прием. или тест измеряет что-то. Надежность — это непротиворечивость меры, а достоверность — ее точность. вариант
Важно учитывать надежность и валидность при разработке плана исследования, планировании методов и оформлении результатов, особенно в количественных исследованиях. Невыполнение этого требования может привести к нескольким типам предвзятости в исследованиях и серьезно повлиять на вашу работу.
Надежность | Срок действия | |
---|---|---|
Что это вам говорит? | Степень, в которой результаты могут быть воспроизведены при повторении исследования в тех же условиях. | Степень, в которой результаты действительно измеряют то, что они должны измерять. |
Как оценивается? | Путем проверки согласованности результатов во времени, у разных наблюдателей и в разных частях самого теста. | Путем проверки того, насколько хорошо результаты соответствуют установленным теориям и другим показателям той же концепции. |
Как они связаны? | Надежное измерение не всегда достоверно: результаты могут быть воспроизводимыми, но не обязательно правильными. | Действительное измерение, как правило, надежно: если тест дает точные результаты, они должны быть воспроизводимыми. |
Содержание
- Сравнение надежности и валидности
- Как оцениваются надежность и валидность?
- Как обеспечить достоверность и достоверность вашего исследования
- Где написать о достоверности и достоверности в диссертации
Сравнение надежности и достоверности
Надежность и валидность тесно связаны, но означают разные вещи. Измерение может быть надежным, но не действительным. Однако, если измерение достоверно, оно обычно также надежно.
Что такое надежность?
Надежность относится к тому, насколько последовательно метод что-то измеряет. Если один и тот же результат может быть последовательно достигнут с использованием одних и тех же методов при одних и тех же обстоятельствах, измерение считается надежным.
Вы измеряете температуру жидкого образца несколько раз в одинаковых условиях. Термометр каждый раз показывает одну и ту же температуру, поэтому результаты надежны.
Врач использует вопросник симптомов для диагностики пациента с хроническим заболеванием. Несколько разных врачей используют один и тот же опросник у одного и того же пациента, но ставят разные диагнозы. Это указывает на низкую надежность опросника как меры состояния.
Что такое валидность?
Валидность относится к тому, насколько точно метод измеряет то, для измерения чего он предназначен. Если исследование имеет высокую достоверность, это означает, что оно дает результаты, соответствующие реальным свойствам, характеристикам и изменениям в физическом или социальном мире.
Высокая надежность является одним из показателей достоверности измерения. Если метод ненадежен, он, вероятно, недействителен.
Если термометр каждый раз показывает разные температуры, даже если вы тщательно контролируете условия, чтобы гарантировать, что температура образца остается неизменной, вероятно, термометр неисправен, и поэтому его измерения недействительны.
Если опросник по симптомам дает надежный диагноз при ответах на него в разное время и у разных врачей, это указывает на то, что он имеет высокую достоверность в качестве измерения состояния здоровья.
Однако одной надежности недостаточно для обеспечения достоверности. Даже если тест надежен, он может не точно отражать реальную ситуацию.
Термометр, который вы использовали для проверки образца, дает надежные результаты. Однако термометр не был откалиброван должным образом, поэтому результат на 2 градуса ниже истинного значения. Следовательно, измерение недействительно.
Группа участников проходит тест, предназначенный для измерения рабочей памяти. Результаты надежны, но оценки участников сильно коррелируют с их уровнем понимания прочитанного. Это указывает на то, что метод может иметь низкую достоверность: тест может измерять понимание прочитанного участниками, а не их рабочую память.
Валидность оценить труднее, чем надежность, но это даже важнее. Чтобы получить полезные результаты, методы, которые вы используете для сбора данных, должны быть достоверными: исследование должно измерять то, что заявлено для измерения. Это гарантирует, что ваше обсуждение данных и выводы, которые вы делаете, также верны.
Как оцениваются надежность и валидность?
Надежность можно оценить путем сравнения различных вариантов одного и того же измерения. Достоверность оценить труднее, но ее можно оценить, сравнив результаты с другими соответствующими данными или теорией. Методы оценки надежности и валидности обычно делятся на разные типы.
Типы надежности
Различные виды надежности можно оценить с помощью различных статистических методов.
Тип надежности | Что он оценивает? | Пример |
---|---|---|
Ретестовая надежность | Непротиворечивость меры во времени : вы получаете те же результаты при повторении измерения? | Группа участников заполняет анкету, предназначенную для измерения личностных качеств. Если они повторяют анкету с интервалом в несколько дней, недель или месяцев и дают одинаковые ответы, это свидетельствует о высокой ретестовой достоверности. |
Межоценочная надежность | Согласованность измерения между оценщиками или наблюдателями : получаются ли одинаковые результаты, когда разные люди проводят одно и то же измерение? | На основе контрольного списка критериев оценки пять экзаменаторов представили существенно разные результаты для одного и того же студенческого проекта. Это указывает на то, что контрольный список оценивания имеет низкую межэкспертную надежность (например, из-за того, что критерии слишком субъективны). |
Внутренняя согласованность | Непротиворечивость самого измерения : получаете ли вы одинаковые результаты из разных частей теста, предназначенных для измерения одного и того же? | Вы разрабатываете анкету для измерения самооценки. Если вы случайным образом разделите результаты на две половины, между двумя наборами результатов должна быть сильная корреляция. Если два результата сильно различаются, это указывает на низкую внутреннюю согласованность. |
Типы действия
Достоверность измерения можно оценить на основе трех основных типов данных. Каждый тип может быть оценен с помощью экспертной оценки или статистических методов.
Тип действия | Что он оценивает? | Пример |
---|---|---|
Действительность конструкции | Приверженность меры существующей теории и знаниям измеряемой концепции. | Анкета самооценки может быть оценена путем измерения других черт, известных или предполагаемых, связанных с концепцией самооценки (таких как социальные навыки и оптимизм). Сильная корреляция между оценками самооценки и связанными с ней чертами указывает на высокую достоверность конструкции. |
Действительность содержимого | Степень, в которой измерение охватывает все аспекты измеряемой концепции. | Тест, целью которого является оценка уровня испанского языка учащихся класса, содержит компоненты чтения, письма и разговорной речи, но не включает компонент аудирования. Эксперты сходятся во мнении, что понимание на слух является важным аспектом языковых способностей, поэтому тесту не хватает достоверности содержания для измерения общего уровня владения испанским языком. |
Критерий достоверности | Степень, в которой результат меры соответствует другим действительным мерам той же концепции. | Опрос проводится для измерения политических взглядов избирателей в регионе. Если результаты точно предсказывают более поздний исход выборов в этом регионе, это указывает на то, что опрос имеет высокую достоверность критерия. |
Для оценки достоверности причинно-следственной связи необходимо также учитывать внутреннюю валидность (дизайн эксперимента) и внешнюю валидность (обобщаемость результатов).
Как обеспечить достоверность и надежность ваших исследований
Надежность и валидность ваших результатов зависят от тщательной разработки плана исследования, выбора подходящих методов и образцов, а также тщательного и последовательного проведения исследования.
Обеспечение достоверности
Если вы используете баллы или рейтинги для измерения различий в чем-то (например, психологических чертах, уровнях способностей или физических свойствах), важно, чтобы ваши результаты максимально точно отражали реальные различия. Валидность следует учитывать на самых ранних этапах вашего исследования, когда вы решаете, как вы будете собирать свои данные.
- Выберите подходящие методы измерения
Убедитесь, что ваш метод и методика измерения имеют высокое качество и предназначены для измерения именно того, что вы хотите знать. Они должны быть тщательно исследованы и основаны на имеющихся знаниях.
Например, для сбора данных о черте характера можно использовать стандартизированный вопросник, который считается надежным и действительным. Если вы разрабатываете собственную анкету, она должна основываться на устоявшейся теории или результатах предыдущих исследований, а вопросы должны быть тщательно и точно сформулированы.
- Используйте соответствующие методы выборки для выбора объектов исследования
Чтобы получить достоверные и обобщаемые результаты, четко определите изучаемую группу населения (например, люди определенного возраста, географического положения или профессии). Убедитесь, что у вас достаточно участников и что они представляют население. Невыполнение этого требования может привести к систематической ошибке выборки и систематической ошибке отбора.
Обеспечение надежности
Надежность следует учитывать на протяжении всего процесса сбора данных. Когда вы используете инструмент или метод для сбора данных, важно, чтобы результаты были точными, стабильными и воспроизводимыми.
- Последовательно применяйте свои методы
Тщательно спланируйте свой метод, чтобы убедиться, что вы выполняете одни и те же шаги одинаковым образом для каждого измерения. Это особенно важно, если в работе участвуют несколько исследователей.
Например, если вы проводите интервью или наблюдения, четко определите, как будут учитываться конкретные действия или ответы, и убедитесь, что вопросы формулируются одинаково каждый раз. Невыполнение этого требования может привести к таким ошибкам, как смещение переменной или информации.
- Стандартизируйте условия вашего исследования
При сборе данных старайтесь, чтобы обстоятельства были как можно более последовательными, чтобы уменьшить влияние внешних факторов, которые могут привести к изменению результатов.
Например, в экспериментальной установке убедитесь, что всем участникам предоставлена одинаковая информация и они протестированы в одинаковых условиях, желательно в должным образом рандомизированных условиях. Невыполнение этого требования может привести к эффекту плацебо, эффекту Хоторна или другим характеристикам спроса. Если участники могут угадать цели или задачи исследования, они могут попытаться действовать более социально желательными способами.
Где написать о достоверности и валидности в диссертации
Уместно обсуждать надежность и валидность в различных разделах вашей диссертации, диссертации или исследовательской работы. Демонстрация того, что вы приняли их во внимание при планировании своего исследования и интерпретации результатов, делает вашу работу более достоверной и заслуживающей доверия.
Раздел | Обсудить |
---|---|
Обзор литературы | Что сделали другие исследователи для разработки и улучшения надежных и валидных методов? |
Методология | Как вы планировали свое исследование, чтобы обеспечить надежность и достоверность используемых показателей? Это включает в себя выбранный набор и размер образца, подготовку образца, внешние условия и методы измерения. |
Результаты | Если вы рассчитываете надежность и достоверность, укажите эти значения вместе с вашими основными результатами. |
Обсуждение | Сейчас самое время поговорить о том, насколько надежными и достоверными были ваши результаты. Были ли они последовательными и отражали ли они истинные ценности? Если нет, то почему? |
Заключение | Если надежность и валидность были большой проблемой для ваших выводов, было бы полезно упомянуть об этом здесь. |
Процитировать эту статью Scribbr
Если вы хотите процитировать этот источник, вы можете скопировать и вставить цитату или нажать кнопку «Цитировать эту статью Scribbr», чтобы автоматически добавить цитату в наш бесплатный генератор цитирования.
Миддлтон, Ф. (2023, 30 января). Надежность и валидность в исследованиях | Отличие, типы и примеры. Скриббр. Проверено 5 июня 2023 г., с https://www.scribbr.com/methodology/reliability-vs-validity/
Процитировать эту статью
Полезна ли эта статья?
Вы уже проголосовали. Спасибо 🙂 Ваш голос сохранен 🙂 Обработка вашего голоса…Фиона редактирует Scribbr с августа 2016 года. Она имеет степень бакалавра геологии и в настоящее время работает над получением степени магистра морских наук. Ей нравится работать со студентами по всему миру, чтобы улучшить их письмо.
Надежность и валидность измерения – Методы исследования в психологии – 2-е канадское издание
Глава 5: Психологическое измерение
- Определение надежности, включая различные типы и способы их оценки.
- Определите достоверность, включая различные типы и способы их оценки.
- Опишите виды доказательств, которые могут иметь отношение к оценке надежности и достоверности конкретной меры.
Опять же, измерение включает в себя присвоение баллов индивидуумам, чтобы они представляли некоторую характеристику индивидуумов. Но откуда исследователи узнают, что баллы на самом деле отражают характеристику, особенно когда речь идет о таком конструкте, как интеллект, самооценка, депрессия или объем оперативной памяти? Ответ заключается в том, что они проводят исследование с использованием меры, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это чрезвычайно важный момент. Психологи не просто предполагает, что соответствует их мерам. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают. Если их исследование не показывает, что мера работает, они перестают ее использовать.
В качестве неформального примера представьте, что вы сидите на диете уже месяц. Ваша одежда кажется более свободной, и несколько друзей спрашивали, похудели ли вы. Если бы в этот момент ваши весы в ванной показывали, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжали бы пользоваться весами. Но если бы он указывал на то, что вы набрали 10 фунтов, вы бы правильно заключили, что он сломан, и либо починили бы его, либо избавились от него. При оценке метода измерения психологи учитывают два основных аспекта: надежность и валидность.
относится к согласованности меры. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (межэкспертная надежность).
Надежность повторных испытанийКогда исследователи измеряют конструкт, который, по их мнению, неизменен во времени, полученные ими баллы также должны быть постоянными во времени. насколько это действительно так. Например, обычно считается, что интеллект неизменен во времени. Человек, который очень умен сегодня, будет очень умным на следующей неделе. Это означает, что любая хорошая мера интеллекта должна дать этому человеку примерно такие же оценки на следующей неделе, как и сегодня. Ясно, что мера, которая дает крайне противоречивые оценки во времени, не может быть очень хорошей мерой конструкции, которая должна быть последовательной.
Оценка надежности повторного тестирования требует одновременного использования показателя для группы людей, повторного использования его для той же группы людей в более позднее время, а затем просмотра двух наборов оценок. Обычно это делается путем графического отображения данных на диаграмме рассеяния и вычисления r Пирсона. На рис. 5.2 показана корреляция между двумя наборами оценок нескольких студентов университета по шкале самооценки Розенберга, проведенных два раза с интервалом в неделю. Коэффициент Пирсона для этих данных равен +,9.5. В целом считается, что корреляция между тестом и повторным тестом +,80 или выше указывает на хорошую надежность.
Рис. 5.2. Корреляция тестов и повторных тестов между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученных два раза в неделю с интервалом 90 002 Опять же, высокие корреляции между тестами и повторными тестами имеют смысл, когда предполагается, что измеряемый конструкт непротиворечив на протяжении время, что имеет место для интеллекта, самооценки и личностных параметров Большой пятерки. Но другие конструкции не считаются стабильными во времени. Например, сама природа настроения такова, что оно меняется. Таким образом, мера настроения, которая показала низкую корреляцию между тестами и повторными тестами в течение месяца, не должна вызывать беспокойства. Внутренняя согласованностьВторой вид надежности – это постоянство ответов людей по пунктам измерения, состоящего из нескольких пунктов. В целом предполагается, что все пункты таких показателей отражают одну и ту же базовую конструкцию, поэтому баллы людей по этим пунктам должны коррелировать друг с другом. По шкале самооценки Розенберга люди, согласные с тем, что они достойные люди, должны склоняться к согласию с тем, что они обладают рядом хороших качеств. Если ответы людей на разные элементы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же лежащую в основе конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самоотчетов. Например, люди могут сделать серию ставок в смоделированной игре в рулетку, чтобы измерить уровень своего стремления к риску. Этот показатель будет внутренне непротиворечивым в той мере, в какой ставки отдельных участников были неизменно высокими или низкими в ходе испытаний.
Как и надежность повторных испытаний, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов – просмотреть файл . Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четными и нечетными номерами. Затем для каждого набора элементов вычисляется оценка, и проверяется взаимосвязь между двумя наборами оценок. Например, на Рисунке 5.3 показана корреляция с разделением пополам между баллами нескольких студентов университетов по четным пунктам и их баллами по нечетным пунктам Шкалы самооценки Розенберга. Пирсон r для этих данных +,88. Половинчатая корреляция +,80 или выше обычно считается хорошей внутренней согласованностью.
Рис. 5.3. Корреляция с разделением пополам между оценками нескольких студентов колледжа по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга статистика называется (греческая буква альфа). Концептуально α является средним значением всех возможных корреляций разделения пополам для набора элементов. Например, существует 252 способа разделить набор из 10 предметов на два набора по пять. α Кронбаха будет средним из 252 разделенных пополам корреляций. Обратите внимание, что это не то, как на самом деле вычисляется α, но это правильный способ интерпретации значения этой статистики. Опять же, значение +,80 или выше обычно считается показателем хорошей внутренней согласованности. Межоценочная надежностьМногие поведенческие показатели требуют значительных суждений со стороны наблюдателя или оценщика. степень, в которой разные наблюдатели последовательны в своих суждениях. Например, если вы заинтересованы в измерении социальных навыков студентов университета, вы можете сделать видеозаписи их общения с другим студентом, которого они встречают впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той мере, в какой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом. Межэкспертная надежность также могла быть измерена в исследовании Бандуры с куклой Бобо. В этом случае оценки наблюдателями того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь высокую положительную корреляцию. Надежность между экспертами часто оценивается с использованием коэффициента Кронбаха, когда суждения количественные, или аналогичного статистического показателя, называемого коэновским κ (греческая буква каппа), когда они категоричны.
– это степень, в которой оценки меры представляют переменную, для которой они предназначены. Но как исследователи делают это суждение? Мы уже рассмотрели один фактор, который они учитывают, — надежность. Когда мера имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки представляют то, что они должны представлять. Однако это должно быть нечто большее, потому что мера может быть чрезвычайно надежной, но не иметь никакой достоверности. В качестве абсурдного примера представьте себе человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей. Хотя эта мера будет иметь чрезвычайно хорошую надежность при повторном тестировании, она будет абсолютно недействительной. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них выше самооценка.
Обсуждения валидности обычно делят ее на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды доказательств — в дополнение к надежности — которые следует принимать во внимание при оценке валидности меры. Здесь мы рассматриваем три основных вида: валидность лица, валидность содержания и валидность критерия.
Проверка лица— это степень, в которой метод измерения выглядит «на первый взгляд» для измерения интересующей конструкции. Большинство людей ожидает, что анкета самооценки будет включать вопросы о том, считают ли они себя достойным человеком и считают ли они себя хорошими качествами. Таким образом, анкета, включающая такие пункты, будет иметь хорошую внешнюю валидность. С другой стороны, метод измерения самооценки по длине пальца, по-видимому, не имеет ничего общего с самооценкой и, следовательно, имеет низкую кажущуюся валидность. Хотя кажущаяся валидность может быть оценена количественно — например, если большая выборка людей оценивает меру с точки зрения того, измеряет ли она то, для чего предназначена, — ее обычно оценивают неформально.
Лицевая валидность — это в лучшем случае очень слабое доказательство того, что метод измерения измеряет то, что он должен измерять. Одна из причин заключается в том, что он основан на интуитивных представлениях людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепризнанные меры в психологии работают достаточно хорошо, несмотря на то, что им не хватает внешней достоверности. Миннесотский многофазный личностный опросник-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, причем многие из утверждений не имеют какой-либо очевидной связи с конструктом, который они измеряют. . Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает и не вызывает у меня тошноты» измеряют подавление агрессии. В данном случае интерес представляют не буквальные ответы участников на эти вопросы, а то, соответствует ли шаблон ответов участников на ряд вопросов ответам людей, склонных подавлять свою агрессию.
Проверка содержимого— это степень, в которой мера «покрывает» интересующую конструкцию. Например, если исследователь концептуально определяет тестовую тревожность как активацию симпатической нервной системы (ведущую к нервным переживаниям) и негативные мысли, то его мера тестовой тревожности должна включать пункты, касающиеся как нервных переживаний, так и негативных мыслей. Или учтите, что отношения обычно определяются как включающие мысли, чувства и действия по отношению к чему-либо. Согласно этому концептуальному определению, человек позитивно относится к физическим упражнениям в той мере, в какой он или она позитивно мыслит об упражнениях, чувствует себя хорошо во время упражнений и действительно занимается ими. Таким образом, чтобы иметь хорошую содержательную валидность, мера отношения людей к физическим упражнениям должна отражать все три аспекта. Как и внешняя валидность, содержательная валидность обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Критерий достоверности– это степень, в которой оценки людей по какому-либо показателю коррелируют с другими переменными (известными как ), с которыми можно было бы ожидать их корреляции. Например, результаты людей по новому показателю тестовой тревожности должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что баллы людей на самом деле отрицательно коррелируют с их успеваемостью на экзамене, то это было бы доказательством того, что эти баллы действительно отражают тревожность людей перед экзаменами. Но если бы было обнаружено, что люди одинаково хорошо сдали экзамен, независимо от их оценок тревожности во время теста, это поставило бы под сомнение достоверность измерения.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их будет много. Например, можно было бы ожидать, что показатели тревожности при тестировании будут отрицательно коррелировать с успеваемостью на экзамене и оценками за курс и положительно коррелировать с общей тревожностью и кровяным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру физического риска. Баллы людей по этому показателю должны коррелировать с их участием в «экстремальных» видах деятельности, таких как катание на сноуборде и скалолазание, количеством полученных ими штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы. Когда критерий измеряется одновременно с конструктом, валидность критерия оценивается как 9.0394 ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкт был измерен), он упоминается как (поскольку баллы по показателю «предсказали» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые показатели тестовой тревожности или принятия физического риска будут положительно коррелировать с существующими показателями тех же конструктов. Это известно как .
Для оценки конвергентной валидности требуется сбор данных с использованием меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самооценки потребности в познании, чтобы измерить, насколько люди ценят мышление и участвуют в нем (Cacioppo & Petty, 19).82) [1] . В серии исследований они показали, что баллы людей положительно коррелируют с их баллами по стандартизированному тесту академических достижений и что их баллы отрицательно коррелируют с их баллами по показателю догматизма (что представляет собой тенденцию к послушанию). За годы, прошедшие с момента ее создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и Маккаслин, 2009 г.) [2] .
Дискриминантная достоверность, с другой стороны, – это степень, в которой баллы по показателю 90 334, а не 90 335 коррелируют с показателями переменных, которые концептуально различны. Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, то есть то, насколько хорошо или плохо человек себя чувствует в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новая мера самооценки была сильно коррелирована с мерой настроения, можно было бы утверждать, что новая мера на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
Создавая Шкалу потребности в познании, Качиоппо и Петти также представили доказательства дискриминантной валидности, показав, что баллы людей не коррелируют с некоторыми другими переменными. Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части или целостно с точки зрения «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их тенденцией реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличный конструкт.
- Исследователи-психологи не просто предполагают, что их измерения работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что они работают, они перестают их использовать.
- Существует два различных критерия, по которым исследователи оценивают свои измерения: надежность и достоверность. Надежность — это согласованность во времени (надежность при повторном тестировании), между элементами (внутренняя согласованность) и между исследователями (надежность между разными группами). Валидность — это степень, в которой оценки действительно представляют переменную, для которой они предназначены.
- Обоснованность — это суждение, основанное на различных видах доказательств. Соответствующее свидетельство включает в себя надежность показателя, охватывает ли он интересующий конструкт и коррелируют ли полученные с его помощью оценки с другими переменными, с которыми они, как ожидается, будут коррелировать, и не коррелируют с переменными, которые концептуально различны.
- Надежность и валидность меры определяется не каким-либо одним исследованием, а последовательностью результатов нескольких исследований. Оценка надежности и валидности является непрерывным процессом.
- Практика: попросите нескольких друзей заполнить шкалу самооценки Розенберга.