10. Эмпирическая валидность. Процедура валидизации.
Эмпирическая валидность — совокупность характеристик валидности теста, полученных с помощью сравнительного статистического анализа. Показатель эмпирической валидности выражается количественной мерой статистической связи между результатами тестирования и внешними по отношению к ним критериям оценки диагностируемого свойства. В качестве таких критериев могут выступать экспертные оценки, экспериментальные и «жизненные» критерии. Эмпирическая валидность чаще всего выражается коэффициентом корреляции результатов тестирования у с критериальным показателем z.
При оценке эмпирической валидности тестов необходимо устанавливать ее по крайней мере в 2 группах, так как корреляция теста и критерия может быть обусловлена специфическими для данной выборки факторами и не иметь общего значения. Особенно важно, чтобы валидность теста определялась на выборке испытуемых, отличной от той, с помощью которой производился отбор заданий.
Четыре возможных метода проведения процедуры валидизации: коллективная оценка, средневзвешенная оценка, ранжирование, парное сравнение.
При методе средневзвешенной оценки каждый испытуемый оценивается несколькими экспертами, так что оценки, данные испытуемому одним экспертом, неизвестны другим. Затем полученные оценки усредняются.
Метод ранжирования заключается в том, что несколько экспертов независимо друг от друга или совместно распределяют всех членов выборки на группы по степени выраженности оцениваемого признака. Полученные ранговые места при независимом оценивании могут быть также усреднены.
Метод парного сравнения. Задача экспертов состоит в попарной расстановке субъектов по позициям альтернативных признаков («общительный-замкнутый» или выраженность большая-меньшая предложенного для оценки качества). Субъективно задача экспертов облегчается благодаря отсутствию количественной оценки качеств субъекта. Показателем места, занимаемого испытуемым в ряду других, служит общее число предпочтений этого суббъекта по сравнению с остальными по данным всех экспертов. Этот показатель может быть приведен к числу экспертов и числу сравниваемых испытуемых и вычислен в процентах
ВАЛИДИЗАЦИЯ – процесс накопления подтверждений для доказательства валидности теста.
ВАЛИДИЗАЦИЯ – это не столько сбор доказательств валидности теста, сколько процесс выполнения действий, повышающих его валидность. Вследствие этого будет расти и доказательная база валидности теста.
В отличие от надежности валидность — мера соответствия тестовых оценок представлениям о сущности свойств или их роли в той или иной деятельности. Выделяют три основных вида валидности — содержательную, эмпирическую (критериальную) и конструктную (концептуальную).
Содержательная валидность характеризует степень репрезентативности содержания заданий теста измеряемой области психических свойств. Традиционно эта характеристика имеет наибольшее значение для тестов, исследующих деятельность, близкую или совпадающей с реальной (чаще всего учебной или профессиональной). Так как данная деятельность нередко складывается из разнородных факторов (проявления способностей личности, комплекс необходимых знаний и навыков, специфические способности), то подбор заданий, охватывающих главные аспекты изучаемого феномена, является одной из важнейших задач формирования адекватной модели тестируемой деятельности. Валидность по содержанию закладывается в тест уже при подборе заданий будущей методики. Заключение о содержательной валидности, как правило, производится экспертами, которые выносят суждение о том, насколько охватывает данный тест декларируемые свойства и явления.
Следует отличать содержательную валидность от очевидной, лицевой, внешней валидности, которая является таковой с точки зрения испытуемого.
Конструктная валидность — это валидность теста по отношению к психологическому концепту — научному понятию (или их совокупности) об измеряемом психическом свойстве (состоянии).
Понятие «валидность тестов»
Краткая характеристика валидности тестов
Валидность результата теста является соответствием измеряемому признаку.
Валидность теста не применяется в статистических процедурах. Их (процедуры) можно использовать для доказательства, что разрабатываемая процедура психологических измерений имеет достаточную валидность. Они оценивают эмпирическую валидность.
Взаимосвязь между эмпирической и содержательной валидностью схожа с взаимосвязью статистической и экспериментальной гипотезами. Так как первые описывают причинно-следственные связи между фактом и явлением в эксперименте, а вторые – вероятную оценку результата, которая является базой для решения реальности. То содержательная валидность устанавливает связь между результатом теста и реальностью, а статистическая – содержит оценку валидизации эксперимента, которая считается инструментом для принятия решения.
Отсюда следует, что содержательная сторона валидизации отличается от понятия надежность, а эмпирическая сторона совпадает. Но сама по себе валидизация тестирования предполагает надежность психодиагностических методов. Высокая степень надежности не гарантия такой же валидизации. Но при этом снижение надежности тестирование ведет к снижению валидизации.
Характерные особенности эмпирической валидности
Она устанавливается внешним критерием, определяющий предметную область. Например, интеллектуальная шкала Д. Векслера WAIS, или тест Векслера включает в себя шесть заданий на вербальный интеллект, 5 – на невербальный, сенсомоторный интеллект. Задания называются субтестами, на базе результатов которых анализируют показатели интеллекта. Для оценивания шкалы вербального интеллекта используют уровень академической успеваемости, для невербальной – успешность канцелярской работы. Валидизация оценивается, с точки зрения соотношения между результатами тестирования и успеха в определенных видах деятельности. Такая валидность называется прагматической.
Определение прагматической валидизации
Считает, что валидность теста дает прогноз:
- личностных свойств человека;
- влияния на поведение индивида.
Она может не предполагать организацию соотношения. Оценивание валидизации тестирования основывается на:
- принципах квазиэксперимент;
- выделение контрастных групп.
Разработка теста по оцениванию мотивации достижения школьников. Для этого есть все необходимые документы по успеваемости учеников. Класс делят на две группы:
- с низким уровнем успеваемости;
- с высоким уровнем успеваемости.
Самый грубый метод разделения – деление по медиане, надежный – исследования каждого ребенка и правильное соотнесение в ту или иную группу.
Например, для валидизации теста применяют только результаты успеваемости учеников, входящие в первый и четвертый квартили. В конечном итоге появляется квазиэкспериментальный план. Тогда значениями ковариаты будут результаты теста.
Данный ход в вылидной прагматике определяют ретроспективным.
Понятие проспективной, конструктивной и истинной валидности теста
Первый метод используют, когда только предполагается получить критерий валидности. Здесь испытуемые выбираются по принципу вероятностного прогноза проявления измеряемого признака в популяции. Это дает больше возможности оценить причинно-следственные связи между измеряемыми свойствами и формами поведения человека.
Конструктивная валидность используется, когда нет сомнений в валидизации тестирования.
Один из способов получения валидности является применение экспертных оценок. Их получает во время наблюдения за тестированием. Полученные результаты вносятся в таблицу, где в столбцах указывают оценки экспертов (k ), а в строках – оценки испытуемых (п). Главный фактор – согласованность полученных оценок, которую определяют при помощи критерия Кронбаха (α) или формулы Спирменаа-Брауна.
Истинная валидность тестирования определяется формулой:
где ryy – соотношение с «истинным критерием», rхх – эмпирическое соотношение с критерием, αс – надежность критерия, найденная по формуле Кронбаха.
Автор: Анна Коврова
Преподаватель факультета психологии кафедры общей психологии. Кандидат психологических наук
Срок действия | Система управления показателями
При разработке показателей термин « валидность » имеет особое применение, известное как тестовая валидность, которая относится к степени, в которой данные, клиническая оценка и теория поддерживают интерпретацию показателя The computed <span class="glossify-exclude">measure score</span> represents an aggregation of all appropriate patient-level data (e.g., proportion of patients who died, average lab value attained) for the measured entity (e.g., hospital, health plan, home health agency, clinician). The measure specifications designate the measured entity and to whom the measure applies.</p> » lang=»» xml:lang=»»> показателя . Проще говоря, валидность теста — это эмпирическая демонстрация способности меры фиксировать или количественно определять то, что она призвана измерять.
Типы достоверности
Разработчики мер могут проверять достоверность оценок различными способами. Хотя некоторые эксперты рассматривают все виды валидности как частные случаи или подмножества </p> » lang=»» xml:lang=»»> Конструкция достоверности , Исследователи обычно ссылаются на типы достоверности отдельно: достоверность конструкции, Дискриминантная достоверность , The degree to which the operationalization can predict (or correlate) with other measures of the same measured construct at some time in the future.</p> » lang=»» xml:lang=»»> Прогнозирующая достоверность , Конвергентная достоверность , Критерий и сталкивается с достоверностью (Messick, 1994).
Лицевая валидность
Внешняя валидность — это степень, в которой мера кажется измеряющей то, что она должна измерять «по номинальной стоимости». Это субъективная оценка экспертов, основанная на опыте того, отражает ли мера предполагаемую оценку, и исследовательское сообщество обычно считает самую слабую форму проверки достоверности, поскольку она не основана на объективном наблюдении. Тем не менее, следуя рекомендациям по лицевой валидности для мера качества с использованием систематического и прозрачного процесса группой определенных экспертов, не участвующих в разработке меры, может обеспечить значимую поддержку для интерпретации оценки меры.
В литературе отмечается, что существует два основных метода систематического и прозрачного процесса (Davies et al., 2011). Оба метода имеют преимущества перед более неструктурированными методами (например, опрос группы технических экспертов). Во-первых, структурированные оценки пытаются бороться с когнитивными искажениями в суждениях, которые особенно важны при выполнении сложных задач. Например, предвзятость привязки может возникнуть, когда участники дискуссии устанавливают свои первоначальные ответы в соответствии с мнением группы. И метод Delphi Group, и метод номинальной группы (NG) требуют независимой начальной оценки, чтобы закрепить мнения, основанные на собственных знаниях человека. Во-вторых, структурированные методы сосредотачивают обсуждение на конкретных темах, имеющих отношение к обоснованности мер, и позволяют всем экспертам иметь доступ к аналогичной информации перед оценкой. В-третьих, эти методы позволяют объективно количественно оценить результаты для прямого сравнения мер, чтобы лучше установить консенсуальную юридическую достоверность.
В методе Дельфи, как правило, группа экспертов независимо оценивает индикаторы, а разработчик показателей составляет рейтинги, обобщает их и распределяет для обзора перед новым раундом рейтингов. Разработчик показателя продолжает процесс до тех пор, пока рейтинги не сойдутся и не стабилизируются. Процесс Delphi позволяет создать большую панель, сводя к минимуму влияние отдельных участников и максимизируя надежность между панелями . Однако, поскольку обмен мнениями и информацией происходит посредством письменной документации, нет возможности для интерактивного обсуждения.
В методике NG также используется первоначальная независимая оценка с последующим распределением обобщенных результатов. В этот момент панель затем собирается, традиционно лично, а в некоторых случаях посредством телефонной конференции, для обсуждения мнений относительно индикаторов. Затем члены группы независимо друг от друга переоценивают показатели. Этот метод основан на методе адекватности RAND. Процесс NG позволяет эффективно обмениваться информацией между членами комиссии, что особенно важно, когда члены группы предлагают уникальные точки зрения (например, разные клинические специальности, виды практики). Однако успешная фасилитация панели с личным присутствием или по телефону ограничивает размер, как правило, до 15 человек. Без эффективного модерирования со стороны фасилитатора один или два человека могут неправомерно повлиять на обсуждение. Существуют ограничения на межпанельную надежность из-за небольшого размера панели.
В Руководстве по тестированию и оценке научной приемлемости свойств измерений организация S. Department of Health and Human Services to contract with a consensus-based entity (CBE) regarding performance measurement. The CMS CBE endorses quality measures through a transparent, consensus-based process incorporating feedback from diverse groups of stakeholders to foster health care quality improvement.</p> » lang=»» xml:lang=»»> CMS на основе консенсуса (CBE) рекомендует использовать формальный процесс консенсуса, такой как подход Delphi или NG, для проверки внешней достоверности. Аналогичным образом, в Критериях оценки мер и Руководстве по оценке мер для одобрения CMS CBE позволяет использовать кажущуюся достоверность вместо эмпирического тестирования для новых мер, если проводится систематическая оценка и нацелена на отражение точности измеряемой целевой помощи. Для проверки обслуживания недостаточной валидности. Обзор технического обслуживания требует эмпирической проверки достоверности. Обоснование необходимо, если эмпирическая проверка достоверности невозможна.
Другие типы валидности
Другие типы валидности — за исключением валидности критерия — разработчики показателей обычно используют эмпирическую проверку валидности оценки показателя на уровне подотчетной организации. Для тестирования валидности уровня пациента/ </p> » lang=»» xml:lang=»»> встреча разработчик меры часто использует валидность критерия.
Виды действительности
Мера действительности | Определение | Рекомендуемое использование | Пример проверки достоверности меры |
---|---|---|---|
Конструктивная валидность | Конструктивная валидность относится к степени, в которой мера количественно определяет то, что, согласно теории, она должна выполнять. Доказательства валидности конструкции часто включают эмпирическую и теоретическую поддержку интерпретации конструкции. Доказательства могут включать в себя статистический анализ, такой как подтверждающий факторный анализ | В общем, чтобы продемонстрировать, что измеряемых объектов , которые работают лучше (или хуже) по конструкции качества, работают лучше (или хуже) по значимому результату. | Корреляция процесс-результат |
Конвергентная валидность | Конвергентная валидность относится к степени, в которой множественные меры/индикаторы одной базовой концепции взаимосвязаны. Примеры включают измерение корреляций между оценкой меры и другими показателями процессов, связанных с целевым результатом, или несколькими целевыми результатами с аналогичными процессами. | Форма валидности конструкции, при которой значимый результат возникает одновременно с качественной конструкцией (например, стационарная смертность ). Разработчик показателя может использовать в качестве прокси показатель процесса There should be a scientific basis for believing that the process, when executed well, will increase the probability of achieving a desired outcome.</p> » lang=»» xml:lang=»»> с заранее установленной валидностью для того же значимого результата. | Корреляция процесс-результат или корреляция процесс-процесс (прокси) |
Критерий достоверности | Валидность критерия относится к проверке элементов данных на соответствие некоторому эталонному критерию, признанному действительным (т. е. золотому стандарту). Примеры включают проверку элементов данных, полученных с помощью автоматизированных стратегий поиска Included in this information are patient demographics, progress notes, problems, medications, vital signs, past medical history, immunizations, laboratory data, diagnoses and treatment, medications, allergies, immunizations as well as radiology images and laboratory results.”</p> » lang=»» xml:lang=»»> электронных медицинских карт (EHR) по сравнению с ручным просмотром тех же медицинских карт (т. е. золотой стандарт). Параллельная валидность и прогностическая валидность являются формами валидности критерия. | Используется для сравнения элемента данных или конструкции уровня пациента/контакта с золотым стандартом | Электронная клиническая мера качества </p> <p>The <a href="https://ecqi.healthit.gov/glossary/ecqm">Source of Truth</a> for this definition moving forward is the eCQI Resource Center.</p> » lang=»» xml:lang=»»> (eCQM) или проверка медицинской документации больницы в сравнении с проверкой медицинской документации экспертом |
Дискриминантная достоверность | Проверка достоверности дискриминантных/контрастных групп исследует вариации между несколькими сравниваемыми группами (например, измеряемыми объектами). Разработчик показателя демонстрирует дискриминантную валидность, показывая, что показатель может различать несоизмеримые группы, которые он теоретически должен уметь различать. | Когда конструкт качества не поддается наблюдению, но есть теоретические доказательства того, что показатели должны (или не должны) быть лучше (или хуже) для групп на основе наблюдаемых характеристик | Корреляция структура-результат или ’’ (<a href="https://www.federalregister.gov/documents/2021/01/25/2021-01753/advancing-racial-equity-and-support-for-underserved-communities-through-the-federal-government">Executive Order 13985, 2021</a>)</p> » lang=»» xml:lang=»»> капитал |
Проверка лица | Внешняя достоверность — это степень, в которой мера кажется измеряющей то, что она должна измерять «по номинальной стоимости». | Новые меры или любые обстоятельства, при которых эмпирическая проверка достоверности оценки меры невозможна. | Модифицированный подход Дельфи, анализирующий отдельные элементы (порядковые данные) с использованием непараметрических тестов , таких как корреляция Спирмена или критерий хи-квадрат для независимости Модифицированный подход Дельфи, анализирующий все элементы (интервальные данные) <span class="glossify-exclude">Parametric methods</span> generally have high statistical power. (<a href="https://sciencing.com/parametric-nonparametric-tests-8574813.html">Tyler, 2017</a>)</p> » lang=»» xml:lang=»»> параметрические тесты, такие как корреляция Пирсона или t-тесты |
Прогностическая достоверность | Прогностическая валидность относится к способности показателей оценки предсказывать оценки других связанных показателей или исходов в будущем, особенно если исходные оценки показателей предсказывают последующий результат на уровне пациента g., safety, timeliness, effectiveness, efficiency, equity, patient centeredness) and improving health outcomes for a specific high-impact aspect of health care where there is variation in or overall poor performance.</p> » lang=»» xml:lang=»»> неоспоримой важности (например, смерть, постоянная нетрудоспособность). Прогностическая валидность также относится к оценкам по одному и тому же показателю для других групп в тот же момент времени. | Форма валидности конструкции, при которой значимый результат возникает позже по времени от качественной конструкции (например, 30-дневная смертность). Разработчик показателя может использовать в качестве заменителя показатель процесса с заранее установленной валидностью для того же значимого результата. | Корреляция процесс-результат или корреляция процесс-процесс (прокси) |
Элементы данных измерения по сравнению с показателем качества
Элементы данных на уровне пациента/встречи являются строительными блоками для измерения качества, и разработчики показателей должны оценивать их на предмет надежности и достоверности. Хотя элементы данных на уровне пациента/контакта важны, разработчики показателей должны использовать вычисленные оценки показателей, чтобы делать выводы о целевом аспекте помощи. Согласно Критерии оценки мер и руководство по оценке мер для одобрения , CMS CBE примет проверку достоверности на уровне пациента/встречи и/или на уровне подотчетного объекта. Тем не менее, инструментальные меры требуют и того, и другого, а составные меры и нуждаются в эмпирическом тестировании на достоверность показателей эффективности к моменту поддержания одобрения. eCQM должны демонстрировать достоверность на уровне пациента/контакта.
При проверке достоверности элементов данных обычно анализируется согласие с другим авторитетным источником той же информации. Некоторые примеры проверки валидности с использованием элементов данных меры сравнительного анализа включают сравнение
- Данные заявлений, которые имеют коды, используемые для представления первичных клинических данных (например, Международная классификация болезней, 10-я редакция – Система кодирования клинических модификаций/процедур, Текущая процедурная терминология) для ручного извлечения из образца The subset should be chosen in such a way that it accurately represents the whole population with respect to some characteristic of interest. A sampling frame lists all eligible cases in the population of interest (i.e., denominator) and how they are selected.</p> » lang=»» xml:lang=»»> медицинских карт пациентов
- Информация о стандартизированном инструменте оценки пациентов (например, минимальный набор данных о долгосрочном уходе, набор информации об исходах и оценках, данные регистра), не извлеченная, закодированная или транскрибированная с оценкой «эксперта» (проведенной примерно в то же время) для выборки пациентов
- Информация ЭУЗ, извлеченная с использованием автоматизированных процессов, основанных на технических характеристиках </p> » lang=»» xml:lang=»»> мер , для ручного абстрагирования всего ЭУЗ
Размер выборки
Перед сбором данных разработчики мер должны выполнить расчет мощности, чтобы убедиться, что размер выборки достаточен для обнаружения важных различий между оценкой меры и данными сравнения. Как минимум, разработчик меры должен сообщать показатели неопределенности.
Последнее обновление: Июнь 2023
4 типа достоверности исследований
Опубликован в 6 сентября 2019 г. к Фиона Миддлтон. Отредактировано 22 июня 2023 г.
Валидность говорит вам, насколько точно метод что-то измеряет. Если метод измеряет то, что заявлено для измерения, и результаты точно соответствуют реальным значениям, то его можно считать действительным. Существует четыре основных типа валидности:
- Конструктивная валидность : Измеряет ли тест концепцию, для измерения которой он предназначен?
- Валидность содержания : Является ли тест полностью репрезентативным для измерения?
- Лицевая достоверность : Соответствует ли содержание теста его целям?
- Критерий достоверности : Точно ли результаты измеряют конкретный результат, для измерения которого они предназначены?
В количественных исследованиях вы должны учитывать надежность и достоверность ваших методов и измерений.
Обратите внимание, что в этой статье рассматриваются типы проверки достоверности, которые определяют точность фактических компонентов показателя. Если вы проводите экспериментальное исследование, вам также необходимо учитывать внутреннюю и внешнюю валидность, которые касаются плана эксперимента и возможности обобщения результатов.
Содержание
- Конструктивная валидность
- Контентная валидность
- Лицевая валидность
- Критериальная валидность
- Другие интересные статьи
- Часто задаваемые вопросы о типах действия
Действительность конструкции
Конструктивная валидность оценивает, действительно ли инструмент измерения представляет то, что мы хотим измерить. Это важно для установления общей валидности метода.
Что такое конструкция?
Конструкт относится к понятию или характеристике, которую нельзя наблюдать напрямую, но которую можно измерить, наблюдая за другими связанными с ней индикаторами.
Конструкты могут быть характеристиками людей, такими как интеллект, ожирение, удовлетворенность работой или депрессия; они также могут быть более широкими понятиями, применяемыми к организациям или социальным группам, таким как гендерное равенство, корпоративная социальная ответственность или свобода слова.
Пример
Не существует объективной наблюдаемой сущности под названием «депрессия», которую мы могли бы измерить напрямую. Но, основываясь на существующих психологических исследованиях и теориях, мы можем измерить депрессию на основе набора симптомов и индикаторов, таких как низкая уверенность в себе и низкий уровень энергии.
Что такое действительность конструкции?
Валидность конструкции заключается в том, чтобы убедиться, что метод измерения соответствует конструкции, которую вы хотите измерить. Если вы разрабатываете анкету для диагностики депрессии, вам нужно знать: действительно ли анкета измеряет конструкт депрессии? Или на самом деле он измеряет настроение респондента, его самооценку или какую-то другую конструкцию?
Чтобы достичь конструктивной достоверности, вы должны убедиться, что ваши индикаторы и измерения тщательно разработаны на основе соответствующих существующих знаний. Анкета должна включать только соответствующие вопросы, которые измеряют известные показатели депрессии.
Все другие типы валидности, описанные ниже, можно рассматривать как формы доказательства конструктной валидности.
Действительность содержимого
Валидность содержания оценивает, является ли тест репрезентативным для всех аспектов конструкции.
Для получения достоверных результатов содержание теста, обследования или метода измерения должно охватывать все соответствующие части предмета, для измерения которого он предназначен. Если некоторые аспекты отсутствуют в измерении (или если включены нерелевантные аспекты), достоверность ставится под угрозу, и исследование, вероятно, страдает от систематической ошибки, связанной с пропущенной переменной.
Пример
Учитель математики разрабатывает тест по алгебре в конце семестра для своего класса. Тест должен охватывать все формы алгебры, которые преподавались в классе. Если некоторые виды алгебры будут опущены, то результаты могут не быть точным показателем понимания учащимися предмета. Точно так же, если она включает вопросы, не связанные с алгеброй, результаты перестают быть действительным показателем знаний по алгебре.
Что может сделать корректура для вашей статьи?
Редакторы Scribbr не только исправляют грамматические и орфографические ошибки, но и улучшают качество письма, следя за тем, чтобы в статье не было неясных формулировок, избыточных слов и неудобных формулировок.
См. пример редактирования
Проверка лица
Внешняя валидность показывает, насколько подходящим выглядит содержание теста на первый взгляд. Это похоже на содержательную валидность, но внешняя валидность — более неформальная и субъективная оценка.
Пример
Вы создаете опрос для измерения регулярности пищевых привычек людей. Вы просматриваете элементы опроса, в которых задаются вопросы о каждом приеме пищи в течение дня и перекусах между ними в течение каждого дня недели. На первый взгляд опрос кажется хорошим представлением того, что вы хотите протестировать, поэтому вы считаете, что он имеет высокую юридическую достоверность.
Поскольку внешняя достоверность является субъективной мерой, ее часто считают самой слабой формой достоверности. Однако он может быть полезен на начальных этапах разработки метода.
Справедливость критерия
Валидность критерия оценивает, насколько хорошо тест может предсказать конкретный результат или насколько хорошо результаты вашего теста приближаются к результатам другого теста.
Что такое переменная критерия?
Критериальная переменная — это устоявшаяся и эффективная мера, которая широко считается достоверной, иногда называемая «золотым стандартом». Критериальные переменные может быть очень трудно найти.
Что такое достоверность критерия?
Чтобы оценить достоверность критерия, вы вычисляете корреляцию между результатами вашего измерения и результатами измерения критерия. Если есть высокая корреляция, это дает хороший признак того, что ваш тест измеряет то, что он намеревается измерить.
Пример
Профессор университета создает новый тест для оценки навыков письма абитуриентов на английском языке. Чтобы оценить, насколько хорошо тест действительно измеряет навыки письма учащихся, она находит существующий тест, который считается достоверным измерением навыков письма на английском языке, и сравнивает результаты, когда одна и та же группа учащихся проходит оба теста. Если результаты очень похожи, новый тест имеет высокую достоверность критерия.
Другие интересные статьи
Если вы хотите узнать больше о статистике, методологии или предвзятости исследований, обязательно ознакомьтесь с другими нашими статьями с пояснениями и примерами.
Часто задаваемые вопросы о типах достоверности
- В чем сходство содержания и внешней достоверности?
Лицевая валидность и валидность содержания похожи в том, что они оба оценивают, насколько подходит содержание теста. Разница в том, что лицевая достоверность является субъективной и оценивает содержание на поверхностном уровне.
Когда тест имеет сильную внешнюю валидность, любой согласится с тем, что вопросы теста кажутся измеряющими то, для чего они предназначены.
Например, глядя на тест по математике для 4-го класса, состоящий из задач, в которых учащиеся должны складывать и умножать, большинство людей согласятся, что у него сильные соответствует действительности (т. е. это похоже на тест по математике).
С другой стороны, достоверность содержания оценивает, насколько хорошо тест представляет все аспекты темы. Оценка валидности содержания более систематична и опирается на экспертную оценку. каждого вопроса, анализируя, охватывает ли каждый из них те аспекты, для которых был разработан тест.
Тест по математике для 4-го класса имел бы высокую достоверность содержания , если бы он охватывал все навыки, преподаваемые в этом классе. Эксперты (в данном случае учителя математики) должны будут оценить достоверность содержания, сравнив тест с целями обучения.
- Какие существуют два типа критерия валидности?
Валидность критерия оценивает, насколько хорошо тест измеряет результат, для измерения которого он был разработан. Исходом может быть, например, начало заболевания.
Валидность критерия состоит из двух подтипов в зависимости от времени получения двух показателей (критерия и вашего теста):
- Параллельная валидность — это стратегия проверки, при которой баллы теста и критерия получаются в одно и то же время .
- Прогностическая достоверность — это стратегия проверки, в которой переменные критерия измеряются после результатов теста.
- Почему конвергентную и дискриминантную валидность часто оценивают вместе?
Конвергентная валидность и дискриминантная валидность являются подтипами конструктной валидности. Вместе они помогают оценить, измеряет ли тест концепцию, для измерения которой он был разработан.
- Конвергентная валидность показывает, коррелирует ли тест, предназначенный для измерения конкретной конструкции, с другими тестами, оценивающими ту же или аналогичную конструкцию.
- Дискриминантная валидность указывает, будут ли два теста, которые должны не быть тесно связаны друг с другом действительно не связаны. Этот тип валидности также называется расходящейся валидностью .
Вам необходимо оценить оба, чтобы продемонстрировать достоверность конструкции. Ни одного из них в отдельности недостаточно для установления валидности конструкции.
- Почему экологическая валидность не ставится в приоритет в исследованиях, проводимых в режиме проверки теории?
Целью режима проверки теории является поиск доказательств для опровержения, уточнения или поддержки теории. Таким образом, возможность обобщения не является целью режима проверки теории.
В связи с этим приоритетом исследователей в режиме проверки теории является устранение альтернативных причин взаимосвязей между переменными. Другими словами, они отдают приоритет внутренней валидности внешней валидности, включая экологическую валидность.
- Кто должен оценивать лицевую валидность?
Часто лучше попросить нескольких людей проверить ваши измерения. Вы можете попросить экспертов, таких как другие исследователи, или неспециалистов, таких как потенциальные участники, оценить внешнюю достоверность тестов.
Несмотря на то, что эксперты хорошо разбираются в методах исследования, люди, которых вы изучаете, могут дать вам ценную информацию, которую вы могли бы упустить.
Процитировать эту статью Scribbr
Если вы хотите процитировать этот источник, вы можете скопировать и вставить цитату или нажать кнопку «Цитировать эту статью Scribbr», чтобы автоматически добавить цитату в наш бесплатный генератор цитирования.
Миддлтон, Ф.