Внутренняя валидность эксперимента. Внешняя валидность и метаанализ. Смотреть что такое "Внутренняя валидность" в других словарях

Типичные нарушения внутренней валидности вывода

Изменения исторического фона, матурация, несоответствие составов контрольной и экспериментальной групп, отсев респондентов, нестабильность инструментального комплекса, эффект тестирования, реактивный эффект. «Натурные» эксперименты.

На результаты эксперимента оказывают влияние любые события, происходящие во время проведения исследования, особенно если оно занимает продолжительное время. Сама зависимая переменная меняется под влиянием посторонних обстоятельств, и какое из них обусловило изменения, - остается неясным. Причины изменений обозначаются как изменения исторического фона. Под «историей» имеется в виду история эксперимента.

Предположим, проверяется гипотеза о воздействии пропаганды на поведение избирателей. В соответствии со схемой эксперимента осуществляется замер электоральных предпочтений до пропагандистской атаки и после нее. Затем сопоставляются значения этой переменной в двух группах: экспериментальной, подвергавшейся пропагандистскому воздействию, и контрольной, где на избирателей не оказывалось влияния. Предположим, далее, что установлены существенные различия между экспериментальной и контрольной

3 Кэмпбелл Дж, Модели эксперимента в социальной психологии и прикладных исследованиях: Пер. с англ. / Сост. и общ. ред. М.И. Бобневой; Вступ. ст. Г.М. Андреевой. М.: Прогресс, 1980. С.72 - 73.


труппами. Однако можем ли мы быть уверены, что различия обусловлены именно пропагандой. За короткий промежуток времени на мнения избирателей могли повлиять различные события: повышение цен, сенсационные разоблачения политических лидеров, рост инфляции. Все эти факторы могут служить основой альтернативных гипотез. Чем больше временной промежуток между претестом и посттестом, тем больше вероятность «исторических» искажений результатов эксперимента.

Модификацией «исторических» изменений являются естественные изменения в самом объекте экспериментирования - «матурация». С течением времени меняется не только внешняя среда, но и внутренние качества испытуемых. Предположим, что экспериментальной проверке подвергается метод преподавания и предварительные измерения отделены от итоговых измерений временем, занимающим почти весь учебный год. Разумеется, за этот период произойдут существенные сдвиги в уровне усвоения материала студентами - здесь нельзя сбрасывать со счетов то обстоятельство, что испытуемые стали взрослее и, вероятно, умнее. Результат может быть вызван и новым методом преподавания, и взрослением экспериментального контингента. Даже если эксперимент длится два-три часа, на его результаты может повлиять усталость и раздражение испытуемых.

Несоответствие составов групп. На внутреннюю валидность вывода оказывают искажающее влияние изменения в составе экспериментальной и контрольной групп. Особенно часто это случается тогда, когда для эксперимента выбираются примерно равные по возрасту классы, студенческие группы. Однако проконтролировать все различия довольно трудно. Например, более высокий уровень сплоченности в одной группе может привести к существенным искажениям результатов. Надежное средство выравнивания составов контрольной и экспериментальной групп - рандомизация.

Отсев испытуемых. Если эксперимент длится долго, вероятность избежать отсева испытуемых по разным причинам довольно высока. Поэтому при осуществлении итоговых измерений невозможно с уверенностью сказать, насколько повлияло выбытие испытуемых на результат. Чаще всего из экспериментов выбывают испытуемые из контрольных групп.

Нестабильность инструментального комплекса. Изменения могут затрагивать не только внешние обстоятельства (фон) и испытуемых, но и измерительный инструментарий исследования. Проблема заключается в том, что в отличие от естественных наук в социологии и психологии измерительные инструменты (в том числе интервьюер) меняются. А смена измерительного комплекса влечет за собой смещение данных. Здесь нельзя менять ни wording, ни калибровку, ни


стиль интервьюирования. При экспериментах, связанных с контролем успеваемости студентов, такого рода погрешности практически неизбежны. Необходимо не только сохранить критерии оценки знаний - часто интуитивные, но даже тот психологический настрой, который был присущ экзаменатору в момент первой проверки. Смена экзаменатора в данном случае эквивалентна смене инструмента и препятствует всяким сопоставлениям.

Экспериментальный инструментарий предполагает однократное применение к одному испытуемому. В противном случае возникнет эффект тестирования. Если экспериментатор обратится с тем же тествопросником вторично, результаты замера будут иными, поскольку испытуемый уже знаком с инструментом и будет осознанно или неосознанно корректировать свои реакции, например, стараться вспомнить, что говорил прошлый раз, и воспроизводить свои ответы. Собственно говоря, знакомый испытуемому тест-вопросник - уже другой инструмент, чем тот, который применялся на стадии претеста, и сравнение данных содержит существенную погрешность.

И, наконец, самые существенные искажения связаны с влиянием на результат эксперимента наряду с независимой переменной самой экспериментальной ситуации - часто такое влияние называют реактивным эффектом.

Лучше всего проиллюстрировать возникновение реактивного эффекта на примере проверки нового метода лечения. Зная о том, что на них испытывается новый метод лечения, пациенты обнаруживают заметные улучшения по крайней мере в клинической симптоматике заболевания. Лучше себя чувствуют даже те, кто входит в контрольную группу, т. е, не находится под воздействием экспериментальной переменной.

Влияние инструмента на реакции респондентов может быть самым неожиданным. В литературе хорошо описан «эффект интервьюера», когда ответы в значительной мере обусловлены невольным воздействием личности интервьюера. Реже упоминается, что вопросы, задаваемые в ходе одного интервью, обнаруживают более высокую корреляцию, чем те же вопросы, включенные в разные анкеты. Если вопросы интервью следуют друг за другом, наблюдается «галаэффект»: корреляция между ними выше, чем между такими же, но «отдаленными» вопросами. Корреляция между данными, полученными в один день, выше, чем корреляция между данными, полученными в разные дни.

Следует различать действие экспериментальной переменной и экспериментальной ситуации. В последнем случае мы имеем дело с реактивным эффектом. В медицине от него пытаются избавиться с помощью placebo - контрольным больным дают «видимость» экспе


риментальной переменной, например, таблетки такого же цвета и вкуса, какие дают экспериментальным больным. Таким образом, placebo является одним из способов выравнивания эффекта экспериментальной ситуации. В социологии применить placebo практически невозможно.

Имеются и другие факторы, снижающие внутреннюю валидность: взаимодействие фактора отбора с «матурацией», деморализация испытуемых, связанная с кажущимися неудачами; имитация воздействия и т. п.

Нарушения внутренней валидности, обусловленные изменениями «исторических» обстоятельств эксперимента, компенсируются сравнением контрольной и экспериментальной групп - изменения в данном случае затрагивают и тех, и других испытуемых. Аналогичным образом изменения в измерительном инструментарии затрагивают обе группы. Реактивный эффект также оказывает одинаковое воздействие на всех испытуемых. Особенно серьезную опасность представляют посторонние переменные, связанные с недостаточным выравниванием групп.

Внешняя валидность, как уже говорилось, это возможность распространить установленные зависимости за рамки экспериментального материала. При высокой внутренней валидности, т. е. при уверенности, что изменения в переменной х вызывают определенные изменения в переменной у, внешняя валидность может оказаться совершенно неудовлетворительной.

Предполагается, что в отличие от лабораторного эксперимент «на натуре» ближе к жизни. Часто эксперименты, проводимые на улице, на производстве, в общественных учреждениях, по месту жительства и т. п. называют в отличие от лабораторных «естественными». Здесь этические проблемы, связанные с навязыванием ничего не подозревающим людям экспериментальной «легенды», стоят особенно остро.

В литературе имеются десятки примеров замаскированных полевых экспериментов, позволяющих сравнить ситуации с разными значениями независимой переменной. Изучалась реакция публики на «пешеходов» высокого и низкого социального статуса, переходящих проезжую часть на красный сигнал светофора. Разумеется, пешеходами были экспериментаторы, одетые так, как одеваются люди высокого и низкого социального положения. Рассылались письма с просьбой о приеме на работу, при этом в одной группе указывались сведения уголовного характера, в другой - нет. Зависимой переменной в данном случае являлись реакции работодателей. Женщина рядом с автомобилем, у которого села покрышка... В одних случаях она демонстрирует просьбу о помощи, в других - нет. «Нищие», внешний вид которых отчетливо идентифицируется с представителями опре


деленных этнических групп, сидят на тротуаре... «Джентльмен» спрашивает прохожих, не уронил ли кто только что найденную долларовую бумажку... Помощники экспериментатора собираются на улице в группы разной величины, а затем устанавливается число прохожих, привлеченных группой. Несколько «хулиганов» на улице пристают к дамам... Письма делового, любовного и «нейтрального» содержания, «по ошибке» попавшие в чужие руки... Перечень подобных естественных экспериментов бесконечен. Однако свидетельствуют ли они о связи переменных - неясно. Остается сомнение: являются ли естественные эксперименты более естественными и валидными, чем эксперименты в лабораториях. Очевидный «минус» естественных экспериментов - нарушение моральных норм, связанное с целенаправленным обманом испытуемых, не дававших согласия на участие в «социодраме». Отчасти исследователей извиняет то обстоятельство, что моделируемые ситуации входят в число повседневных и не связаны с ущербом, кроме незначительной потери времени. Но, бывает, мера превышается. Известны, например, опыты С. Мильгрема с кажущимся применением электрошока к испытуемым, создание ситуаций, связанных с угрозой верной гибели, и т. п.

3. Типы квазиэкспериментальных и экспериментальных планов

«Исследование случая», эксперимент ex post facto, временные серии, панельные исследования и тренды, план с эквивалентными выборками, экспериментирование на одном объекте с претестом и посттестом, сравнение нерандомизированных контрольной и экспериментальной групп, экспериментальный план с предварительным и итоговым замерами и контрольной группой, эксперимент Р. Соломона для четырех групп, план с контрольной группой без претеста, перекрестный квазиэкспериментальный план, экспериментальный план с претестом и посттестом, план с временной серией и контрольной группой.

Многие социологические эксперименты строятся по упрощенному плану «исследования случая»: выбирается удобная группа испытуемых, к ним применяется воздействие экспериментального фактора х и замеряется результат О.


В данном случае не производится ни контроля, ни сравнения, и невозможно утверждать ничего определенного о связи экспериментальной переменной с эффектом. Вывод в данном случае основан на имплицитном предположении, какими могли бы быть данные, если бы не было экспериментальной переменной х. Нередко в качестве экспериментов такого рода рассматриваются крупные политические события (разгон парламента, политические выборы, революции и т. п.). Когда Лайфорд Эдварде связывал причину революции с моральной атакой публицистов на привилегии власть предержащих, он имел в виду некие глобальные исторические эксперименты, результатом которых явился политический переворот 4 .

Связь между «причиной» и «следствием» в лучшем случае обсуждается в риторических терминах, но никоим образом не контролируется, поэтому речь в данном случае идет не об эксперименте, а о квазиэксперименте. Ситуация, сложившаяся после «экспериментального» события, может быть объяснена множеством факторов, не связанных с экспериментальной переменной. Поэтому в социологии конкурируют разные в равной степени убедительные версии, но о внутренней валидности вывода судить невозможно. Внешняя валидность рассматриваемого плана также сомнительна. «Часто результаты таких исследований представляют собой унылое нагромождение конкретных деталей, скрупулезных наблюдений, измерений и т. п., причем точности в таких случаях добиваются не там, где надо», - пишет Дж. Кэмпбелл 5 . Никакое сравнение отдельно взятых факторов не может получить обоснованную теоретическую интерпретацию.

Несмотря на очевидную слабость такого рода, квазиэксперименты играют важную роль в социальных и поведенческих науках, особенно в тех областях, где взаимообусловленные признаки не обязательно являются независимой и зависимой переменными в строгом смысле. В социологии чаще изучается связь не между стимулом и реакцией, а между «качествами», одно из которых считается причиной, а другое - следствием. Когда исследуется связь социального статуса и политических установок, первое «качество» с полным основанием считается независимым. Однако в данном случае сложно судить о временной последовательности воздействия. Первое условие эксперимента здесь

4 Edwards L. The natural history of revolution. 2nd ed. Chicago: The University of Chicago Press, 1970.

5 Кэмпбелл Дж. Модели экспериментов в социальной психологии и прикладных исследованиях: Пер. с англ. / Сост. и общ. ред. М.И. Бобневой; Вступ. ст. Г.М. Андреевой. М.: Прогресс, 1980. С. 49.


соблюсти невозможно. Второе условие эксперимента также нарушено, поскольку в социологии переменные чаще всего не специфицированы и образуют синдромы. Например, классовая принадлежность означает и владение собственностью, и образование, и культурные приоритеты, и престиж. Такого рода синдромы, как правило, не поддаются разложению на единичные признаки и, следовательно, экспериментальной манипуляции. И, наконец, в естественных условиях невозможно выровнять экспериментальную и контрольную группы. Поэтому требования сравнения, манипулирования и контроля оказываются невыполнимыми для большей части социологических задач. Отсутствие экспериментального контроля может быть с успехом компенсировано философским теоретическим дискурсом. Например, пресловутый английский индивидуализм объяснялся Э. Канетти разрозненностью индивидов, окруженных морем и воображающих себя капитанами 6 .

При сравнении статистических групп основная трудность состоит в установлении тех, кто подвергся воздействию экспериментальной переменной. Собственно говоря, необходимо четко отделить контрольную группу от экспериментальной после того, как экспериментальная переменная уже «сработала» без участия со стороны экспериментатора. Этой схеме Ф. Чэпин дал наименование ex post facto. Он изучал влияние школьного обучения на жизненный успех и карьеру за период в десять лет 7 . Данные о карьере собирались методом интервью, а ситуация в школе устанавливалась из архивных источников. Чэпин обнаружил, что окончившие школу имели более высокие показатели жизненного успеха, чем те, кто не смог завершить обучение. Было также установлено, что естественная «контрольная» группа отличалась от «экспериментальной»: социальный статус родителей респондентов, окончивших школу, был выше, чем у «контрольных» респондентов. Спрашивается, не является ли успешное окончание школы, продвижение в статусе на протяжении последующих десяти лет следствиями «третьего» фактора, например родительской семьи и окружения? Чэпин выравнивал группы учеников по социальному статусу родителей и другим «стартовым» признакам, которые могли повлиять на жизненный успех и карьеру. Массив разделялся только по признаку окончания / не окончания школы. Выравнивание, осуществленное Чэпином, не считается вполне корректным: для тех,

6 Канетти Э. Народы и символы // Новое время. 1991. № 32. С.41 - 43.

7 Сhapin F.S. Experimental design in sociological research. New York: Harper, 1955. P. 99-124.


кто окончил школу, может быть много иных объяснений жизненного успеха, чем социальный статус родителей.

Квазиэкспериментальные исследования и статистическая обработка данных позволяют достаточно надежно проверять гипотезы о взаимосвязях. Например, для проверки гипотезы о влиянии стабильности родительской семьи на стабильность семьи второго поколения весь массив наблюдений делится на две группы: респондентов, у которых родительская семья распалась, и тех, у которых она не распалась (промежуточными формами в данном случае можно пренебречь). Если в первой группе число разводов оказывается существенно выше, чем во второй, гипотеза не отвергается. Разумеется, утверждать о причинной связи этих признаков оснований мало, хотя такая связь не исключается. Более строгий контроль взаимодействия переменных обеспечивается методами многомерного анализа, которые позволяют выявить связь переменных в «чистом» виде, без посторонних влияний.

Сочетание квазиэкспериментальных планов с достаточно большим числом наблюдений значительно увеличивает как внутреннюю, так и внешнюю валидность вывода. В социологических исследованиях может эффективно применяться квазиэкспериментальный план временных серий. Он основан на введении экспериментального фактора после длительных наблюдений за динамикой переменной и установления тренда.

Изменение временного ряда после экспериментального воздействия свидетельствует о том, что причиной изменения, скорее всего, является х. Например, если производительность труда, достаточно долго сохранявшаяся на стабильном уровне, изменилась после оборудования рабочих мест более сильным освещением, можно полагать, что освещение повлияло на производительность труда. Рискованность такого вывода была продемонстрирована экспериментами в Хоуторне.

Квазиэкспериментальный план наблюдения одной и той же группы респондентов на протяжении длительного времени получил в социологических исследованиях наименование панели. Впервые панель была использована П. Лазарсфельдом, Б. Берельсоном и X. Годе для изучения установок избирателей на президентских выборах. В 1940 г. в небольшом американском городке Эри Коунти (штат Огайо) исследователи сформировали панель из 600 человек и опрашивали их ежемесячно с мая по ноябрь, чтобы установить изменение электоральных предпочтений. Кроме панели, интервьюировались три рандоми


зированных контрольных группы по 600 человек каждая 8 . В отличие от панели, которая опрашивалась ежемесячно, контрольные группы опрашивались по одному или по два раза 9 . Реактивный эффект панели контролировался в соответствии со схемой контрольных опросов (табл. 6.2).

Внутренняя и внешняя валидности эксперимента.

Внутренняя валидность связана с вопросом, действительно ли именно это эксперименталь­ное воздействие привело к изменениям в данном эксперименте?

Внутренняя валидность касается отношений между зависимыми переменными и независимыми переменными. Эта валидность связана с особыми процедурами, которые позволяют определить, насколько выводы, сделанные в данном исследовании, достоверны. После того, как установлено существование зависимости между переменной X и переменной Y, необходимо решить, какая из переменных является причиной, а какая следствием, то есть определить направление данной взаимосвязи. Если Y наблюдается после X, то можно сказать, что X является причиной Y.

Однако может оказаться, что отношение зависимости между X и Y вызвано третьей переменной С. Для установления внутренней валидности необходимо рассмотреть все возможности влияния третьей переменной С на переменные X и Y и исключить их. Считается, что исследование обладает внутренней валидностью, если доказано, что существует зависимость причинно-следственного типа между зависимыми переменными и независимыми переменными.

Внешняя валидность относится к возможно­сти обобщения вывода на популяции, ситуации, другие независимые переменные.

Эти два критерия являются важными, хотя часто они на­ходятся в противоречии друг с другом в том смысле, что увеличение валидности одного типа может угрожать валидности другого типа. Идеалом является выбор таких экспериментальных планов, кото­рые обеспечивают оба типа валидности. Это особенно важно для психолого-педагогических исследований, где весьма желательным является распространение данных на практические ситуации, определенного характера.

Есть восемь различных клас­сов внешних переменных, относящихся к внутренней валидности. Если эти переменные не контролируются в экспериментальном плане, то они могут дать эффекты, которые смешиваются с эффектом экспериментального воздействия. Эти переменные представляют влияние:

1) фона - конкретных событий, которые про­исходят между первым и вторым измерением наря­ду с экспериментальным воздействием;

2) естественного развития - изменений испытуемых, являющихся следствием течения вре­мени (не связанных с конкретными событиями), например взросление, усиление голода, усталости и т. п.;

3) эффекта тестирования - влияния выпол­нения заданий, применяемых для измерения, на резуль­таты повторного испытания;

4) инструментальной погрешности , нестабильности измерительного инструмента, при которой изменения в калибровке инструмента или изме­нения, характеризующие наблюдателя или оценочные показатели, могут вызвать изменения в результатах из­мерения;

5) статистической регрессии , имеющей место тогда, когда группы отбираются на основе крайних показателей и оценок;

6) отбора испытуемых - неэквивалент­ности групп по составу, вызывающей появление систе­матической ошибки в результатах;

7) отсева в ходе эксперимента - неравномерности выбывания испытуемых из сравниваемых групп;

8) взаимодействий фактора отбора с естественным развитием и др., которые в ряде квазиэкспериментальныхпланов с несколькими группами ошибочно принимаются за эффект эксперимен­тальной переменной.

К факторам, ставящим под угрозу внешнюю валидность, или репрезентативность эксперимента, относятся:

· реактивный эффект , или эффект взаимодействия тестирования,- возможное уменьшение или увеличе­ние восприимчивости испытуемых к экспериментальному воздействию под влиянием предва­рительного тестирования. Результаты лиц, прошедших предварительное тестирование, будут нерепрезентатив­ны по отношению к тем, кто не подвергался предвари­тельному тестированию, то есть тем, из кого состоит генеральная совокупность, из которых были отобраны испытуемые;

· эффекты взаимодействия фактора отбора и экс­периментального воздействия ;

Внешняя и внутренняя валидность.

Боровкова Виктория И-01

ВАЛИДНОСТЬ (validity)-достоверность (или степень достоверности) вывода, которую обеспечивают результаты реального эксперимента по сравнению с результатами безупречного эксперимента. “В.”-центральное понятие словаря экспериментатора: оно объединяет основные цели исследования с идеальными эталонами их достижения и реальными процедурами проведения экспериментах

Глобальной целью любого экспериментального исследования является обобщение полученных результатов и вывода об экспериментальной гипотезе. Однако полное достижение этой цели возможно лишь в мысленном, безупречном эксперименте, невыполнимом на практике. Реальный эксперимент в той или иной мере репрезентирует (представляет) безупречный, и чем лучше эта репрезентативность, тем выше В. эксперимента. Таким образом, повышение В., т. е. планирование проведения эксперимента в соответствии с его безупречным образцом, является конкретной задачей исследователя, успешность решения которой зависит, во-первых, от характера, реальных условий и, во-вторых, от адекватности выбора средств. Так, источники нарушения В., (прежде всего, ненадежность и смешение) отдаляют реальный эксперимент от безупречного, а способы их контроля, позволяют приблизиться к нему, т. е. обеспечить высокую В. для обобщения экспериментальных результатов. В. полученных данных можно оценить статистически: например, В. теста (в корреляционном исследовании) определяется степенью корреляции результатов его.выполнения с изучаемым видом деятельности испытуемых.

В соответствии с различными типами безупречного эксперимента различают внутреннюю и внешнюю В.:

- внутренняя В. - достоверность выводов, которую обеспечивают результаты реального эксперимента по сравнению с результатами идеального бесконечного экспериментов. Повышение внутренней В. связано с устранением результатов действия побочных переменных и с усреднением их изменчивости и нестабильности. Внутренняя В. - первое и необходимое требование к экспериментальным выводам: эксперимент, не обладающий внутренней В., названы автором просто неудачным.

При обладающем внутренней валидностью исследовании исследователь уверен, что результаты, полученные измерением зависимой переменой, непосредственно связаны с независимой переменной, а не с каким-нибудь другим неконтролируемым фактором.

Однако, фактически, в науке (особенно в психологии) невозможно со стопроцентной уверенностью утверждать, что внутренняя валидность соблюдена. Например, невозможно изучить какой-то психический процесс отдельно от психики в целом. Поэтому всегда при любом психологическом эксперименте учёный может лишь максимально (но не абсолютно) удалить или минимизировать разнообразные факторы, угрожающие внутренней валидности.

Пример нарушения внутренней валидности

Допустим, мы хотим проверить лекарство, от которого люди будут становиться выше. Допустим, для своих исследований мы отбираем в качестве испытуемых 13-летних подростков, измеряем их рост, и даём им лекарство. Два года спустя мы возвращаемся к теперь уже 15-летним детям и фиксируем их текущий рост. Несомненно то, что они стали выше, но без сомнения и то, что мы не можем сделать из этого вывод, что эффект роста был вызван лекарством, так как мы не учли в своём теоретическом эксперименте естественных процессов взросления. Здесь внутренняя валидность нарушена следующим образом: мы не учли побочного для нашего исследования влияния других (в данном случае - очевидных) факторов, тогда как надо было их учитывать.

- внешняя В . - достоверность выводов, которую обеспечивают результаты реального эксперимента по сравнению с результатами эксперимента полного соответствия. Повышение внешней В. обеспечивается достижением соответствия уровней дополнительных переменных в эксперименте уровням этих переменных в изучаемой реальности. Эксперимент, не обладающий внешней В., является неверным, не соответствующим поставленной гипотезе (но, быть может, пригодным для проверки, другой гипотезы).

Внешняя валидность определяет то, в какой мере результаты, полученные в эксперименте, могут соответствовать тому типу жизненной ситуации, которая была исследована, и то, насколько возможно обобщить эти результаты на все подобные жизненные ситуации. Например, критику психологов-экспериментаторов в том, что о студентах-второкурсниках и белых крысах они знают очень много, а обо всём остальном - очень мало, можно рассматривать как критику внешней валидности.

Как и в отношении любой другой валидности, о внешней валидности в исследовании, вероятно, невозможно сказать, что она абсолютно соблюдена, можно указать только на её нарушение. Абсолютным соблюдение внешней валидности считалось бы тогда, когда результаты исследования можно обобщить на любые популяции при любых условиях и в любое время, поэтому учёные говорят не о соблюдении либо несоблюдении внешней валидности, а о степени её соблюдения.

Критерии внешней валидности

Чтобы исследование обладало наивысшей степенью валидности, должна существовать возможность генерализации его результатов на:

Другие популяции,

Другие условия,

Другое время.

Пример нарушения внешней валидности

Исследование Лоренса Колберга, посвящённое изучению нравственного развития детей, было подвергнуто критике за низкую степень внешней валидности. В 1963 году Колберг предложил мальчикам-подросткам разрешить различные коротко сформулированные дилеммы. На основании полученных ответов он разработал теорию о шести стадиях морального развития.

Критика внешней валидности этого исследования в частности состояла в том, что учёный не учитывал половых различий в особенностях мышления способах принятия моральных решений и, следовательно, неправомерно обобщил свою модель на представителей обоих полов.

Колберг также исходил из предпосылки о том, что существуют некие «универсальные принципы справедливости и соблюдения прав личности», однако он не учёл межкультурных различий, следовательно, выводы, которые он сделал, не могут восприниматься как универсальные.

Соблюдение внешней валидности

Чтобы увеличить степень внешней валидности, в исследованиях могут не ограничиваться лишь экспериментальным методом, но также использовать и другие - например, наблюдение, межкультурные исследования и т. д.

При современном научном подходе в психологии соблюдение внешней валидности в исследованиях играет ведущую роль, так как наиболее ценным считается создание общих теорий, моделей и алгоритмов, применимых к психике в целом, независимо от контекста, - то есть моделей, обладающих крайне широкими предсказательными возможностями; поэтому исследования, результаты, которых можно применить только к какой-то определённой ограниченной ситуации, обладают нисходящей ценностью.

Следует отметить, что любую переменную (фактор), отличную от независимой, также оказывающую влияние на зависимую переменную, автор называет просто “ other ” - другая. При переводе для обозначения таких переменных используются два разных термина: “побочная” - применительно к переменной, нарушающей внутреннюю В., и “дополнительная” - переменная, уровень которой входит в экспериментальную гипотезу и должен быть адекватно представлен с целью достижения внешней В. Иногда одни и те же факторы могут выступать в эксперименте и как побочные (нарушающие внутреннюю В.), и как дополнительные (влияющие на внешнюю В.). Устранение и унификация побочных факторов, повышающая внутреннюю В., может приводить к несоответствию уровней дополнительных переменных, что снижает внешнюю В. (см. Соответствие).

Операциональная В.-разновидность внешней В. для лабораторного эксперимента; соответствие (или степень соответствия) применяемых методических процедур тем теоретическим понятиям, которые входят в экспериментальную гипотезу.

Угрозы внутренней валидности

«Угрозы внутренней валидности» - выражение, относящееся к плану исслед., к-рое интерпретаторы данных используют для описания ряда вопросов, возникающих в связи с возможными неточностями при интерпретации причинно-следственных связей между изучаемыми переменными. Некоторые из этих угроз уже упоминались, в частности, при описании квазиэкспериментов. Выражение регрессия к среднему показателю используется для описания эффекта неточного измерения текущего и будущих наблюдений, и она представляет собой серьезную угрозу для внутренней валидности плана психол. исслед.

Другой угрозой является естественное развитие, поскольку испытуемые подвержены естественным процессам созревания и развития с течением времени независимо от манипуляций, которые совершает над ними исследователь. Эта последняя гипотеза, в частности, объясняет необходимость использования в исслед. контрольных групп, позволяющих осуществлять сравнения с естественно развивающимися испытуемыми.

Еще одной угрозой является отсев. Систематическое сокращение количественного состава групп вследствие выбывания, неявок, переезда людей в другой город, незаполненных критериальных опросников, и т. д. может делать менее заметной в результатах исслед. роль тех оставшихся участников, к-рые оказываются в меньшей степени подвержены эксперим. воздействию. А ведь чем более заметны улучшения по критерию, тем лучше выглядит эффективность самого изучаемого воздействия.

Угроза отбора возникает на этапе формирования исслед. состава групп участников. Систематический отбор или пассивный отбор (собственное желание) участников для изучаемого воздействия или условия может приводить к возникновению различий среди некоторых групп перед началом исслед. Эти группы будут по-прежнему отличаться от других и после реализации воздействия - даже когда они сами не подвергались воздействию. Поэтому, для достижения высокой внутренней валидности (причинно-следственных) утверждений в отношении взаимосвязей переменных, необходима формулировка и проверка альтернативной гипотезы о том, какими могли бы быть эти эффекты в отсутствие такого воздействия или условия.

Фон относится к тем изменениям контекста проводящегося исслед., которые могут смешиваться с самими изучаемыми воздействиями. Подобное смешение делает невозможным отнесение изменений в испытуемых на счет исследуемого воздействия или внешних изменений.

Инструментальная погрешность являются угрозой внутренней валидности, почти исключительно присущей психологии, поскольку она возникает в результате происходящих со временем изменений стандартов наблюдателя или условий наблюдения. Эти изменения вызывают различия в оценках. Проблема состоит в том, что подобные расхождения в стандартах измерения могут приводить к ошибочным оценкам тех изменений, которые являются следствием изучаемых воздействий.

Эффект тестирования являются примером другой, почти исключительно присущей психологии, угрозы внутренней валидности. Она связана с эффектом улучшения показателей испытуемых просто в результате предыдущего прохождения теста.

Нестабильность, как было указано выше, вытекает из попыток интерпретировать происходящие непосредственно после эксперимента воздействия или спустя к.-л. время естественные изменения испытуемых и измерений.

Существуют также четыре аффективных угрозы внутренней валидности: подражание, компенсаторное соперничество, компенсаторное уравнивание, и деморализация. Они также присущи исключительно психол. науке, поскольку возникают в результате эмоциональных изменений у испытуемых и проводящего измерения персонала как формы адаптации к тому факту, что они не попали в число «избранных» участников исследования, получающих и осуществляющих эксперимент

Внешняя валидность и метаанализ

Наконец, существует понятие внешней валидности - суммы характеристик исследований, к-рая позволяет осуществлять обобщение или распространение получаемых в исследованиях (как результат высокой внутренней валидности) причинно-следственных утверждений на сходные категории людей, воздействий и критериев за пределами данного исследования.

Метаанализ. Внешняя валидность результатов исследования, существенно усиливается, когда объединяется и обобщается целый ряд исследований одной и той же воздействующей переменной. Такая процедура называется метаанализом. В метаанализе определяются величина эффекта, оказываемого эксперимента, воздействием и основными условиями исследования на критериальные переменные. Последние выбираются в зависимости от теоретических интересов проводящего метаанализ исследователя. Т. о., если основной анализ предполагает сравнение связей всех пар переменных, то набор интересующих метааналитика связей является набором из переменных-условий и критериальных переменных, который позволяет судить о величине эффекта изучаемого воздействия на эти критериальные переменные. Величина эффекта для каждого исследования определяется простым делением разности между средними показателями по критериальной переменной в эксперименты группах и контрольной группе на меру изменчивости индивидуальных показателей в этих группах. В результате такого анализа можно продемонстрировать, что целый ряд изучавшихся переменных условий не оказывают влияния на набор критериев, что позволяет исследователям обобщать результаты своих исследований, не оглядываясь на эти, как было установлено в ходе метаанализа, посторонние условия.

Наконец, можно определить степень влияния каждой переменной-воздействия и их различных сочетаний на критерии. Это представляет особый интерес для прикладных областей, где важно знать не только о том, что одна переменная влияет на другую, но и насколько велико такое влияние.

internal validity) В. в. относится к степени уверенности, с к-рой можно судить о предполагаемой каузальной связи между переменными. Эксперимент обладает В. в. в той мере, в какой наблюдаемые эффекты можно отнести к влиянию независимых переменных, а не к.-л. др. посторонних факторов. Приписывание причинной обусловленности обычно предполагает, что две переменные - причина и следствие - будут сопряженно изменяться, однако прежде чем делать вывод о В. в., необходимо продемонстрировать, что А действительно вызывает Б (т. е. что возникновение одного лишь А приводит к Б). Можно, напр., ошибочно посчитать, что обучение решению перцептивно-моторных задач в домашних условиях а) приводит к повышению успеваемости детей в школе, б) тогда как в действительности такой желаемый рез-тат обусловлен не столько самим перцептивно-моторным обучением, в) сколько родительской заботой и вниманием. Психол. эксперименты особенно подвержены вводящим в заблуждение и непредусмотренным эффектам побочных переменных, поскольку эти эксперименты крайне редко можно реализовать в таких идеально чистых условиях, какие создаются в физ. лабораториях. Поэтому преимущественной заботой исследователей в психологии становится планирование экспериментов т. о., чтобы получаемые в них положительные рез-ты позволяли делать выводы о существовании причинно-следственных связей. В. в. отличают от внешней валидности, относящейся к возможности распространения рез-тов за пределы того специфического контекста, в к-ром была установлена В. в. Напр., если бы в тщательно контролируемых условиях удалось доказать, что переполненность клеток, в к-рых содержатся лабораторные животные, приводит к агрессивному поведению у белых крыс (В. в.), были бы у нас основания для распространения этого вывода на людей, проживающих в гетто (внешняя валидность)? В. в. следует отличать от конструктной валидности, к-рая является теорет. объяснением предполагаемой причинно-следственной связи. В большинстве случаев, однако, когда существуют все разумные основания считать В. в. установленной, исследователю хочется сформулировать концептуальную основу или конструкт для объяснения этих связей. Кроме того, В. в. не следует смешивать с внутренней согласованностью - термином из области тестирования, относящимся к интеркорреляциям внутри нек-рого набора заданий. При установлении В. в. необходимо убедиться в существовании определенной последовательности событий. Очевидно, если существует связь между А и Б, и А всегда предшествует Б, логично предположить, что А вызывает Б, а не наоборот. Помимо орг-ции максимально возможного контроля над условиями окружения и эксперим. ситуации проводящие исслед. психологи занимаются отбором испытуемых такими способами, к-рые исключают систематические ошибки при распределении их в эксперим. и контрольные группы. Они тж прибегают к тщательно разраб. эксперим. планам (учитывающим ковариацию и включающим уравновешивание) для осуществления статистических способов контроля над влиянием переменных, с тем чтобы можно было делать обоснованные суждения о причинных связях. Далее в сокращенной форме приводится проведенный Куком и Кэмпбеллом анализ проблем, возникающих при проведении квазиэксперим. или полевых исслед. в психологии, каждая из к-рых представляет собой потенциальную угрозу для В. в. Конкретные события, к-рые происходят между первым и вторым измерениями, могут изменять реакции испытуемого. Напр., если в исслед. проверяется влияние нового лекарственного препарата на уменьшение тревоги, а в период между измерениями над данной местностью пронесся торнадо, то на рез-ты измерения уровня тревоги может серьезно повлиять страх, вызванный этой катастрофой. Кроме того, изменения, естественно происходящие с течением времени и связанные с развитием испытуемых, тж могут вызывать последствия, к-рые загрязняют эксперимент (т. е. улучшения в перцептивно-моторных умениях у детей м. б., скорее, следствием простого взросления, нежели обучения). В исслед., предполагающем повторные тестирования, многократное применение того же самого инструмента могут приводить к кумулятивному эффекту, к-рый загрязняет исследуемое воздействие (напр., улучшение в оценках IQ в рез-те "обогащения" среды может стать следствием знакомства с данным интеллектуальным тестом). Механические или сделанные чел. изменения в инструментах, используемых для измерений, могут вызывать иные, нежели исследуемое воздействие, эффекты. Со временем механическая пружина может утратить свою эластичность или исследователь может изменить свою ориентацию. Пренебрежение феноменом статистической регрессии (тенденции высоких и низких оценок при повторном тестировании изменяться в сторону области средних значений) может привести к получению чрезмерно положительной и вводящей в заблуждение оценке взаимосвязи и, как следствие, к ошибочным выводам в отношении причинной обусловленности. Непреднамеренная ошибка в процессе отбора испытуемых для контрольной и/или эксперим. группы может вызывать рез-ты, связанные с этим неучтенным, но неслучайным распределением отдельных испытуемых. В этом случае различия между группами, обусловленные скорее отбором испытуемых, нежели самими исследуемыми воздействиями, могут приводить к ошибочным выводам. Любое выбывание испытуемых в ходе проведения эксперимента (сознательный уход, болезнь или даже смерть) может искажать рез-ты эксперимента, если такая убыль выходит за пределы случайного отсева. Неопределенность в отношении того, является ли А причиной или рез-том Б, неизбежно сказывается на В. в. Играет ли футбольная команда лучше из-за присутствия на трибунах большего числа болельщиков или, наоборот, большее число болельщиков собралось на игру потому, что эта команда стала играть лучше? Случайная и нежелательная коммуникация между группами, принимающими участие в исслед., разрушает эксперим. наивность испытуемых и может формировать установки и ожидания, не связанные с целями данного исслед. В свою очередь, эксперимент сам может вызывать компенсаторное соперничество, чувство обиды, возмущение и деморализацию у отдельных испытуемых и/или их групп - состояния, к-рые не имеют отношения к целям эксперимента и могут искажать его рез-ты. Поскольку экспериментаторы работаю не в вакууме, иногда случается, что по административным или соц. причинам группы получают компенсаторное воздействие, к-рое приводит к уравниванию эффектов и работает против достижения валидных рез-тов. Напр., предоставление хотя бы минимальной терапии контрольной группе пациентов, к-рые вообще не должны были получать никакой терапии, м. б. оправданным с т. зр. гуманности, но, без сомнения, наносит ущерб цели такого эксперимента. Не существует способов проведения совершенного эксперимента (т. е. такого, в к-ром достигается настолько полный контроль, что было бы невозможно отнести полученный рез-т или взаимосвязь к категории артефактов). Кроме того, обычно сам контекст психол. экспериментов делает их чрезвычайно подверженными интерпретационной двусмысленности и получению ошибочных выводов. Однако глубокие познания в этой области и внимание к тем многочисленным ловушкам, к-рые подстерегают психолога при проведении квазиэксперим. исслед., могут ему помочь планировать эксперименты, позволяющие с большей вероятностью получать истинные выводы в отношении В. в. См. также Доверительные границы, Экспериментальные планы, Проверка гипотезы, Каноны Милля, Вероятность, Статистическая значимость Э. Э. Вагнер

Общие сведения

При обладающем внутренней валидностью исследовании исследователь уверен, что результаты, полученные измерением зависимой переменой, непосредственно связаны с независимой переменной, а не с каким-нибудь другим неконтролируемым фактором .


Wikimedia Foundation . 2010 .

Смотреть что такое "Внутренняя валидность" в других словарях:

    Внутренняя валидность - См. Валидность. Психология. А Я. Словарь справочник / Пер. с англ. К. С. Ткаченко. М.: ФАИР ПРЕСС. Майк Кордуэлл. 2000 … Большая психологическая энциклопедия

    ВНУТРЕННЯЯ ВАЛИДНОСТЬ - См. валидность, внутренняя … Толковый словарь по психологии

    Внутренняя валидность - (internal validity) – степень уверенности, с которой можно судить о предполагаемой каузальной связи между переменными … Энциклопедический словарь по психологии и педагогике

    В. в. относится к степени уверенности, с к рой можно судить о предполагаемой каузальной связи между переменными. Эксперимент обладает В. в. в той мере, в какой наблюдаемые эффекты можно отнести к влиянию независимых переменных, а не к. л. др.… … Психологическая энциклопедия

    Словарь-справочник по педагогической психологии

    Внутренняя валидность (обоснованность) - вид теоретической валидности, выражающийся в корреляции нескольких показателей (мер) одного и того же понятия … Социологический словарь Socium

    Внутренняя валидность эксперимента - критерий оценки планирования и проведения исследования, позволяющий считать достоверными выводы относительно именно представленной в гипотезе зависимости (а не какой то другой) … Словарь по педагогической психологии

    Качество эксперимента, гарантирующее обоснованность выводов: 1) о том, что именно экспериментальный фактор является причиной изменений, зарегистрированных в зависимой переменной (внутренняя валидность);2) о том, что выявленная зависимость… … Словарь бизнес-терминов

    Валидность (англ. validity) мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам. В частности, валидность считается фундаментальным понятием экспериментальной психологии и психодиагностики.… … Википедия

    - (англ. validity) мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам. В частности, валидность считается фундаментальным понятием экспериментальной психологии и психодиагностики. Как в… … Википедия