Элементы выборки подлежащие опросу

Простыми словами о выборке

Привет. Я UX-исследователь в СКБ Контур. Чаще всего в работе я использую качественные методы исследований — глубинные интервью и модерируемые юзабилити-тестирования. Количественные исследования без подготовленной инфраструктуры со стороны разработки более ресурсозатратные, поэтому самостоятельно их провести сложнее.

Но самое сложное для меня в проведении количественного исследования — это выборка. Мне ближе гуманитарная сторона исследовательской работы, поэтому разобраться в выборке сложнее, чем в техниках ведения интервью. Если у тебя такая же проблема, эта статья будет полезна.

Ниже я попробовала просто рассказать о выборке, репрезентативности и методах отбора при проведении количественного исследования.

Выборка и репрезентативность

Опрос — это количественный метод, направленный на получение точной, объективной и статистически значимой информации. Если качественные методы помогают в формулировке гипотез, то количественные — масштабируют и проверяют эти гипотезы на всей целевой аудитории.

Поэтому важно проводить отбор респондентов таким образом, чтобы выборочная совокупность отражала состав всей генеральной совокупности.

В социологии есть термин — единица наблюдения. Это может быть один человек, группа или сообщество в зависимости от целей исследования.

Генеральная совокупность — это вся совокупность единиц наблюдения, имеющих отношение к теме исследования.

Например, если ты проводишь продуктовое исследование, то скорее всего твоя генеральная совокупность — это все пользователи сервиса или определенный сегмент.

Выборочная совокупность — часть генеральной совокупности, которую вы изучаете в ходе исследования с помощью разработанных вами инструментов (анкета, гайд и прочее).

Например, в ходе исследования было опрошено 400 респондентов среди всех пользователей сервиса. Это твоя выборочная совокупность.

Выборка должна быть репрезентативной, иначе результаты количественного исследования будут сомнительными.

Репрезентативность — обеспечение в выборочной совокупности наличия всех видов единиц генеральной совокупности в достаточном количестве.

Репрезентативность имеет качественное и количественное выражение. Качественная репрезентация обязывает включить в выборку все возможные варианты респондентов, особенно, если какой-то признак влияет на опыт использования сервиса.

Например, выборка не будет репрезентативной если ты опросишь только новых пользователей (если это не оправдано целями исследования). Особенно это исказит результаты исследования, если длительность использования напрямую влияет на проверку гипотезы.

На практике, особенно в онлайн-опросах, качественная репрезентативность может страдать. Ею можно пренебречь, если вы уверены, что на проверку гипотезы не повлияет принадлежность респондента к той или иной группе. Онлайн-опросы предполагают стихийную выборку и поэтому предусмотреть присутствие всех типов респондентов сложно. Про стихийную выборку подробнее я расскажу ниже.

Чтобы соблюсти количественную репрезентацию нужно обеспечить достаточное число респондентов, в том числе по каждой группе внутри выборки.

Например, если ты пригласишь на опрос 80% новых пользователей и лишь 20% пользователей с опытом — это тоже исказит результаты (опять же если это не предусмотрено дизайном исследования).

И, конечно, для того, чтобы масштабировать результаты опроса на всю генеральную совокупность (в нашем примере — на всех пользователей), нужно в целом рассчитать количество человек, которое ты планируешь пригласить для прохождения опроса.

Что значит «достаточное» количество человек для выборки.

К примеру, если проводить исследование на выборке в 50–100 человек, то погрешность в репрезентативности полученной информации будет выше, чем при опросе 800–1000 человек.

Но увеличивать до бесконечности число опрашиваемых нет смысла. После определенного количества респондентов ошибка выборки остановится на одном уровне.

Ошибка выборки — разность между характеристиками выборочной и генеральной совокупности. Это отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.

Где-то после 400 респондентов ошибка выборки не меняется. Поэтому обычно в опросах выборочная совокупность составляет 300–400 человек. При таком значении ты можешь уверенно переносить результаты исследования на всю аудиторию при соблюдении качественной репрезентации и корректно составленной анкеты.

Если генеральная совокупность небольшая, то и выборочная совокупность будет меньше стандартных 300–400 респондентов.

Если хочешь разобраться с формулой расчета выборки подробнее про нее можно узнать здесь.

Также ты можешь провести сплошной опрос. При сплошном опросе ты опрашиваешь всю генеральную совокупность.

Например, если есть интересный и немногочисленный сегмент пользователей (30–100 человек), ты можешь опросить их всех. Или это стартап и уже есть первые пользователи. В таком случае тоже можно провести опрос по всей генеральной совокупности.

На практике требованиями количественной репрезентации иногда пренебрегают в силу нехватки ресурсов на обзвон (если это телефонный опрос) или времени на сбор ответов. Или если опрос проводят для сбора гипотез, а не для принятия конечного решения.

Здесь важно понимать, какое решение должно быть принято на основе исследования. Если это важный продуктовый или бизнес-вопрос, то лучше потратить время и деньги на проверку гипотезы с репрезентативной выборкой, чтобы не получить неверные выводы. А если, это, к примеру, опрос для сбора отклика по новой фиче, то можно остановиться на 30–60 респондентах. Основные выводы ты сделаешь, а пользователи по мере работы в сервисе расскажут о том, что ты мог пропустить.

Методы отбора

В количественном исследовании по сравнению с качественным не важно кто перед тобой, потому что все выводы строятся по совокупности ответов респондентов и материал собирается в обезличенном виде. Поэтому в идеале в выборку респонденты должны попадать случайным образом, чтобы сделать результаты максимально свободными от искажений.

Чтобы этого достичь можно использовать один из методов формирования выборки.

Случайные выборки

Они предполагают, что в выборке каждый элемент генеральной совокупности имеет заранее заданную вероятность быть отобранным в исследование.

Простая случайная выборка. Сначала нужно присвоить каждому потенциальному респонденту идентификационный номер. Дальше с помощью генератора случайных чисел определить номера, которые будут включены в выборку для опроса.

Механическая выборка. Как и в простой выборке пользователям присваивается порядковый номер. Только отбор происходит не с помощью генератора случайных чисел, а с шагом равным n. Например, каждый сотый.

Стратифицированная выборка. Для такой выборки нужно поделить генеральную совокупность на сегменты или страты. После чего респонденты внутри каждой группы отбираются случайным образом. Из каждого сегмента выделяют пользователей пропорционально их доле в генеральной совокупности.

Кластерный отбор или гнездовая выборка. Группа потенциальных респондентов отбирается случайным образом из всей генеральной совокупности. Далее внутри этой группы опрашиваются все пользователи. Например, можно опросить всех пользователей, которые зарегистрировались в сервисе в прошлом квартале.

При таком отборе риск искажений выше и важно учитывать внешние и внутренние факторы. Может быть в прошлом квартале в жизни пользователей произошло что-то важное, что повлияло на их желание воспользоваться сервисом. Тогда эта группа будет сильно отличаться от генеральной совокупности.

Неслучайные выборки

Обычно такие методы отбора применяют, если нет возможности или ресурсов для формирования случайной выборки. Например, у тебя мало времени на опрос или нет данных о генеральной совокупности или респонденты труднодоступны.

Квотная выборка. Такой метод можно применять, если у вас есть знания о составе генеральной совокупности. Например, вы знаете, как ваши пользователи распределяются в разрезе по должности, отрасли компании, возрасту и так далее. Тогда можно пропорционально этим долям сформировать выборку: в каждом разрезе выбрать такое число респондентов, которое будет отображать статистику по всей аудитории.

Стихийная выборка. Это метод без особых правил. В опрос попадают все, кто захочет пройти опрос. Такая выборка типична для онлайн-опросов, размещенных в свободном доступе.

«Снежный ком». Тоже достаточно популярная и простая методика. Каждого респондента просят порекомендовать нового среди его друзей, коллег и знакомых, которые подходили бы под параметры исследования. Такая выборка часто применяется когда самостоятельно найти интересующих респондентов затруднительно. Например, пользователи, занимающие высокую должность или с высоким доходом.

«Типичный представитель». Из генеральной совокупности отбираются респонденты с типичными признаками целевой аудитории. Только определить, что взять за такой признак, обычно сложно.

Отдельно стоит сказать про многоступенчатые выборки. На практике чаще всего (иногда интуитивно) исследователи используют как раз многоступенчатый метод. Такой отбор предполагает наличие двух или более этапов формирования выборки. Проще говоря, это микс нескольких методов отбора.

Например, ты собрал статистику по своей аудитории и знаешь, что большинство пользователей находятся в Москве. Это будет первая ступень отбора по «типичному представителю». Далее среди пользователей-москвичей ты приглашаешь на опрос каждого сотого (механическая выборка).

Проводя количественное исследование, не забывай о репрезентативности и продумывай подходящий метод отбора респондентов. Хорошая подготовка — половина успеха.

Практические способы построения выборки в исследованиях и опросах

Elitarium.ru , 1 июля 2011г.

Предисловие редакции HT.ru:

Данная статья адресована, в первую очередь, маркетологам и социологам, которые занимаются проведением массовых опросов и исследований. Но нам бы хотелось, чтобы с этим материалом были знакомы наши hr-ы. Даже если Вы еще никогда не занимались проведением опросов в своей организации, поверьте, Вам предстоит когда-нибудь столкнуться с этой интереснейшей областью работы. И одной из первых проблем, которая встанет перед Вами, будет вопрос «Кого привлекать к опросу?». Скажем так, данная статья не даст простого и четкого ответа на этот, в действительности, непростой вопрос. Но, прочитав ее, Вы сможете по-новому, осмысленнее и более профессионально взглянуть на тот фронт работ, который представляет собой проведение опросов. Например, Вы сможете предугадать, чьи ответы Вы получите в случае, когда опрос в организации будут проходить «все желающие».

Автор статьи: Игopь Cтанислaвович Бepeзин, консультант по маркетинговым стратегиям, президент Гильдии мapкетoлoгов (г. Моcква).

Опрос и анкетирование являются ведущими, универсальными методами проведения социологических и маркетинговых исследований. Чаше всего, когда говорят о маркетинговом исследовании — сборе первичной информации, имеют в виду именно опрос или анкетирование, предполагающие прямое выяснение, непредвзятого мнения достаточно многочисленной группы респондентов.

Массовым считается опрос, в ходе которого путем личной беседы сотрудника исследовательской компании — интервьюера с носителями информации (респондентами), состоящей из нескольких десятков коротких вопросов, изучаются мнения нескольких сотен (тысяч) человек. Под анкетированием понимают безличную форму общения исследователей с носителями информации, при которой респонденты самостоятельно отвечают на вопросы анкеты, следуя содержащейся в ней инструкции и не вступая в непосредственный контакт с интервьюерами.

Конечной целью анкетирования и массового опроса является получение данных, характеризующих так называемую генеральную совокупность. Генеральная совокупность — это все представители какой-либо группы, носители какого-либо важного признака, например:

Для того чтобы опросить десятки или сотни тысяч, а тем более — миллионы человек (компаний), из которых может состоять генеральная совокупность, нужны сотни или даже тысячи интервьюеров. На проведение подобного исследования могут понадобиться десятки, если не сотни миллионов долларов и не менее полугода напряженной работы. Такое возможно только при переписи населения (проводящейся не чаще одного раза в 10 лет).

Однако в маркетинге этого и не требуется. Достаточно того, чтобы относительно небольшая выборка (от нескольких сотен до нескольких тысяч представителей) репрезентировала (выразила) мнение генеральной совокупности. Как такое возможно? На каком основании можно распространять данные, полученные от небольшой группы людей, на существенно (в десятки и сотни раз) большую группу? На основании гипотезы о том, что на поведение, знания, отношение потребителей к компании, товару, услуге или отдельных их компонентов оказывают влияние социально-демографические характеристики самих потребителей.

Иными словами, большинство представителей четко определенной социально-демографический группы будут сходным образом реагировать на внешние, в данном случае — рыночные стимулы: товар, цену, упаковку, рекламу и т. д. и т. п. И нет никакой необходимости опрашивать всех представителей этой группы, поскольку ее мнение (с допустимой погрешностью) может представить (репрезентировать) небольшая выборка из ее представителей.

Способы построения выборки

Существуют две группы методов построения выборки , в той или иной степени реализующих репрезентацию мнений и позиций генеральной совокупности: вероятностные и детерминированные.

Первая группа методов (вероятностные) базируется на использовании теории вероятности. В основе ее применения лежит постулат, что репрезентация будет достигнута в случае, если каждой единице генеральной совокупности обеспечено равновероятное попадание в выборку. Например, если генеральной совокупностью является все взрослое (16-85 лет) население города (200 тыс. человек), то каждому жителю должна быть обеспечена вероятность стать участником исследования(попасть в выборку), равная 1 / 200 000. В противном случае выборка будет не случайной, а смещенной, т. е. менее репрезентативной.

Реализовать это можно в случае, если все элементы генеральной совокупности могут быть тем или иным образом пронумерованы, а затем эти номера будут выбраны в определенной последовательности — «по воле случая». Например, в Москве около 2 500 средних школ, каждаяиз которых имеет свой номер. Мы могли бы выбрать наугад 100 номеров и провести опрос 100 директоров (завучей, учителей физики, классных руководителей 11-х классов и т. п.) в этих школах.

Эти 100 номеров мы можем выбрать с помощью таблицы или «генератора случайных чисел» (есть такая специальная компьютерная программа), а также с помощью «барабана» но принципу того, как это делается при проведении лотереи. Такие способы построения выборки называются «простой случайной выборкой» . Каждый ее элемент отбирается независимо и имеет равную вероятность попасть в выборку.

Мы могли бы выбрать наугад любое число от 1 до 25, например— 12, а затем взять в выборку школы с номерами: 12, 37, 62, 87, 112, 137 и т. д. Такой метод построения называемся «систематической выборкой» , первый элемент которой выбирается произвольно, а затем выбирают каждый i-й элемент.

Мы также могли бы сначала разделить эти школы на несколько страт (возможно, и пересекающихся), например, на школы физико-математические, спортивные, лингвистические и гуманитарные, а затем произвести случайную или систематическую выборку (по 20-30 школ) из каждой страты. Такой метод построения называется «стратифицированной выборкой» .

Разновидностью стратифицированной выборки является «маршрутная выборка» , суть реализации которой состоит в следующем. Город делится на 20-40 «секторов» по числу интервьюеров, задействованных и исследовании. Каждый интервьюер получает один сектор, маршрут обследования «своего» сектора и инструкцию по реализации простой случайной выборки. Например такую: «Начать обход с улицы Баумана, с дома № 2, третьего подъезда, второго этажа сверху, первой квартиры слева. Затем — дом № 4, второй подъезд, третий этаж, вторая квартира справа. Потом — переулок Комсомольский, нечетная сторона. Потом — тупик Коммунизма. и т. д.»

Наконец, мы могли бы разделить генеральную совокупность на непересекающиеся кластеры, к примеру, по муниципальным районам (их в Москве 125, и в каждом в среднем по 20 школ). Затем случайным образом выбрать пять районов и произвести обследование всех школ данного муниципального района. Такой метод построения называется «кластерной выборкой» .

Тем не менее у вероятностных методов построения выборки есть один весьма существенный недостаток. Каждый из них исходит из предположения о том, что все элементы генеральной совокупности являются равнодоступными: и в «техническом» смысле (у всех есть телефон для телефонного опроса или доступ в Интернет), и в «психологическом», т. е. все респонденты с примерно равной вероятностью согласятся или откажутся принимать участие в исследовании. Однако это не так.

Граждане с относительно высокими доходами менее доступны для исследователей, чем те, чьи доходы невысоки . И нет никакой силы, которая могла бы заставить этих люден отвечать им вопросы социологов или маркетологов. Поэтому все выборки всегда смещены в сторону средне- и малообеспеченных групп населения. Во всех без исключения странах мира.

Менее образованные граждане идут на контакт с социологами менее охотно, чем лица с высшим образованием. Поэтому в большинстве выборок доля хорошо образованных граждан как правило существенно выше, чем в генеральной совокупности.

Никто из сотрудников исследовательских компаний не желает общаться с бомжами, алкоголиками, наркоманами, психо- и социопатами и прочими маргиналами. И у руководителя исследования нет решительно никаких возможностей заставить своих сотрудников делать это. А между прочим, к этим группам в России по взвешенным оценкам относится от 12 до 15% жителей Следовательно, любая выборка смещена в сторону «вменяемых» граждан.

Некоторые граждане боятся отвечать на вопросы, даже самые невинные. Таких людей немного, но они есть. А вот способов заставить их участвовать в опросе нет.

Наконец, есть люди, которые просто не желают участвовать в исследовании. У них есть время, они ничего не боятся, они все понимают, но на вопросы отвечать отказываются. И точка.

Таким образом, все выборки в маркетинге и социологии являются смещенными в сторону средне- и малообеспеченных, более образованных, контактных и вменяемых граждан . Они и репрезентируют общее мнение генеральной совокупности. И все исследователи рынка прекрасно это знают.

Преодолеть наложенные выше проблемы можно с помощью метода «квот» , относящегося к детерминированным методам, при котором априори обеспечивается пропорциональное представительство носителей существенных признаков (пол, возраст, доход, образование и т. п.) генеральной совокупности в выборке.

Это наиболее эффективный, на наш взгляд, метод проведения массовых опросов. При его использовании существенно облегчается задача поиска корреляционных связей, сравнения различных типов (групп) потребителей между собой и экстраполяции выявленных закономерностей на генеральную совокупность.

Единственная, но весьма существенная трудность при реализации него метода состоит в том, что не всегда доподлинно известно распределение всех важных параметров в самой генеральной совокупности . В этом случае исследователь или консультант исследовательского проекта должен взять на себя смелость распределить квоты по своему усмотрению, в соответствии со своим видением, пониманием рынка.

Задача достижения строгой репрезентативности не всегда является важной. Иногда целесообразно воспользоваться существенно более простыми в реализации детерминированными методами:

Достоверность и погрешности измерений

Под «достоверностью», уровнем достоверности понимают показатель вероятности того, что истинное значение изучаемого параметра генеральной совокупности попадет в доверительный интервал. Чем выше задаваемый уровень достоверности, тем больше должна быть выборка. Под доверительным интервалом понимают диапазон, в который попадет истинное значение изучаемого параметра генеральной совокупности при данном уровне достоверности. Чем он меньше, тем больше должна быть выборка.

К примеру, общероссийская городская выборка (14-65 лет) в 1 200 респондентов имеет доверительный интервал 4 процентных пункта при уровне достоверности 0,95. При ее проведении 15% участников опроса заявили, что за последние три месяца были в кинотеатре хотя бы один раз.

Эти данные позволяют нам утверждать с заданным уровнем достоверности, что от 11 до 19% жителей российских городов в возрасте от 14 до 65 лет были в кинотеатре хотя бы один раз за последние три месяца. Иными словами, можно сказать, что все значения между 11 и 19% в данном случае находятся в пределах «допустимой статистической погрешности». Если бы мы хотели задать доверительный интервал в 2 процентных пункта, то выборку (при прочих равных условиях) пришлось бы увеличить примерно в четыре раза.

Со стороны уровня достоверности эти данные означают, что если бы было проведено 100 независимых измерении (опросов) по 1200 респондентов в каждом, то в 95 из них значение доли ответов на вопрос о посещении кинотеатра не вышло бы за пределы доверительного интервала (в этом конкретном случае — 11-19%). А в пяти исследованиях или бы получены значения, выходящие за пределы доверительного интервала. Если бы нас устраивала достоверность на уровне 0,9, то опросить можно было бы 200 человек. Если нам нужна достоверность на уровне 0,99, то пришлось бы опросить более 10 тыс. человек.

Оптимальный размер выборки

Вот одна из формул расчета необходимого объема выборки, используемая при известном среднем отклонении (дисперсии) и заданных уровнях достоверности и точности:

N = (g 2 * z 2 ) / d 2

где: N — искомый объем выборки; g — дисперсия признака, ожидаемое среднее отклонение получаемых результатов от ожидаемого среднего значения; z — коэффициент уровня достоверности (2 — для 0,95, 3 — для 0,99); d — уровень точности.

Допустим, мы изучаем поведение покупателей в продовольственном магазине, в частности, мы хотим определить среднюю сумму чека. Из бесед с владельцем магазина мы узнаем, что она может быть в районе 500-700 руб., а среднее отклонение (g) может составить 200 руб. В ходе опроса мы хотели бы определить среднее значение с точностью (d) до 20 руб. при уровне достоверности (z) в 0,95. Подставляем значения формулу и получаем:

40000 * 4 / 400 = 400.

То есть нам достаточно опросить 400 покупателей . Если бы мы хотели узнать среднюю сумму чека с точностью до 10 руб.. то нам пришлось бы опросить 1600 покупателей. Если бы при этом мы хотели получить уровень достоверности в 0,99, то количество покупателей, которых необходимо опросить, составило бы 3 500 человек. И наоборот: если нас устроила бы точность ±50 руб., то нам достаточно было бы опросить в заданных условиях всего 65 человек.

Практическое использование этой и других формул, которые здесь не будут приводиться, весьма затруднено следующими обстоятельствами:

На практике сначала определяют количество респондентов, которое исследователи предполагают опросить с учетом временных и финансовых ограничений, задают уровень достоверности (обычно — 0,95), а затем уже рассчитывают доверительный интервал.

Определение необходимого и достаточного объема выборки происходит на основе опыта и неформальных «конвенций» исследователей между собой. Считается, и это многократно проверено на практике, что опрос 30-50 представителей конкретной, «узкой» социально-демографической группы населения, например «ярославских замужних женщин в возрасте 30-45 лет, имеющих одного ребенка, высшее образование и совокупный семейный доход в пределах от 1 500 до 3 000 долл. в месяц», можно распространять на всю эту группу, и допустимая ошибка (доверительный интервал) не превысит 4 процентных пунктов при уровне достоверности около 0,95.

Однако полученные данные нельзя распространять, например, на незамужних женщин того же возраста, имеющих такой же доход и уровень образования. А также на женщин, имеющих иной доход, возраст или уровень образования. И уж тем более — на мужчин.

Таким образом, если в задачу исследователя входит получение информации о мнениях, знаниях, поведении или отношении к некой проблеме всех ярославских женщин, и при этом все перечисленные выше социально-демографические факторы являются значимыми, необходимо построить такую выборку, в которой были бы представлены все «узко определенные» группы. В данном случае — две группы по семейному положению, три — по наличию и количеству детей, три возрастные, три доходные, две образовательные. Итого 108 групп, в каждой из которых должно быть не менее 30 представительниц. Всего — более 3 000 респондентов.

На самом деле едва ли найдется вопрос или проблема, на которые все пять факторов будут оказывать взаимное перекрестное воздействие. В большинстве случаев вполне можно было бы обойтись опросом 400-600 респонденток, а затем провести попарный (а не перекрестный) факторный анализ. То есть отдельно исследовать влияние факторов «возраст», «образование», «доход», «семейное положение», «дети». При этом выборка каждый раз разбивалась бы на две-три группы, наполнение которых было бы не меньше 100-150 респондентов.

Репрезентативная выборка, представляющая все население России, должна состоять из 3 600-9 000 человек и 180 групп (два пола, три возраста, два образовательных уровня, три доходные группы, пять типов поселений). Доверительный интервал будет в пределах ±3 процентных пункта. Это означает, что, к примеру, если 30% (12% или 45%) наших респондентов заявили, что регулярно употребляют в пищу майонез, то долю потребителей майонеза в России можно оценить в 27-33% (9-15 или 42-48% соответственно).

Размер выборки практически не зависит от размера генеральной совокупности . И в мегаполисе с населением более миллиона человек, и в уездном городе с населением в 35 тыс. человек для построения выборки, репрезентативной по одинаковому числу параметров, потребуется опросить одинаковое число респондентов.

От чего действительно зависит размер выборки — так это от числа параметров , по которым мы желаем добиться репрезентативности. Если нас устраивает репрезентативность только по полу и возрасту, то выборки в 400 человек в одном населенном пункте будет более чем достаточно. Если параметров три, количество респондентов придется увеличить до 600. Добиться репрезентативности выборки одновременно по пяти параметрам: полу, возрасту, доходу, образованию, сфере профессиональной деятельности — можно лишь на выборке из 1 000-1 200 человек в одном населенном пункте.

В вашей почте раз в неделю. А еще: новости, акции и мероприятия для HR.

Генеральная совокупность и выборка

Генеральная совокупность [1] (в англ. — population) — совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.

Генеральная совокупность состоит из всех объектов, которые подлежат изучению. Состав генеральной совокупности зависит от целей исследования. Иногда генеральная совокупность — это все население определённого региона (например, когда изучается отношение потенциальных избирателей к кандидату), чаще всего задаётся несколько критериев, определяющих объект исследования. Например, мужчины 30-50 лет, использующие бритву определённой марки не реже раза в неделю, и имеющие доход не ниже $100 на одного члена семьи.

Выборка или выборочная совокупность — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

Характеристики выборки:

· Качественная характеристика выборки – кого именно мы выбираем и какие способы построения выборки мы для этого используем.

· Количественная характеристика выборки – сколько случаев выбираем, другими словами объём выборки.

Необходимость выборки

· Объект исследования очень обширный. Например, потребители продукции глобальной компании – огромное количество территориально разбросанных рынков.

· Существует необходимость в сборе первичной информации.

Объём выборки

Объём выборки — число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30 – 35.

Зависимые и независимые выборки

При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми. Примеры зависимых выборок:

· два измерения какого-либо признака до и после экспериментального воздействия,

В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми, например:

· мужчины и женщины,

· психологи и математики.

Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.

Сравнение выборок производится с помощью различных статистических критериев:

Репрезентативность

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной.

Пример нерепрезентативной выборки

В США одним из наиболее известных исторических примеров нерепрезентативной выборки считается случай, происшедший во время президентских выборов в 1936 году [1] . Журнал «Литрери Дайджест», успешно прогнозировавший события нескольких предшествующих выборов, ошибся в своих предсказаниях, разослав десять миллионов пробных бюллетеней своим подписчикам, а также людям, выбранным по телефонным книгам всей страны и людям из регистрационных списков автомобилей. В 25 % вернувшихся бюллетеней (почти 2,5 миллиона) голоса были распределены следующим образом:

· 57 % отдавали предпочтение кандидату-республиканцу Альфу Лэндону

· 40 % выбрали действующего в то время президента-демократа Франклина Рузвельта

На действительных же выборах, как известно, победил Рузвельт, набрав более 60 % голосов. Ошибка «Литрери Дайджест» заключалась в следующем: желая увеличить репрезентативность выборки, — так как им было известно, что большинство их подписчиков считают себя республиканцами, — они расширили выборку за счёт людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных им реалий и в действительности набрали ещё больше республиканцев: во время Великой депрессии обладать телефонами и автомобилями могли себе позволить в основном представители среднего и высшего класса (то есть большинство республиканцев, а не демократов).

Виды плана построения групп из выборок

Выделяют несколько основных видов плана построения групп [2] :

1. Исследование с экспериментальной и контрольной группами, которые ставятся в разные условия.

2. Исследование с экспериментальной и контрольной группами с привлечением стратегии попарного отбора

3. Исследование с использованием только одной группы — экспериментальной.

4. Исследование с использованием смешанного (факторного) плана — все группы ставятся в разные условия.

Типы выборки

Выборки делятся на два типа:

Вероятностные выборки

1. Простая вероятностная выборка:

o Простая повторная выборка. Использование такой выборки основывается на предположении, что каждый респондент с равной долей вероятности может попасть в выборку. На основе списка генеральной совокупности составляются карточки с номерами респондентов. Они помещаются в колоду, перемешиваются и из них наугад вынимается карточка, записывается номер, потом возвращается обратно. Далее процедура повторяется столько раз, какой объём выборки нам необходим. Минус: повторение единиц отбора.

Процедура построения простой случайной выборки включает в себя следующие шаги:

1. необходимо получить полный список членов генеральной совокупности и пронумеровать этот список. Такой список, напомним, называется основой выборки;

2. определить предполагаемый объем выборки, то есть ожидаемое число опрошенных;

3. извлечь из таблицы случайных чисел столько чисел, сколько нам требуется выборочных единиц. Если в выборке должно оказаться 100 человек, из таблицы берут 100 случайных чисел. Эти случайные числа могут генерироваться компьютерной программой.

4. выбрать из списка-основы те наблюдения, номера которых соответствуют выписанным случайным числам

· Простая случайная выборка имеет очевидные преимущества. Этот метод крайне прост для понимания. Результаты исследования можно распространять на изучаемую совокупность. Большинство подходов к получению статистических выводов предусматривают сбор информации с помощью простой случайной выборки. Однако метод простой случайной выборки имеет как минимум четыре существенных ограничения:

1. зачастую сложно создать основу выборочногo наблюдения, которая позволила бы провести простую случайную выборку.

2. результатом применения простой случайной выборки может стать большая совокупность, либо совокупность, распределенная по большой географической территории, что значительно увеличивает время и стоимость сбора данных.

3. результаты применения простой случайной выборки часто характеризуются низкой точностью и большей стандартной ошибкой, чем результаты применения других вероятностных методов.

4. в результате применения SRS может сформироваться нерепрезентативная выборка. Хотя выборки, полученные простым случайным отбором, в среднем адекватно представляют генеральную совокупность, некоторые из них крайне некорректно представляют изучаемую совокупность. Вероятность этого особенно велика при небольшом объеме выборки.

· Простая бесповторная выборка. Процедура построения выборки такая же, только карточки с номерами респондентов не возвращаются обратно в колоду.

1. Систематическая вероятностная выборка. Является упрощенным вариантом простой вероятностной выборки. На основе списка генеральной совокупности через определённый интервал (К) отбираются респонденты. Величина К определяется случайно. Наиболее достоверный результат достигается при однородной генеральной совокупности, иначе возможны совпадение величины шага и каких-то внутренних циклических закономерностей выборки (смешение выборки). Минусы: такие же как и в простой вероятностной выборке.

2. Серийная (гнездовая) выборка. Единицы отбора представляют собой статистические серии (семья, школа, бригада и т. п.). Отобранные элементы подвергаются сплошному обследованию. Отбор статистических единиц может быть организован по типу случайной или систематической выборки. Минус: Возможность большей однородности, чем в генеральной совокупности.

3. Районированная выборка. В случае неоднородной генеральной совокупности, прежде, чем использовать вероятностную выборку с любой техникой отбора, рекомендуется разделить генеральную совокупность на однородные части, такая выборка называется районированной. Группами районирования могут выступать как естественные образования (например, районы города), так и любой признак, заложенный в основу исследования. Признак, на основе которого осуществляется разделение, называется признаком расслоения и районирования.

4. «Удобная» выборка. Процедура «удобной» выборки состоит в установлении контактов с «удобными» единицами выборки — с группой студентов, спортивной командой, с друзьями и соседями. Если необходимо получить информацию о реакции людей на новую концепцию, такая выборка вполне обоснована. «Удобную» выборку часто используют для предварительного тестирования анкет.

Невероятностные выборки

Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д.

1. Квотная выборка – выборка строится как модель, которая воспроизводит структуру генеральной совокупности в виде квот (пропорций) изучаемых признаков. Число элементов выборки с различным сочетанием изучаемых признаков определяется с таким расчётом, чтобы оно соответствовало их доле (пропорции) в генеральной совокупности. Так, например, если генеральная совокупность у нас представлена 5000 человек, из них 2000 женщин и 3000 мужчин, тогда в квотной выборке у нас будут 20 женщин и 30 мужчин, либо 200 женщин и 300 мужчин. Квотированные выборки чаще всего основываются на демографических критериях: пол, возраст, регион, доход, образование и прочих. Минусы: обычно такие выборки нерепрезентативны, т.к. нельзя учесть сразу несколько социальных параметров. Плюсы: легкодоступный материал.

2. Метод снежного кома. Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)

3. Стихийная выборка – выборка так называемого «первого встречного». Часто используется в теле- и радиоопросах. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов. Минусы: невозможно установить какую генеральную совокупность представляют опрошенные, и как следствие – невозможность определить репрезентативность.

4. Маршрутный опрос – часто используется, если единицей изучения является семья. На карте населённого пункта, в котором будет производиться опрос, нумеруются все улицы. С помощью таблицы (генератора) случайных чисел отбираются большие числа. Каждое большое число рассматривается как состоящее из 3-х компонентов: номер улицы (2-3 первых числа), номер дома, номер квартиры. Например, число 14832: 14 – это номер улицы на карте, 8 – номер дома, 32 – номер квартиры.

5. Районированная выборка с отбором типичных объектов. Если после районирования из каждой группы отбирается типичный объект, т.е. объект, который по большинству изучаемых в исследовании характеристик приближается к средним показателям, такая выборка называется районированной с отбором типичных объектов.

Стратегии построения групп

Отбор групп для их участия в психологическом эксперименте осуществляется с помощью различных стратегий, которые нужны для того, чтобы обеспечить максимально возможное соблюдение внутренней и внешней валидности [3] .

· Рандомизация (случайный отбор)

· Привлечение реальных групп

Рандомизация , или случайный отбор, используется для создания простых случайных выборок. Использование такой выборки основывается на предположении, что каждый член популяции с равной вероятностью может попасть в выборку. Например, чтобы сделать случайную выборку из 100 студентов вуза, можно сложить бумажки с именами всех студентов вуза в шляпу, а затем достать из неё 100 бумажек — это будет случайным отбором (Гудвин Дж., с. 147).

Попарный отбор — стратегия построения групп выборки, при котором группы испытуемых составляются из субъектов, эквивалентных по значимым для эксперимента побочным параметрам. Данная стратегия эффективна для экспериментов с использованием экспериментальных и контрольных групп с лучшим вариантом — привлечением близнецовых пар (моно- и дизиготных), так как позволяет создать.

Стратометрический отбор — рандомизация с выделением страт (или кластеров). При данном способе формирования выборки генеральная совокупность делится на группы (страты), обладающие определёнными характеристиками (пол, возраст, политические предпочтения, образование, уровень доходов и др.), и отбираются испытуемые с соответствующими характеристиками.

Приближённое моделирование — составление ограниченных выборок и обобщение выводов об этой выборке на более широкую популяцию. Например, при участии в исследовании студентов 2-го курса университета, данные этого исследования распространяются на «людей в возрасте от 17 до 21 года». Допустимость подобных обобщений крайне ограничена.

Приближенное моделирование – формирование модели, которая для четко оговоренного класса систем (процессов) описывает его поведение (или нужные явления) с приемлемой точностью.