Таблица руководство исследования

Характеристика
этапов исследования

этап

цель

содержание

сроки

средства

результаты

1.Ориентировочный

Выявление предварительных данных об объекте
исследования.

Он включает в себя предварительное наблюдение
за объектом исследования, изучение условий его проявления, формулирование
догадки о возможной связи каких-либо фактов или событий между собой

Этот
этап занимает примерно 30%времени исследования

Наблюдение,
оценка, беседа

Заканчивается этап формулированием
предварительной темой исследования

2.Диагностический

Обосновать
актуальность исследования, формирование противоречий

Проблема исследования логически вытекает из установленного
противоречия. Из него вычленено то, что имеет отношение только к науке и
переведено в плоскость познания, сформулировано на языке науки. Чаще всего
проблема исследования формулируется в виде вопроса. Например: Какой должна
быть система методов и средств обучения, которая позволит развивать
познавательный интерес подростков? Как использовать потенциал биологии для
развития познавательного интереса? Как формировать профессиональную позицию
педагогов, ориентированную на развитие личности школьника?

20%
времени

анализ,
опрос, диагностика, сбор информации, анкетирование,работа с литературой
,информационными источниками

Постановка
проблемы. Выявление того, что осталось не раскрытым, что нужно сделать

3.Постановочный

Определение
цели, задачи,

объекта,
предмета

исследования

Разработка
методологии исследования как исходной концепции, основанной на опорных
теоретических положениях; определение единого исследовательского подхода,
замысла, направляющего ход и предполагаемые результаты исследования;
разработка плана и методической части программы исследования; выбор методов
исследования; обоснование методики исследования

20%
времени

Экспериментальный
метод, контрольный метод, метод сбора текущей информации, методы получения
ретроспективной информации, методы математической
обработки

Выдвигается
рабочая гипотеза, формулируется цель и задачи исследования

4.Преобразующий

отбор
методов – проверка гипотезы –

конструирование
предварительных выводов – их

апробирование
и уточнение

проходит
непосредственно исследование. Выполнение запланированной работы
(осуществляется экспериментальная деятельность создание и реализация
авторских программ и проектов и т.д.)

20%
времени

поэтапный
анализ, научные и научно-методические семинары, экспертиза завершенных фрагментов
работы

вводятся
усовершенствованные технологии, модели, педагогические приемы, обобщается
опыт работы.

5.Заключительный

формулирование
выводов,
обсуждение выводов, их

представление
общественности), оформление работы (отчеты,

доклады,
рекомендации, проекты) и внедрение результатов в

практику

включает
итоговую диагностику, обобщение, интерпретацию и оценку результатов,
представление итогового аналитического отчета о проделанной работе,
публикации в педагогической печати, внедренческие документы

10%
времени

учебные
планы, программы, рекомендации, положения

соответствие
поставленной задаче, выводы, представление опыта исследовательской
деятельности общественности

Источники

1.     https://studwood.ru/621937/sotsiologiya/protsedura_issledovaniy

2.     http://fb.ru/article/3804/etapyi-nauchnogo-issledovaniya

3.     https://studfiles.net/preview/6208000/page:2/

4.     http://www.grsmu.by/files/file/university/cafedry/inostrannuh-yazukov/files/sno/etapu-provedeniya.pdf

Когда уместно или необходимо использовать таблицы в исследовании? (цель, особенности, принципы и пр.)

Выполнение исследования предполагает сбор, обработку информации и получение конкретных результатов. Подвергаемых описанию, анализу и на основе которых производится постановка промежуточных и конечных выводов. Одним из атрибутов студенческих и научных работ является таблица.

Когда использование таблиц в научных исследованиях считается уместным?

Каждый автор самостоятельно решает, как он будет подавать обработанную и систематизированную информацию в тексте студенческой или научной работы. Чаще всего авторы выбирают наиболее легкие и посильные для них пути: текстовая подача данных, схематические сведения, таблицы.

Включение в проект таблиц считается уместным, если изложенные в ней сведения сочетаются со структурой работы, содержанием раздела, в которой она находится.

Также использование табличного формата подачи данных считается уместным и целесообразным в проектах технического, экономического, математического, естественно-научного, точного плана, где без расчетов, конкретных деталей и анализа конкретных показателей не обойтись. Исследователю важно предоставить лишь результаты его научной деятельности без подробного описания формул, схемы расчетов и пр. В этом деле на помощь ему приходит упорядоченная таблица, где все сведения будут сгруппированы и поданы в сжатой форме.

В каких случаях авторы используют таблицы в своих исследованиях?

В каких случаях авторы используют таблицы в своих исследованиях?

Включение в текст студенческой или научной работы таблицы будет уместным, если автору предстоит сравнивать несколько или массу факторов при изучении конкретного явления и пр.

Использование табличного формата позволяет выделить следующие моменты и результаты исследовательской деятельности:

  • Отражение числовых или количественных данных, показателей, результатов расчетов или точных математических итогов;
  • Установление и описание причинно-следственных связей, наличие или отсутствие свойств, характеристик, признаков и пр.;
  • Проведение сравнительных операций и установление тенденций: сравнение по принципу текущий показатель – норматив, текущий показатель – базовый показатель, текущие данные – прогнозные значения и пр.;
  • Результаты сравнительного анализа и констатация достоинств и недостатков, сходств и отличий, противоположных черт у объекта и пр.

Уместность применения таблиц в исследовании определяется лично автором, а также характером, структурой и содержанием проекта, спецификой темы и возможностями автора. Если студент или ученый слаб в подготовке таблиц, преобразовании текста в табличный вариант, то ему следует выбрать иные варианты подачи данных: графики, гистограммы, диаграммы, схемы и пр.

Возникли сложности?

Нужна помощь преподавателя?

Мы всегда рады Вам помочь!

В каких случаях использование таблиц в тексте исследования является необходимостью или обязанностью автора?

Несмотря на то, что каждый исследователь или автор студенческих научных работ самостоятельно определяет способ подачи информации, в некоторых случаях он обязан пользоваться табличным форматом.

Когда используют таблицы в исследованиях?

Возможности использования (уместность) таблиц Необходимость использования (обязанность) таблиц Запрет на использование таблиц
По собственному желанию или инициативе исследователя По требованиям ГОСТ, правилам научного руководителя или учебного заведения Согласно правилам и требованиям конкретного издательства
Согласно смыслу контекста, раздела или по логике исследования В зависимости от характера исследования (экономика, физмат и пр.) При дефиците информации или отсутствии связующих элементов, позволяющих обобщить данные или выделить приоритетные факты, тенденции
При объемной подаче информации для конкретизации сути, основной идеи или факта В студенческих работах (согласно методическим рекомендациям и пр.) При отсутствии у исследователя навыков по формированию таблиц или навыков по работе со специальными инструментами и программами

Необходимость включения в текст работы таблиц проявляется в следующих ситуациях:

  • Если к проекту выдвинуты специальные требования по обязательному включению в основную часть изыскания табличного варианта интерпретации данных. С данной обязанностью чаще всего сталкиваются студенты. Именно в студенческих работах важно умело комбинировать различные способы подачи собранных первоисточников. Отсутствие таблиц и графических элементов (то есть описание хода и результатов исследования только посредством текста) чревато снижением итоговой отметки за проект или недопуском к защите;
  • Для оптимизации объема проекта. В данном случае преобразование данных в таблицу способно как уменьшить, так и увеличить объем проекта. В частности, преобразование текстовой информации в табличный формат позволяет выделить суть, ключевые моменты и факты. С другой стороны, под каждой таблицей обязательно должен присутствовать анализ отраженных в ней данных. Данная часть может быть как емкой, так и подробной, добавляющей конкретики и обозначающей роль табличного материала в тексте исследования. То есть использование данного варианта отражения данных способно и сократить, и нарастить общий объем проекта или отдельного ее фрагмента (подпункта, главы и пр.).
  • Для повышения оригинальности текста. Нередко проверка на плагиат выявляет массу сходств, совпадений, копирований чужих работ. Преобразование текста в таблицу – отличный способ переработки первоисточника, гарантирующий оригинальную подачу данных, повышение уникальности текста в целом.
  • Для разнообразия способов подачи информации и подчеркивания умений автора использовать соответствующие приемы, инструменты и пр.

Необходимость использования таблиц чаще всего проявляется в действии соответствующих требований (формальных, основных и пр.). Данный вариант интерпретации данных считается универсальным средством, позволяющих повторно переработать собранные материалы, выделит из них самое важное (суть) и преподнести в предельно простой и ясной форме, без излишеств и лирических отступлений.

Возникли сложности?

Нужна помощь преподавателя?

Мы всегда рады Вам помочь!

В каких случаях применение таблиц в исследовании невозможно?

Формально и в большинстве случаев (на практике) автор самостоятельно выбирает способ визуальной подачи данных в любом проекте. Свободу слова и выбора никто не отменял. Но бывают ситуации, когда включение в текст научного или студенческого исследования таблиц оказывается невозможным.

Потребность во включении в текст любого проекта оказывается непостижимой в следующих случаях:

  • Запрещено правилами подготовки научного исследования. Зачастую такой вариант встречается в требованиях или правил научных изданий при публикации научных статей;
  • При отсутствии достаточных данных для преобразования в новый способ визуализации. В данном случае переработка материалов и их преобразование в таблицу невозможна, если автору не удается грамотно скомпоновать материалы по смысловым блокам, однородным группам для сравнения, отсутствует причинно-следственная или иная связь между рассматриваемыми категориями и понятиями и пр.;
  • У автора недостаточно знаний, навыков и опыта по преобразованию материалов в новый вид, таблицы или отсутствуют умения пользоваться специальными текстовыми редакторами и пр.

Как правило, отсутствие возможностей по использованию в тексте научного или студенческого исследования таблиц – явление крайне редкое.

Принципы построения и использования таблиц в студенческих и научных проектах

Работа с таблицами — дело тонкое и искусное, но в то же время требующее соблюдения конкретных правил и канонов. Именно использование основополагающих принципов при построении табличной интерпретации данных позволяет добиться грамотной и эффективной подачи данных, основной идеи.

Правила построения и использования таблиц в тексте исследований

Правила построения и использования таблиц в тексте исследований

Среди ключевых правил формирования таблиц в тексте изыскания можно выделить:

  • Принцип точности, который предполагает отражение в таблице сугубо точных параметров и значений. Точность затрагивает результаты расчетов, показателей и пр. Данный канон тесным образом пересекается с требованиями однозначности толкования, если в таблице приводятся текстовые данные: они должны подчеркивать особенности, тенденции и не вызывать сомнений, противоречий и пр.;
  • Принцип краткости предполагает, то в таблице все ключевые сведения будут изложены предельно коротко, в простой форме. Как правило, миссия таблицы в контексте любого проекта – упростить отражение результатов исследования и их осознание, восприятие, выделить ключевые моменты, важные и достойные внимания целевой аудитории. Именно в таблице исследователь подчеркивает признаки, симптомы проблемы, ее воздействие, изменение отдельных показателей или значений и пр.;
  • Принцип простоты и ясности. В рамках рассматриваемого способа интерпретации данных важно, чтобы все отмеченные в нем сведения были понятными для пользователей и соответствовали логике исследования: находились в соответствующем разделе, сочетались с темой исследования и его структурой подчеркивали логику или ход изысканий и пр.;
  • Принцип последовательности, который проявляется в том, что все материалы отражаются поэтапно, связанно и отражают конкретный этап или шаг исследовательской деятельности, являясь промежуточным или конечным результатом и пр. Обратите внимание, что в одной таблице могут отражаться результаты различных мероприятий и этапов студенческого или научного изыскания, но все они в единой связке помогут сформировать общую «картину мира», понять суть и найти достойный способ решения исследуемой проблемы;
  • Принцип смысловой насыщенности (однородности) или логичности. Формирование таблицы без выделения однородности или конкретных признаков, на основе которых можно объединить данные, сократить их визуально и пр. В таблице каждый элемент призван отметит конкретное изменение, особенность, ориентированную на изучение одного и того же момента (проблемы) и пр.
  • Принцип аналогии. Данный канон проявляется в том, что сведения в таблице и ее анализе должны быть идентичными и непротиворечивыми, то есть совпадать по точности, логичности и характеру;
  • Принцип оригинальности проявляется в том, что таблицы позволяют повысить уникальность текста и исследования в целом посредством вторичной или дотошной переработки текста. Исследователям редко удается найти готовую таблицу (согласно теме исследования, располагаемой информационной базе и пр.), поэтому чаще всего как минимум ее наполнение является оригинальным (учитывающим специфику доказательств и результатов исследования, умения автора и пр.).;
  • Принцип визуализации. Данный постулат призван грамотно, ясно и изящно преподнести ключевые факты и моменты исследования, отлично от традиционной текстовой структуры. Таблица визуально преображает монотонный текст и привносит в него некую «изюминку», миниатюрность и изящность. Также данный канон переплетается с правилом четкости, который предполагает, что все сведения, границы будут яркими, заметными, ограниченными (очерченными).

Обратите внимание, что каждый из вышеупомянутых принципов подчеркивает специфику и функционал таблиц. Притом избежать их применения при подготовке соответствующего вида интерпретации материалов просто невозможно.

Возникли сложности?

Нужна помощь преподавателя?

Мы всегда рады Вам помочь!

Роль таблиц в научных и студенческих исследованиях

Выполнение научного исследования сводится к изучению выбранной темы, проведению «собственного расследования» или эксперимента, а затем его емкого и поэтапного описания посредством комбинации текста и графических элементов, таблиц и пр.

Миссия таблиц в научном или студенческом исследовании неоднозначна. С одной стороны, она позволяет повторно проанализировать полученные результаты и грамотно их преподнести, скрыть недостатки в проекте, визуально изменить объем текста (увеличить или уменьшить), нарастить оригинальность текста легальным и оправданным способом.

Миссия применения таблиц в тексте исследований

Миссия применения таблиц в тексте исследований

Использование таблиц в научно-исследовательских работах – способ грамотной и эффективной систематизации данных, упорядочивания и осмысленности каждого шага изыскания и его емкого, но взвешенного отражения с учетом критерия важности и значимости.

Некоторые студенческие и научные работы невозможно представить без табличной визуализации материалов. К таким специфичным отраслям народного хозяйства относят экономику, физику, математику, инженерию, частично естественные науки и пр. В данном случае применение таблиц позволяет оптимизировать состав изыскания и корректно отметить результаты научной мысли, обосновать авторскую позицию и оправдать (доказать) состоятельность предлагаемых решений.

Миссия применения таблиц в студенческих и научных проектах – выделить суть, проблему, обосновать ее и показать ее воздействие на объект. Таблица позволяет емко и кратко отметить выявленные тенденции и обосновать их с научной и практической точки зрения.

Включить табличный формат в текст изыскания еще недостаточно для того, чтобы подчеркнуть умения автора по работе с информацией. Для работы с таблицами важно хорошо разбираться в соответствующих инструментах и графических, текстовых редакторах, уметь подбирать заглавия отдельным составляющим (точно, емко и пр.). В данном случае необходимо учесть формальные требования по их оформлению, о которых мы писали в одной из наших статей ранее.

Обратите внимание, что рассматриваемый способ подачи данных используется не только при оформлении основной части изыскания. Он распространён при подготовке дополнительных документов, необходимых для защиты: презентация, раздаточный материал рецензия, отзыв и пр. Именно таблицу кладут в основу указанных документов, так как она позволяет четко и емко выразить суть, отметить ключевые параметры и качество исследования.

С этим графическим элементом нередко возникают проблемы у студентов, но при желании каждый из них может легко их преодолеть. Главное, разобраться в правилах его формирования, составных элементах (столбец, строка, графа, ячейка, заголовок, наименование пунктов и пр.) и корректно их преподнести, оформить.

Таким образом, включение табличных данных в текст студенческой и научной работы может быть как инициативой, так и обязанностью автора. При задействовании данного варианта интерпретации сведений важно учитывать общие правила ее формирования и оформления, умело преобразовывать текст в новый вид.

Советы по эффективному использованию таблиц и рисунков в исследовательских работах

Ключевые аспекты:

  • Таблицы и рисунки являются отличными инструментами для презентации значительных объёмов сложных данных в компактном и простом для понимания виде.
  • На выбор формы презентации (таблица, рисунок или текст) влияет тип данных, которые Вы хотите представить, и рекомендации журнала.
  • Непременно следуйте этим рекомендациям при оформлении таблиц, рисунков и заголовков, обращайте внимание на формат символов, а также на репрезентативность и визуальную привлекательность рисунка.

Введение.

В целом ряде исследований, руководств журналов и дискурсов по научному письму подтверждается важная роль таблиц, рисунков и графиков в повышении качества рукописи. Использование таблиц и графиков для представления объёмных цифровых или статистических данных позволяет эффективно использовать время и пространство. Читатели часто отдают предпочтение таблицам и рисункам, так как считают их легче для восприятия. Они справедливо полагают, что подобная форма презентации материала обеспечивает возможность проанализировать больший объём информации за более короткий промежуток времени.

На этапе рецензирования рукописи данные элементы отображения информации позволяют рецензентам и редакторам журналов быстро изучить результаты исследования, а после публикации работы читателям также предоставляется подобная возможность, так как многие обращают внимание именно на данные элементы, а не на всю работу. Однако таблицы и рисунки увеличивают ценность исследовательской работы только в случае их компактности и информативности.

Данные визуальные элементы: помогают авторам чётко и кратко презентовать подробные результаты и сложные взаимосвязи, модели и тенденции; позволяют сократить длину работы; улучшают понимание читателями результатов исследования. Таким образом, эти инструменты являются неотъемлемой частью исследовательской работы, так как, в случае их грамотного применения, способствуют восприятию и верной интерпретации результатов исследования.

Грамотно представленные таблицы и рисунки в исследовательских работах помогают эффективно представить информацию, в то время как плохо составленные таблицы и рисунки могут сбить читателей с толку и снизить эффективность публикации. В настоящем материале представлены некоторые важные рекомендации по эффективному использованию таблиц и рисунков в научных работах.

1. Планирование работы: когда использовать таблицы и рисунки в научных работах

Создание эффективных таблиц и рисунков требует тщательного планирования, которое начинается на стадии написания рукописи. Как это сделать:

  • Во-первых, следует ознакомиться с требованиями целевого журнала. Некоторые журналы ограничивают количество таблиц и рисунков, а также дают конкретные рекомендации по их оформлению.
  • Затем необходимо решить, следует ли использовать таблицы, рисунки или текст для передачи ключевой информации (см. таблицу 1).
  • После выбора элемента отображения нужно определиться с вариантом, соответствующим вашим целям, в зависимости от того, какую информацию Вы бы хотели донести до читателя (см. таблицу 1).
  • И наконец, следует неукоснительно соблюдать рекомендации, изложенные во втором подразделе настоящего материала, ознакомиться с примерами, представленными в третьем и четвёртом его подразделах, чтобы убедиться, что ваши таблицы и рисунки составлены правильно.

Таблица 1 – Как выбирать между таблицей, рисунком и текстом для презентации данных

Таблицы Изображения Текст
Презентация большого количества числовых значений и других данных на небольшом пространстве Демонстрация тенденций, моделей, связей между данными, в случаях, когда модель важнее точных значений данных (используются графики) Обширные или сложные данные
Сравнение и сопоставление значений или характеристик взаимосвязанных элементов или элементов с несколькими общими характеристиками Подвести итоги исследования (используются графики, графики данных, карты и круговые диаграммы) Для того чтобы представить данные в виде таблицы, потребуется меньше 2 столбцов
Демонстрация наличия или отсутствия специфических характеристик Визуальное объяснение последовательности событий, процедур, географических особенностей или физических характеристик (используются блок-схемы, изображения, фотографии и карты) Данные являются второстепенными для исследования или не имеют отношения к основным результатам исследования

2. Принципы использования таблиц и рисунков в исследовательских работах

Основные принципы:

  1. Убедитесь, что отображаемые элементы не требуют дополнительных пояснений: некоторые читатели (и конечно, рецензенты и редакторы журналов) в первую очередь обращаются к таблицам и рисункам, поэтому данные элементы должны содержать всю необходимую информацию, быть автономными.
  2. Ссылайтесь, но не повторяйте: используйте текст, чтобы привлечь внимание читателя к значению и ключевым моментам таблицы / рисунка, но не повторяйте детали. Так, например, Вы можете обратить внимание на основные выводы (например: «Мы обнаружили, что лечение было эффективным только в 24% случаев, как показано на рисунке 1»). Но не следует повторять точные значения (например, «Как показано в таблице 2, 32% испытуемых выбрали вариант 1, 12% – вариант 2, 10% – вариант 3 и 46% выбрали вариант 4»). Это противоречит цели использования таблиц (эффективность и ясность).
  3. Будьте последовательны: убедитесь, что значения или детали в таблице (например, аббревиатуры, названия групп, названия процедур) совпадают с текстом.
  4. Давайте чёткие, информативные заголовки: названия таблиц и рисунков не должны быть расплывчатыми, но должны кратко описывать назначение или содержание таблицы / рисунка. В идеале, они должны привлекать внимание читателя к тому, что Вы хотите выделить (например: «Преимущества и недостатки использования терапии сна у пациентов, страдающих шизофренией»). Также убедитесь, что заголовки столбцов, оси, цифры и т. д. маркированы чётко и надлежащим образом.
  5. Следуйте рекомендациям журнала: выясните требования целевого журнала касательно количества таблиц и рисунков, стиля нумерации, заголовков, разрешения изображений, формата файлов и т. д.

Рекомендации касательно применения таблиц:

  1. Объедините повторяющиеся таблицы: таблицы и рисунки, представляющие повторяющуюся информацию, могут отрицательно сказаться на впечатлении от вашей работы. Изучите названия всех использованных таблиц и рисунков и проверьте, не представлена ли в них идентичная информация. Если это произошло, следует переосмыслить презентацию и объединить или удалить таблицы / графики.
  2. Разделите данные: при представлении больших объёмов информации следует разделить данные на категории и представить их в отдельных колонках, озаглавив точно и информативно.
  3. Проанализируйте объём данных в таблицах. Если они слишком обширные и могут привести к тому, что таблицы будут слишком громоздкими или длинными, рассмотрите возможность включения таблиц в Приложения к исследованию.
  4. Отформатируйте таблицу: убедитесь в том, что между столбцами и строками имеется достаточный интервал и таблица не выглядит слишком неряшливой или перегруженной.

Рекомендации касательно графиков и изображений:

  1. Чёткость изображения: убедитесь в том, что все элементы рисунка чёткие; используйте стандартный шрифт; надписи должны читаться на фоне рисунка.
  2. Используйте условные обозначения, чтобы представить основную информацию. Условные обозначения имеют решающее значение для эффективности восприятия. Они помогут привлечь внимание к основной информации, а также объяснить аббревиатуры и символы.
  3. Маркируйте все важные элементы: ключевые разделы и части диаграмм и изображений, а также все оси, кривые и данные.
  4. Используйте детали: включите масштабные полосы в изображения и карты; укажите единицы измерения; включите условные обозначения в карты и схемы; укажите широту и долготу на картах.

3. Примеры грамотно подготовленных таблиц и рисунков

В данном подразделе представлены примеры грамотно подготовленной таблицы и изображения.

Приведённая ниже таблица взята из исследования диеты золотоволосых пингвинов, выращивающих птенцов, и является примером эффективной таблицы по нижеследующим причинам.

Таблица 2 – Состав пищи желудка, потребляемой золотоволосыми пингвинами во время выращивание птенцов (на основе общей влажной массы всех образцов)
Всего
(n = 53)
a
Органические кислоты (n = 35) Потомство
(n = 18)
г % г % г %
Ракообразные 2760,3 69 2169,7 83 590,6 43
Рыба 884,2 22 424,5 16 459,7 33
Мормыш 327,4 8 6,8 <1 320,6 23
Головоногий моллюск 10,9 <1 1,0 <1 9,9 1
Всего 3982,8 100 2602,0 100 1380,8 100
a Данные по массе и составу содержимого желудка у отдельных птиц приведены в таблице 52 DOI: 10.1371 / journal.pone.0000831.t002.
  1. Название чётко описывает, о чём идёт речь в таблице.
  2. Заголовки столбцов носят описательный характер и дают чёткое представление о данных.
  3. Для наглядности данные разбиты на категории.
  4. Даже без обращения к тексту статьи, таблица вполне понятна, так как содержит всю необходимую информацию.
  5. Использованы надписи и примечания, предоставляющие дополнительную информацию.
  6. Между столбцами и строками достаточное расстояние; расположение понятное, а шрифт разборчивый.

4. Примеры грамотно подготовленных графиков

В графике из статьи об эффективности устричных рифов в качестве естественных волнорезов учтены следующие моменты:

1.Информативный заголовок, дающий представление об информации на графике.

2.Оси чётко обозначены.

3.Чётко видно, что означает каждый элемент на графике.

4.Условные обозначения привлекают внимание читателя к ключевым моментам графика.

5.Примечание со ссылкой на источник.

6.График двухкоординатный, чёткий.

Заключение

Рисунки, таблицы, и графики являются инструментами коммуникации, которые делают работу профессиональной, привлекают и поддерживают интерес читателей. Также они помогают эффективно презентовать большие объёмы сложной информации. Более того, важность графических средств предоставления информации сложно переоценить в связи с тем, что большинство редакторов и рецензентов журналов начинают анализ работы именно с них.

ОСНОВНЫЕ ИНСТРУМЕНТЫ КЛИЕНТОЦЕНТРИЧНОГО ПОДХОДА

Автор раздела:
Паратунов М. В.

ОСНОВНЫЕ ИНСТРУМЕНТЫ КЛИЕНТОЦЕН-ТРИЧНОГО ПОДХОДА

5.2 ЭТАП ИССЛЕДОВАНИЯ

  • Характеристика этапа исследования

  • Кабинетные исследования

  • Анализ трендов

  • Скрытое наблюдение за объектом

  • День с пользователем

  • Мобильная этнография

В разделе дана краткая характеристика этапа исследования. Подробно описаны кабинетные исследования, анализ трендов, скрытое наблюдение за объектом, «день с пользователем» и мобильная этнография — инструменты, которые удобно использовать для сбора данных.

5.2.1 Характеристика этапа исследования

На этапе исследования собираются данные двух видов — первичные и вторичные.

Первичные данные — данные, которые исследователь собирает впервые, непосредственно от пользователей в режиме прямых наблюдений или интервью.

Вторичные данные — данные, которые ранее уже были собраны в ходе других исследований и могут быть применены в целях текущего исследования.

Исследование удобно начинать со сбора вторичных данных. Это позволит исследователю погрузиться в проблему и корректно сформулировать задачу для сбора первичных данных. К тому же в эпоху информатизации этот ресурс более доступен, поскольку есть открытые данные статистических исследований и отчетов, анализ научных публикаций, отзывов пользователей в социальных сетях и т. д.

Сбор данных первичных исследований данных начинается в процессе наблюдения за пользователем, его поведением в ситуациях взаимодействия с продуктом или сервисом или в тех ситуациях, когда он испытывает потребность в продукте или сервисе. Для наблюдения можно использовать различные инструменты: скрытое или открытое наблюдение, единичное и массовое наблюдение. Одной из разновидностей наблюдения является самонаблюдение — автоэтнография (подробнее см. приложение А). Здесь сам исследователь может пройти путь пользователя и представить, что с аналогичными проблемами столкнулся он сам. Логичным продолжением этого этапа является прямое общение с пользователем в контексте данного исследования в формате глубинных интервью или фокус-групп.

Кроме указанных ниже инструментов, на данном этапе можно использовать инструменты «дневник пользователя» и «история пользователя» (подробнее см. приложение А).

По окончании этапа исследования проектная команда должна получить набор первоначальных проблемных гипотез, найденных во вторичных данных или сформулированных самостоятельно. Это описания проблемы, отвечающие на вопросы: что происходит? почему это происходит?

5.2.2 Кабинетные исследования

Кабинетные исследования — метод сбора вторичных данных с помощью поиска, обзора и обобщения результатов существующих исследований. Такой сбор всегда является отправной точкой исследовательского процесса. Собираемые в ходе таких исследований вторичные данные могут быть как качественными, так и количественными, включая отчеты об изучении рынка, данные о клиентах, научные исследования и т. д. Вторичные данные могут быть получены как из внешних источников (научных статей, официальных документов и отчетов), так и из внутренних источников, если подобные исследования уже проводились в организации. Чтобы выполнить кабинетное исследование, надо провести поиск по конкретной теме или вопросу, используя поисковые системы в интернете, исследовательские платформы, базы данных, научные журналы, библиотеки, конференции и т. п.

кабинетное исследование позволяет убедиться, существуют ли исследования по данной теме, точнее сформулировать вопрос исследования и определить наиболее перспективные методы сбора данных. Особенности кабинетных исследований приведены в таблице 3.

Таблица 3
Преимущества и ограничения кабинетных исследований

Продолжительность

от 1 до 3 дней.

Необходимый навык

умение искать и анализировать информацию.

Необходимые ресурсы

офисное программное обеспечение, доступ к источникам и базам данных, к интернету.

Подготовка

выделить необходимое время для проведения исследования.

Определите вопрос или тему исследования. Подумайте, почему вы проводите исследование и как вы собираетесь использовать его результаты.

Составьте список потенциальных внутренних и внешних источников. Если в организации нет системы управления знаниями, вам необходимо найти внутренних экспертов, которые владеют необходимой информацией (например, профильный специалист из отдела исследований рынка).

Оцените достоверность источников. Попытайтесь оценить достоверность каждого потенциального источника, например, рецензируемый академический журнал более надежен, чем новостное СМИ. Ранжируйте ваши потенциальные источники в соответствии с их надежностью и приблизительно определите, сколько времени вы потратите на поиск по каждому источнику.

Проведите скрининг источников, отбирая интересные ссылки. Выделите определенный временной интервал для скрининга (например, один час). Если вы найдете важную информацию или другие потенциально интересные источники или ссылки, отложите их для последующего более глубокого изучения.

Проведите углубленный поиск. Просмотрите список, который вы создали во время скрининга, и изучите потенциально интересную информацию более подробно. Прочитайте статьи, разберитесь в статистике. Проверьте источники, использованные в статьях. Попробуйте найти базовое исследование.

Анализ полученных данных

сделайте резюме по проведенному исследованию. Оно может быть в виде формального отчета или в виде схемы, презентации, инфографики.

Результат

план следующего исследования, статистика.

Следующий шаг

сбор первичных данных.

5.2.3 Анализ трендов

Анализ трендов (трендмэппинг, трендвочинг) — это анализ существующих тенденций и направлений развития сервисов, дизайна, общества в целом.

данные, полученные с помощью этого инструмента, позволяют команде не изобретать велосипед и ускорить процессы генерации продуктовых гипотез, приняв решения, отвечающие современным реалиям и лучшим практикам в данной области. Анализ трендов необходим, если проект предполагает финансовые затраты или его результаты очень значимы, когда поверхностный анализ трендов или его отсутствие может привести к имитации творческой активности и потере вложенных денег. Инструмент можно не использовать, если проектируется продукт или сервис для ограниченного или временного использования и следование трендам не имеет большого значения. Особенности использования анализа трендов приведены в таблице 4.

Анализ трендов рекомендуется применять на стадии подготовки идей, перед созданием гипотезы.

Таблица 4
Преимущества и ограничения анализа трендов

Продолжительность

поиск трендов — от одного до трех дней; групповая обработка материалов — один-три часа.

Необходимый навык

умение искать и анализировать информацию.

Необходимые ресурсы

интернет, офисное программное обеспечение, два больших листа, стикеры, фломастеры.

Подготовка

провести вводную встречу исследовательской группы с обсуждением и распределением задач.

Составьте матрицу тренда. Для этого выделите в сервисе, который вы будете проектировать, отдельные этапы или элементы и нарисуйте простую таблицу (таблица 5).

Таблица 5
Пример матрицы тренда при проектировании государственной услуги

Создайте выборку трендов. Используйте в качестве источников информации:

  • маркетинговые материалы рыночных конкурентов;
  • отчеты отраслевых аналитиков;
  • внутренний конкурентный анализ рынка;
  • официальную документацию;
  • научные исследования и кейсы бизнес-школ;
  • интервью с экспертами отрасли.

Кемпкенс О. Дизайн-мышление. Все инструменты в одной книге. М.: Эксмо, 2019.

запишите на стикерах тренды, которые, по вашему мнению, влияют на развитие данного продукта или сервиса

сгруппируйте стикеры по темам, разделите детали сервиса и другие интересные и важные направления, которые вы хотите проработать

обоснуйте выделение трендов, распределите все стикеры по трендам и сформируйте карту трендов (пример карты трендов представлен на рисунке 8).

Рисунок 8
Карта трендов

Вместе с коллегами по команде выберите наиболее очевидные тренды, которые чаще всего встречаются в источниках и в реальных ситуациях.

Можно попросить каждого участника отметить маркером те тренды, которые он считает наиболее значимыми. Таким образом вы определите самые популярные тренды. Дайте им название, например: «менеджмент», «информирование клиента», «взаимодействие с клиентом», «дизайн» и т. д.

Вместе с коллегами по команде выберите наиболее очевидные тренды, которые чаще всего встречаются в источниках и в реальных ситуациях.

Примеры вопросов для дискуссии:

Что нового вы узнали?
Что можно назвать ключевыми проблемами?
Как бы вы могли использовать идеи, которые у вас возникли при анализе карты трендов?

Запишите на стикерах все идеи по поводу изучаемой проблемы, возникшие в процессе анализа трендов. Сфотографируйте карту трендов и сделайте ее электронный вариант.

Результат

«погружение» в проблему, получение всей доступной информации для осмысления, формирования гипотез и планирования дальнейших исследований.

Следующий шаг

сбор первичных данных с помощью инструментов наблюдения.

При разработке чат-бота для службы занятости карта трендов использовалась в урезанном формате: команда своими силами оценила востребованность инструмента и его соответствие целевой аудитории (рисунок 9).

Чат-боты все реже используются на сайтах, зато в мессенджерах они достаточно популярны. Было решено ограничиться чат-ботом в Telegram и в дальнейшем, возможно, использовать его в других каналах.

Поиск в Google показал, что в России службы занятости редко используют чат-боты. Для создания чат-ботов есть готовые инструменты, шаблоны. Со временем как инструмент они переходят в категорию привычного («все так делают»). Значит, можно рассчитывать на одобрение аудитории небольшого города.

Михаил и Екатерина провели небольшое исследование на основе открытых данных о рождаемости в регионе за последние 10 лет. Выяснили, что рождаемость растет на 3–5% ежегодно, при этом безработица тоже увеличивается, в возрасте 18-64 лет 54% жителей составляют женщины, из них 40% в возрасте 18-35 лет.

Рисунок 9
Основные факты о чат-ботах на старте исследования

5.2.4 Скрытое наблюдение за объектом

Скрытое наблюдение за объектом (shadowing) — инструмент для фиксации естественных действий пользователя в конкретной жизненной ситуации.

скрытое наблюдение помогает понять мотивы поведения людей, их действия в привычных условиях жизни. Исследователь получает возможность объективно подойти к анализу проблемы и увидеть, каким образом пользователь решает ту или иную задачу. При разработке государственных продуктов или сервисов для граждан удобно пользоваться скрытым наблюдением во всех ситуациях, когда гражданин контактирует со служащим органа власти или сотрудником МФЦ. Инструмент поможет, в частности, увидеть недостатки и пробелы в должностных инструкциях и в организации процесса. Особенности использования cкрытого наблюдения за объектом приведены в таблице 6.

Скрытое наблюдение рекомендуется применять в начале разработки продукта или сервиса, когда стоит задача детально изучить контекст проблемы и оценить процессы.

Таблица 6
Преимущества и ограничения скрытого наблюдения за объектом

Продолжительность

от 15 мин до нескольких недель в зависимости от задач.

Необходимый навык

умение наблюдать и точно фиксировать результаты наблюдения.

Необходимые ресурсы

диктофон, фотоаппарат, видеокамера, ручка, блокнот.

Подготовка

  • сформулировать задачу исследования;
  • определить объект, место наблюдения и ситуацию наблюдения;
  • поставить задачу рабочей группе.

Задачи: «Определить основные этапы получения пользователем услуги «Х»», «Посмотреть, как пользователь получает услугу «Х»».

Займите место для наблюдения

Наблюдение необходимо проводить скрыто, так как в ином случае пользователь может сознательно или бессознательно корректировать свое поведение, стремясь соответствовать социальным нормам.

Наблюдайте за пользователями.

Фиксируйте все, что видите, в хронологическом порядке с помощью записей, фото и видео. Сделайте фотографии места, клиентов, сотрудников, точек взаимодействия пользователей с продуктом или сервисом и других деталей процесса.

Рекомендуется фиксировать любую информацию. В некоторых ситуациях даже шум и звуки на заднем фоне могут быть полезны для понимания происходящего.

Для получения наиболее полной картины исследования одно и то же место наблюдения желательно посетить в разные часы суток или в разные дни недели.

В рамках исследования было проведено скрытое наблюдение за работой одного из отделов миграционной службы Москвы. В ходе наблюдения выяснилось, что интерфейс системы «Контингент» создавал дополнительные трудности. Иностранные фамилии нужно вносить в базу кириллицей. Алгоритм предлагает варианты, но он неточен и ошибается, а поле в программе отредактировать невозможно без дополнительных манипуляций. Операционисту было сложно выполнять свои обязанности, потому что регулярно звонил телефон, и начальник регулярно вызывал сотрудника в качестве эксперта.

В итоге сотрудник тратит больше времени на выполнение работы. Из-за того что его постоянно отвлекают, растет вероятность ошибок.

Анализ полученных данных

для анализа данных используйте шаблоны, например шаблон «Что? Как? Почему?» (см. приложение А) или шаблон для наблюдений (см. рисунки 10, 11).

Наблюдение можно дополнить другими методами, например интервью. Интервью следует провести отдельно от наблюдения, чтобы не нарушить эффекта скрытности. Попросите участников рассказать о том, как они ведут себя на рабочем месте, каковы их мотивы, нужды, «боль» и т.д.

Результат

понимание реальных проблем и действий пользователя в местах получения услуги, сервиса или продукта.

Следующий шаг

использование результатов исследования для построения маршрута пользователя (см. раздел 5.4.5).

Виктория, руководитель отдела, имела опыт проведения исследований на предыдущем месте работы, поэтому ее привлекли к участию в исследовании по разработке чат-бота. В течение трех дней она выходила в зал службы занятости, чтобы незаметно понаблюдать за клиентами — пятью женщинами от 20 до 35–40 лет (на вид). В этом исследовании организаторы решили изучить часть интересующих вопросов:

• Насколько востребованы у посетителей из целевой группы информационные материалы, которые уже есть в зале?

• Насколько легко выяснить, к какому сотруднику в зале обращаться, при первом визите?

• Все ли необходимые документы приносят посетители при первом визите?

Свои наблюдения Виктория фиксировала в бланке, составленном заранее. Затем основные результаты она свела в таблицу 7.

Таблица 7
Основные результаты скрытого наблюдения

Вопрос исследователей Объект наблюдения
1 2 3 4 5
Насколько быстро клиент выясняет, какой сотрудник ему нужен? (мин.) 3 6 15 2 6
Сколько времени клиент проведет перед информационным стендом? (мин.) 1 10 2 0 15
Сколько времени клиент изучает стенд? (мин.) Не заинтересовалась Читала два документа, остальные оглядела Почти не читала, сделала фото контактов Окинула взглядом, не читала. Не заинтересовалась Рассматривала почти все документы, но каждый недолго
Возьмет ли клиент брошюры и какие именно? Не заинтересовалась 5 мин изучала брошюры, взяла с собой 3 из тех, которые не читала Увидела их, не заинтересовалась 10 мин изучала брошюры, взяла с собой 3 шт. 12 мин изучала брошюры, не взяла с собой
Обратится ли клиент за помощью к администратору и какое настроение у клиента будет после общения с сотрудником? Обратилась, в течение 8 мин задавала вопросы, слушала. Позитивное настроение Не обращалась Говорила мало, ушла через 1 мин. напряженной. Настроение нормальное Говорила мало, ушла через 1 мин. Настроение нормальное Не обращалась к администратору. Обращалась за помощью к другим соискателям в зале
Насколько легко пользоваться автоматом электронной очереди? Легко. Быстро получила талон Легко. Быстро получила талон Легко. Быстро получила талон Легко. Быстро получила талон Долго выбирала подходящую опцию
Принес ли клиент с собой документы и какие именно? Многие, но не все необходимые документы Паспорт, диплом и трудовую книжку Все необходимые документы в наличии Только паспорт и трудовую книжку Все необходимые документы
Выводы наблюдения Информационный стенд сильно перегружен информацией, посетителям сложно сориентироваться в ней самостоятельно
Брошюры привлекательны для части аудитории, упрощают фильтрацию информации по принципу «заинтересовала — не заинтересовала тема»
Проактивность администратора ниже среднего. Он предоставляет информацию по запросу, не может сориентировать человека, если тот сам еще не знает, чего хочет

5.2.5 День с пользователем

День с пользователем— это разновидность наблюдения, когда исследователь открыто участвует в жизни пользователя, фиксирует его поведение. Исследователь может выступать в роли стажера или просто работать рядом с пользователем в течение нескольких дней. Он буквально заглядывает через плечо пользователю, чтобы видеть, что и как он делает, с кем и как взаимодействует. В процессе работы исследователь часто переходит от пассивного наблюдения к активной постановке вопросов, чтобы лучше понять потребности пользователя. Дополнительно исследователь может собирать артефакты: инструкции, внутренние документы, каталоги, электронные письма, стенограммы и т. п.

день с пользователем дает хороший материал для моделирования персоны (см. раздел 5.4.4), позволяет охватить наиболее широкий контекст, в котором проявляются потребности пользователя в течение определенного промежутка времени, от нескольких часов до нескольких дней. Часто исследование предполагает визуализацию маршрута пользователя (см. раздел 5.4.5), чтобы показать действия клиента на временной шкале или в виде системной карты с целью определить заинтересованных лиц, с которыми клиент взаимодействует в течение дня. Исследователь сосредотачивается на привычных действиях, ритуалах, особенностях поведения пользователя, окружающей среде, взаимодействии и разговорах, на предметах, которые клиент использует в течение дня. Особенности использования инструмента «День с пользователем» приведены в таблице 8).

Таблица 8
Преимущества и ограничения инструмента «День с пользователем»

Продолжительность

от 2 ч до 8 недель в зависимости от количества пользователей и количества фиксируемых данных.

Необходимые ресурсы

записная книжка, смартфон с камерой, диктофон, юридические соглашения (о согласии и/или конфиденциальности). Минимум один, а лучше 2–3 исследователя или фасилитатора.

Охват

от 5 до 20 участников.

Необходимый навык

умение наблюдать и фиксировать результаты наблюдения.

Подготовка

  • сформулировать вопрос для исследования;
  • определить объем выборки;
  • определить методы набора участников (с помощью внутренних экспертов или профильного агентства), пригласить участников;
  • сформулировать задание для участников (оно должно быть кратким и понятным);
  • определить способ фиксации результатов наблюдения (запись от руки или набор текста на электронном носителе, запись голоса, фотографии или видео);
  • проверить, существуют ли какие-либо правовые ограничения для фотографирования или видеосъемки, нужно ли подписывать с участниками согласие об использовании персональных данных или соглашение о конфиденциальности.

Установите доверительные отношения с пользователем.

Начните наблюдение, находясь настолько близко, насколько это необходимо, старайтесь как можно меньше влиять на поведение пользователя.

Сочетайте наблюдение с другими методами, допустимо проводить контекстные или ретроспективные интервью. Используйте ситуационный контекст и попросите пользователя объяснить его конкретные действия, артефакты, мотивацию, потребности, проблемы или выгоды. Иногда разница между тем, что люди говорят, и тем, что они делают, может быть очень показательна.

Ведите записи установленным способом (записи вручную, набор текста на электронном носителе, запись голоса, фотографии, видео), собирайте документы и артефакты.

Если пользователь передает или получает информацию, фиксируйте, какие каналы он при этом использует, и попробуйте выяснить, почему он предпочитает определенный канал другим.

Сразу после окончания наблюдения зафиксируйте свои индивидуальные выводы, выделите главное.

Составьте краткое резюме, которое включает основные выводы, а также необработанные данные, например цитаты, фотографии или видео.

Сравните свои данные и выводы с данными и выводами других наблюдателей.

Результат

полное, комплексное представление об опыте пользователя.

В течение недели Ольга сопровождала четырех женщин из целевой группы, каждая из которых посещала службу занятости впервые. Она записывала свои наблюдения в бланк, разработанный заранее (рисунок 12).В основном она фиксировала, как посетительницы изучают информацию в службе занятости и как много они пользуются мобильными устройствами.

Инструмент «День с пользователем» использовался в сочетании с инструментом «Мобильная этнография». После визита в службу занятости Ольга проводила глубинное интервью с каждой из посетительниц — участниц наблюдения.

Рисунок 12
Бланк инструмента «День с пользователем»

5.2.6 Мобильная этнография

Мобильная этнография — инструмент сбора пользовательских данных, когда исследователь или сам клиент записывает все свои действия с помощью смартфона. Для этого подойдут фото, видео, посты в соцсетях, реплики в мессенджерах, фиксируются метаданные о времени и месте. С помощью этих данных опыт конкретного участника исследования может быть визуализирован в виде маршрута пользователя (см. раздел 5.4.5).

мобильная этнография позволяет проводить массовое исследование с участием десятков и сотен пользователей продукта или услуги. Пользователи-участники становятся активными исследователями, документируя все, что они сами считают важным. Инструмент хорошо подходит для длительных исследований в течение одного или нескольких дней. Мобильная этнография хорошо сочетается с глубинным интервью (см. раздел 5.3.3), когда исследователи совместно с пользователями просматривают полученные данные, уточняя, что имели в виду пользователи и почему они выбрали то, что они задокументировали. Особенности использования инструмента «Мобильная этнография» приведены в таблице 9.

Таблица 9
Преимущества и ограничения инструмента «Мобильная этнография»

Продолжительность

от 2 ч до нескольких недель в зависимости от задач.

Охват

от 5 до 20 участников.

Необходимые ресурсы

смартфон, компьютер для обработки данных, иногда юридические соглашения (о согласии и/или конфиденциальности). Минимум один, а лучше 2–3 исследователя или фасилитатора.

Необходимые навыки

уверенные навыки работы с мобильным устройством.

Подготовка

  • сформулировать вопрос для исследования;
  • определить объем выборки;
  • определить методы набора участников (с помощью внутренних экспертов или внешних агентств), пригласить участников;
  • при необходимости разбить участников на группы, различающиеся по профилю деятельности;
  • сформулировать задание для участников (краткое и понятное);
  • проверить, существуют ли какие-либо правовые ограничения для фотографирования или видеосъемки, нужно ли подписывать с участниками согласие об использовании персональных данных или соглашение о конфиденциальности;
  • выбрать и настроить программное обеспечение.

Начните сбор данных, поступающих от участников в режиме реального времени.

Кодифицируйте поступающие данные, помечая их, например, как текстовые описания или как карту путешествия.

Управляйте ходом исследования с помощью push-уведомлений. Например, вы можете направлять напоминания участникам каждое утро, или после определенных событий, или всякий раз, когда вам необходимо уточнение данных.

Договоритесь с участниками о точном времени окончания сбора данных.

Просмотрите полученные данные и попытайтесь найти закономерности.

Если возможно, проведите краткие собеседования с участниками для углубленного изучения основного вопроса.

Используйте параметры сортировки и фильтрации для поиска проблем внутри разных групп на основе их профилей.

Составьте резюме, которое включает основные выводы, а также необработанные данные, например цитаты, фотографии или видео.

Результат

быстрое получение информации о типичном и особенном в поведении пользователей.

Следующий шаг

создание маршрута пользователя (см. раздел 5.4.5) для каждой группы участников.

Команда использовала бесплатные приложения для смартфона: шагомер (рисунок 13), секундомер (рисунок 14), камеру.

На входе в здание участницы исследования включали секундомер и шагомер, предварительно обнулив счетчик для точности подсчета. Все необходимые документы и места с информацией они фотографировали по пути. Информация о времени на каждом этапе вошла в результаты исследования «День с пользователем».

Рисунок 13
Шагомер

Рисунок 14
Секундомер

HR-Инструменты Учебник по STATISTICA

  • Вводный
    обзор
  • Таблицы
    частот
  • Таблицы
    сопряженности и таблицы флагов и заголовков
  • Таблицы
    флагов и заголовков
  • Статистики
    таблиц сопряженности
  • Статистики,
    основанные на рангах
  • Многомерные
    отклики и дихотомии
  • Многомерные
    отклики
  • Многомерные
    дихотомии
  • Кросстабуляция
    многомерных откликов и дихотомий
  • Парная
    кросстабуляция переменных с многомерными откликами
  • Средства
    построения таблиц системы STATISTICA.
  • Таблицы
    частот
  • Таблицы
    сопряженности и таблицы флагов и заголовков
  • Многомерные
    отклики и дихотомии
  • Примеры
  • Пример
    1. Таблицы частот
  • Пример
    2. Таблицы флагов и заголовков
  • Пример
    3. Таблицы сопряженности
  • Пример
    4. Табулирование многомерных откликов и дихотомий
  • Пример
    (анализ продаж)


Вводный обзор


Одним из первых шагов анализа является табуляция данных. Табуляция данных может быть очень изощренной, например, как в показанной выше таблице, где на самом деле объединено несколько таблиц.

Мы начнем с самых простых таблиц. Приведенная ниже таблица называется одномерной таблицей частот:

Цвет рубашки

Желтый

5

Черный

3

Цвет морской волны

1

Зеленый

1

Белый

7

Другие

10

Всего

27

В этой таблице табулирована переменная цвета рубашки у 27 встреченных мужчин. Таблица называется одномерной, так как в ней табулирована только одна переменная — цвет рубашки. Так как таблица показывает, насколько часто встречается тот или другой цвет, она называется
также таблицей частот. Вы можете видеть, насколько удобно табличное представление.

Табулируя, например, доход, можно проанализировать различные группы населения по уровню дохода.

Наблюдаемые данные могут быть измерены в разнообразных шкалах (интервальных, порядковых, номинальных), поэтому исследование зависимостей между ними может быть затруднено (например, зависимости могут быть нелинейными, данные — неоднородными и т. д.). Отсюда следует, что вначале разумно сгруппировать данные, разбив на достаточно однородные группы (классы, категории — в данном контексте эти слова рассматриваются как синонимы), интуитивно ожидая, что зависимости в отдельных группах будут более отчетливыми.

Таким образом, возникают категоризованные переменные. Часто категоризованную переменную можно рассматривать как некоторую классификацию исходной числовой переменной. Например, количество посетителей сайта в течение дня можно отнести к определенным временным отрезкам, например, к часам. Вы легко можете построить соответствующую группировку.

Однако имеется много ситуаций, когда категоризованная переменная не выражается в терминах какой-либо исходной числовой переменной, а определяется самой природой данных. Например, на книжном рынке можно выделить категории книг по Windows, Windows-приложениям (Word, Excel и др.), Internet, книги, посвященные языкам программирования, научным программам и т. д. В свою очередь, пользователи могут быть разбиты на классы: начинающие пользователи, продвинутые пользователи, профессионалы и т. д.

Пример категоризации данных. Рассмотрим файл данных о продажах.

Эти данные измерены в количественной шкале.

Предположим, что нас интересует только факт покупки данного товара. Тогда количественная шкала явно избыточна. Перейдем к категориальным переменным. Покажем, как это сделать в системе STATISTICA. Дважды щелкнем на имени переменной КОЛБАСЫ. Это
1-я переменная в файле данных. Определим новую переменную формулой:
(v1>0). Это уже категориальная переменная, принимающая два значения: значение 0, если
v1<0 (то есть покупатель не купил товар), и значение 1, если
v1>0 (покупатель купил товар).

Такие переменные называют также индикаторными, т. к. они являются индикатором определенного события (в данном случае факта покупки).

Построенная категориальная переменная разбивает покупателей на два класса: покупатели, купившие продукт (значение переменной равно 1), и покупатели, не купившие продукт (значение переменной равно 0).

После того как мы записали формулу, значения переменной
v1 будут пересчитаны, и мы получим следующий столбец:

Подобную категоризацию можно выполнить для всего списка товаров. В итоге получим файл данных, состоящий из значений 0 и 1.

Единица показывает, что данный покупатель (строка) купил данный товар (столбец).

Заметим, что подобного рода таблицы, содержащие индикаторные переменные, весьма часто появляются в медицинских исследованиях. В них строка — пациент, переменные — симптомы болезни. Единица отмечает, что у данного пациента присутствует данный симптом, 0 — симптом отсутствует.

Такого типа таблицы будут подробно рассмотрены также в главе Анализ соответствий.

Теперь ещё раз напомним идею категоризации, потому что эта идея является ключевой.

Итак, идея состоит в том, чтобы разбить множество разнородных наблюдений на однородные группы с помощью определенных признаков, отражающих существо задачи, и провести дальнейшее исследование в каждой группе отдельно. Такие группы гораздо проще анализировать, чем исходную корзину с разнородными данными.

Например, множество всех покупателей можно поделить на две группы — купивших и не купивших мороженое, или на четыре группы — купивших мороженое и купивших сыр, купивших мороженое и не купивших сыр, не купивших мороженое и купивших сыр, не купивших мороженое и не купивших сыр и т. д.

В STATISTICA таблицы строятся в модуле Основные статистики и таблицы. Конкретный способ построения таблиц зависит от целей исследования.

Врач может табулировать частоты различных симптомов заболевания в зависимости от возраста и пола пациентов, социолог имеет возможность построить сводную таблицу результатов опроса и оценить связи между ответами мужчин и женщин отдельно. В области образования можно табулировать число учащихся, покинувших среднюю школу, в зависимости от возраста, пола и этнического происхождения. Экономисту может понадобиться свести в таблицу количество банкротств в зависимости от вида промышленности, региона и начального капитала, а исследователю спроса классифицировать потребителей в зависимости от доходов. Менеджеры, размещающие рекламу в Internet, могут интересоваться частотой посещения различных сайтов в отдельные дни недели.

Более серьезной задачей является установление цен на продукцию с целью эффективного способа организации продаж: имеются разные категории пользователей, например, учебные заведения, государственные организации, коммерческие структуры и т. д. Покупательские возможности разных категорий различны, поэтому разбиение на группы, когда вы имеете дело не со средним покупателем, а с покупателем из определенной группы, выглядит совершенно естественно.

Далее в одной таблице можно табулировать значения двух переменных, тогда возникают таблицы сопряженности. Пример такой таблицы, которую мог бы поместить в свою записную книжку метрдотель ресторана, показан ниже:

Дни недели Количество посетителей ресторана «Табу» в 9 часов вечера

Мужчины

Женщины

Всего

Понедельник

9

11

20

Вторник

7

8

15

Среда

11

7

18

Четверг

9

16

25

Пятница

15

7

22

Суббота

17

5

22

Воскресенье

17

9

26

Всего

85

63

148

Вы видите, как естественно организована таблица: дни недели сопряжены с количеством посетителей ресторана, отсюда и название таблицы — таблица сопряженности: на пересечении строки дня недели и столбца показано количество посетителей (мужчин и женщин) в выбранный день недели. В крайнем правом столбце с литером ВСЕГО даются суммы значений по строкам таблицы. В последней строке показаны суммы значений, подсчитанные по столбцам. Это так называемые маргинальные частоты.

Удобство таблиц. Удобство таблиц очевидно. Метрдотелю достаточно взглянуть на таблицу, чтобы представить, сколько было посетителей разного пола в различные дни недели. Вместо того чтобы скользить глазами по длинному списку посетителей, он просто бросает взгляд на таблицу. В нижней строке и правом столбце количество посетителей просуммировано. Возможно, метрдотелю интересно знать, сколько всего посетителей было в субботу, и ему вовсе не нужно суммировать частоты в двух столбцах (мужчины и женщины), а достаточно посмотреть на крайний столбец и строку
Суббота.

В таблице табулированы значения двух переменных, поэтому она называется двухвходовой. Если табулируется несколько переменных, то имеют дело с многовходовыми (многомерными) таблицами (от английского термина multy-way) с двумя или более факторами. Заметьте, что табулированные переменные на сленге анализа данных называют также факторами.

Другой типичный пример таблицы сопряженности показан ниже:

В этой таблице табулированы переменные пол и программа телевидения. Таблица построена из исходного файла данных, в котором отмечался выбор программ ТВ респондентами разного пола.

Итак, представление данных в виде таблиц компактно, удобно и наглядно. Вместо того чтобы иметь дело с файлом исходных данных, содержащим сотни и тысячи наблюдений, вы имеете одну таблицу.

Для проверки факта зависимости между табулированными переменными (например, Пол и ТВ) и оценки степени зависимости или, как иногда выражаются, тесноты связи, разработаны специальные методы.

Анализ таблиц связан с определенным сленгом, который стоит запомнить. Переменные, табулированные в таблице, называются также факторами. Значения факторов называются уровнями. Например, переменная пол имеет два уровня — мужчина и женщина, переменная TV также два уровня — 1 и 2. Конечно, количеством уровней и числом табулируемых переменных можно управлять. Можно, например, ввести дополнительные переменные — возраст, профессию и т. д.

В анализе таблиц также употребляется несколько архаичный термин вход таблицы (от английского way) для обозначения табулированной переменной. Если табулируются две переменные, то говорят о двухвходовой таблице (таблицы с двумя входами), если табулируется три переменные — о трехвходовой таблице и т. д.

Несмотря на кажущуюся простоту идеи, техника работы с таблицами за много лет развилась и стала чрезвычайно изощренной.

Альтернативные методы. Вначале таблицы строятся и анализируются в модуле
Основные статистики и таблицы. Однако имеются модули
Логлинейный анализ и Анализ соответствий, в которых также можно исследовать таблицы сопряженности.

Методы Логлинейного анализа (loglinear analysis) позволяют глубоко исследовать сложные многомерные таблицы, возникающие, например, при проведении массовых обследований.

Анализ соответствий (correspondence analysis) — это разведочный метод анализа двухвходовых и многовходовых таблиц, позволяющий визуализировать таблицы и исследовать их структуру. Ясно, что гораздо проще анализировать таблицу визуально, чем исследовать в численном виде. Этот разведочный метод анализа применяется в разнообразных областях: в социологии, эконометрике, маркетинге, медицине (см. например, Thomas Werani: Correspondence Analysis as a Means for Developing City Marketing Strategies, 3rd International Conference on Recent Advances in Retailing and Services Science, pp. 22-25, Juni 1996, Telfs-Buchen (Osterreich) Werani, Thomas, werani@market.uni-linz.ac.at, http://www.market.uni-linz.ac.at).

Продвинутый метод исследования таблиц — анализ соответствий — будет подробно описан в отдельной главе.

В данной главе рассмотрим классические методы анализа, реализованные в модуле Основные статистики и таблицы. Обзор различных типов таблиц начнем с наиболее простой таблицы — таблицы частот.


Таблицы частот

Частоты, или одновходовые таблицы, представляют собой простейший метод анализа категориальных или искусственно категоризованных непрерывных переменных. Часто их используют как одну из процедур разведочного анализа, чтобы посмотреть, каким образом различные группы данных распределены в выборке. Например, изучая зрительский интерес к разным видам спорта (возможно для целей рекламы), вы могли бы представить ответы респондентов в следующей таблице:

Таблица отображает число и кумулятивную (суммарную) долю респондентов, характеризующих свой интерес к просмотру футбольных матчей в следующей шкале: 1) Всегда интересуюсь — Always interested, 2) Обычно интересуюсь — Usually interested, 3) Иногда интересуюсь — Sometimes interested или 4) Никогда не интересуюсь — Never interested.

Точно так же мы могли бы представить информацию о том, насколько часто респондент использует в своей работе Интернет:

STATISTICA обеспечивает разнообразные возможности, позволяющие описать различные категории наблюдений в таблице частот (например, используя «все отличные между собой значения» переменных).

Любая переменная из множества данных может быть проанализирована и представлена в виде таблицы частот. Исследователь может также ввести определенные коды для таблицы, задать интервалы и даже определить ряд логических условий, позволяющих отнести наблюдение к определенной группе.

Практически каждый исследовательский проект начинается с построения таблиц частот. Например, в социологических опросах таблицы частот могут отображать количество мужчин и женщин, число респондентов из определенной этнической группы и т. д. Ответы, измеренные в определенной шкале (например, в шкале интерес к футболу), можно также свести в таблицу частот.

Ниже на графике показана табуляция частоты посещения магазина.

В медицинских исследованиях можно табулировать пациентов с определенными симптомами. В промышленности — частоту выхода из строя элементов, приведших к авариям или отказам всего устройства при испытаниях на прочность (например, для определения, какие детали телевизора действительно надежны после эксплуатации в аварийном режиме и при большой температуре, а какие нет). Обычно если в данных имеются категориальные переменные, то для них всегда вычисляются таблицы частот для каждой переменной.


Таблицы сопряженности и таблицы флагов и заголовков

Это более сложные таблицы, так как они содержат частоты нескольких переменных. Процесс построения таблицы частот для одной переменной называется табуляцией, для нескольких переменных — кросстабуляцией. На самом деле кросстабуляция — это процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка (клетка) в построенной таблице представляется единственной комбинацией значений кросстабулированных переменных.

Таким образом, кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно определить зависимости между кросстабулированными переменными.

Идея проверки независимости табулированных переменных очень проста. Рассмотрим двухвходовую таблицу сопряженности {v(i, j),1
< i < k, 1 < j < m}, в которой табулированы значения двух переменных (X, Y).

Частоты v(i, j)/n являются оценками вероятностей p(i,j).

При гипотезе независимости эти вероятности обладают свойством мультипликативности:

P(i,j) = P(i)×p(j),

p(i)=p(1,i) + p(2,i) + …+ p(m,i)

P(j)=p(1,j) + p(2,j) + …+ p(k,j)


При наличии зависимости между табулированными переменными это равенство нарушается.

Критерием проверки гипотезы независимости в таблицах сопряженности является хи-квадрат Пирсона, который сравнивает наблюдаемые частоты в реальной таблице с ожидаемыми, рассчитанными при условии независимости табулированных переменных (си. далее).

Пример. Рассмотрим файл данных с информацией о прививках (см. Вступительное эссе).

Построим таблицу сопряженностей признаков ПРИВИВКА, БОЛЕЗНЬ.

Посмотрим на хи-квадрат:

По результатам применения хи-квадрат критерия можно сделать вывод, что есть серьезные основания для того, чтобы отвергнуть гипотезу о независимости признаков. 

Общая схема рассуждений 

  •  Шаг 1. Проверьте гипотезу о независимости признаков.
  •  Шаг 2. Если гипотеза о независимости отвергается, используйте специальные меры связи, например, статистику гамма, чтобы оценить степень зависимости между табулированными переменными.

Обычно кросстабулируются номинальные переменные или переменные с относительно небольшим числом значений.

Если вы хотите кросстабулировать непрерывные переменные (например, доход), то вначале их следует категоризоватъ, разбив диапазон изменения на небольшое число интервалов (например, низкий, средний, высокий).

Таблицы 2×2. Простейшая форма кросстабуляции — это таблица 2× 2, в которой значения двух переменных «пересечены» (сопряжены) и каждая переменная принимает только два значения, то есть имеет два уровня (поэтому таблица и называется 2
× 2). Рассмотрим поясняющий пример. Предположим, проводится простое исследование, в котором мужчин и женщин спрашивают, какой напиток они предпочитают (газированную воду марки А или газированную воду марки В); файл данных показан ниже:

ПОЛ

ГАЗ. ВОДА

наблюдение 1

МУЖЧИНА

А

наблюдение 2

ЖЕНЩИНА

В

наблюдение 3

ЖЕНЩИНА

В

наблюдение 4

ЖЕНЩИНА

А

наблюдение 5

МУЖЧИНА

В

Результаты кросстабуляции выглядят следующим образом:

ГАЗ. ВОДА:А

ГАЗ. ВОДА: В

ПОЛ: МУЖЧИНА

20(40%)

30(60%)

50(50%)

ПОЛ: ЖЕНЩИНА

30(60%)

20(40%)

50(50%)

50(50%)

50(50%)

100(100%)

Каждая ячейка таблицы содержит единственную комбинацию значений двух кросстабулированных переменных (в строке указана переменная ПОЛ, в столбце — переменная ГАЗ. ВОДА). Каждая ячейка стоит на пересечении столбца и строки. Числа в каждой ячейке на пересечении определенной строки и определенного столбца показывают, сколько наблюдений соответствует данным значениям. Посмотрите на таблицу. Таблица показывает, что женщины больше мужчин предпочитают газированную воду марки А, мужчины больше предпочитают марку В. Таким образом, пол и предпочтение могут быть зависимыми (позже будет показано, как эту зависимость измерить).

Маргинальные частоты. Значения, расположенные на краях таблицы, — это просто одномерные таблицы частот для всех рассматриваемых переменных. Эти значения важны, т. к. позволяют оценить распределение частот в отдельных столбцах и строках. Например, 40% и 60% мужчин и женщин (соответственно), выбравших марку А (см. первый столбец таблицы), не могли бы показать какой-либо связи между переменными ПОЛ и ГАЗ. ВОДА — Soda, если бы маргинальные частоты переменной ПОЛ были также 40% и 60%. В этом случае они просто отражали бы разную долю мужчин и женщин, участвующих в опросе. Таким образом, различия в распределении частот в строках (или столбцах) отдельных переменных и в соответствующих маргинальных частотах дают информацию о зависимости кросстабулированных переменных.

Проценты по столбцам, по строкам и кумулятивные проценты. Приведенный пример показывает, что для оценки зависимости между кросстабулированными переменными необходимо сравнивать маргинальные доли и индивидуальные доли в столбцах и строках. Такие сравнения легче провести с использованием процентов.

Процедура Итоговые таблицы позволяет выдать кросстабулированные частоты в таблице результатов вместе с числом наблюдений, попавших в ячейку, процентами в столбцах и строках, а также суммарными процентами.

Можно построить итоговую объединенную таблицу, в которой каждая ячейка содержит эти числа.

Графическое представление кросстабуляций. Отдельные строки и столбцы таблицы удобно представить в виде графиков. Полезно также отобразить целую таблицу на отдельном графике. Имеется несколько способов сделать это с помощью процедуры
Таблицы сопряженности. Таблицы с двумя входами можно визуально представить
ЗМ гистограммой.

Другой способ визуализации таблиц сопряженности — построение категоризованной гистограммы, в которой каждая переменная представлена индивидуальными гистограммами, разбитыми на каждом уровне другой переменной (см. ниже).

Преимущество ЗМ гистограммы в том, что она позволяет представить на одном графике таблицу полностью. Достоинство категоризованного графика заключается в том, что он дает возможность точно оценить специфические частоты в каждой ячейке.


Таблицы флагов и заголовков

Таблицы флагов и заголовков, или, кратко, таблицы заголовков, позволяют отобразить несколько двухмерных таблиц сопряженности в сжатом виде как одну таблицу. Этот тип таблиц поясняется на примере файла, отражающего интерес к спорту.

В данной таблице результатов представлены три двухвходовые таблицы, в которых интерес к Футболу — Football сопряжен с интересом к Бейсболу — Baseball, Теннису — Tennis и Боксу — Boxing. Таблица содержит информацию о процентах по столбцам, поэтому суммы по строкам равны 100%. Например, число в левом верхнем углу таблицы результатов (85,71) показывает, что 85,71 процентов всех респондентов ответили, что им всегда интересно смотреть футбол и всегда интересно смотреть бейсбол. Рассмотрите первый столбец приведенной таблицы. Вы видите, например, что имеется 2 респондента, обычно интересующихся футболом и всегда интересующихся бейсболом. Также 2 (других) респондента иногда интересуются футболом и всегда интересуются бейсболом. Нет ни одного респондента, которому был бы всегда интересен бейсбол и никогда не интересен футбол. Аналогично интерпретируются другие столбцы. Если вы прокрутите таблицу вправо, то увидите, что процент тех, кому всегда интересно смотреть футбол и всегда интересно смотреть теннис, равен 38,46; для бокса этот процент составляет 70,0 (см. таблицы ниже).

Проценты в столбце (Всего по строке), показанные после каждого набора переменных, всегда связаны с общим числом наблюдений. В диалоговом окне
Результаты кросстабуляции имеется множество процедур, позволяющих построить таблицы заголовков в различных форматах. Например, можно одновременно отображать число наблюдений в ячейках, строках, столбцах и общие проценты в одной
и той же таблице.

Многовходовые таблицы с контрольными переменными. Когда кросстабулируются только две переменные, результирующая таблица называется двухвходовой (двухмерной). Конечно, общую идею кросстабулирования можно обобщить на большее число переменных. В примере с «газированной водой» добавим третью переменную с информацией о штате, в котором проводилось исследование (Небраска или Нью-Йорк).

ПОЛ

ГАЗ. ВОДА

ШТАТ

наблюдение 1

МУЖЧИНА  А

НЕБРАСКА

наблюдение 2

ЖЕНЩИНА  В

НЬЮ-ЙОРК

наблюдение 3

ЖЕНЩИНА  В

НЕБРАСКА

наблюдение 4

ЖЕНЩИНА  А

НЕБРАСКА

наблюдение 5

МУЖЧИНА  В

НЬЮ-ЙОРК

Кросстабуляция этих трех переменных представлена в следующей таблице:

 ШТАТ: НЬЮ-ЙОРК                 
ШТАТ: НЕ
БРАСКА
 
ГАЗ. ВОДА  А  ГA3 .ВОДА      В  ГАЗ. ВОДА 

А

ГАЗ.ВОДА     В     

П: МУЖЧИНА 

 20 

30

50 

 5

 45 

50  

П: ЖЕНЩИНА  30 20 50  45  50
50 50 100 50 50 100

Теоретически любое число переменных может быть кросстабулировано в одной многовходовой таблице. Однако на практике возникают сложности с проверкой и «пониманием» таких таблиц, если они содержат более четырех переменных.


Статистики таблиц сопряженности

Таблицы сопряженности позволяет исследовать зависимость между кросстабулированными переменными. Следующая таблица отчетливо показывает очень сильную зависимость между двумя переменными: переменная ВОЗРАСТ
(ВЗРОСЛЫЙ или РЕБЕНОК) и переменная предпочитаемый сорт ПЕЧЕНЬЕ (сорт А или сорт В).

ПЕЧЕНЬЕ: А

ПЕЧЕНЬЕ: В

ВОЗРАСТ: ВЗРОСЛЫЙ

50

0

50

ВОЗРАСТ: РЕБЕНОК

0

50

50

50

50

100

Из этой таблицы видно, что все взрослые выбирают печенье А, а все дети —печенье В. В данном случае нет никаких оснований сомневаться в надежности этого факта.

Невозможно поверить, что данная структура частот носит случайный характер. Мало кто усомнится, что между предпочтениями детей и взрослых имеется отчетливое различие. Однако в реальной обстановке зависимости между переменными значительно слабее, и поэтому возникает вопрос, как их измерить и оценить надежность (статистическую значимость).

Далее обсуждаются общие меры зависимости между двумя группирующими переменными.

Итак, вначале проверяется гипотеза: имеется ли зависимость между представленными в таблице переменными?

Критерий хи-квадрат Пирсона. Хи-квадрат Пирсона — это наиболее простой критерий проверки значимости зависимостей между группирующими переменными. Критерий Пирсона основывается на том, что в двухвходовой таблице ожидаемые частоты при гипотезе, что между переменными нет зависимости, можно непосредственно вычислить.

Критерий хи-квадрат — это непараметрический критерий, его применение никак не связано с распределением табулированных переменных.

Идея критерия очень проста.

Рассмотрим двухмерную таблицу сопряженности
(v(i,j)}, i = 1, 2 …r, j = 1, 2 … s, состоящую из г строк и s столбцов.

Обозначим


 

Итак, v(i)- сумма элементов в i-й строке, v(j)-
сумма элементов в j-м столбце, n- общее число
наблюдений ( сумма всех частот в таблице). v(i),
v(j) называются также маргинальными
частотами, т.к. они располагаются по краям
таблицы. Из частоты, стоящей в ячейке (это
наблюдаемая частота), вычтите ожидаемую
частоту ( она вычисляется перемножением
маргинальных частот и делением их на общее
число наблюдений). Полученную разность
возведите в квадрат и разделите на
ожидаемую частоту. Далее проделайте то же
самое со всеми ячейками и результаты
сложите.

Это и есть знаменитая статистика хи-квадрат. Статистика хи-квадрат замечательна тем, что при достаточно большом числе наблюдений ее распределение можно приблизить распределением хи-квадрат и, значит, вычислить приближенный
р-уровень критерия.

Формально статистика хи-квадрат вычисляется по формуле:

где суммирование производится по всем индексам i, j. y(i,j) = v(i) * v(j)/n — ожидаемая частота в ячейке i, j.

Большие значения хи-квадрат свидетельствуют против проверяемой гипотезы о независимости признаков, табулированных в таблице.

Представьте, что опрошено 20 мужчин и 20 женщин относительно выбора газированной воды (марка А или марка В). Если между выбором и полом нет зависимости, то естественно ожидать равного выбора марки А и марки В для каждого пола.

Распределение хи-квадрат при проверке независимости можно аппроксимировать хи-квадрат распределением с числом степеней свободы (r-l)*(s-l). Однако качество этой аппроксимации ухудшается, если число наблюдений в ячейках мало (см. ниже).

Критерий хи-квадрат становится высокозначимым при отклонении реально наблюдаемых частот в таблице от ожидаемых, иными словами, когда выбор мужчин и женщин различен. Значение статистики хи-квадрат и ее уровень значимости определяется общим числом наблюдений и количеством ячеек в таблице.

Иногда используют статистику хи-квадрат в форме максимального правдоподобия:

По существу, эти две статистики эквивалентны.

Имеется только единственное существенное ограничение использования критерия хи-квадрат (кроме очевидного предположения о случайном выборе наблюдений) — ожидаемые частоты должны быть не слишком малы (см. пример ниже). Это ограничение возникает потому, что хи-квадрат сравнивает наблюдаемые частоты и вероятности в каждой ячейке, и когда частоты в ячейках малы, например, меньше 5 или даже 10, эти вероятности нельзя оценить с достаточной точностью (см. например, Everitt B.S. (1977) The analysis of contingency tables, London: Chapman&Hall).

Замечание. 

Статистика хи-квадрат Пирсона позволяет строить также критерии согласия и однородности (см. главу 4 Подгонка вероятностных распределений).

Поправка Йетса для таблиц 2×2. Для важного класса таблиц 2×2, содержащих ячейки с малыми частотами, аппроксимация распределения статистики хи-квадрат может быть улучшена понижением абсолютного значения разностей между ожидаемыми и наблюдаемыми частотами на величину 0,5 перед возведением в квадрат (поправка Йетса).

Поправка Йетса, делающая оценку более умеренной, применяется в случаях, когда таблица содержит ячейки с малыми частотами. Принято считать, что наименьшая ожидаемая частота, позволяющая применять критерий хи-квадрат без поправок, должна равняться 5. Из приведенной ниже таблицы видно, как могут отличаться
р-уровни критерия хи-квадрат без поправки и с поправкой Йетса. Исходная таблица сопряженности имеет вид:


В таблице сопряжены два признака: покупка мороженого и орехов. Статистики для этой таблицы сопряженности имеют вид:

Используя хи-квадрат без поправки Йетса, мы совершили бы грубую ошибку.

Точный критерий Фишера. Этот критерий применим только для таблиц 2×2. Критерий основан на следующем рассуждении. Даны маргинальные частоты в таблице. Предположим, что оба фактора в таблице независимы. Зададимся вопросом: какова вероятность получения наблюдаемых в таблице частот исходя из маргинальных? Эта вероятность вычисляется точно исходя из данных маргинальных частот. Таким образом, критерий Фишера вычисляет точную вероятность появления наблюдаемых частот при нулевой гипотезе. Вычисляются односторонние и двусторонние вероятности.

Макнемара хи-квадрат. Этот критерий применяется, когда частоты в таблице 2×2 представляют зависимые выборки. Например, наблюдения одних и тех же индивидуумов до и после эксперимента. Вы можете подсчитывать число студентов, имеющих минимальные успехи по математике в начале и в конце семестра. Вычисляются два значения хи-квадрата:
A/D и В/С. A/D хи-квадрат проверяет гипотезу о том, что частоты в ячейках А и D (верхняя левая, нижняя правая) одинаковы. В/С
хи-квадрат проверяет гипотезу о равенстве частот в ячейках В и С (верхняя правая, нижняя левая).

Коэффициент фи. Фи-квадрат представляет собой меру зависимости между двумя группирующими переменными в таблице 2×2. Его значения изменяются от 0 (нет зависимости между факторами; хи-квадрат — 0,0) до 1 (абсолютная зависимость между двумя факторами в таблице).

Тетрахорическая корреляция. Эта статистика вычисляется (и применяется) только для таблиц сопряженности 2×2. Если таблица
2×2 может рассматриваться как результат (искусственного) разбиения двух непрерывных переменных на два класса, то коэффициент тетрахорической корреляции будет оценивать зависимость между двумя этими переменными.

Коэффициент сопряженности С. Коэффициент сопряженности представляет собой основанную на статистике хи-квадрат меру зависимости между двумя группирующими переменными (предложенную Пирсоном). Преимущество этого коэффициента перед обычным хи-квадрат состоит в том, что он легче интерпретируется, т. к. диапазон его изменения от 0 до 1 (где 0 означает полную независимость).

Недостаток заключается в том, что верхний предел «ограничен» размером таблицы; С может достигать значения 1, только если число классов не ограничено.

Интерпретация мер сопряженности. Существенный недостаток мер зависимости в трудности их интерпретации в обычных терминах вероятности или «доли вариации», как в случае коэффициента корреляции
r Пирсона.


Статистики, основанные на рангах

Во многих случаях классы, используемые в кросстабуляции, содержат информацию о ранговом упорядочивании объектов; иными словами, имеются измерения лишь в порядковой шкале. Предположим, вы опросили некоторое множество респондентов для того, чтобы выяснить их отношение к некоторым видам спорта. Затем представили измерения в 4-точечной шкале со следующими градациями: 1) всегда — always, 2) обычно — usually, 3) иногда — sometimes и 4) никогда — never interested. Очевидно, что ответ иногда интересуюсь — sometimes interested показывает меньший интерес, чем обычно интересуюсь — usually interested, обычно интересуюсь — usually interested меньший интерес, чем всегда интересуюсь — always interested, и т. д.

Для таких переменных имеются свои типы корреляции, позволяющие численно выразить зависимости между ними (см. главу Непараметрическая статистика).


Многомерные отклики и дихотомии

Переменные типа многомерных откликов или многомерных дихотомий возникают в ситуациях, когда исследователя интересуют не только «простые» частоты событий, но также некоторые (часто неструктурированные) качественные свойства событий. Типичным примером является опрос общественного мнения, где вопросы, по крайней мере частично, имеют так называемые «открытые концы» (не подразумевая однозначного ответа), и респондент делает выбор из неограниченного (или очень большого) списка ответов. Вопрос состоит в том, как разумным способом закодировать ответы. Природу многомерных переменных (факторов) лучше всего рассмотреть на примерах.


Многомерные отклики

Представьте, что в процессе большого исследования вы попросили пользователей назвать три лучших, с их точки зрения, сайта. Обычный вопрос может выглядеть следующим образом:

Напишите ниже три ваших сайта: 

1:______ 2:______ 3:______

Анкета содержит от 0 до 3 ответов. Очевидно, список может быть очень большим. Ваша цель — свести результаты в таблицу, в которой, например, будет подсчитан процент респондентов, предпочитающих определенный сайт.

Следующий шаг после получения анкет — занесение ответов в файл данных. Предположим, в ответах упоминалось 50 различных сайтов. Вы могли бы, конечно, создать 50 переменных — одну для каждого сайта, рассмотреть респондентов как наблюдения (строки таблицы), ввести код / для респондента и переменной, если он предпочитают данный сайт (0, если нет); например:

Сайт1

Сайт 2

Сайт3

наблюдение 1

0

1

0

наблюдение 2

1

1

0

наблюдение 3

0

0

1

Такой метод кодирования откликов, т. е. приписывания им конкретных значений, очевидно, «расточителен». Заметим, что каждый респондент дает максимум три ответа; однако для кодирования используется 50 переменных. (Если вы интересуетесь только тремя сайтами, то такой метод кодирования будет успешным. Чтобы табулировать предпочтения в выборе сайта, следует рассмотреть 3 переменные как одну многомерную дихотомию; см. ниже.)

Кодирование многомерных откликов. Более разумным является следующий подход. Введите 3 переменные и определите схему кодирования для 50 сайтов. Затем введите соответствующие коды (альфа-метки) для значений переменных и получите таблицу вида:

Ответ_1

Ответ 2

Ответ_3

набл. 1

сайт1

сайт 17

сайт 13

набл. 2

сайт 2

сайт 21

сайт 77

набл. 3

сайт 19

сайт1

сайт 4

Теперь, чтобы получить число респондентов, предпочитающих определенный сайт, рассмотрите переменные Ответ 1 — Ответ 3 как переменную с многомерным откликом. Само название переменной показывает, что она принимает многомерные значения. Таблица значений такой переменной имеет вид:

N=500 Категория

Число

Процент ответов

Процент наблюдений

сайт1

44

5,23

8,80

сайт 2

5

1

2,60

сайтЗ

81

9,62

16,20

сайт 4

74

8,79

14,80

Всего

Ответов

842

100,00

168,40

Интерпретация таблиц частот с многомерными откликами. Итак, общее число респондентов в опросе
n=500. Заметьте, что числа в первой колонке таблицы не составляют в сумме 500, как можно было бы ожидать, а равны 842. Вы поймете, почему это так, если вспомните, что каждый респондент может дать несколько ответов, так как у него может быть несколько любимых сайтов. Число, приведенное внизу в первом столбце (на границе таблицы), — это общее число ответов. Каждый респондент может дать до трех ответов, поэтому общее число ответов в действительности больше . числа респондентов.

Вторые и третьи столбцы таблицы содержат проценты относительного числа ответов (второй столбец) и респондентов (третий столбец). Таким образом, вход 8,80 в первой строке последнего столбца таблицы означает, что 8,8% всех респондентов назвали сайт1 в числе лучших.

Как учитывать повторяющиеся ответы в одной и той же анкете? В отличие от других популярных программ, строящих таблицы для многомерных откликов, процедура Кросстабуляция в модулеОсновные статистики и таблицы по умолчанию игнорирует одинаковые отклики. Например, если респондент ответил; сайт 1, сайт 1, сайт 1, то система STATISTICA учтет из его ответа сайт 1 только один раз. Следовательно, этот респондент в таблице частот будет учтен только один раз в группе сайт 1, иными словами, в эту группу будет добавлена единица, а не тройка.


Многомерные дихотомии

Предположим, вас интересуют только сайт А, сайт В и сайт С. Как отмечалось, одним из способов кодирования является следующий:

сайт А

сайт В

сайт C

наблюдение 1

1

наблюдение 2

1

1

наблюдение 3

1

Здесь каждая переменная используется для одного сайта. Код 1 будет введен в таблицу всякий раз, когда соответствующий респондент указал ее в своем ответе. Заметим, что каждая переменная является дихотомией, т. к. принимает только два значения: «1» и «не 1» (можно ввести 1 и 0, но так обычно не делается, можно просто рассматривать 0 как пустую ячейку или пропуск). Когда табулируются такие значения, вы получите итоговую таблицу, очень похожую на ту, которая была показана ранее для переменных с многомерными откликами; из нее вы можете вычислить число и процент респондентов (и ответов) для каждого сайта. Таким образом, вы компактно представили три переменные сайт А, сайт В, сайт С одной переменной (Любимые сайты) — многомерной дихотомией. Заметьте, для кодирования трех сайтов использовано 3 одномерные дихотомии, для кодирования десяти напитков понадобится 10 одномерных дихотомий и т. д.


Кросстабуляция многомерных откликов и дихотомий

Процедура Кросстабуляция модуля Основные статистики и таблицы
позволяет определить простые группирующие переменные (например, ПОЛ:
МУЖЧИНА или ЖЕНЩИНА), многомерные отклики и многомерные дихотомии. Все эти типы переменных можно использовать в таблицах сопряженности. Например, вы можете «сопрячь» многомерную дихотомию Сайт (закодированную, как описано выше) с многомерным откликом Телевидение (со многими категориями, например, ПРОГРАММА 1, ПРОГРАММА 2 и т. д.), а также с простой группирующей переменной ПОЛ.

Как и в таблице частот для обычных переменных, в таблице частот для многомерных переменных можно вычислить проценты и маргинальные суммы либо по общему числу респондентов, либо по общему числу ответов (откликов). Например, рассмотрим следующего респондента:

ПОЛ

сайт 7

сайт 3

сайт 9

ТВ

ТВ

ЖЕНЩИНА

1

1

1

2

Этот респондент ЖЕНЩИНА назвал своими любимыми сайт 7 и сайт 3 и программы ТВ 1 и ТВ2. В полной таблице сопряженности этот респондент будет представлен следующими наборами:

 

ТВ         Общеечисло
ответов

ПОЛ

Сайт

ТВ1

ТВ2

ЖЕНЩИНА

сайт7

X

X

2

сайт 3

X

X

2

сайт 9

МУЖЧИНА

сайт 7

сайт 3

сайт 9

Данный респондент учитывается в таблице четыре раза. Дополнительно он будет считаться дважды в столбце ЖЕНЩИНА -сайт 7 маргинальных частот, если этот столбец запрошен для представления общего числа откликов. Если пользователь запрашивает маргинальные суммы, вычисленные как общее число респондентов, этот респондент будет учитываться только один раз.


Парная кросстабуляция переменных с многомерными откликами

Лучше всего показать ее на простом примере. Предположим, проводится обследование нынешних и бывших домовладений респондента. Вы попросили респондента описать три последних дома, которыми он владел (включая тот, которым он владеет в данный момент). Естественно, для некоторых из респондентов нынешний дом является самым первым (если до этого они не приобретали дома в частную собственность). Для каждого дома респондента запрашивается количество квартир и число жильцов — членов семьи. Ниже показано, как ответ одного респондента (скажем, наблюдение 112) может быть введен в файл данных:

№ набл

Комнаты 1 2 3

Число жильцов 1 2 3

1 1 2

                 
3 3 4

                            
2 3 5

Респондент имел три дома: первый из трех комнат, второй также из трех комнат, третий из четырех комнат. Количество членов семьи также росло: в первом доме жили 2 человека, во втором — 3, в третьем — 5.

Допустим, вы хотите кросстабулировать число комнат с числом жильцов для всех респондентов (например, чтобы понять, как количество комнат связано с числом жильцов). Один из способов — создать три различные таблицы с двумя входами, одну таблицу для одного дома. Вы можете также рассмотреть два фактора в этом исследовании (Число комнат, Число жильцов) как переменные со многими откликами. Однако очевидно, что нет никакого смысла в приведенном примере с респондентом 112 учитывать значения 3 и 5 в ячейке Комнаты — Жильцы в таблице сопряженности (которые вы могли бы учитывать, если бы рассматривали два эти фактора как одинарные переменные с многомерными откликами). Другими словами, вы хотите игнорировать комбинацию жильцов в третьем доме с числом комнат в первом. Скорее всего, нужно рассматривать переменные попарно; вы хотели бы рассмотреть число комнат в первом доме вместе с числом жильцов в первом доме, число комнат во втором доме вместе с числом жильцов в нем и т. д. Именно так и происходит, когда программа выполняет парную кросстабуляцию многомерных переменных.

Иногда при создании сложных таблиц сопряженности с переменными типа многомерных откликов и дихотомий возникает следующий вопрос (в ваших вычислениях): какую «выбрать дорогу», или как точно будут учитываться наблюдения в файле данных. Лучший способ проверить, как программа строит соответствующую таблицу, — рассмотреть простой пример и увидеть, каким образом учитывается каждое наблюдение (какой оно вносит вклад).


Средства построения таблиц системы STATISTICA


Таблицы частот


Данная процедура позволяет вычислить таблицы частот (и гистограммы). В этих таблицах представляются частоты попадания значений переменной (наблюдений) в разные классы (приводятся численные или численно-буквенные значения и их метки). STATISTICA предлагает различные процедуры для определения категорий (классов) в таблицах частот (например, целые интервалы, определенные коды и т. д.). Пользователь может табулировать данные с помощью определенных условий, заданных в виде логических выражений.

Например, в показанном выше окне мы включили в категорию 1 только наблюдения с номерами строго больше 10, для которых значения v7 строго меньше 3. Таблицы частот для этой группы данных имеет вид:


Таблицы сопряженности и таблицы флагов и заголовков


Это процедуры позволяют кросстабулировать данные (таблицы с числом входов до 6; многовходовые таблицы более высокого уровня можно строить, используя условия выбора) и строить разнообразные таблицы сопряженности. Здесь также доступно большое количество статистик (например,
критерии хи-квадрат, фи-квадрат, гамма и т. д.).


Многомерные отклики и дихотомии

Модуль Основные статистики и таблицы имеет разнообразные возможности построения итоговых таблиц для переменных с многомерными откликами, а также для многомерных дихотомий. Обычно группирующие переменные или факторы делят выборку на непересекающиеся (эксклюзивные) группы, например, группу мужчин и женщин. Очевидно, достаточно только одной группирующей переменной, чтобы закодировать пол субъекта. Однако в некоторых исследованиях категории не исключают друг друга (пересекаются).

Например, в маркетинговых исследованиях респонденту можно задать вопрос о трех самых любимых безалкогольных напитках. Предположим, 60 различных напитков присутствует в ответах, которые можно закодировать тремя группирующими переменными (первые три предпочтения). В этом случае категории, очевидно, не являются взаимоисключающими. Действительно, человек может отметить 3 различных напитка как предпочтительные. Следовательно, если наблюдение — это субъект, то для трех различных группирующих переменных это наблюдение является общим (не эксклюзивным). Такие группирующие переменные называют переменными с многомерными откликами (многомерные дихотомии по существу схожи с ними). Эти переменные легко анализировать в модуле Основные статистики и таблицы.


Примеры 

Пример 1. Таблицы частот

Пример основан на модельных данных опроса об использовании Интернет. Проводился опрос 100 человек относительно степени использования ими сети Интернет. Каждый респондент получил список из семи разделов с просьбой определить свой интерес: 1) Всегда интересуюсь — Always interested, 2) Обычно интересуюсь — Usually interested, 3) Иногда интересуюсь — Sometimes interested и 4) Никогда не интересуюсь — Never interested.

Ниже приведен файл SPORTS.sta.

Можно щелкнуть по кнопке Отображение числовых/текстовых значений панели инструментов таблицы исходных данных, чтобы переключиться в численное представление значений переменных в таблице.

Напомним, STATISTICA всегда обрабатывает данные в численном формате, однако для удобства пользователя можно ввести текстовые значения и установить взаимно однозначное соответствие между текстовыми и числовыми значениями переменных. Это очень удобно для представления и ввода данных и интерпретации результатов. Например, вместо того чтобы вводить значение ALWAYS, можно вводить значение 1, вместо SOMETIMES — 3 и т. д.

Таблицы частот

Из стартовой панели Основные статистики и таблицы выберите процедуру
Таблицы частот, чтобы открыть диалоговое окно
Таблицы частот. В этом окне щелкните по кнопке Переменные и выберите первые три переменные. Диалоговое окно
Таблицы частот появится на экране в следующем виде:

Это диалоговое окно предлагает множество настроек, позволяющих изменять вид и группировку в таблицах частот, а также проверять нормальность распределения, в том числе и графическими способами. В этом примере используется принятый по умолчанию метод группировки (в частности, Все различные значения, с текстовыми значениями) и опции отображения (Кумулятивные частоты, Проценты (относительные частоты), Кумулятивные проценты, 100% минус кумулятивные проценты, логит-преобразование, пробит-преобразование), как показано в диалоговом окне выше.

Как можно видеть, 99% респондентов отметили, что они всегда
интересуются результатами футбольных
матчей , 55% — обычно  и т. д. Всего 81% респондентов попали в категории всегда — always, обычно — usually, иногда — sometimes и только
19% сказали никогда — never.

Большинство результатов в электронной таблице результатов понятно исходя из здравого смысла. Разъясним, что такое логит и пробит значения. Это специальные преобразования частот, которые часто используются на практике.

Логит — это преобразование вида: ln(х/(1-х)), тех — относительная частота (процент), наблюдаемая в ячейке.

Пробит переменной х — это стандартное нормализующее преобразование переменной х. Пробит относительных частот — это обратное нормальное преобразование, примененное к относительным частотам в ячейках. Итак, с помощью пробит-преобразования из частот получаются величины, имеющие нормальное распределение. Такое преобразование применяется в медицинских исследованиях типа «доза — эффект».

Имея вероятностный калькулятор STATISTICA, можно легко понять идею этого преобразования (см. также главу Вероятностные распределения).

Посмотрите на таблицу результатов. Например, в первой строке таблицы имеется частота 19 (относительная частота 0,19). Вычислим ее пробит.

Откройте вероятностный калькулятор. Выберите в списке распределений нормальное распределение. Далее отметьте опцию
Обратная функция распределения и введите в поле
р относительную частоту 0,19. Нажмите кнопку
Вычислить. В поле Z вы увидите пробит введенной частоты, он равен — 0,877896.


Точно такое же значение приведено в электронной таблице для соответствующей частоты.

Построение гистограмм. Визуализируем таблицы, построив на их базе гистограммы. Заметим, что можно без труда построить гистограммы всех выбранных переменных, если вернуться обратно в диалоговое окно
Таблицы частот и нажать кнопку Гистограммы. Каскад гистограмм, по одной гистограмме для каждой выбранной переменной, мгновенно появится на экране.

В системе STATISTICA можно распечатать (или сохранить в файле) результаты анализа либо автоматически (когда содержимое каждой выводимой на экран таблицы результатов одновременно направляется на принтер и/или вОкно текста/вывода), либо вручную (когда пользователь сам выбирает какую таблицу результатов или часть какой таблицы результатов распечатать). Перед тем как распечатать результаты анализа, программа попросит вас уточнить направление вывода (то есть Текст, файл, Принтер, Нет, и/или Окно) в окне Параметры страницы/вывода (выберите установкуПараметры страницы/вывода
в выпадающем меню Файл, настройку Принтер в выпадающем меню
Сервис или дважды щелкните на поле Вывод строки состояния).

В этом окне можно также определить дополнительную информацию для печати вместе с таблицей результатов. Доступны следующие формы выводимого отчета: Минимальный, Краткий, Средний или Полный.

Если в окнеПараметры страницы/вывода была выбрана настройка
Авт. печать всех таблиц результатов (автоотчет), то дополнительная информация (количество которой определяется установленным в этом же окне форматом отчета), а также все результаты анализа будут автоматически выведены на принтер или в файл (в зависимости от того, выбрана ли установка
Окно в левой верхней части этого диалогового окна). Этот режим печати полезен, если вы хотите получить полную сводку всех результатов, выведенных на экран в процессе анализа.

Графические процедуры. Практически все результаты могут быть отображены на графиках с помощью графических процедур, доступных в данном окне. Прежде всего щелкните по кнопке
Диаграмма размаха для всех переменных, в появившемся диалоговом окне выберите
Средние/ст.ош./ст.откл. и затем нажмите ОК, чтобы построить график.

Печать графиков в пакетном режиме. Если в диалоговом окне Параметры страницы/вывода выбрана установка Автоматически печатать все графики, STATISTICA автоматически направит создаваемые графики или на печать, или в окно вывода (или сохранит в файле вывода, если выбрана
Печать в файл в диалоговом окне Печать графика).


Пример 2. Таблицы флагов и заголовков

Таблицы флагов и заголовков являются экономным способом представления нескольких двухвходовых (двухмерных) таблиц в одной. Работая с данными, нам интересно узнать, имеют те же самые респонденты, которые проявили наивысший интерес к бизнесу, также наивысший интерес к новостям в Интернет.

Описание анализа

Используемый файл данных SPORTS.sta описан в предыдущем примере. Из стартовой панели Основные статистики и таблицы выберите процедуру Таблицы и заголовки и откройте диалоговое окно
Задайте таблицы.

Таблица флагов и заголовков по существу содержит несколько двухмерных таблиц, собранных вместе. Лучший способ понять эти таблицы — рассмотреть конкретный пример. В диалоговом окне Задайте таблицы нажмите кнопку
Задать таблицы под заголовком Таблицы флагов и заголовков. Программа запросит ввод переменных для таблицы.

Теперь диалоговое окно Задайте таблицы будет выглядеть следующим образом:

Нажмите ОК в этом диалоговом окне, чтобы открыть диалоговое окно
Результаты кросстабуляции.

В этом диалоговом окне нажмите кнопкуТаблица флагов и заголовков, чтобы отобразить таблиц}7результатов.

Вы можете рассматривать построенную таблицу как объединение нескольких двухвходовых таблиц. Например, в четырех начальных строках таблицы показаны частоты двухмерной таблицы
FOOTBALL — TRACK. Другой способ состоит в том, что значения в четырех начальных строках и четырех начальных столбцах таблицы рассматриваются как совместное распределение 100 респондентов в 4*4=16 ячейках, созданных пересечением интереса к футболу с интересом к бейсболу. Теперь рассмотрим различные способы представления результатов.

Частоты по строке. По умолчанию таблица флагов и заголовков отображает частоты в строке. Таким образом, видно, например, что
7 (из 100) респондентов всегда интересуются
FOOTBALL и всегда интересуются TRACK. Посмотрите на четвертую строку таблицы, вы увидите, что из тех респондентов, которые никогда не интересуется
FOOTBALL, 13 {3+1+9} интересуются TRACK всегда — always (3), обычно — usually
(1) или иногда — sometimes (9).

Проценты. Снова вернемся в диалоговое окно Результаты кросстабуляции. Диалоговое окно содержит настройки, позволяющие выразить результаты в процентах. Проценты могут быть вычислены относительно общего числа наблюдений в строке, относительно общего числа наблюдений в столбце или относительно общего числа наблюдений.

Вы также можете включить в таблицу ожидаемые и/или остаточные частоты (разность наблюдаемых и ожидаемых частот). Выберите настройку Проценты по строке и снова нажмите кнопку Таблица флагов и заголовков.

После того как выбрана настройка Проценты по строке, станет доступна настройка
Отображать выбранные % в отдельных таблицах. Так как в одной таблице может быть слишком много информации, выбор этой настройки помещает проценты в отдельную таблицу результатов. Мы рассмотрим общую таблицу.

Из таблицы результатов следует, что из тех респондентов, которые всегда интересуются — always interested
FOOTBALL (все респонденты в первой строке), 17,95% также всегда интересуются — always interested
TRACK.

Поэтому FOOTBALL и TRACK тесно между собой связаны (в этих данных).

Так же можно найти темы, не связанные между собой.

Статистики

Рассмотрим некоторые из этих статистик, представленные в диалоговом окне Результаты кросстабуляции. Наиболее употребляемая статистика — хи-квадрат.

Мерой зависимости между переменными подобно коэффициенту корреляции г Пирсона является ранговая корреляция R Спирмена (см. главу Непараметрическая статистика, где систематически описаны ранговые корреляции). Эта мера предполагает, что значения переменных содержат, по крайней мере, ранжированную информацию. Такое предположение разумно в данном примере, так как ответы респондентов упорядочены по степени интереса.

Выберите опцию Корреляция Спирмена. Диалоговое окно
Результаты кросстабуляции примет следующий вид:

После того как выбраны Статистики, нажмите кнопку
Подробные двухвходовые таблицы для того, чтобы выбрать таблицы для анализа.

На экране появится диалоговое окно Выбор таблиц для просмотра, в котором приводится список всех двухмерных таблиц:

Можно воспользоваться параметром Все таблицы, чтобы построить каскад двухвходовых таблиц.

В данном примере выберите таблицу FOOTBALL —
TRACK и нажмите
ОК. Для каждой выбранной таблицы будут построены две таблицы результатов.

Первая содержит наблюдаемые частоты и все остальные характеристики, выбранные в поле Таблицы диалогового окна
Результаты кросстабуляции (в частности, Проценты от общего числа).

Вторая таблица содержит результаты хи-квадрат и корреляции Спирмена.

Значение статистики хи-квадрат для этой таблицы равно
9, что является низкозначимым. FOOTBALL и TRACK являются 
независимыми. Степень зависимости дает R Спирмена, равная
0,08.

В дополнение к этим методам вы можете построить графики, нажав кнопкуГрафики взаимодействий для
частот
диалогового окна Результаты кросстабуляции
(из диалогового окна Результаты кросстабуляции), чтобы визуально исследовать частоты в выбранных двухмерных таблицах.


Пример 3. Таблицы сопряженности

Для углубленного анализа результатов опроса (см. предыдущий пример) рассмотрим некоторые таблицы более высокого порядка. В частности, определим процент респондентов, являющихся «фанатами
спорта».

Иными словами, найдем число тех респондентов, которые всегда интересуются — always interested 
и FOOTBALL, и TRACK, и BASEBALL в Интернет.

Задание анализа

В стартовой панели модуля Основные статистики и таблицы
выберите процедуру Таблицы и заголовки. Для определения таблицы нажмите на кнопку
Задать таблицы в разделе Многовходовые таблицы сопряженности диалогового окна
Задайте таблицы. Откроется стандартное окно выбора переменных.

В открывшемся окне выбора переменных выберите группирующие переменные (можно выбрать до шести списков группирующих переменных).

Вы можете выбрать одну и более переменных в каждом из шести списков, чтобы создать таблицы со многими входами. Теперь диалоговое окно
Задайте таблицы будет выглядеть следующим образом:

Нажмите ОК в диалоговом окне Задайте таблицы, после этого откроется диалоговое окно
Результаты кросстабуляции.

Это то же диалоговое окно, что и в примере с таблицами флагов и заголовков, единственное отличие — неактивна кнопка
Таблицы флагов и заголовков.

Выберите еще раз параметры таблицы (например, Проценты по строке, Проценты от общего числа и т. д.) и статистики (например, Хи-квадрат, корреляции и т. д.), нажав либо кнопку Просмотреть итоговые таблицы, либо кнопку Подробные двухвходовые таблицы.

В любом случае на экране появится промежуточное диалоговое окно, в котором можно выбрать таблицу из уже выбранных. Если использована команда Все таблицы, то каскад таблиц результатов будет построен для каждой таблицы, показанной в этом диалоговом окне.

Для Примера 3 процедура Подробные двухвходовые таблицы дает следующую таблицу:

Как можно заметить, 7 респондентов из 100 сообщили, что они всегда интересуются — always interested
football, track.

Развитие этого примера очевидно. Например, в маркетинговых исследованиях таким образом можно находить группы клиентов, которые всегда покупают определенный набор продуктов.

«Работая руками», перебирая множество вариантов, вы добиваетесь четкого представления данных и открываете нетривиальные связи.


Пример 4. Табулирование многомерных откликов и дихотомий

Пример показывает, как обращаться с многомерными откликами и дихотомиями, часто возникающими в массовых опросах, а также какие возможности для анализа этих переменных имеются в модуле Основные статистики и таблицы. При проведении массовых опросов имеется своя кухня, с некоторыми рецептами которой мы сейчас познакомимся. Пример с результатами гипотетического опроса находится в папке Примеры.

На основе рассматриваемых данных покажем, как табулируются следующие типы переменных:

  •  простые группирующие переменные;
  •  переменные с многомерными откликами;
  •  многомерные дихотомии.

Термин многомерный отклик на сленге анализа данных означает многомерный ответ, то есть ответ, содержащий в себе несколько ответов (а не один вариант ответа), например, респонденту, возможно, нравится, несколько типов машин, а не одна машина, или несколько фильмов, а не один из числа предложенных, несколько развлекательных сайтов, а не один и т. д. Для того чтобы не заключать отвечающих в жесткие рамки, при проведении опроса может допускаться несколько ответов. Число их заранее оговаривается.

Дихотомия (от греческого- разделять или рассекать на две части) — это переменная, принимающая два значения, 0 или 1, а в текстовом виде — нет или да. Соответственно многомерная дихотомия представляет собой набор нулей и единиц.

Вначале расскажем, как строятся простые таблицы частот для описанных переменных, затем построим и исследуем таблицы сопряженности для них.

Описание файла данных

Представьте, что проводится исследование покупательских предпочтений молодых людей. Задаются следующие вопросы: 1) какую систему быстрого питания вы предпочитаете; 2) какой тип автомобиля вы предпочитаете; 3) какой местный ресторан вы посещали в течение последних двух недель. Дополнительно записывается пол респондента. Эти ответы записаны в файл Fastfood.sta, переменные которого описаны ниже.

Пол (простая группирующая переменная). Пол респондента записывается в группирующую переменную Пол — Gender (Мужчина — Male, Женщина — Female).

Лучшая «быстрая» еда (многомерный отклик). Вопросник, используемый в данном исследовании, предлагает респондентам выбрать любимое «быстрое» блюдо (до трех блюд) из следующего списка:

1) Гамбургер — Hamburger

2) Сэндвич — Sandwiches

3) Цыплёнок — Chicken

4) Пицца — Pizza

5) Мексиканские блюда — Mexican fast-food

6) Китайские блюда — Chinese fast-food

7) Еда из морепродуктов — Seafood

8) Другие национальные блюда — other ethnic or regionally popular fast-food

У каждого человека может быть несколько любимых блюд. Поэтому выбор каждого респондента вводится в файл как переменная с многомерными значениями. Например, первый пункт ответа записывается в столбец Еда_1 — Food_1 (первое предпочтение), второй пункт (если он имеется) — в переменную Еда_2 — Food_2 и третий — в переменную Еда_3 — Food_3. Таким образом, в данном опросе мы имеем одну переменную, принимающую три значения.

При анализе переменная Еда_1 — Food_1 может рассматриваться как простая группирующая переменная. Далее можно задать вопрос: какое число респондентов (или их доля) назвало определенный тип системы быстрого питания своим любимым — favorite? Однако интерес может представлять также и то, сколько респондентов выбрали определенную систему быстрого питания как одну из любимых. Такой вопрос приводит нас к тому, чтобы рассматривать переменные Еда_1 — Еда_3 (Food_1 — Food_3) как одну переменную с многомерным откликом. Такие переменные можно называть также многомерными.

Любимый автомобиль (переменная с многомерными откликами). В этом опросе вас просят назвать три самых любимых типа автомашины (фактор денег, стоимость машины, не учитывается, просто спрашивается о некотором идеальном воображаемом автомобиле). Эти ответы (определенные марки и модели) закодированы следующим образом:

1) Отечественный спортивный автомобиль — Domestic sports car

2) Отечественный седан (закрытый автомобиль) — Domestic sedan

3) Иностранная спортивная машина — Foreign sports car

4) Иностранный седан — Foreign sedan.

Данная переменная рассматривается как переменная с многомерными откликами подобно переменной любимая система быстрого питания — favorite fast-food. Это означает, что ответы респондентов были введены как значения переменных Машина _1 — Машина_3 (Саг_1 — Саг_3).

Например, если респондент называл три любимых блюда Гамбургер — Hamburger, Гамбургер — Hamburger и Гамбургер — Hamburger, тогда значение Гамбургер —
Hamburger, будет учитываться только один раз (в переменную Еда_1 — Food_1), а соответствующие ячейки переменных Еда_2 — Food_2nEda_3 — Food_3 рассматривались как пустые.

Рестораны (многомерная дихотомия). Посетителей ресторана попросили назвать, какие из четырех ресторанов они посещали за последние две недели. Полученные данные были введены в файл так, что для каждого ресторана имелась своя переменная. Всего использовано четыре переменные Хозяин_1 — Хозяин _4 (Burger_1 — Burger_4) для следующих ресторанов:

1) Бутерброд Мейстер — Burger Meister

2) Лучшие бутерброды у Билла — Bill’s Best Burgers

3) Гамбургер «Блаженство» — Hamburger Heaven

4) Большой бутерброд — Bigger Burger

Если респондент сообщил, что в течение двух недель обедал в одном или нескольких ресторанах, то в соответствующий столбец (столбцы) ставилась единица, если нет, столбец оставался пустым. Таким образом, переменная представляет собой многомерную дихотомию (со значениями Да или пропуск), которую желательно табулировать, то есть указать число (или долю) респондентов, обедавших в каждом из четырех ресторанов.

Заметьте, что можно было бы рассмотреть эту переменную как переменную с многомерными откликами. Однако для этого нужно создать не менее четырех переменных, например, Еда_1 — Еда_4 (Eat_1 — Eat_4), и затем ввести названия ресторанов, например, Бургер_1 — Burger_1, Бургер_2 — Burger_2…, как значения этих переменных в столбцы таблицы (аналогично переменным любимая машина — favorite car и любимая система быстрого питания — favorite fast-food, см. выше).

Ниже представлены несколько первых наблюдений файла данных Fastfood.sta.


 

Для того чтобы показать, каким образом каждый опрашиваемый респондент введен в файл, посмотрите на первое наблюдение. Первый респондент — женщина, поэтому в переменную Пол — Gender введено значение Женщина — Female. Самое любимое быстро приготовленное блюдо — Пицца — Pizza (введено в переменную Еда_1 — Food_1), второе по предпочтению блюдо — Еда из морепродуктов — Seafood (введено в переменную Еда_2 — Food_2), третий вид еды не указан, поэтому в переменной Еда_3 — Food_3 стоит пропуск.

Далее этот респондент выбрал следующие три типа автомобилей: 1) домашний седан — domestic sedan, 2) домашний спортивный автомобиль — domestic sports car, 3) снова домашний спортивный автомобиль — domestic sports — переменные Саг_1, Саг_2, Саг_3, — Саг_1, Саг_2, Саг_3 соответственно. Наконец, он ответил, что последние две недели обедал в двух ресторанах Burger_1 (Burger Meister) и Burger_3 (Hamburger Heaven), таким образом Да — Yes было записано в ячейках соответствующих переменных, значения двух других переменных Burger остались пустыми.

Всего было опрошено 200 респондентов.

Начнем с вычисления таблиц частот для простой группирующей переменной Пол — Gender и переменных с многомерными откликами. Так как имеются пропущенные значения во всех переменных Burger_1 — Burger_4, таблица для них будет определена позже.

По умолчанию наблюдения со всеми пропусками в переменных Burger исключаются из анализа, и частоты будут вычисляться лишь для респондентов, посетивших, по крайней мере, один из четырех ресторанов. Другой способ обработки пропусков состоит в том, чтобы сделать отметку в поле
Включить ПД как дополнительную категорию для каждого фактора.

Выберите Таблицы и заголовки в стартовой панели. В появившемся окне
Задайте таблицы выберите Таблицы для многомерных откликов в списке
Анализ, при этом откроется диалоговое окно
Таблицы многомерных откликов. В этом окне можно определить три типа группирующих переменных: простые группирующие переменные (Пол — Gender в нашем примере), переменные с многомерными откликами (Еда_1 — Food_1 (Еда_3 — Food_3)wmMauiuHa_1 — Саг_1 (Маишна_3 — Саг_3)) и многомерные дихотомии (Burger_1 — 4).

Нажмите кнопкуЗадать таблицы для того, чтобы определить переменные в диалоговом окне:

В окне можно выбрать до шести многомерных факторов (простых группирующих переменных, многомерных откликов или дихотомий) для одной таблицы. В первой колонке выберите только переменную Пол — Gender, программа автоматически рассматривает единственную выбранную переменную как простую группирующую (простая группирующая является частным случаем переменной с многомерными откликами, для нее число откликов равно 1). Во второй колонке выберите переменные Еда_1 — Еда_3 (Food_1 — Food_3), в третьей — Машина_1 — Машина_3 (Саг_1 — Саг_3). Сначала обратите внимание на простые таблицы частот для всех выбранных факторов (таблица частот для Burger_ 1 —
Burger_4 будет исследована позже). Нажмите ОК, чтобы завершить выбор. Теперь в окне Таблицы многомерных откликов можно видеть выбранные переменные.

Термин фактор используется для общего обозначения всех типов переменных (например, такая переменная, как любимая еда — food preference, в действительности состоит из нескольких переменных). Мы употребляем термин многомерный фактор и для простых переменных, и для переменных с многомерными откликами, и для многомерных дихотомий. Заметим, что по умолчанию фактору присваивается имя (как длинное, так и короткое) первой переменной в соответствующем списке.

Определение факторов. Расположенная рядом с каждым фактором опция позволяет определить его тип. Первая переменная Пол — Gender — это простая группирующая переменная. Для второго и третьего факторов выберите опцию
Многомерный отклик.

Далее выберите коды для определения различных категорий. Выберите коды, чтобы идентифицировать пол респондента Мужчина — Male и Женщина — Female (переменная Пол — Gender), а также различные типы «быстрой» еды в переменных Еда_ 1 — Еда_3 (Food_1 — Food_3) и различные типы автомобилей в Машина_1 — Машина_3 (CarJ — CarJ).

Если вы не зададите коды явно (просто нажмете
OK, программа возьмет их из первой переменной в каждом факторе. Данный способ обычно позволяет определить все коды, однако может случиться так, что определенный код не присутствует в первой переменной, а присутствует только во второй или в третьей. В этом случае способ по умолчанию не применим, т. к. ряд значений окажутся неучтенными.

Лучше задать все используемые коды точно. После нажатия одной из кнопок
Коды, расположенной рядом с каждым фактором, можно ввести коды для фактора.

В данном примере не так интересно знать, все ли три выбранные машины были определенного типа (в связи с чем чрезмерно увеличивается число идентичных откликов). Интереснее определить число респондентов, предпочитающих, например, домашнюю закрытую машину. Заметим, что переменные, составляющие фактор Еда — Food, содержат только взаимно исключающие ответы (непересекающиеся категории), т. к. респондентам не разрешалось давать идентичные ответы (например, Гамбургер — Hamburger, Гамбургер — HamburgerриГамбургер — Hamburger). Их просили сделать выбор из восьми типов быстрой еды без повторения. Поэтому для фактора Еда — Food данная опция не имеет значения.

Нажмите ОК в диалоговом окне Таблицы многомерных откликов, чтобы начать анализ и открыть окно Результаты таблицы многомерных откликов.

Вначале рассмотрим простой вывод Таблицы частот.

Введите в редактируемое поле Выделить частоты число 100 (что приведет к тому, что все частоты больше 100 будут выделены в таблице результатов). Затем нажмите кнопку
Таблицы частот.

Таблица частот для переменной Пол — Gender интерпретируется обычным образом, и на ней мы останавливаться не будем. Таблицы частот для других двух факторов показаны ниже.

 

Всего в исследовании было опрошено 200 респондентов (число опрошенных N=200 отображается в верхнем левом углу таблицы).

Столбец Частота показывает число респондентов, назвавших данный способ питания как один из любимых. Напомним, что учитываются только уникальные ответы (см. выше) и, таким образом, ответ каждого респондента может быть посчитан только один раз в этом столбце. Отсюда вы можете прийти к заключению, что Пицца — Pizza была самой популярной системой быстрого питания, указанной либо в первой, либо во второй, либо в третьей позиции 138 респондентами, Гамбургер — Hamburger был вторым по популярности (114). Все типы систем быстрого питания отметили только 40-50 респондентов.

Во втором столбце таблицы результатов вычислены относительные частоты, соответствующие числам первого столбца. Можно сказать, например, что 26,44% (100*138/522) всех указанных в ответах предпочтений составляет Пицца — Pizza. В отличие от этой колонки третья колонка таблицы показывает проценты респондентов, отметивших соответствующий тип еды как первый, второй или третий. Пиццу — Pizza как лучшую систему быстрого питания выбрали 69% (100* 138/200) всех респондентов.

Аналогично рассматривается таблица частот для фактора Машина —
Саr. Иностранные спортивные машины отмечены 157 респондентами на одной из трех позиций (учитываются только различные ответы); отечественные спортивные машины отмечены 123 респондентами. Вторая колонка показывает 37,38% ответов для иностранных спортивных машин; эти числа не так легко проинтерпретировать, т. к. подсчитывались только различные ответы (несколько одинаковых ответов рассматривались как один). Таким образом, если респондент указал в анкете три иностранные спортивные машины, то этот ответ учтен только один раз. Числа в третьей колонке (Процент набл.) более информативны; из них, например, видно, что 78,5% всех респондентов назвали иностранные спортивные машины в числе трех самых любимых.

Возвратимся в диалоговое окно Таблицы многомерных откликов (нажмите
Отмена в окне Результаты), чтобы задать многомерную дихотомию в обследовании посетителей ресторанов. Нажмите кнопкуЗадать таблицы, отмените предыдущий выбор и выберите Burger_1 — Burger_4 как переменные первого множества.

Далее установите опцию Многомерная дихотомия
рядом с первым фактором в диалоговом окне Таблицы многомерных откликов. Как и ранее, можете использовать опцию
Длинные метки факторов для того, чтобы ввести подходящее имя фактора. Например, можно назвать этот фактор Patron: Recently patronized restaurants — Хозяин: Недавно посещенные рестораны.

Вам также необходимо задать код, который использовался в факторе многомерной дихотомии Patron для того, чтобы определить, обедал или нет респондент в соответствующем ресторане в течение двух недель перед опросом. Задайте нужный код в поле Счетчик ниже списка факторов. Так как код, равный 1 (числовой эквивалент значения Да — Yes; см. Управление данными, глава 7), использовался для того, чтобы определить, какой ресторан посещался респондентом, то можно просто принять код, предложенный по умолчанию.

Напомним, каким образом многомерные дихотомии интерпретируются программой. Переменные, из которых построен фактор, рассматриваются как его уровни, затем подсчитывается число уровней со значениями, равными значению, указанному в счетчике. Все значения, не равные этому значению, игнорируются. Вы можете строить более «сложные» схемы кодирования (а не просто 1 -0, как в этом примере), задавая подходящие значения в поле
Счетчик.

Например, можно использовать отдельный код (отличный от 1) для обозначения ответа: «даже никогда не думал там обедать». Вы могли бы ввести код 2 в переменные Burger_1 — Burger_4 для обозначения таких резко отрицательных ответов в отношении определенных ресторанов, задать этот код в поле
Счетчик и табулировать ответы. Таким образом, задавая различные значения для кодов многомерной дихотомии, можно идентифицировать взаимоисключающие ответы.

Из диалогового окна Результаты снова выберите процедуру
Таблицы частот. Интерпретация чисел, представленных в этой таблице, аналогична таблицам для многомерных откликов.

Всего 157 респондентов обедали в одном из четырех ресторанов (n = 157); 60 респондентов обедали в Burger Meister, 68 — в Bill’s Best Burgers и т. д. Значения во второй колонке (Процент откликов) выражают эти числа в процентах от общего числа респондентов, обедавших хотя бы в одном ресторане (то есть от 157 респондентов).

Предполагается, что четыре (воображаемых) ресторана делят рынок быстрого питания в городе и что 157 респондентов (из 200) в большей или меньшей степени представляют мнение общего рынка. Поэтому значения во второй колонке таблицы показывают долю рынка, которым владеет каждый ресторан.

Например, из всех мест (где подаются гамбургеры), которые посещались респондентами в течение двух недель до опроса, Burger Meister посещали 24,19%, Bill’s Best Burger — 27,42% и т. д. Третья колонка (Процент набл.) содержит процент респондентов, обедавших последние две недели в соответствующих ресторанах.

Напомним, что проценты вычислены для n = 157, то есть относительно числа респондентов, обедавших, по крайней мере, в одном из четырех ресторанов. Поэтому можно сказать, что 38,22% респондентов, обедавших в каком-то одном из четырех ресторанов, где подают гамбургеры, обедали также в Burger Meister — 43,31%, обедали в Bill’s Best Burger и т. д.

Заметим, что можно легко построить линейные графики или гистограммы частот и процентов с помощью процедур меню
Пользовательские графики.

Покажем, как строить таблицы сопряженности для переменных с многомерными откликами и многомерных дихотомий. Нажмите
Отмена в диалоговом окне Результаты для того, чтобы вернуться в диалоговое окно
Таблицы многомерных откликов. Прежде всего, посмотрим на таблицу сопряженности Пол — Gender и Машина — Саг. Иными словами, исследуем интерес к различным типам машин у Мужчин — Males и Женщин — Females. Нажмите кнопку
Задать таблицы и в открывшемся диалоговом окне выберите Пол — Gender как единственную переменную в первом множестве, а переменные Машина_1 — Машина_3 (Саr_1 —
Саr_3) как переменные во втором множестве.

Нажмите ОК и вернитесь в диалоговое окноТаблицы многомерных откликов. Задайте далее коды для фактора Машина —
Саr, чтобы идентифицировать четыре различных типа автомобилей. Возможно, вы захотите изменить описание фактора, тогда воспользуйтесь кнопкой
Длинные метки факторов.

Для этой таблицы отмените опциюСчитать только уникальные отклики.
Напомним, что назначение этой опции — исключить одинаковые ответы (одинаковые ответы одного и того же респондента на разные пункты считаются как один ответ). В данном примере, напротив, вы можете захотеть включить такие ответы в таблицу. Получившаяся таблица сопряженности будет показывать общее число различных типов машин, определенных респондентом как первая, либо как вторая, либо как третья, разбитых на классы значениями переменной Пол — Gender. Нажмите
ОК и откройте диалоговое окно Результаты таблицы многомерных откликов.

Нажмите кнопку Просмотреть итоговые таблицы. В результате будет построена следующая таблица:

По умолчанию Быстрым статистическим графиком для этой таблицы является ЗМ гистограмма. Нажмите правую кнопку мыши и выберите в меню опцию
ЗМ гистограмма.

Рассмотрев приведенную выше таблицу, можно прийти к выводу, что и мужчины, и женщины отмечали спортивные машины чаще, чем седаны. Разницу в общем числе Уашин, отмеченных мужчинами и женщинами, можно объяснить тем, что число мужчин и женщин в выборке существенно различается (если вы посмотрите на таблицу частот переменной Пол — Gender, то увидите, что в выборке присутствует только 36 женщин).

Вместо ЗМ гистограммы можно использовать линейный график. Вернитесь в диалоговое окно результатов и выберите опцию
Графики взаимодействий частот.

Здесь разница в предпочтении спортивных машин более отчетлива у мужчин, чем у женщин (линия, соответствующая женщинам, более сглаженная, чем линия мужчин).


Пример (анализ продаж)

Рассмотрим данные о продажах в магазине. Мы хотим провести разведочный анализ этих данных и построить модель покупателя.

Категоризируем исходные данные (способ категоризации количественных переменных в системе STATISTICA описан выше). 

В этом файле первая переменная — день недели, каждая оставшаяся переменная принимает два значения: 0, если данный покупатель не купил данный товар, и 1, если данный покупатель купил данный товар. Покупатели записаны в строках, товары в столбцах.

Для данного покупателя 1 означает, что он купил соответствующий товар.

Мы хотели построить модель покупателя. Для этого нам нужно знать, как распределены покупки и как они связаны между собой.

Работаем в модуле Основные статистики. Введите показанные данные в свой файл пли сгенерируйте нечто похожее, чтобы повторить действия.

Несколько тонких вопросов будут отмечены в ходе анализа и указаны альтернативные способы исследования.

Распределение числа покупок. Вначале введем переменную (в наших данных это будет переменная var24), подсчитывающую общее число покупок, сделанных покупателем (она равна сумме всех индикаторов покупок).

Вначале посмотрим, как распределено число покупок. Откройте процедуры описательной статистики.

Выберите все переменные, в которых записаны покупки различных
продуктов и нажмите кнопку Подробные описательные статистики
. На экране появится таблица с описательными статистиками.
 

Таблица с описательными статистиками имеет вид:

В этой таблице для нас прежде всего интересен второй столбец, в котором показано, как часто покупались различные продукты. Но вначале построим гистограмму числа покупок N.

Из гистограммы видно, что наибольшее число покупателей делает от одной до четырех покупок.

Редактор данных графика позволяет просмотреть данные графика в численном виде. Нажмите кнопку
Редактор данных графика, и вы увидите данные в численном виде.

Итак, общее число покупателей равно 674. Из них 90 сделали одну покупку, 110 сделали 2 покупки, 110 сделали 3 покупки, 102 сделали 4 покупки и т. д.

Случай одной покупки. Рассмотрим покупателей, сделавших только одну покупку. Для этого введем условие выбора наблюдений.

Группировка по дням недели. Рассмотрим, как распределены покупатели, сделавшие одну покупку, по дням недели. Выберите переменную День и постройте гистограмму.

Из гистограммы следует, что наиболее часто единичные покупки делаются в среду.

Какие продукты наиболее часто относятся к одиночным покупкам?

Найдем, какие продукты наиболее часто являются «одиночными». Выберем все переменные из файла, кроме первой. Вычислим средние величины.

Из таблицы следует, что если покупатель сделалтолько одну
покупку, то, скорее всего, это было мясо, хлеб, овощи, кондитерские изделия или колбасы. Вероятность сделать одиночную покупку из оставшейся части списка практическая нулевая.

Заметьте, что средние, приведенные во втором столбце таблицы с результатами, представляют собой оценки вероятностей покупки данного товара.

Таким образом, если покупатель пришел в магазин и решил сделать только одну покупку, то с вероятностью 0,26 он купит мясо, с вероятностью 0,133 купит хлеб, с вероятностью 0,11 купит овощи, с вероятностью 0,11 купит кондитерские изделия, с вероятностью 0,9 купит колбасные изделия.

Вероятность того, что покупатель сделает только 1 покупку, равна90/677= 0,13 (см. таблицу с распределением N).

Модель покупателя, делающего одну покупку. С вероятностью 0,13 покупатель, пришедший в магазин, делает одну покупку. С вероятностью 0,26 он покупает мясо, с вероятностью 0,133 — хлеб, с вероятностью 0,11 — овощи, с вероятностью 0,11 — кондитерские изделия, с вероятностью 0,9 — колбасные изделия.

Случай двух покупок. Рассмотрим покупателей, сделавших две покупки.

Число таких покупателей равно 110.

Для этих покупателей N=2. Изменим условие выбора случаев. Заметьте, в условии выбора наблюдений можно употреблять имя переменной, что и было сделано в данном случае.

Вычислим описательные статистики при условии, что
N=2.

Из этой таблицы видно, что если покупатель сделал две покупки, то наиболее вероятно, что в эти покупки вошли овощи, хлеб, молоко, кондитерские изделия, колбасы, мясо.

Поставим вопрос, какие пары покупок наиболее вероятны.

Ответ на этот вопрос можно получить с помощью простейших действий.

Всего переменных 22. Конечно, мы не будем перебирать все 22*21 = 462 пары переменных и строить для них таблицы.

С помощью некоторых разумных приемов, например, рассмотрев корреляции переменных, можно существенно сократить процедуру поиска.

За несколько минут можно найти наиболее вероятные пары покупок
.

Полезными здесь являются гамма-статистики, массив которых сразу для всех переменных можно вычислить с помощью непараметрических процедур (не забудьте при вычислении поставить условие N
= 2).

Просматривая таблицу и выбирая максимальные коэффициенты, можно определить наиболее вероятные парные покупки.

Так же можно определить несовместимые пары.

Вероятность того, что покупатель сделает две покупки, равна 110/677= 0,16 (см. таблицу с распределением N).

В принципе те же самые действия можно провести для остальных N, при этом полезно использовать язык STATISTICA BASIC.

Однако очевидно, здесь мы сталкиваемся с довольно сложной переборной задачей, поэтому наметим различные подходы к ее решению.

В частности, используем анализ соответствий и геометрическую интерпретацию частот.

Здесь же рассмотрим, какие дополнительно возможности имеются в модуле
Основные статистики и таблицы.

Случай трех и четырех покупок. Воспользуемся процедурами группировки. Не забудьте отменить условия выбора случаев, назначенные ранее.

В диалоге Группировка и однофакторная ANOVA прежде всего выберите переменные для анализа. Группирующие переменные — день и N. Все остальные переменные определите как зависимые.

Выберем коды для группирующих переменных, как показано ниже. Конечно, можно было бы выбрать все коды для N, но мы ограничимся тремя и четырьмя покупками как наиболее типичными.

Нажмите ОК и проанализируйте результаты.

Прежде всего нажмите кнопку Итоговая таблица средних.

На экране появится таблица средних, вычисленная для каждой группы данных. Всего имеются 14 групп: 7 дней недели, умноженные на 2 (мы задали два кода переменной N — группа покупателей, сделавших три покупки, и группа покупателей, сделавших четыре покупки).

Ориентироваться в этой таблице очень просто. Рассмотрим, например, переменную КОЛБАСЫ.

Вы видите, что в понедельник покупатель, сделавший три покупки, с вероятностью 0,25 покупает колбасу, а покупатель, сделавший четыре покупки, покупает ее с вероятностью 0,75.

Рассмотрев вероятности по строке, можно видеть, что в понедельник покупатель, сделавший три покупки (первая строка таблицы), скорее всего, купил хлеб, кондитерские изделия или молоко.

Связи между покупками. Рассмотрим таблицы сопряженности хлеб и колбаса при числе покупок, равном 3.

Значение гамма-статистики 0,38 говорит о наличии неярко выраженной связи между признаками.

После того как гипотеза о независимости отвергается с помощью критерия хи-квадрат или точного критерия Фишера, необходимо измерить силу связи признаков.

Одной из таких мер принято считать гамма-статистику.

  •  Если модуль меры больше 0,8, то мы имеем сильную связь табулированных переменных.
  •  Если модуль меры связи принимает значения от 0,3 до 0,8, то говорят о неярко выраженной связи.
  •  Меньшие значения модуля меры связи свидетельствуют об отсутствии связи. Как и во всех задачах, связанных с оценкой зависимости, здесь очень полезна визуализация.

Рассмотрим при трех покупках степень связи между переменными: хлеб и молоко.

Из приведенной таблицы следует, что при трех покупках из 55 человек, купивших хлеб, 21 купили молоко, 34 не купили молоко (вторая строка таблицы).

Из 55 человек, не купивших хлеб, 24 купили молоко, 31 не купили молоко.

С помощью критерия хи-квадрат проверим гипотезу о независимости табулированных переменных.

Критерий хи-квадрат не позволяет отвергнуть гипотезу о независимости. Как понимать это положение?

Рассмотрим внутренние ячейки таблицы с покупками хлеба и молока при трех сделанных покупках.

Из таблицы получим следующие оценки вероятностей (при условии трех покупок!). Вероятность того, что покупатель:

1) не купит ни молока, ни хлеба — 31/110 = 0,28;

2) не купит молоко, но купит хлеб — 24/110 = 0,22;

3) купит хлеб, не купит молоко — 34/110 = 0,31;

4) купит хлеб и молоко — 21/110 — 0,19.

Эти оценки получены из наблюдаемых частот.

Рассмотрим маргинальные частоты, эти частоты располагаются по краям таблицы и при гипотезе независимости позволяют оценить ожидаемые частоты.

Имеем (см. таблицу):

  •  Покупатель, пришедший в магазин и сделавший три покупки, с вероятностью 65/110 = 0,59 не купит молоко, а с вероятностью 45/110 = 0,41 купит молоко.
  •  Покупатель, пришедший в магазин и сделавший три покупки, с вероятностью 55/110 = 0,5 купит хлеб, с вероятностью 55/110 = 0,5 не купит хлеб.

Перемножая эти вероятности, получаем:

  •  0,59 × 0,5 = 0,295 — вероятность того, что покупатель не купит ни молока, ни хлеба;
  •  0,59×0,5 = 0,295 — вероятность того, что покупатель не купит молоко, но купит хлеб;
  •  0,5 × 0,41 = 0,205 — вероятность того, что покупатель купит хлеб, но не купит молоко;
  •  0,5× 0,41 = 0,205 — вероятность того, что покупатель купит хлеб и купит молоко.

Можно видеть, что эти вероятности очень близки к вероятностям, вычисленным ранее в 1-4.

Критерий хи-квадрат как раз и измеряет «расстояние» между этими частотами.

Итак, если покупатель делает три покупки, то покупка молока и покупка хлеба независимы.

Заметим, что продвинутый анализ покупателей, сделавших даже три покупки, связан с очевидными трудностями. В частности, не так просто найти группы товаров, наиболее вероятно объединяющиеся в тройки.

Далее мы применим к данным о продажах разведочные методы анализа соответствий (см. главу Анализ соответствий).

На нашем телеграм-канале много материалов посвящено написанию научных работ. В этой статье мы решили раскрыть тему формы представления практических результатов в курсовой работе.

Как мы уже знаем, курсовая работа должна содержать такой подраздел, как теоретические и практические результаты исследования. Давайте выясним, что это такое и как выполнять это задание.

Описание результатов работы (курсовой, практической и т.д.)

Описание результатов – это описание информации, полученной в процессе эмпирического исследования по разным методикам.

Сюда входят:

  • представление результатов практической работы в общем виде графиков, таблиц;
  • цитирование протоколов;
  • описание сложностей, которые возникали в ходе проведения исследования;
  • описание типичных проявлений исследуемого явления.

Например, в ходе написания курсовой на первом курсе обучения в математической обработке будет представлен подсчет средних значений и процентных соотношений.

Анализ результатов исследования

Сюда относится:

  • сравнение информации, полученной автором курсовой, с уже имеющимися в науке данными;
  • выявление психологических особенностей;
  • объяснение полученной информации с точки зрения современных научных психологических теорий из контекста цели исследования.

Не исключено, что в ходе анализа будет обнаружена противоречивая информация, полученная с помощью разных методов и методик. Например, если проводить опрос в ходе изучения агрессивности, будет видно, что его участники вовсе не агрессивны. Зато если проводить исследование методом наблюдения, тут агрессия начинает проявляется.

Задача автора исследования – как раз выявить такие противоречия и постараться их объяснить. Если вернуться к нашему примеру, ответ может крыться в том, что участники опроса могут не воспринимать себя агрессивными, но обладать таким поведением.

Оформление результатов практической и духовной деятельности

Научные и практические результаты исследования обычно представлены в виде таблиц, графиков, диаграмм (столбиковых, линейных и секторных) и схем. 

Они приводятся внутри текста непосредственно в работе, а не в приложении. Если для этого мало места, то их следует размещать на странице, следующей за текстом, в котором они впервые упоминаются. 

В случае слишком большого размера или объема графического материала, его помещают в приложениии. Тогда в тексте работы, где упоминаются результат практической деятельности, обязательно следует сделать ссылку.

При оформлении практического анализа результатов производственной практики или курсовой следует создавать смысловое название – такое имя, которое будет ясно читателю без необходимости прочитывать сопроводительный текст. Также стоит помнить про сквозную нумерацию, при которой таблицы нумеруются по одному порядку, рисунки – по другому.

Оформление таблиц

Таблицы в практическом применении результатов исследования должны подчиняться следующим правилам:

  1. Таблицы должны быть компактными, наглядными, легко обозримыми. Лучше создать несколько маленьких таблиц, чем одну огромную.
  2. Нумерацию указывают справа перед таблицей.
  3. В названиях строк и граф избегают лишних слов, а также сокращений (по возможности).
  4. Если отдельные графы повторяются или содержат одни и те же термины, несут одинаковый смысл, их указывают под одним заголовком.
  5. В таблицах всегда указывают единицы измерения числовых данных. Если они общие для всей таблицы, то их указывают в заголовке (через запятую от названия или в скобках). Если в таблице встречаются разные единицы, их прописывают в заголовке нужной графы или строки.
  6. В одной графе все цифры должны быть одинаково точны. Для этого можно округлить их до целого числа или 1-2 цифры после запятой.
  7. Одна клетка таблицы должна вмещать одно число.
  8. Таблица не должна содержать пустых клеток.
  9. Если в таблице есть примечания, их набирают шрифтом по размеру на 1-2 значения меньше.

Оформление таблиц

Оформление рисунков

В отличие от таблиц, название рисунков помещают под ними. При этом всегда указываются единицы измерения и названия смысловых осей. Нужно приводить условные обозначения.

Оформление рисунков

Если протоколы, рисунки, таблицы или другой графический материал сопровождается большим количеством текста, приводить все вместе следует в приложении. Так поступают с анкетами, рисунками испытуемых, изображениями эксперимента и пр.

Нумерация приложений стандартная. Например, «приложение №1» и далее по порядку. В этом случае ссылки на приложения с номерами нужно обязательно размещать в той части текста, где они должны были располагаться.

Любая приведенная в таблицах, графиках, рисунках и других материалах информация должна быть описана в основном тексте. Ее нужно сопроводить анализом.

Будем безмерно рады, если вся эта информация вам пригодится, и вы создадите качественный проект с грамотным описанием и анализом результатов исследования. Если же ваше время слишком ограничено, лучше поручить работу опытным специалистам из сервиса студенческой помощи. 

Наталья

Наталья – контент-маркетолог и блогер, но все это не мешает ей оставаться адекватным человеком. Верит во все цвета радуги и не верит в теорию всемирного заговора. Увлекается «нейрохиромантией» и тайно мечтает воссоздать дома Александрийскую библиотеку.

Понравилась статья? Поделить с друзьями:
  • Lcd wireless audio adapter c39s инструкция на русском
  • Tatamia стульчик для кормления инструкция поэтапная
  • Как выключить звук на тетрисе инструкция на русском
  • Супра пульт от кондиционера инструкция по применению
  • Мустанг вакуум динавак инструкция по применению