">
Информатика Программирование
Информация о работе

Тема: Анализ данных в пакете прикладных программ Statistica

Описание: Анализ данных в пакете прикладных программ. Одномерный визуальный и описательный анализы данных. Правило галочки. Коэффициенты вначале исследования и после. Всесторонний двумерный и кластерныйанализ. Множественная регрессия. Плотность. Описательные статистики.
Предмет: Информатика.
Дисциплина: Программирование.
Тип: Методические рекомендации
Дата: 29.08.2012 г.
Язык: Русский
Скачиваний: 34
Поднять уникальность

Похожие работы:

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ЭЛЕКТРОНИКИ И МАТЕМАТИКИ

Методические указания*

к курсу

«Прикладное программное обеспечение»

на тему:

«Анализ данных в пакете прикладных программ Statistica»

Выполнил:

Волков В.

- Москва – 2012 –

*данные методические указания являются неофициальными указаниями, написанные студентом Волоковым В. в помощь студентам Московского Государственно Института Электроники и Математики (технический университет) при подготовке к сдаче и написании курсовой работы.

Для написания своей собственной уникальной работы вам понадобятся:

1. Пакет Statistica 10 версии на английском языке. Ссылка для скачивания.

2. Готовая курсовая работа (для облегчения понимания сути).

3.Опционально. Программа Jing для более быстрой работы совершения/редактирования скриншотов (а не через paint). Их придётся делать много. Конечно, можно украсть оные из курсовой, добытой в пункте 2, но тогда ваша работа будет не уникальна, а это плохо для тех, кто претендует на 4-5.

Замечу, что скриншотить можно только таблицы. Все графики легко копируются в  непосредственно.

4. Ответник к вопроснику (спасибо говорим ей). На него буду ссылаться в некоторых местах.

5. Данные для работы в статистике.

Предисловие

Я писал свою работу исходя из интеллектуальных трудов этого и этой граждан РФ. Все права на использование их работ защищены ©. Вы можете свободно использовать все данные, предоставленные в моей курсовой.

Ответник размещён без согласия его создателя. Тссс.

Итак, перейдём, непосредственно, к основной части работы.

Выполнение работы

План задания:

1. Провести одномерный визуальный и описательный анализы данных

Вычислить основные описательные статистики для числовых переменных

Вычислить описательные статистики для этих переменных по группам, построить таблицы частот для категориальных переменных

Наглядно иллюстрировать полученные результаты (гистограммы, круговые диаграммы, диаграммы размаха, диаграммы рассеивания и т.п.)

2. Сравнить с помощью t-критерия Стьюдента коэффициенты вначале исследования и после, проиллюстрировать на графике.

3. Провести всесторонний двумерный анализ данных.

4. Множественная регрессия

5. Многомерный анализ

Кластерный анализ

Дискриминантный анализ

Итак, начнём по порядку

1. Провести одномерный визуальный и описательный анализы данных

Установив статистику, дважды кликнем по файлу, скаченному из пункта 5.

Откроется окно вида:



Примечание. При установке статистики даётся выбор варианта меню – лента или привычный, контекстный. Я выбрал ленточный вид и в дальнейшем буду работать с ним. Если вы выбрали контекстный, то чтобы перейти к ленточному режиму меню выполните



Итак, чтобы подсчитать базовые статистики (ищите в википедии определение, вкратце – всякие средние, медианы, максимумы и т.д.) в ленте выбираем



и откроется лента



Выбираем



Откроется окно



Описательные статистики уже выделены (. Нажимаем кнопку , чтобы выбрать размер выборки. Откроется окно



Снимаем галочку в пункте . И отныне, перед каждым новым открытым модулем, например , не забываем об этой галочке, иначе данные будут подсчитываться не полностью. Запомните правило галочки!

Нажимаем , потом . Откроется окно



Переходим во вкладку . Акцентируем внимание на разделе



Выбираем то, что я выбрал в своей курсовой. Можете не выбирать что-нибудь. Главное – показать, что вы умеете считать всё это и, при необходимости, поставить нужную галочку. Что означает каждая галочка смотрите в моей курсовой.

Далее нажимаем , откроется окно



нажимаем кнопку , все переменные выделятся. Зажимаем на клавиатуре клавишу  и последовательно нажимаем вначале на «Признак 2», затем на «Признак 6», тем самым с них снимется выделение. Только что мы выбрали переменные, для которых будем считать описательные статистики. Считать их для категориальных переменных смысла нет, поэтому мы их исключили. Что такое категориальные переменные смотрите в ответнике под вопросом 21.

Учтите, что при выборе переменной галочка  убирает из списка переменные, значения которых – текст. У нас эта переменная – вид газа. Если вы её выберете, статистика спросит что делать с ней



Нажимайте  и она уладит этот вопрос.

Я её не рассматриваю тут, но в своей работе я тоже подсчитывал для неё статистики. Снимите галочку, если боитесь/можете не выбрать эту переменную в дальнейшем!

Нажимаем , а затем . Имеем следующий результат



В правом окне результат подсчёта наших статистик, которые мы отмечали для переменных, которые мы также выбрали. Обратите внимание на левую часть. Workbook – это рабочая книга, в которой сохраняются все ваши результаты. Выглядит это всё дело как папка с подпапками, названия которых соответствуют тем модулям, которые вы выберите и тем опциям, которые вы выберите в модуле. К примеру, один из модулей - это , но в нём куча всяких кнопочек, которые дают разные подсчёты, и они-то и будут подпапками. От таки дела, малята.

Скриншотим, заносим в работу (в дальнейшем СЗР).

Теперь построим гистограммы для наших переменных в отдельности и заодно проверим на нормальность (у меня в курсовой это последний пункт первого раздела).

Что бы делать разные подсчёты в одном и том же модуле не нужно постоянно тыркать, к примеру, . Когда вы один раз подсчитали и вам выдали результат, внизу появится «свёрнутый модуль»



нажимаем его и модуль откроется вновь. Переходим во вкладку .



Здесь надо установить галочки



Это – тесты на нормальность. Как они работают – не важно, главное понять: как узнать, что они нам говорят (в моей курсовой в 8 пункте 1ого раздела это описано).

Тест Шапиро-Уилка сильнее, чем Колмогорова. Так что если Колмогоров скажет что распределение нормально, а Шапиро ему возразит – слушаем Шапиро. Статистика Колмогорова описывается следующим образом:



где эмпирическая функция распределения, которая строится по данным,  - теоретическое нормальное распределение. Это у меня спросили на экзамене в качестве необязательно вопроса.

Итак, выбрав галочки, выбираем теперь ВСЕ (!) переменные (ранее мы убрали 2 и 6) и нажимаем .

Получим гистограмму для каждой переменной.



В правой части – список остальных результатов.

Анализ и всё остальное – у меня смотрите. СЗР.

Теперь построим диаграммы по группам. Т.е. выбирается две (или более) переменных и смотрятся диаграммы.

К примеру, посмотреть гистограммы «Признака 2» по типам газов. Займёмся этим. В нашем модуле



выбираем 1 переменную, которую хотим посмотреть в группе с какой-нибудь другой, т.е. «Признак 2» .

Выбираем в  первую переменную , жмём . Теперь нажимаем кнопку , откроется окно



в первой колонке которого выбираем вторую переменную, по которой хотим посмотреть наши гистограммы, т.е. «Вид газа». Вторую колонку не трогаем. Жмём , выскочит окно



ничего не трогаем, нажимаем  ещё раз и получим следующий результат:



То, что и хотели: как ведёт себя признак 2 (он категориальный, если вы не поленились и посмотрели в ответнике, то понимаете почему, если нет – вопрос 21 вас всё ещё ждёт).

СЗР. Теперь ваша задача, перебрать варианты пар, не обязательно все, главное, чтобы было какое-то исследование. Можете сделать как делал я в своей работе. А можете ввести «инновации» и рассмотреть другие зависимости одного от другого.

Теперь для завершения первого пункта осталось объяснить, как строить диаграммы размаха, круговые диаграммы и таблицы частот.

Начнём с диаграмм размаха.

Чтобы построить диаграмму размаха для одной или нескольких переменных, достаточно в модуле



перейти на вкладку  и выбрать пункт

,

который построит на одном графике диаграммы размаха для всех переменных, выбранных в . Так что если шкала одной переменной огромна, а другой мала, то будет «Давид и Голиаф» и вы ничего толком не увидите на графике.

Если вам нужно построить диаграмму размаха одной переменной по другой, например, на какой в среднем высоте находятся разные виды газов? Тут нужен другой модуль.

На главной ленте выбираем пункт , появятся следующие модули



Выбираем , откроется окно



Снимаем галочку в пункте .

Нажимаем , выбираем пару переменных: одна зависимая, другая нет. К примеру, как я указал выше – по оси  откладывать средние высоты, а по оси  - виды газов.

Почитайте в википедии, как строятся эти диаграммы размаха. Можете выбрать в качестве центра



либо медиану, либо среднее. Чем они отличаются читайте в ответнике под вопросом 9.

Получим такой результат:



Анализ и остальные группировки признаков посмотрите у меня в курсовой и попробуйте сами сконструировать инновации.

Перейдём к круговым диаграмма и таблицам частот. Строятся они в том же модуле, где мы строили гистограммы:

    

Вкладка .

В  выбираем переменные, для которых хотим построить таблицу частот. Затем нажимаем . Если выбрали несколько, статистика построит для каждой переменной свою таблицу, все результаты смотрите а правой колонке рабочей книги.

Построим для переменных «Признак 2» и«Признак 3».



Правая колонка

рабочей книги

Теперь построим круговые диаграммы. На ленте выбираем , затем 

В появившемся окне выбираем



Откроется окно



В  выбираем переменную(-ые) для которых хотим построить круговую диаграмму. Переходим в вкладку , в ней сконцентрируем внимание на полях



Выберете подходящую форму (круг или эллипс) и размерность графика.

Ничего не забыли?

ГАЛОЧКУ!

Снимаем галочку в пункте , нажимаем  - круговая диаграмма построена.



Итак, у вас есть весь арсенал умений, который необходим для выполнения первой части курсовой. Исследуете то, как я проводил исследования в своей курсовой, придумывайте новые зависимости, экспериментируйте.

По поводу трёхмерной диаграммы, которую я использовал в своей курсовой. Она находится в разделе  в ленте .

2. Сравнить с помощью t-критерия Стьюдента коэффициенты вначале исследования и после, проиллюстрировать на графике.

Итак, покажем, как использовать критерий стьюдента (англ. Student). Грубо говоря, критерий работает так: мы задаём входные параметры – количество элементов выборки (2000) и уровень доверия или значимости (0,05). Дальше программа, следуя теоретическому алгоритму, который обрабатывает значения наших данных, показывает, есть ли зависимость. Это отображается как красный цвет строк зависимых параметров. Теоретические алгоритмы разные: зависит от того, как связаны исследуемые переменные, т.е. выборки. Если есть связь, используется один алгоритм, ежели нету – другой.

Нам предлагается исследовать на зависимость две переменные: «Коэффициенты вначале» и «Коэффициенты после». Они зависимы между собой, это вытекает из структуры предлагаемых данных, увидеть это можно так:

в окне данных, дважды нажимаем на последнюю переменную



появится окно



внизу которого написан закон, по которому каждое поле этой переменной вычислялась:



лично мне не совсем понятно, почему и слева и справа стоит , но я трактовал это так, что сперва  была заполнена некоторыми данными, а затем к ней добавили значения , умноженные на два.

Заходим в , затем выбираем пункт, который соответствует природе наших переменных, т.е. зависимые между собой: .



При этом не забываем установить значения переменных (т.е. снять галочку в ). После этого нажимаем . Появится окно



нажимаем , выбираем соответственно «Коэффициенты вначале» и «Коэффициенты после»



затем нажимаем , потом . Получим результат



собственно, как в моей курсовой работе. Таким образом, показали, что зависимость есть. В своей курсовой я также показывал насколько сильно разнятся средние значения обоих переменных на диаграммах размаха, для этого в окне



нужно перейти в вкладку  и именно в ней нажать кнопку , после которой появится диалоговое окно



в котором предлагается выбрать, как высчитывать «центр» и границы прямоугольника для диаграммы размаха. Вариант  говорит о том, что центр, это медиана, а границы прямоугольника – верхняя и нижние квартили. Вариант же  говорит о том, что центр, это среднее, а границы прямоугольника – стандартное отклонение. В чем между ними различие и что это такое читайте в ответнике в вопросах , , .

Стандартное отклонение (в статистике обозначается SD) - это квадратный корень из суммы квадратов разности элементов выборки от среднего, делённое на .

SE – стандартная ошибка (, где  выборочная дисперсия (наилучшее оценивание совокупной дисперсии) и  число наблюдений в выборке).

Выбирая последовательно два варианта, получим два результата, таких же как в моей курсовой.

Повторю, что скриншотить можно только таблицы. Все графики легко копируются в  непосредственно.

Теперь посчитаем корреляционную матрицу.

Вообще, цель корреляционного анализа – установить, есть ли зависимость между переменными (в отличие от критерия Стьюдента не обязательно между двумя переменными). Результат такого анализа – матрица, по столбцам и по строкам которой стоят выбранные нами переменные, а значения матрицы – числа в промежутке от  до . Природа зависимости (линейная, квадратичная, обратная и т.п.) зависит от выбираемого метода вычисления корреляционной матрицы. Мы будем рассматривать метод Пирсона и Спирмена. Оба эти метода устанавливают, есть ли между переменными линейная зависимость. Чем ближе значение матрицы на пересечении строки и столбца к , тем ближе зависимость к линейной. И наоборот, значение, к примеру , может сказать нам, что зависимость полиномиальная. Различие между методом Спирмена и методом Пирсона в том, что Спирмена выполняется быстрее, в силу того, что он робастен (устойчив) к значением самих переменных. Ему важна индексация, которая вводится особым образом. Метод Спирмена считается «в лоб», прогоняя значения, поэтому он работает медленнее чем, метод Спирмена, но зато более точно.

Ясно, что в корреляционной матрице на главной диагонали будут стоять 1 (переменная зависит линейно от самой себя: ). Также матрица симметрична (т.е. ,  – операция транспонирования), это следует из того, что переменная  зависит от переменной  точно так же, как и переменная  от , потому в матрице элемент .

Перейдём к построению корреляционной матрицы. Нажимаем , затем в окне выбираем



в  снимаем галочку, устанавливая тем самым диапазон от  до , нажимаем , появится окно



в котором нажимаем  и выбираем список переменных, зависимости которых хотим исследовать (зажимаем  и последовательно кликаем мышкой по нужным переменным)



нажимаем , затем переходим в вкладку  и уберём галочку , для того, чтобы не отображать в матрице корреляций средние и стандартные отклонения. Можете их оставить, но результат не будет является корреляционной матрицей, а будет матрица , где  матрица средних и дисперсий, а корреляционная матрица (символ  означает приписывание матрицы  сразу после ). Нажимаем  и получаем следующий результат



Коэффициент близок к 1, значит зависимость близка к линейной. Заносим в работу.

Теперь научимся строить диаграмму рассеяния. Она показывает насколько «рассеяны» данные относительно некоторой прямой. Это частный случай линейной регрессии, о которой речь пойдёт позже.

На ленте заходим во вкладку , нажимаем , вывалится контекстное меню, в котором выбираем 



вывалится окно



выбираем диапазон в , в  выбираем переменные соответственно по  и по , жмём . Получаем результат. Заносим в работу.

3. Провести всесторонний двумерный анализ данных.

По-сути – это анализ всевозможных зависимостей (если таковые имеются) между переменными с графиками и таблицами. Всё, что сделано в моей курсовой на данном этапе вы можете сделать, как-то: построить гистограмму, вычислить матрицу корреляций, использовать критерий Стьюдента, построить диаграмму рассеяния, построить диаграммы размаха для переменной или для переменных. Заметьте, во множественном числе (вспомните из первой части пример на странице 13-14).

Единственное, что я сделал принципиально нового – в диаграммах размаха соединял центры, используя полиномиальное приближение. Это находится здесь:

, затем , в окне переходим во вкладку  и в поле  выбираем полиномиальное приближение



Ход выполнения смотрите в курсовой.

4. Множественная регрессия

Теоретическое введение, необходимое для понимания сути этого метода, читайте в моей курсовой. Нам нужно построить регрессию для переменной «Коэффициент плотности». Построив матрицу корреляций (см. в курсовой), мы видим, с какими переменными наш «Коэффициент плотности» лучше всего коррелирует. Но категориальные переменные (см. ответник вопрос 21) мы не можем использовать при построении нашей модели. Поэтому я строил по переменные, указанные на стр. 28 моей курсовой.

Строится очень просто

В графе  нажимаем , откроется окно



устанавливаем диапазон переменных в , в , в качестве зависимой переменной выбираем «Коэффициент плотности», в качестве независимых – те, что я выбрал в своей курсовой



нажимаем , затем , получим такой результат



Подсвеченные красным цветом Признак 9 и Признак 10 говорят о том, что из выбранных нами четырёх переменных только эти две «хорошо» построят модель. Признак 5 и 9 коррелируют между собой (см. матрицу которую вы построили), а при построении регрессии, мы должны выбрасывать коррелирующие между собой переменные. Можно посчитать дальше и с этими переменными, как я делал в своей курсовой, но это не совсем верно. А в математике «не совсем верно» значит неверно. Поэтому нажимаем  и убираем в  ненужные переменные. Получим такой результат



вот это другое дело. Нажимаем . Получим



Нажимаем  для построения нормального вероятностного графика остатков. Что такое остатки, смотрите в теории, которая предшествует вычислениям в моей курсовой. Что показывает этот график смотрите там же, чуть ниже (стр. 28 курсовой).

Может потребоваться построение уравнения регрессии конкретно для нашей задачи (могут спросить на экзамене).

Для этого требуется уравнение для описания множественное линии регресии из теории



У нас , поскольку мы брали только две независимые переменные.

Узнать конкретные коэффициенты можно так: в окне



переходим во вкладку , затем нажимаем , получим таблицу



в которой столбец , поэтому уравнение регрессии для нашей задачи:

«Коэф. плотности»  «Признак 9»  «Признак 10»

Собственно, на этом задача регрессионного анализа заканчивается. Выводы и более подробные объяснения результатов смотрите в моей курсовой.

5. Многомерный анализ

Кластерный анализ

Я делал по аналогии с тем алгоритмом, который предложен для рассмотрения данной задачи на сайте statsoft. Идём сюда и смотрим.

Выделим 3 этапа:

Стандартизация данных

Иерархическая классификация, с помощью которой определим «на глаз» число 

Кластеризация методом -средних, графическое построение кластеров, построение таблицы дисперсионного анализа

 Стандартизация

Что такое смотрим в ответнике под вопросом 4. Проводится следующими действиями:

на ленте переходи во вкладку , нажимаем  , откроется окно



в  выбираем все переменные, в  весь диапазон, получим



жмём .

Теперь таблица с данными изменится. Стандартизация делает значения наших переменных как бы «в одном масштабе». Если раньше высота имела гораздо большие значения и, к примеру, на графике остальные данные терялись на её

фоне, то теперь такого не будет.

 Иерархическая классификация. Эвристический поиск числа 

Наша цель – построить вертикальную дендрограмму.

Для этого переходим во вкладку , затем выбираем , вывалится контекстное меню, в котором выбираем 



Откроется следующее окно



Выбираем , выбираем диапазон в , затем жмём . Откроется следующее окно



Если в  выбраны не все переменные, выберите их. В качестве объекта выбираем строчку нашей таблицы, т.е. в  выбираем , в качестве правила объединения выберем метод полной связи (всё как на сайте, приведённом выше) т.е. в пункте  выбираем .

В итоге, после выбора соответствующих настроек, должно получиться так:



Убедитесь в том, что в  выбран весь диапазон переменных, от 1 до 2000. Нажимаем . Поскольку данных много, а методы требуют объёмных вычислений, программе потребуется время, прежде чем выдать результат. На сильных машинах это занимает около 15 секунд, а так дело может затянуться до нескольких минут.

Получим



Нажимаем , программа подумает секунды 4-5 и построит вертикальную дендрограмму.

Как определить число ?

Вот как я смотрел на дендрограмму:



Здесь можно увидеть  разных кластера. Разных в смысле расстояния между ними. Можно выделить 5 или 6 кластеров, это не принципиально, просто метод -средних даст немного другие результаты.

 Кластеризация методом -средних, графическое построение кластеров, построение таблицы дисперсионного анализа

Опять заходим во вкладку , затем выбираем , вывалится контекстное меню, в котором выбираем . В выпавшем окне выбираем метод -средних



не забываем в  выбрать диапазон. Нажимаем , появится



В поле  выбираем число кластеров  которое «на глаз» определили в прошлом пункте. В нашем случае это .



Жмём , видим



Таблица дисперсионного анализа высчитывается при нажатии . В своей курсовой работе я убирал все переменные, у которых в таблице дисперсионного анализа вероятность  была больше  и проводил вычисления заново до тех пор, пока у каждой невыкинутой переменной это значение не стало меньше .

Графическое построение кластеров вызывается по нажатию .