belovorus.ru

Блог о телекоммуникациях

Популярный блог - помощник для работы за компьютером и в сети Интернет

 

 

Категории

 

Новости

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Написать администратору

Коэффициент корреляции Пирсона. О пиратах, глобальном потеплении и спагетти-монстре.

Люди не приходят от обезьян вообще. Они разделяют только 95% ДНК с ними. Они разделяют 99,9% пиратов и являются нашими предками. В любом случае, говорят последователи Летающего Спагетти-Монстра. Следствием сокращения числа пиратов является глобальное потепление. Чтобы доказать это, пастафарианцы представили график, который четко показывает корреляцию между температурой и количеством пиратов. График не вызывает сомнений. Так что же делать? Присоединяйтесь к пастафарианцам и пересмотрите свои прежние религиозные взгляды, или вы можете лучше понять, что такое корреляция? Сегодня мы представим коэффициент корреляции Пирсона.

что такое корреляция

График, представленный пастафарианцами, выглядит следующим образом:

Люди не приходят от обезьян вообще

Источник: Википедия

Как видите, количество пиратов уменьшается, а температура повышается. Ну и что? Стоит ли покупать парусный корабль, прикреплять к мачте черный флаг и начинать мир? Чтобы увидеть, действительно ли пираты влияют на глобальное потепление, мы вернемся, а пока давайте подумаем, что такое корреляция и как мы можем ее измерить. Корреляция - это взаимозависимость, возникающая между двумя явлениями. В статистике уровень линейной зависимости между двумя случайными величинами измеряется с использованием коэффициента линейной корреляции Пирсона. И рассчитаем этот коэффициент по формуле:

\ (R_ {ху} = \ гидроразрыва {\ sum_ {= 1} ^ {N} (X_ {I} - \ Overline {х}) (y_ {I} - \ Overline {у})} {\ SQRT { \ sum_ {= 1} ^ {п} (X_ {я} - \ Overline {х}) ^ {2} \ sum_ {= 1} ^ {п} (X_ {я} - \ Overline {у}) ^ {2}}} \)

Этот шаблон после различных преобразований может выглядеть совершенно по-другому - не удивляйтесь, если мы увидим его в несколько ином виде.

Например, в этом:

\ (R_ {ху} = \ гидроразрыва {\ sum_ {= 1} ^ {п} X_ {I} X_ {г} п \ Overline {х} \ Overline {у} {N} \ {х} sigma_ \ sigma_} {у} \)

где \ (\ sigma_ {x} \) и \ (\ sigma_ {y} \) - стандартные отклонения

или в такой:

\ (R_ {ху} = \ гидроразрыва {\ sum_ {= 1} ^ {п} X_ {я} X_ {я} - \ sum_ {= 1} ^ {п} X_ {я} \ sum_ {я = 1} ^ {п} X_ {я}} {\ SQRT {п \ sum_ {= 1} ^ {п} X_ {я} ^ {2} - (\ sum_ {= 1} ^ {п} X_ { я}) ^ {2}} \ SQRT {п \ sum_ {= 1} ^ {п} X_ {я} ^ {2} - (\ sum_ {= 1} ^ {п} X_ {я}) ^ {2}}} \)

значения коэффициента корреляции Пирсона

Коэффициент корреляции Пирсона является нормированной ковариацией. Расчетный результат всегда находится в диапазоне от -1 до 1. Если коэффициент равен нулю (r = 0), мы знаем, что между этими двумя признаками нет линейной корреляции. Если результат положительный (r> 0), это означает, что мы имеем дело с положительной корреляцией. Можно ожидать, что с увеличением значения одной черты значение второй черты возрастет. В случае отрицательных значений коэффициента (r <0) речь идет об отрицательной корреляции. Таким образом, при более высоких значениях одного объекта вы можете ожидать уменьшения значения второго объекта.

Что касается уровня зависимости, для абсолютных значений могут быть приняты следующие допущения:
<0.2 нет зависимостей
0,2-0,4 слабая зависимость
0,4-0,7 умеренная зависимость
0,7-0,9 довольно сильная зависимость
> 0,9 очень сильная зависимость
В различных исследованиях эти компартменты могут немного отличаться, но мы более или менее знаем, какие значения говорят о связи между изучаемыми переменными. Добавим здесь, что другие ценности будут иметь значение для исследователей из разных областей. Часто в психологических или экономических науках гораздо более низкие значения рассматриваются как сильная зависимость, а не в точных физических или химических науках.

Я хотел показать вам один рисунок, который показывает значения коэффициента линейной корреляции Пирсона для различных данных:

Источник: Википедия

Это примеры графиков данных ( x, y ) и соответствующих значений коэффициента линейной корреляции Пирсона. Мне нравится последний ряд, в котором представлены очень интересные фигуры. Очевидно, что существует некоторая корреляция между данными. Но поскольку эта корреляция не является линейной, коэффициент Пирсона нам здесь не поможет.

Второй ряд тоже очень интересный. Это показывает, что на значение коэффициента корреляции не влияет наклон кривой, показывающей взаимосвязь между значениями x и y . Что важно, так это то, насколько они разбросаны (первая строка графиков).

допущения

Чтобы подсчитать коэффициент корреляции, необходимо запомнить несколько основных допущений. Прежде всего, мы должны иметь дело с измеримыми функциями. В последнем посте я обсуждал разделение функций предложил Стэнли Смит Стивенс, сказав, что важно, чтобы мы могли определить, можем ли мы рассчитать статистический показатель для данной функции. Коэффициент корреляции Пирсона можно посчитать для интервальных (интервальных) и пропорциональных (относительных) характеристик. Поэтому мы не учитываем это по полу, уровню удовлетворенности или цвету глаз. Тем не менее, мы можем проверить корреляцию между температурой, выраженной в градусах Цельсия, и временем, которое данный человек способен выдержать в садовом шезлонге. Другое требование заключается в том, что признак должен быть нормальным или близким к нормальному. Давайте также помним, что коэффициент корреляции Пирсона учитывает линейную корреляцию. Если мы нарисуем график и на первый взгляд вы увидите, что корреляция какая-то, но с линейной она не имеет никакого отношения, не стоит возиться с расчетами. Если мы также имеем дело с нетипичными наблюдениями, которые отличаются от остальных, они будут мешать результату, и вычисленный коэффициент корреляции не будет стоить много.

Ну и что? Таким образом, мы предполагаем, что имеем дело с количественными характеристиками, характеризующимися красивым нормальным распределением, без каких-либо нетипичных значений - в этой ситуации можно искать линейную корреляцию.

Соотношение и результат

Но будь осторожен! Давайте вспомним, что корреляция и возникновение являются совершенно двумя другими проблемами, которые часто путают большинство людей. В статистике, когда мы говорим о корреляции, мы описываем силу и направление отношений между двумя переменными (или несколькими из них). Однако, если мы говорим о результате, мы знаем, что, воздействуя на одну переменную, мы одновременно влияем на другую переменную. Они взаимосвязаны. Но чтобы подтвердить, что это происходит, необходимо провести не только наблюдение, но, прежде всего, эксперимент, который будет включать наблюдаемую группу, контрольную группу и т. Д. Тема требует отдельной записи, поэтому я только сигнализирую о проблеме. Я думаю, что когда-нибудь вернусь к нему, а затем объясню более точно, когда мы сможем поговорить о результате. Я просто добавлю, что на английском языке это очень хорошо известно: «Корреляция не подразумевает причинно-следственную связь». Это источник многих шуток:

И часто считается, что одним из недостатков коэффициента корреляции является то, что он не различает зависимые и независимые переменные. Он говорит о связи между двумя характеристиками и не определяет, является ли одна из них источником другой или нет.

Давайте вернемся к нашему Летающему Спагетти-Монстру и к пиратам, влияющим на глобальное потепление. И да, между ними есть корреляция, но мы не можем ничего сказать о влиянии обоих. Мы можем иметь дело с совершенно разными переменными, которые влияют на количество пиратов, и другими переменными, которые влияют на среднюю температуру. Их действие производит такой эффект, как если бы пираты и глобальное потепление имели что-то общее, даже если нет эксперимента, который мог бы подтвердить такое утверждение. Соотношение - да, результат - нет. Кстати, очень односторонние пастафарианцы. Почему они говорят, что количество пиратов влияет на глобальное потепление? Или, может быть, пираты вымирают, когда температура повышается. Может быть, у кого-то будет искушение поэкспериментировать в этой теме 😉

И когда дело доходит до необычных корреляций, Тайлер Виген является одним из самых известных искателей таких ссылок. Я предлагаю вам взглянуть на график, показывающий связь между «расходами США на науку, освоение космоса и технологии» и «самоубийством, повешенным или задушенным». Коэффициент корреляции, рассчитанный Вигеном, составляет 99,79%. В конце концов, это соотношение почти идеально.

источник: www.tylervigen.com

С этого момента, пожалуйста, тщательно проверяйте, свидетельствуют ли анализируемые вами данные только о корреляции или результате. Представьте себе ситуацию в компании. Мистер Кароль решил сесть на диету и в течение двух месяцев терял килограмм в неделю. Миссис Халинка, которая подслащивает чай пятью чайными ложками сахара, была принята на работу. В результате вес г-на Кароля падает, а потребление сахара в компании растет. Существует корреляция между этими двумя переменными, но она не учитывает дополнительную переменную в виде полной сахара г-жи Халинки.

Или другой пример. У компании, занимающейся спортивным оборудованием, есть финансовые проблемы. Поэтому менеджер зовет на коврик руководителя отдела маркетинга. Это выделяет дополнительные 10% бюджета на телевизионную рекламу. Через месяц получается, что продажи выросли на 20%. Гордый начальник отдела маркетинга представляет график менеджеру - существует четкая корреляция между расходами на рекламу на телевидении и увеличением продаж. Никто не заметил, что в то же время известный блогер написал статью о спортивном оборудовании этой компании, поощряя покупку всех ее читателей. Корреляция и да, это произошло, но причина увеличения продаж была совершенно иной, нежели телевизионная реклама.

И даже если вы не помните формулу для коэффициента корреляции Пирсона из этой статьи, если вы не можете рассчитать ее, если вы не знаете, какие значения она может принимать и что они означают ... Помните одно: корреляция явлений не обязательно означает их причинно-следственную связь . Не надевайте на голову дуршлаг, не покупайте пиратский корабль. Есть большая вероятность, что последователи Летающего Спагетти Монстра ошибаются ...

Продолжение рассмотрения коэффициента корреляции (включая многочисленные примеры) в следующая запись - Я приглашаю тебя!

Я напоминаю всем, что statystyczny.pl имеет свои Fanpage на фейсбуке - это нравится. Если вы думаете, что я пишу что-то интересное, поделитесь этим с друзьями. Не впускайте в бамбука людей, которые понимают статистику лучше, чем Wy y

PS. Кто-то заметил, что я сам попал в ловушку? Во втором примере я написал «причина увеличения продаж совершенно отличалась от рекламы на телевидении». Это должно быть «могло бы быть совершенно по-другому», потому что эксперимент не проводился, и мы не знаем, повлияло ли объявление на продажи или нет.

Это должно быть «могло бы быть совершенно по-другому», потому что эксперимент не проводился, и мы не знаем, повлияло ли объявление на продажи или нет

карта разума: коэффициент линейной корреляции Пирсона

Пожалуйста, следуйте и нам нравится:

Так что же делать?
Ну и что?
Стоит ли покупать парусный корабль, прикреплять к мачте черный флаг и начинать мир?
Ну и что?
Почему они говорят, что количество пиратов влияет на глобальное потепление?
Кто-то заметил, что я сам попал в ловушку?

Перейти на начало страницы

 

Copyright @ 2003 г. Беловский центр телекоммуникаций, Кемеровский филиал

ОАО "Сибирьтелеком"

Каталог Апорт


Directrix.ru - рейтинг, каталог сайтов

Лучшие интернет магазины

Туристический форум ездок. Турция, Египет, другие страны