Страницы: 1
RSS
Поиск максимальной корреляции
 
Здравствуйте, дорогие знатоки формул и любители математики.
Прошу помочь продвинуться в решение интересного кейса.

Что есть на входе:
1. Данные о величине атмосферного давления (АД) за каждый день.
2. Данные о температуре за каждый день.
3. Данные о силе ветра за каждый день.
4. Данные о еще сотне погодных параметров за каждый день...
У меня есть предположение, что между АД и другими природными величинами возможна корреляция.

Более того, я предполагаю, что если сместить, данные о, например, температуре относительно АД на несколько дней назад, то корреляция увеличивается, таким образом, у меня появляется возможность с положительной вероятностью предсказывать АД.

Вопрос:
Как из сотни строк погодных параметров мне найти те, которые наиболее сильно влияют на АД? Разумеется, проверив их все со всеми вариантами смещения относительно АД.

Буду благодарен за решение и за любые мысли, которые помогут мне лучше изучить вопрос.
Изменено: evgrekov - 13.07.2016 23:28:11
 
Такие задачи решать в Excel можно, но сложно. Есть встроенные функции типа КОРРЕЛ и т.п.
Но лучше всего - использовать R
F1 творит чудеса
 
Офф.
Весёленькое ТЗ:
Цитата
evgrekov написал: таким образом, у меня появляется возможность ... предсказывать АД.
:)
 
Привет, в продолжение темы. У меня есть два ряда данных (Ряд 1 и Ряд 2). Визуально понятно, что они похожи. Если я начинаю двигать их один относительно другого, я нахожу позицию, где корреляция становится высока.
Как видно, максимальное значение достигается на сдвиге +8, корреляция составляет 0,96.

Мне нужна формула, которая смотрит на эти два ряда данных и выдает 0,96.

Подскажите, пожалуйста, как это сделать. Прикладываю графики и xlsx. Спасибо!
 
Цитата
evgrekov написал: Мне нужна формула
формула, которая должна сдвигать второй столбец, на самом деле должна обрезать его хвост и дописывать пустые значения в начало. Может, кто-то из умельцев и создаст такую формулу, я не возьмусь. Ну и плюс ко всему, есть подозрение, что КОРРЕЛ не воспримет ее.

макрос нужен
F1 творит чудеса
 
"Купирование хвостов" по предложению Максима Зеленского (для автоматизации добавил ПоискРешения) :
Изменено: С.М. - 04.08.2016 00:16:30
 
Как статист скажу, что алгоритм решения КАТЕГОРИЧЕСКИ неверен.
Во-первых, сдвиг факторного признака для оценки его корреляции с результативным является авторегрессионной моделью или регрессионной моделью с распределённым лагом. Если только сдвинутые значения включаются - авторегрессия, а если еще и текущие - распределённый лаг. Т.е. нужно вам проверить гипотезу о том, что не только одно сдвинутое значение влияет на текущую результативную переменную, а может 2 или больше сдвинутых значений или текущие тоже влияют? Вот, например, 8  дней назад была температура = 5 градусов, и 7 дней назад - 50 градусов; атмосферное давление в текущем периоде при этом было, скажем, 50 единиц (я не силен в метеорологии, просто буду придумывать цифры). Теперь берем похожий случай: 8 дней назад температура - те же 5 градусов, как и раньше, а 7 дней назад - не 50 как раньше, а 20. Вот и вопрос к вам, будет ли текущая температура так же 50 единиц? По вашему алгоритму, если "коэффициент корреляции"= 0,96, то да, будет. А если включить и 8 день, и 7 день? Нужно проверить. Если не изменится ничего - то лишь 1 день влияет, а если изменится - то 2 или больше дней влияют.
Во-вторых, истинная корреляция вам НИКОГДА не будет известна. Вы можете лишь оценить корреляцию состоятельной несмещённой и эффективной оценкой - выборочной корреляцией. А раз вы ОЦЕНИВАЕТЕ коэффициенты, то они не равны истине, .т.е. корреляцию при непрерывной случ. величине, неограниченно расширяющейся, можно лишь оценить, а не вычислить её значение. А вы пытаетесь найти коэффициент корреляции, что в вашем случае невозможно, т.к. наука еще не разработала такие алгоритмы :)
А почему я сказал раньше "КАТЕГОРИЧЕСКИ" неверен, то оценивать чистое влияние одной факторной переменной на результативную при условии того, что на результативную влияют и другие факторы - невозможно. Я не силён в погоде - не смогу с вашим примером разъяснить. приведу простой и понятный пример.
Каждый месяц цена на хлеб увеличивается на 2 рубля. При этом каждый месяц на тысячу людей больше покупает хлеб. Почему люди покупают этот дорожающий хлеб? Ведь согласно экономической теории, чем выше цена - тем ниже желающих купить товар. А все оказывается просто - каждый месяц в страну въезжает 1 200 человек и им все равно какая цена установлена на хлеб и они его покупают. Получается, что из граждан страны каждый месяц по 200 человек перестает покупать хлеб, т.к. он дорожает, а 1200 иностранцев перекрывают снижающийся спрос и еще создают дополнительный.
Экстраполируем этот пример на ваш случай. Вы оцениваете общую величину спроса, порожденную покупателями, не восприимчивыми к цене, тогда как восприимчивые к цене ведут себя обратно. Но вы делать будете выоды на ВСЕХ покупателей. И по вашей теории будет так, что каждые 2 рубля доп цены на хлеб увеличат спрос среди ГРАЖДАН страны на 1 000 штук.
В статистике это называется гетероскедастичность - когда одни факторы ведут себя иначе чем другие, а поэтому оценка отдельно каждого фактора приведёт к ложным выводам.
Еще есть проблема автокорреляции - когда факторы между собой коррелируют. Это тоже искажает результаты и может сделать абсурдные выводы.
Бесполезно предлагать решение к вашему примеру, т.к. вы получите то, что никакого отношения к истине не имеет. Я много исследований провел. Я понимаю как статистика видит связи. Для статистики нет понятие "адекватности" Адекватностью статистические показатели наделяет сам исследователь. А если вы не понимаете как функционируют погодные связи - то корреляция вам не поможет, а только еще усугубит непонимание этого.
Ну а вообще в интернете есть примеры, как корреляцию высчитывать с помощью таблиц. Постройте такую таблицу, забив все нужные формулы в столбики, но ищите не корреляцию, т.к. вам она известна = 0,96 - ее ставьте в последнюю колонку, и ищите значение нужных столбиков внутри таблицы.
 
Уважаемые форумчане deinstalation, С.М., Максим Зеленский, я безмерно благодарен вам за предложенное решение и за разъяснение того, как это должно работать. Очень здорово, что в интернете можно встретить реальную помощь!
Страницы: 1
Читают тему
Наверх