Как рассчитать допустимое отклонение?

Guest

Гость

04.02.2010 17:48:36

Добрый день, уважаемые гуру

Мой вопрос может не покажется вам сложным, но меня он поставил в тупик.
Как определить по данным, какое значение может считаться допустимым исходя из этих данных, то есть не отличаться от большинства других
Как рассчитать границы допустимых отклонений, чтобы точно определить значения выходящие и не выходящие за них?

Пример вопроса ниже

Прикрепленные файлы

post_96683.xls (19 КБ)

Guest Гость	#2 04.02.2010 17:49:43 Извините за косность языка и вероятную неточность терминов. Не математик )

Ира Гость	#3 04.02.2010 18:42:19 У этой задачи нет решения? Или может быть отклонение здесь вообще ни при чем?

Guest

Гость

04.02.2010 19:10:25

{quote}{login=}{date=04.02.2010 05:49}{thema=}{post}Извините за косность языка и вероятную неточность терминов. Не математик ){/post}{/quote}
И я - не математик. Думаем: среднее - "8,2", медиана - "5,5", мода - "5"... Или точные первоначальные условия и данные - в студию...
Z. (41549)

Serge

Пользователь

Сообщений: 11312 Регистрация: 01.01.1970

04.02.2010 19:14:14

{quote}{login=}{date=04.02.2010 05:48}{thema=Как рассчитать допустимое отклонение?}{post}
Как определить по данным, какое значение может считаться допустимым исходя из этих данных, то есть не отличаться от большинства других

НЕ ОТЛИЧАЕТСЯ ОТ БОЛЬШИНСТВА ДРУГИХ ТО ЗНАЧЕНИЕ, КОТОРОЕ ЯВЛЯЕТСЯ МОДОЙ ДИАПАЗОНА ДАННЫХ

Как рассчитать границы допустимых отклонений, чтобы точно определить значения выходящие и не выходящие за них?
{/post}{/quote}

Рассчтитать границы можно зная критерии допустимости.
Хотя тут уточнять надо, я Ваш файл посмотреть не могу.
Какова практическая польза Вашего вопроса?
Может зная цель и решение найдём?

slav Пользователь Сообщений: 232 Регистрация: 01.01.1970	#6 04.02.2010 19:36:05 если по простому, то как-то так вычисляем среднее, задаем процент отклонения от среднего и проверям значения. Прикрепленные файлы post_96716.xls (22 КБ)

Serge

Пользователь

Сообщений: 11312 Регистрация: 01.01.1970

04.02.2010 19:48:00

{quote}{login=slav}{date=04.02.2010 07:36}{thema=}{post}если по простому, то как-то так

вычисляем среднее, задаем процент отклонения от среднего и проверям значения.{/post}{/quote}
А почему 30%? Автор же просит: "...рассчитать границы допустимых отклонений, чтобы точно определить значения выходящие и не выходящие за них?"

slav

Пользователь

Сообщений: 232 Регистрация: 01.01.1970

04.02.2010 19:57:27

{quote}{login=Serge 007}{date=04.02.2010 07:48}{thema=Re: }{post}{quote}{login=slav}{date=04.02.2010 07:36}{thema=}{post}если по простому, то как-то так

вычисляем среднее, задаем процент отклонения от среднего и проверям значения.{/post}{/quote}
А почему 30%? Автор же просит: "...рассчитать границы допустимых отклонений, чтобы точно определить значения выходящие и не выходящие за них?"{/post}{/quote}
там выпадающий список... ) можно и 40

а расчет границ допустимых отклонений - это уже построение типических графиков энергопотребления(о! вспомнил, наши программеры в одной SCADA-системе, реализовывали такую штуку). Могу их завтра допытать.

slav Пользователь Сообщений: 232 Регистрация: 01.01.1970	#9 04.02.2010 20:06:00 в смысле просто типических графиков. нужно статистику почитать

Ира

Гость

#10

05.02.2010 11:33:13

Пояснение к предложенному примеру:
Эти данные - это ежемесячные данные по неактивным абонентам у интернет-провайдера. По тем, кто не использовал интернет за указанный период. Всегда есть люди, которые временно не пользуются интернетом. Всегда есть люди, которые переходят к другому провайдеру. Это объективный процесс.
Гипотеза в том, что при НЕАКТИВНОСТИ конкурентов - данные будут несущественности отличаться. Статистических данных по месяцам нет, их просто никто не делал. То есть начинаем с нуля собирать статистику по этой гипотезе.
Смысл расчета в том, что уловить момент, когда ситуация выходит из под контроля, то есть конкурент начинает предпринимать активные действия и пере подключать абонентов. По гипотезе цифра неактивных абонентов должна вырасти.

Как я понимаю, сначала нужно вычислить значение, с которым все остальные будет сравниваться
ИМХО, среднее значение не является корректным значением. Допустим, что пять цифр - это все цифры от 1 до 10. Шестая цифра - 100. Среднее значение будет около 17, то есть отклонение будет достаточно большим для всех значений.

МОДА - тоже вряд ли подойдет. Как я понимаю, эта функция подходит для повторяющихся значений. А если их нет? ...

МЕДИАНА - это уже тепло. Я правильно понимаю, что МЕДИАНА учитывает распределение результатов и близость их друг к другу?
Допустим, используем ее.

Теперь надо заложить критерии допустимости
Заложить на глазок критерии допустимости было бы не совсем правильно.
Предлагалась цифра 30%, 40%. Почему 30%? Я понимаю, что это уже статистика, а не Эксель.
Если на форуме есть специалисты в области статистики, подскажите, пожалуйста, какой процент отклонения может считаться допустимым при этой задаче?

Serge

Пользователь

Сообщений: 11312 Регистрация: 01.01.1970

#11

05.02.2010 11:44:45

{quote}{login=Ира}{date=05.02.2010 11:33}{thema=}{post}МОДА - тоже вряд ли подойдет. Как я понимаю, эта функция подходит для повторяющихся значений. А если их нет? ...{/post}{/quote}

Читаем первый пост: "...то есть не отличаться от большинства других..."
Определитесь как-то...

Ира

Гость

#12

05.02.2010 12:05:20

Определилась )
не отличаться - быть в одной группе близких друг по другу значений. Перефразируя, значения, наиболее близкие друг к другу и формирующие самую представительную группу. По логике - эти значения и есть "норма", а все остальные отклонения от "нормы"

ded_luka

Пользователь

Сообщений: 44 Регистрация: 01.01.1970

#13

05.02.2010 12:06:29

Во первых спасибо за хорошее пояснение.
Во вторых о грустном....
Вначале нужно проверить гипотезу о том что
количество неактивных абонентов у интернет-провайдера связано с
тем что конкурент начинает предпринимать активные действия и переподключать абонентов
а) В сезон отпусков количество неактивных абонентов растёт, но конкурент тоже не париться, а если и париться то в турции
б) уходят к конкуренту как раз активные абоненты которые увидели счёт и прослезились

а в целом задача состоит в обнаружении роста неактивных абонентов на фоне статистического шума ---полностью эквивалентно прогнозированию роста или падения курса акций, специалисты окучивающие данную область на форуме есть
ищите......

Микки

Пользователь

Сообщений: 3280 Регистрация: 24.12.2012

#14

05.02.2010 12:12:07

В экселе есть функция СТАНДОТКЛ() в статистических , которая его и сичитает а потом можно построить нормальное распределение Вашей выборки используюя это число , а уже потом сравнивать ряды данных с ННОРМАЛЬНЫМ распределением .. где-то типа того хотя точно уже не помню.

Ира Гость	#15 05.02.2010 12:12:33 {quote}{login=ded luka}{date=05.02.2010 12:06}{thema=образование сила!}{post} а в целом задача состоит в обнаружении роста неактивных абонентов на фоне статистического шума {/post}{/quote} В точечку!

Ира

Гость

#16

05.02.2010 12:14:11

{quote}{login=Микки}{date=05.02.2010 12:12}{thema=}{post}В экселе есть функция СТАНДОТКЛ() в статистических , которая его и сичитает а потом можно построить нормальное распределение Вашей выборки используюя это число , а уже потом сравнивать ряды данных с ННОРМАЛЬНЫМ распределением .. где-то типа того хотя точно уже не помню.{/post}{/quote}

ок, разобраться бы в терминологии экселевского описания

слэн

Пользователь

Сообщений: 5192 Регистрация: 16.01.2013

#17

05.02.2010 12:24:27

{quote}{login=ded luka}{date=05.02.2010 12:06}{thema=образование сила!}{post}
б) уходят к конкуренту как раз активные абоненты которые увидели счёт и прослезились

.{/post}{/quote}

и они становятся неактивными - таким образом и растет количество неактивных :)

это значит, что обнаружите вы , что абонент ушел, только через месяц, не лучше ли использовать биллинговые данные? или они недоступны?

в любом случае надо собрать статистику изменения за определенный период, когда вы точно знаете, что конкурент не предпринимал ничего. максимальное изменение и можно принять за пороговое значение

Живи и дай жить..

ИРА

Гость

#18

05.02.2010 12:58:54

Посмотрела функции СТАНДОТКЛ(), в их содержании лежит среднее значения, не то получается...
Пока наиболее близко получается результат с МЕДИАНОЙ и закладываемым вручную процентом отклонения (поставила 30%)
Не уверена, что 30% - это то, что нужно.

"и они становятся неактивными - таким образом и растет количество неактивных :)"
Данные о неактивных формируются каждый месяц раздельно без учета предыдущих месяцев на основе биллинга.

"это значит, что обнаружите вы , что абонент ушел, только через месяц"
Так биллинг настроен, он присваивает статус абоненту в конце каждого месяца при наступлении нового отчетного периода
Но даже если еженедельно делать, это был бы кривой результат - вырастет значение случайностей, снизится объективность.

"не лучше ли использовать биллинговые данные?"
какие, например? есть дата регистрации, статус, состояние счета, ФИО, телефон и т.д.

"в любом случае надо собрать статистику изменения за определенный период, когда вы точно знаете, что конкурент не предпринимал ничего. максимальное изменение и можно принять за пороговое значение"
Можно и так. Только конкуренты (около 10 компаний) всегда что-то предпринимают, вопрос в том, насколько они удачны в этом )
ИМХО, первые полгода каждый месяц будем в любом случае подробно проваливаться внутрь данных, чтобы установить правильность гипотезы.

Микки Пользователь Сообщений: 3280 Регистрация: 24.12.2012	#19 05.02.2010 13:45:37 Вот Вам подтверждение Вашей интуиции при помощи стат функций... Прикрепленные файлы post_96940.xls (19.5 КБ)

слэн

Пользователь

Сообщений: 5192 Регистрация: 16.01.2013

#20

05.02.2010 14:07:33

состояние счета, конечно..

счет обнулился - уже сигнал, неделю не пополняется - уже звонок :)

я и говорю - не количество неактивных, а производная от него по времени

если положительная, то хорошо, отрицательная - плохо, даже независимо от действий конкурентов.

т.е. берете статистику, находите разницу неактивных по месяцам..

Живи и дай жить..

Микки Пользователь Сообщений: 3280 Регистрация: 24.12.2012	#21 05.02.2010 14:10:52 А вот что график думает по поводу погрешносстей... Прикрепленные файлы post_96950.xls (51.5 КБ)

слэн Пользователь Сообщений: 5192 Регистрация: 16.01.2013	#22 05.02.2010 14:15:15 а у вас, микки, получается, что количество неактивных уменьшилось с 24 до 18 и это плохо.. Прикрепленные файлы post_96953.xls (26 КБ) Живи и дай жить..

Guest

Гость

#23

05.02.2010 14:15:51

{quote}{login=Микки}{date=05.02.2010 01:45}{thema=}{post}Вот Вам подтверждение Вашей интуиции при помощи стат функций...{/post}{/quote}

Спасибо, посмотрела файл.
Вижу, что все значения от 0 до 1.
Прочитала про функцию НОРМРАСП, но это тяжело для понимания (((
Что в итоге мы получили с ее помощью?

Guest

Гость

#24

05.02.2010 14:19:09

{quote}{login=слэн}{date=05.02.2010 02:07}{thema=}{post}состояние счета, конечно..
счет обнулился - уже сигнал, неделю не пополняется - уже звонок :)
я и говорю - не количество неактивных, а производная от него по времени
если положительная, то хорошо, отрицательная - плохо, даже независимо от действий конкурентов.
т.е. берете статистику, находите разницу неактивных по месяцам..{/post}{/quote}

кстати, производная по времени - очень хорошая мысль...

McCinly

Пользователь

Сообщений: 278 Регистрация: 01.01.1970

#25

05.02.2010 14:51:39

Ага 1-я производная по времени - это скорость изменения величины,
а 2-я - это ускорение на нее тоже нужно смотреть.
Иногда скорость хорошая, а ускорение отрицательное, значит скоро затормозится рост и начнет падать (прибыль или рост производства), нужно принимать меры. И менять знак ускорения на другой.

Для 1-й производной делайте скользящее среднее линейным трендом, а для второй - полиномом второго порядка (эх, хорошее было раньше высшее образование 20 лет прошлоЮ а до сих пор помню).

McCinly

Пользователь

Сообщений: 278 Регистрация: 01.01.1970

#26

05.02.2010 14:57:43

{quote}{login=Ира}{date=05.02.2010 11:33}{thema=}{post}
Предлагалась цифра 30%, 40%. Почему 30%? Я понимаю, что это уже статистика, а не Эксель.
Если на форуме есть специалисты в области статистики, подскажите, пожалуйста, какой процент отклонения может считаться допустимым при этой задаче?{/post}{/quote}

Ну правило "Парето" никто не отменял 80/20.
Убирайте 20% (максимальных+минимальных) данных от общего объема, а потом по оставшимся стройте норму распределения. Вероятность нахождения общего тренда в группе составит 80%. Но лучше еще раз перечитать учебник статистики. Вроде бы есть ограничения на его применение (например отсутствие равномерности измерений или небольшой объем статистической выборки).

dze

Пользователь

Сообщений: 72 Регистрация: 01.01.1970

#27

06.02.2010 21:16:44

Я бы с начала построил модель (зависимость числового ряда или тренд какой-нить) затем определил бы Ошибку модели, затем СКО по ошибки модели и значениям модели. Потом доверительный интвернвал то есть значение * (1 +СКО) и значение * (1-СКо) получил бы две границы высшую и низшую. И все что не входит в этот интвервал отбросил бы. Конечно долго считать правда.

Pria1971

Пользователь

Сообщений: 6 Регистрация: 01.01.1970

#28

13.04.2010 08:44:48

{quote}{login=Dze}{date=06.02.2010 09:16}{thema=}{post}Я бы с начала построил модель (зависимость числового ряда или тренд какой-нить) затем определил бы Ошибку модели, затем СКО по ошибки модели и значениям модели. Потом доверительный интвернвал то есть значение * (1 +СКО) и значение * (1-СКо) получил бы две границы высшую и низшую. И все что не входит в этот интвервал отбросил бы. Конечно долго считать правда.{/post}{/quote}

Pria1971 Пользователь Сообщений: 6 Регистрация: 01.01.1970	#29 13.04.2010 08:49:09 Какой функцией (из Мастера функций) я могу воспользоваться для построения этого графика, если по условию надо составить скользящий график на месяц при 12-ти час. раб.дне. Для первого сотрудника - день/ночь/отдых/отдых и тд.

Читают тему