Страницы: 1
RSS
Как рассчитать допустимое отклонение?
 
Добрый день, уважаемые гуру  
 
Мой вопрос может не покажется вам сложным, но меня он поставил в тупик.  
Как определить по данным, какое значение может считаться допустимым исходя из этих данных, то есть не отличаться от большинства других  
Как рассчитать границы допустимых отклонений, чтобы точно определить значения выходящие и не выходящие за них?  
 
Пример вопроса ниже
 
Извините за косность языка и вероятную неточность терминов. Не математик )
 
У этой задачи нет решения? Или может быть отклонение здесь вообще ни при чем?
 
{quote}{login=}{date=04.02.2010 05:49}{thema=}{post}Извините за косность языка и вероятную неточность терминов. Не математик ){/post}{/quote}  
И я - не математик. Думаем: среднее - "8,2", медиана - "5,5", мода - "5"... Или точные первоначальные условия и данные -  в студию...  
Z. (41549)
 
{quote}{login=}{date=04.02.2010 05:48}{thema=Как рассчитать допустимое отклонение?}{post}  
Как определить по данным, какое значение может считаться допустимым исходя из этих данных, то есть не отличаться от большинства других  
 
НЕ ОТЛИЧАЕТСЯ ОТ БОЛЬШИНСТВА ДРУГИХ ТО ЗНАЧЕНИЕ, КОТОРОЕ ЯВЛЯЕТСЯ МОДОЙ ДИАПАЗОНА ДАННЫХ  
 
Как рассчитать границы допустимых отклонений, чтобы точно определить значения выходящие и не выходящие за них?  
{/post}{/quote}  
 
Рассчтитать границы можно зная критерии допустимости.  
Хотя тут уточнять надо, я Ваш файл посмотреть не могу.  
Какова практическая польза Вашего вопроса?  
Может зная цель и решение найдём?
 
если по простому, то как-то так  
 
вычисляем среднее, задаем процент отклонения от среднего и проверям значения.
 
{quote}{login=slav}{date=04.02.2010 07:36}{thema=}{post}если по простому, то как-то так  
 
вычисляем среднее, задаем процент отклонения от среднего и проверям значения.{/post}{/quote}  
А почему 30%? Автор же просит: "...рассчитать границы допустимых отклонений, чтобы точно определить значения выходящие и не выходящие за них?"
 
{quote}{login=Serge 007}{date=04.02.2010 07:48}{thema=Re: }{post}{quote}{login=slav}{date=04.02.2010 07:36}{thema=}{post}если по простому, то как-то так  
 
вычисляем среднее, задаем процент отклонения от среднего и проверям значения.{/post}{/quote}  
А почему 30%? Автор же просит: "...рассчитать границы допустимых отклонений, чтобы точно определить значения выходящие и не выходящие за них?"{/post}{/quote}  
там выпадающий список... ) можно и 40  
 
а расчет границ допустимых отклонений - это уже построение типических графиков энергопотребления(о! вспомнил, наши программеры в одной SCADA-системе, реализовывали такую штуку). Могу их завтра допытать.
 
в смысле просто типических графиков.  
нужно статистику почитать
 
Пояснение к предложенному примеру:  
Эти данные - это ежемесячные данные по неактивным абонентам у интернет-провайдера. По тем, кто не использовал интернет за указанный период. Всегда есть люди, которые временно не пользуются интернетом. Всегда есть люди, которые переходят к другому провайдеру. Это объективный процесс.  
Гипотеза в том, что при НЕАКТИВНОСТИ конкурентов - данные будут несущественности отличаться. Статистических данных по месяцам нет, их просто никто не делал. То есть начинаем с нуля собирать статистику по этой гипотезе.  
Смысл расчета в том, что уловить момент, когда ситуация выходит из под контроля, то есть конкурент начинает предпринимать активные действия и пере подключать абонентов. По гипотезе цифра неактивных абонентов должна вырасти.  
 
Как я понимаю, сначала нужно вычислить значение, с которым все остальные будет сравниваться  
ИМХО, среднее значение не является корректным значением. Допустим, что пять цифр - это все цифры от 1 до 10. Шестая цифра - 100. Среднее значение будет около 17, то есть отклонение будет достаточно большим для всех значений.  
 
МОДА - тоже вряд ли подойдет. Как я понимаю, эта функция подходит для повторяющихся значений. А если их нет? ...  
 
МЕДИАНА - это уже тепло. Я правильно понимаю, что МЕДИАНА учитывает распределение результатов и близость их друг к другу?  
Допустим, используем ее.  
 
Теперь надо заложить критерии допустимости  
Заложить на глазок критерии допустимости было бы не совсем правильно.  
Предлагалась цифра 30%, 40%. Почему 30%? Я понимаю, что это уже статистика, а не Эксель.  
Если на форуме есть специалисты в области статистики, подскажите, пожалуйста, какой процент отклонения может считаться допустимым при этой задаче?
 
{quote}{login=Ира}{date=05.02.2010 11:33}{thema=}{post}МОДА - тоже вряд ли подойдет. Как я понимаю, эта функция подходит для повторяющихся значений. А если их нет? ...{/post}{/quote}  
 
Читаем первый пост: "...то есть не отличаться от большинства других..."  
Определитесь как-то...
 
Определилась )  
не отличаться - быть в одной группе близких друг по другу значений. Перефразируя, значения, наиболее близкие друг к другу и формирующие самую представительную группу. По логике - эти значения и есть "норма", а все остальные отклонения от "нормы"
 
Во первых спасибо за хорошее пояснение.  
Во вторых о грустном....  
Вначале нужно проверить гипотезу о том что    
количество неактивных абонентов у интернет-провайдера связано с    
тем что конкурент начинает предпринимать активные действия и переподключать абонентов  
а) В сезон отпусков количество неактивных абонентов растёт, но конкурент тоже не париться, а если и париться то в турции  
б) уходят к конкуренту как раз активные абоненты которые увидели счёт и прослезились  
 
а в целом задача состоит в обнаружении роста неактивных абонентов на фоне статистического шума ---полностью эквивалентно прогнозированию роста или падения курса акций, специалисты окучивающие данную область на форуме есть  
ищите......
 
В экселе есть функция СТАНДОТКЛ() в статистических , которая его и сичитает а потом можно построить нормальное распределение Вашей выборки используюя это число , а уже потом сравнивать ряды данных с ННОРМАЛЬНЫМ распределением .. где-то типа того хотя точно уже не помню.
 
{quote}{login=ded luka}{date=05.02.2010 12:06}{thema=образование сила!}{post}  
а в целом задача состоит в обнаружении роста неактивных абонентов на фоне статистического шума {/post}{/quote}  
 
В точечку!
 
{quote}{login=Микки}{date=05.02.2010 12:12}{thema=}{post}В экселе есть функция СТАНДОТКЛ() в статистических , которая его и сичитает а потом можно построить нормальное распределение Вашей выборки используюя это число , а уже потом сравнивать ряды данных с ННОРМАЛЬНЫМ распределением .. где-то типа того хотя точно уже не помню.{/post}{/quote}  
 
ок, разобраться бы в терминологии экселевского описания
 
{quote}{login=ded luka}{date=05.02.2010 12:06}{thema=образование сила!}{post}  
б) уходят к конкуренту как раз активные абоненты которые увидели счёт и прослезились  
 
.{/post}{/quote}  
 
 
и они становятся неактивными - таким образом и растет количество неактивных :)  
 
это значит, что обнаружите вы , что абонент ушел, только через месяц, не лучше ли использовать биллинговые данные? или они недоступны?  
 
 
в любом случае надо собрать статистику изменения за определенный период, когда вы точно знаете, что конкурент не предпринимал ничего. максимальное изменение и можно принять за пороговое значение
Живи и дай жить..
 
Посмотрела функции СТАНДОТКЛ(), в их содержании лежит среднее значения, не то получается...  
Пока наиболее близко получается результат с МЕДИАНОЙ и закладываемым вручную процентом отклонения (поставила 30%)  
Не уверена, что 30% - это то, что нужно.  
 
"и они становятся неактивными - таким образом и растет количество неактивных :)"  
Данные о неактивных формируются каждый месяц раздельно без учета предыдущих месяцев на основе биллинга.  
 
"это значит, что обнаружите вы , что абонент ушел, только через месяц"  
Так биллинг настроен, он присваивает статус абоненту в конце каждого месяца при наступлении нового отчетного периода  
Но даже если еженедельно делать, это был бы кривой результат - вырастет значение случайностей, снизится объективность.  
 
"не лучше ли использовать биллинговые данные?"  
какие, например? есть дата регистрации, статус, состояние счета, ФИО, телефон и т.д.  
 
"в любом случае надо собрать статистику изменения за определенный период, когда вы точно знаете, что конкурент не предпринимал ничего. максимальное изменение и можно принять за пороговое значение"  
Можно и так. Только конкуренты (около 10 компаний) всегда что-то предпринимают, вопрос в том, насколько они удачны в этом )  
ИМХО, первые полгода каждый месяц будем в любом случае подробно проваливаться внутрь данных, чтобы установить правильность гипотезы.
 
Вот Вам подтверждение Вашей интуиции при помощи стат функций...
 
состояние счета, конечно..  
 
счет обнулился - уже сигнал, неделю не пополняется - уже звонок :)  
 
я и говорю - не количество неактивных, а производная от него по времени  
 
если положительная, то хорошо, отрицательная - плохо, даже независимо от действий конкурентов.  
 
т.е. берете статистику, находите разницу неактивных по месяцам..
Живи и дай жить..
 
А вот что график думает по поводу погрешносстей...
 
а у вас, микки, получается, что количество неактивных уменьшилось с 24 до 18 и это плохо..
Живи и дай жить..
 
{quote}{login=Микки}{date=05.02.2010 01:45}{thema=}{post}Вот Вам подтверждение Вашей интуиции при помощи стат функций...{/post}{/quote}  
 
Спасибо, посмотрела файл.  
Вижу, что все значения от 0 до 1.  
Прочитала про функцию НОРМРАСП, но это тяжело для понимания (((  
Что в итоге мы получили с ее помощью?
 
{quote}{login=слэн}{date=05.02.2010 02:07}{thema=}{post}состояние счета, конечно..  
счет обнулился - уже сигнал, неделю не пополняется - уже звонок :)  
я и говорю - не количество неактивных, а производная от него по времени  
если положительная, то хорошо, отрицательная - плохо, даже независимо от действий конкурентов.  
т.е. берете статистику, находите разницу неактивных по месяцам..{/post}{/quote}  
 
кстати, производная по времени - очень хорошая мысль...
 
Ага 1-я производная по времени - это скорость изменения величины,  
а 2-я - это ускорение на нее тоже нужно смотреть.  
Иногда скорость хорошая, а ускорение отрицательное, значит скоро затормозится рост и начнет падать (прибыль или рост производства), нужно принимать меры. И менять знак ускорения на другой.  
 
Для 1-й производной делайте скользящее среднее линейным трендом, а для второй - полиномом второго порядка (эх, хорошее было раньше высшее образование 20 лет прошлоЮ а до сих пор помню).
 
{quote}{login=Ира}{date=05.02.2010 11:33}{thema=}{post}  
Предлагалась цифра 30%, 40%. Почему 30%? Я понимаю, что это уже статистика, а не Эксель.  
Если на форуме есть специалисты в области статистики, подскажите, пожалуйста, какой процент отклонения может считаться допустимым при этой задаче?{/post}{/quote}  
 
Ну правило "Парето" никто не отменял 80/20.    
Убирайте 20% (максимальных+минимальных) данных от общего объема, а потом по оставшимся стройте норму распределения. Вероятность нахождения общего тренда в группе составит 80%. Но лучше еще раз перечитать учебник статистики. Вроде бы есть ограничения на его применение (например отсутствие равномерности измерений или небольшой объем статистической выборки).
 
Я бы с начала  построил модель (зависимость числового ряда или тренд какой-нить) затем  определил бы Ошибку модели, затем СКО по ошибки модели и значениям модели. Потом доверительный интвернвал то есть значение * (1 +СКО) и значение * (1-СКо) получил бы две границы высшую и низшую. И все что не входит в этот интвервал отбросил бы. Конечно долго считать правда.
 
{quote}{login=Dze}{date=06.02.2010 09:16}{thema=}{post}Я бы с начала  построил модель (зависимость числового ряда или тренд какой-нить) затем  определил бы Ошибку модели, затем СКО по ошибки модели и значениям модели. Потом доверительный интвернвал то есть значение * (1 +СКО) и значение * (1-СКо) получил бы две границы высшую и низшую. И все что не входит в этот интвервал отбросил бы. Конечно долго считать правда.{/post}{/quote}
 
Какой функцией (из Мастера функций) я могу воспользоваться для построения этого графика, если по условию надо составить скользящий график на месяц при 12-ти час. раб.дне. Для первого сотрудника - день/ночь/отдых/отдых и тд.
Страницы: 1
Читают тему
Наверх