Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Образовательный студенческий форум _ Теория вероятностей _ Формула Стерджеса

Автор: Juliya 16.1.2010, 18:16

Наткнулась тут на http://www.robjhyndman.com/papers/sturges.pdf и не могу точно перевести термин: oversmoothed histograms. Почему-то поисковики ничего не дают.. Никто не знает, что это? Переполненные? Со слишком большим числом интервалов?
или чересчур сглаженные ? а это как?
или как точно?

Цитата
Most statistical packages use Sturges’ rule (or an extension of it) for selecting the number of classes when constructing a histogram. Sturges’ rule is also widely recommended in introductory statistics textbooks. It is known that Sturges’ rule leads to oversmoothed histograms, but Sturges’ derivation of his rule has never been questioned. In this note, I point out that the argument leading to Sturges’ rule is wrong.

Автор: Juliya 16.1.2010, 20:13

Цитата
It is well known that major strength of non-parametric regression function estimation breaks down when correlated errors exist in the data. Positively (negatively) correlated errors tend to produce undersmoothing (oversmoothing).

вот нашла ещё похожий термин в рамках непараметрических регрессионных моделей...
Положительно (отрицательно) скоррелированные ошибки как раз производят undersmoothing (oversmoothing). У нас, если не ошибаюсь, это просто называется положительная или отрицательная автокорреляция ошибок...

видимо, это не связано с гистограммой, которые, оказывается, тоже могут быть undersmoothed и oversmoothed...

Автор: malkolm 16.1.2010, 21:19

"Слишком сглаженные". Существует ли устоявшийся русскоязычный термин для этого понятия в практической статистике, не ведаю.

Грубо говоря, это гистограммы либо ядерные оценки плотности с слишком большим "окном", т.е. с малым числом интервалов группировки. Недостаточное число интервалов не позволяет заметить резкие колебания и прочие особенности плотности, т.е. как бы излишне сглаживает особенности плотности.

Автор: Juliya 16.1.2010, 21:45

thumbsup.gif Спасибо огромное! flowers1.gif

Понятно.... а undersmoothed - я сама видела, с "дырками", с отсутствием значений в некоторых интервалах, т.е. наоборот, разбитые на слишком большое количество интервалов.

Вот нашла хорошую http://www3.interscience.wiley.com/cgi-bin/fulltext/123227717/HTMLSTARTпро количество интервалов при построении гистограммы...

а какую формулу Вы считаете наилучшей?

Автор: malkolm 16.1.2010, 22:16

Я не имею дела с практической статистикой ни разу smile.gif Если же говорить о скорости сходимости ядерных оценок к плотности, то скорость эта, деваться некуда, сильно зависит от гладкости самой плотности. В зависимости от степени её гладкости оптимальный шаг h_n в оценке
f_n(x) = 1/(n*h_n) *sum_i q((x-x_i) / h_n) может быть и порядка корня кубического из 1/n, и корня 5-й степени и т.п.

Автор: Juliya 16.1.2010, 23:05

Я так поняла, формула Стерджеса хорошо работает при небольших выборках (n~50-200), при обработке современных огромных массивов типа n~10^6 уже не годится..

а что такое ядерные оценки? Никогда не сталкивалась с этим термином... blush.gif

Автор: malkolm 17.1.2010, 10:10

Ядерная оценка (kernel estimate), она же оценка Розенблата - Парзена - способ непараметрического оценивания плотности функцией, нарисованной выше. Там x1,...,xn - выборка, а ядро q(x) - некая чётная (желательно, ограниченная) функция, нормированная как плотность, с единичным "вторым моментом" int x^2 q(x) dx = 1. Например, кривая Гаусса.

Автор: Juliya 17.1.2010, 10:13

Спасибо! smile.gif

Автор: Неведомский 18.1.2010, 10:19

oversmoothed -- пересглаженный.

http://www.nsu.ru/ef/tsy/ecmr/glossary/glossary.htm

Автор: Juliya 18.1.2010, 16:26

Спасибо большое! smile.gif

Ну, мы что-то такое и напереводили.. А словарик отличный, ещё раз спасибо...

Эх, люблю я Сибирь что-то все больше и больше... bigwink.gif скоро, чувствую, главным научным центром страны будет...

Автор: malkolm 18.1.2010, 17:21

Мне бы Ваш оптимизм sad.gif Широко известная лет 30-40 назад в моей специальности Н-ская научная школа, например, исчезла полностью. Всего-то и остались - один престарелый академик, три доктора, ничего выдающегося не демонстрирующих, да пяток кандидатов, из которых звёзды тоже не вырастут...

Автор: Dimka 18.1.2010, 17:22

Цитата(Juliya @ 18.1.2010, 19:26) *


скоро, чувствую, главным научным центром страны будет...


она и раньше им была, только до ума ничего толком не доводили.

Русская версия Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)