Содержание

Мнк в excel как сделать

Метод наименьших квадратов в Excel. Регрессионный анализ

Метод кратчайших квадратов (МНК) принадлежит к сфере регрессионного теста. Он обладает большинство внедрений, ведь дает возможность воплотить подведенное спектакль указанной функции альтернативными наиболее легкими. МНК имеет возможность очутиться весьма невредным при переработке исследований, и его интенсивно введут для анализы 1 величин по итогам измерений альтернативных, вмещающих мимовольные опечатки. Из этой заметки вы выведываете, как воплотить в жизнь исчисления по методу кратчайших квадратов в Excel.

Постановка проблемы на определенном образце

Предположим, есть 2 показателя X и Y. Вдобавок Y находится в зависимости от X. Ведь МНК интересует нас на взгляд регрессионного оценка (в Excel его методы реализуются за счет вмонтированных функций), тогда следует зараз ведь перейти к обсуждению именной проблемы.

Итак, пускай X — торговая зона продовольственного маркета, меримая в квадратных метрах, а вот Y — годовой товарооборот, ориентируемый в миллионах руб..

Требуется выполнить мониторинг, каковой товарооборот (Y) станет у маркета, в случае если у него какая-нибудь торговая зона. Бесспорно, что функция Y = f (X) возрастающая, ведь гипермаркет реализовывает чаще товаров, нежели ларек.

Несколько текстов о корректности начальных сведений, оборотных для исчезновения

Допустим, у нас имеется список, возведенная по достоверным сведениям для n маркетов.

Согласно математической статистике, итоги будут иметься более или менее корректными, в случае если изучаются сведения по впрочем б 5-6 объектам. А также, невозможно ввести «неестественные» итоги. Например, лучший маленький бутик имеет возможность обладать товарооборот в разы больший, нежели товарооборот наибольших торговых пикселей класса «масмаркет».

Суть метода

Данные таблицы возможно изобразить на декартовой поверхности в качестве пикселей M1 (x1, y1), … Mn (xn, yn). В настоящее время заключение проблемы сведется к подбору аппроксимирующей функции y = f (x), располагающей график, идущий как возможно поближе к точкам M1, M2, ..Mn.

Конечно, применяют многочлен важной степени, однако подобный вариант включая труднореализуем, а также запросто некорректен, ведь не станет отбивать ведущую веянию, какую и должно выявить. Наиболее благоразумным заключением представляет собой исследование буквальной у = ax + b, какая наилучшим образом приближает опытные сведения, a вернее, коэффициентов — a и b.

Оценка точности

При абсолютно любой аппроксимации необычную эпохальность обретает анализа ее точности. Обозначим сквозь ei разницу (отклонение) меж опытными и функциональными значениями для точки xi, т. е. ei = yi — f (xi).

Очевидно, что для анализы точности аппроксимации применяют необходимую сумму отклонений, т. е. в момент выбора буквальной для приближенного впечатления зависимости X от Y должно уделять основное внимание той, у какой кратчайшее величина необходимой суммы ei во всех без исключения рассматриваемых точках. Ведь, не все так запросто, ведь в одном ряду с лестными отклонениями буквально будут находиться и негативные.

Решить вопрос возможно, применяя модули отклонений или же их квадраты. Завершающий способ обрел более широченное распространение. Он в ход идет во множества областях, в том числе регрессионный анализ (в Excel его продажа исполняется за счет 2-х вмонтированных функций), и давным-давно доказал собственную отдача.

Метод кратчайших квадратов

В Excel, как нам известно, есть вмонтированная функция автосуммы, дающая возможность определить уровни всех без исключения уровней, находящихся в удаленном промежутке. Следовательно, ничто не навредит для нас рассчитать величина выражения (e12 + e22 + e32+ … en2).

В математической записи это обладает образец:

Ведь с самого начала было решено об аппроксимировании за счет буквальной, то насчитываем:

Следовательно, дилемма пребывания буквальной, какая наилучшим образом описывает определенную зависимость величин X и Y, сводится к исчислению минимального количества функции 2-х непостоянных:

Чтобы достичь желаемого результата надо приравнять к нулю приватные производные по новым непостоянным a и b, и решить примитивную конструкцию, состоящую из 2-х уравнений с двумя анонимными облика:

После нехитрых преобразований, в том числе деление на два и манипуляции с суммами, получим:

Решая ее, в частности, методом Крамера, покупаем стационарную точку с какими-то коэффициентами a* и b*. Именно это имеется минимальное количество, т. е. для исчезновения, каковой товарооборот станет у маркета при конкретной площади, подойдет прямая y = a*x + b*, являющая собой регрессионную модель для образца, о каком проходит речь. Еще бы, она не даст возможность обнаружить верный исход, однако может помочь заполучить спектакль про то, окупится ли покупка в долг маркета именной площади.

Как реализоавать способ кратчайших квадратов в Excel

В «Эксель» есть функция для вычисления уровни по МНК. Она обладает ближайший образец: «ТЕНДЕНЦИЯ» (известн. уровни Y; известн. уровни X; ранее не известные уровни X; конст.). Используем формулу вычисления МНК в Excel к нашей таблице.

Чтобы достичь желаемого результата в ячейку, в какой обязан быть отражен исход вычисления по методу кратчайших квадратов в Excel, используем символ «=» и выкарабкаем функцию «ТЕНДЕНЦИЯ». В открывшемся окошке наполним надлежащие поля, выделяя:

  • диапазон ведомых уровней для Y ( в этом примере сведения для товарооборота);
  • диапазон x1, …xn, т. е. величины торговых площадей;
  • и ведомые, и анонимные уровни x, для какого должно проверить величину товарооборота (сообщение про их месторасположении на действующем листе см. затем).

А также, в формуле имеется закономерная непостоянная «Конст». В случае если использовать в надлежащее для нее поле один, то это будет значить, что вытекает воплотить исчисления, думая, что b = 0.

Если должно выведать мониторинг для наиболее нежели 1-го уровни x, то опосля ввода формулы вытекает нажать не на «Ввод», а вот должно набрать на клавиатуре (клаве) комбинацию «Shift» + «Control»+ «Enter» («Ввод»).

Некоторые качества

Регрессионный анализ быть может общедоступен в том числе чайникам. Формула Excel для исчезновения уровни массива анонимных непостоянных — «ТЕНДЕНЦИЯ» — имеет возможность использоваться в том числе теми, кто вовек не слышал о методе кратчайших квадратов. Необходимо запросто быть в курсе какие-либо качества ее деятельности. Например:

  • Если предрасположить диапазон ведомых уровней непостоянной y в некой строчке или же столбце, то всякая строчка (столбец) с ведомыми значениями x станет приниматься программкой в виде единичной непостоянной.
  • Если в окошке «ТЕНДЕНЦИЯ» не указан диапазон с ведомыми x, то в любом случае применения функции в Excel программка станет оценивать его как массив, состоящий из круглых количеств, численность каких отвечает промежутку с указанными значениями непостоянной y.
  • Чтобы заполучить на выходе массив «предсказанных» уровней, выражение для исчисления направленности должно вводить как формулу массива.
  • Если не велены ранее не известные уровни x, то функция «ТЕНДЕНЦИЯ» полагает их равным ведомым. В случае если и они не миссы, то в виде аргумента приступает массив один; два; трем; четвертая;…, какой соразмерен промежутку с уже указанными параметрами y.
  • Диапазон, вмещающий ранее не известные уровни x вынужден состоять из настолько же или же большего числа строчек или же столбцов, как диапазон с указанными значениями y. Иначе говоря он обязан быть соразмерным автономным непостоянным.
  • В массиве с ведомыми значениями x имеет возможность находиться некоторого количества непостоянных. Ведь в случае если речь проходит лишь только об одной, то надо, дабы промежутки с указанными значениями x и y имелись соразмерны. В любом случае немногих непостоянных должно, дабы диапазон с указанными значениями y вмещался в некоем столбце или же в некой строчке.
Читать еще:  Как сделать сумму прописью в excel 2003?

Функция «ПРЕДСКАЗ»

Регрессионный анализ в Excel реализуется за счет немногих функций. 1 из них именуется «ПРЕДСКАЗ». Она подобна «ТЕНДЕНЦИИ», т. е. предоставляет исход исчислений по методу кратчайших квадратов. Ведь всего для 1-го X, для какого анонимно величина Y.

Теперь вы понимаете формулы в Excel для чайников, дающие возможность спрогнозировать значение грядущего уровни какого-нибудь показателя в соответствии линейному тренду.

Метод наименьших квадратов в excel — использование функции тенденция. Линейная регрессия. Использование метода наименьших квадратов (МНК)

Суть метода заключается в том, что критерием качества рассматриваемого решения является сумма квадратов ошибок, которую стремятся свести к минимуму. Для применения этого требуется провести как можно большее число измерений неизвестной случайной величины (чем больше — тем выше точность решения) и некоторое множество предполагаемых решений, из которых требуется выбрать наилучшее. Если множество решений параметризировано, то нужно найти оптимальное значение параметров.

Почему сводятся к минимуму квадраты ошибок, а не сами ошибки? Дело в том, что в большинстве случаев ошибки бывают в обе стороны: оценка может быть больше измерения или меньше его. Если складывать ошибки с разными знаками, то они будут взаимно компенсироваться, и в итоге сумма даст нам неверное представление о качестве оценки. Часто для того, чтобы итоговая оценка имела ту же размерность, что и измеряемые величины, из суммы квадратов ошибок извлекают квадратный корень.

МНК используется в математике, в частности — в теории вероятностей и математической статистике. Наибольшее применение этот метод имеет в задачах фильтрации, когда необходимо отделить полезный сигнал от наложенного на него шума.

Его применяют и в математическом анализе для приближённого представления заданной функции более простыми функциями. Ещё одна из областей применения МНК — решение систем уравнений с количеством неизвестных меньшим, чем число уравнений.

Я придумал ещё несколько весьма неожиданных областей применения МНК, о которых хотел бы рассказать в этой статье.

МНК и опечатки

Бичом автоматических переводчиков и поисковых систем являются опечатки и орфографические ошибки. Действительно, если слово отличается всего на 1 букву, программа расценивает его уже как другое слово и переводит/ищет его неправильно или не переводит/не находит его вообще.

У меня возникла похожая проблема: имелось две базы данных с адресами московских домов, и надо было их объединить в одну. Но адреса были записаны в разном стиле. В одной базе был стандарт КЛАДР (всероссийский классификатор адресов), например: «БАБУШКИНА ЛЕТЧИКА УЛ., Д10К3». А в другой базе был почтовый стиль, например: «Ул. Летчика Бабушкина, дом 10 корп.3». Вроде бы ошибок нет в обоих случаях, а автоматизировать процесс невероятно сложно (в каждой базе по 40 тысяч записей!). Хотя и опечаток там тоже хватало… Как дать компьютеру понять, что 2 вышеприведённых адреса принадлежат одному и тому же дому? Тут-то мне и пригодился МНК.

Что я сделал? Найдя очередную букву в первом адресе, я искал ту же букву во втором адресе. Если они обе находились на одном и том же месте, то я полагал ошибку для этой буквы равной 0. Если они располагались на соседних позициях, то ошибка была равна 1. Если имелся сдвиг на 2 позиции, ошибка равнялась 2 и т. д. Если такой буквы вообще не имелось в другом адресе, то ошибка полагалась равной n+1, где n — число букв в 1-м адресе. Таким образом я вычислял сумму квадратов ошибок и соединял те записи, в которых эта сумма была минимальной.

Разумеется, номера домов и корпусов обрабатывались отдельно. Не знаю, изобрёл ли я очередной «велосипед», или это впрямь было , но задача была решена быстро и качественно. Интересно, применяется ли этот метод в поисковых системах? Возможно, применяется, поскольку каждый уважающий себя поисковик при встрече незнакомого слова предлагает замену из знакомых слов («возможно, вы имели в виду…»). Впрочем, они могут делать этот анализ как-то по-другому.

МНК и поиск по картинкам, лицам и картам

Этот метод можно применить и в поиске по картинкам, чертежам, картам и даже по лицам людей.

Фото:

Сейчас все поисковики, вместо поиска по картинкам, по сути, используют поиск по подписям к картинкам. Это, несомненно, полезный и удобный сервис, но я предлагаю дополнить его настоящим поиском по картинкам.

Вводится картинка-образец и для всех изображений составляется рейтинг по сумме квадратов отклонений характерных точек. Определение этих самых характерных точек есть сама по себе нетривиальная задача. Однако она вполне решаема: например, для лиц это уголки глаз, губ, кончик носа, ноздри, края и центры бровей, зрачки и т. д.

Сопоставив эти параметры, можно найти лицо, наиболее похожее на образец. Я уже видел сайты, где такой сервис работает, и вы можете найти знаменитость, наиболее похожую на предложенную вами фотографию, и даже составить анимацию, превращающую вас в знаменитость и обратно. Наверняка этот же метод работает в базах МВД, содержащих фотороботы преступников.

Фото: pixabay.com

Да и по отпечаткам пальцев можно тем же методом делать поиск. Поиск по картам ориентируется на естественные неровности географических объектов — изгибы рек, горных хребтов, очертания берегов, лесов и полей.

Вот такой замечательный и универсальный метод МНК. Я уверен, что вы, дорогие читатели, сможете и сами найти множество необычных и неожиданных областей применения этого метода.

После выравнивания получим функцию следующего вида: g (x) = x + 1 3 + 1 .

Мы можем аппроксимировать эти данные с помощью линейной зависимости y = a x + b , вычислив соответствующие параметры. Для этого нам нужно будет применить так называемый метод наименьших квадратов. Также потребуется сделать чертеж, чтобы проверить, какая линия будет лучше выравнивать экспериментальные данные.

В чем именно заключается МНК (метод наименьших квадратов)

Главное, что нам нужно сделать, – это найти такие коэффициенты линейной зависимости, при которых значение функции двух переменных F (a , b) = ∑ i = 1 n (y i — (a x i + b)) 2 будет наименьшим. Иначе говоря, при определенных значениях a и b сумма квадратов отклонений представленных данных от получившейся прямой будет иметь минимальное значение. В этом и состоит смысл метода наименьших квадратов. Все, что нам надо сделать для решения примера – это найти экстремум функции двух переменных.

Как вывести формулы для вычисления коэффициентов

Для того чтобы вывести формулы для вычисления коэффициентов, нужно составить и решить систему уравнений с двумя переменными. Для этого мы вычисляем частные производные выражения F (a , b) = ∑ i = 1 n (y i — (a x i + b)) 2 по a и b и приравниваем их к 0 .

δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ — 2 ∑ i = 1 n (y i — (a x i + b)) x i = 0 — 2 ∑ i = 1 n (y i — (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ i = 1 n y i ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

Читать еще:  Как сделать чтобы не отражались формулы в excel?

Для решения системы уравнений можно использовать любые методы, например, подстановку или метод Крамера. В результате у нас должны получиться формулы, с помощью которых вычисляются коэффициенты по методу наименьших квадратов.

n ∑ i = 1 n x i y i — ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n — ∑ i = 1 n x i 2 b = ∑ i = 1 n y i — a ∑ i = 1 n x i n

Мы вычислили значения переменных, при который функция
F (a , b) = ∑ i = 1 n (y i — (a x i + b)) 2 примет минимальное значение. В третьем пункте мы докажем, почему оно является именно таким.

Это и есть применение метода наименьших квадратов на практике. Его формула, которая применяется для поиска параметра a , включает в себя ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 , а также параметр
n – им обозначено количество экспериментальных данных. Советуем вам вычислять каждую сумму отдельно. Значение коэффициента b вычисляется сразу после a .

Обратимся вновь к исходному примеру.

Здесь у нас n равен пяти. Чтобы было удобнее вычислять нужные суммы, входящие в формулы коэффициентов, заполним таблицу.

Метод наименьших квадратов в Excel. Регрессионный анализ

Метод наименьших квадратов (МНК) относится к сфере регрессионного анализа. Он имеет множество применений, так как позволяет осуществлять приближенное представление заданной функции другими более простыми. МНК может оказаться чрезвычайно полезным при обработке наблюдений, и его активно используют для оценки одних величин по результатам измерений других, содержащих случайные ошибки. Из этой статьи вы узнаете, как реализовать вычисления по методу наименьших квадратов в Excel.

Постановка задачи на конкретном примере

Предположим, имеются два показателя X и Y. Причем Y зависит от X. Так как МНК интересует нас с точки зрения регрессионного анализа (в Excel его методы реализуются с помощью встроенных функций), то стоит сразу же перейти к рассмотрению конкретной задачи.

Итак, пусть X — торговая площадь продовольственного магазина, измеряемая в квадратных метрах, а Y — годовой товарооборот, определяемый в миллионах рублей.

Требуется сделать прогноз, какой товарооборот (Y) будет у магазина, если у него та или иная торговая площадь. Очевидно, что функция Y = f (X) возрастающая, так как гипермаркет продает больше товаров, чем ларек.

Несколько слов о корректности исходных данных, используемых для предсказания

Допустим, у нас есть таблица, построенная по данным для n магазинов.

Согласно математической статистике, результаты будут более-менее корректными, если исследуются данные по хотя бы 5-6 объектам. Кроме того, нельзя использовать «аномальные» результаты. В частности, элитный небольшой бутик может иметь товарооборот в разы больший, чем товарооборот больших торговых точек класса «масмаркет».

Суть метода

Данные таблицы можно изобразить на декартовой плоскости в виде точек M1 (x1, y1), … Mn (xn, yn). Теперь решение задачи сведется к подбору аппроксимирующей функции y = f (x), имеющей график, проходящий как можно ближе к точкам M1, M2, ..Mn.

Конечно, можно использовать многочлен высокой степени, но такой вариант не только труднореализуем, но и просто некорректен, так как не будет отражать основную тенденцию, которую и нужно обнаружить. Самым разумным решением является поиск прямой у = ax + b, которая лучше всего приближает экспериментальные данные, a точнее, коэффициентов — a и b.

Оценка точности

При любой аппроксимации особую важность приобретает оценка ее точности. Обозначим через ei разность (отклонение) между функциональными и экспериментальными значениями для точки xi, т. е. ei = yi — f (xi).

Очевидно, что для оценки точности аппроксимации можно использовать сумму отклонений, т. е. при выборе прямой для приближенного представления зависимости X от Y нужно отдавать предпочтение той, у которой наименьшее значение суммы ei во всех рассматриваемых точках. Однако, не все так просто, так как наряду с положительными отклонениями практически будут присутствовать и отрицательные.

Решить вопрос можно, используя модули отклонений или их квадраты. Последний метод получил наиболее широкое распространение. Он используется во многих областях, включая регрессионный анализ (в Excel его реализация осуществляется с помощью двух встроенных функций), и давно доказал свою эффективность.

Метод наименьших квадратов

В Excel, как известно, существует встроенная функция автосуммы, позволяющая вычислить значения всех значений, расположенных в выделенном диапазоне. Таким образом, ничто не помешает нам рассчитать значение выражения (e1 2 + e2 2 + e3 2 + . en 2 ).

В математической записи это имеет вид:

Так как изначально было принято решение об аппроксимировании с помощью прямой, то имеем:

Таким образом, задача нахождения прямой, которая лучше всего описывает конкретную зависимость величин X и Y, сводится к вычислению минимума функции двух переменных:

Для этого требуется приравнять к нулю частные производные по новым переменным a и b, и решить примитивную систему, состоящую из двух уравнений с 2-мя неизвестными вида:

После нехитрых преобразований, включая деление на 2 и манипуляции с суммами, получим:

Решая ее, например, методом Крамера, получаем стационарную точку с некими коэффициентами a * и b * . Это и есть минимум, т. е. для предсказания, какой товарооборот будет у магазина при определенной площади, подойдет прямая y = a * x + b * , представляющая собой регрессионную модель для примера, о котором идет речь. Конечно, она не позволит найти точный результат, но поможет получить представление о том, окупится ли покупка в кредит магазина конкретной площади.

Как реализоавать метод наименьших квадратов в Excel

В «Эксель» имеется функция для расчета значения по МНК. Она имеет следующий вид: «ТЕНДЕНЦИЯ» (известн. значения Y; известн. значения X; новые значения X; конст.). Применим формулу расчета МНК в Excel к нашей таблице.

Для этого в ячейку, в которой должен быть отображен результат расчета по методу наименьших квадратов в Excel, введем знак «=» и выберем функцию «ТЕНДЕНЦИЯ». В раскрывшемся окне заполним соответствующие поля, выделяя:

  • диапазон известных значений для Y (в данном случае данные для товарооборота);
  • диапазон x1, …xn, т. е. величины торговых площадей;
  • и известные, и неизвестные значения x, для которого нужно выяснить размер товарооборота (информацию об их расположении на рабочем листе см. далее).

Кроме того, в формуле присутствует логическая переменная «Конст». Если ввести в соответствующее ей поле 1, то это будет означать, что следует осуществить вычисления, считая, что b = 0.

Если нужно узнать прогноз для более чем одного значения x, то после ввода формулы следует нажать не на «Ввод», а нужно набрать на клавиатуре комбинацию «Shift» + «Control»+ «Enter» («Ввод»).

Некоторые особенности

Регрессионный анализ может быть доступен даже чайникам. Формула Excel для предсказания значения массива неизвестных переменных — «ТЕНДЕНЦИЯ» — может использоваться даже теми, кто никогда не слышал о методе наименьших квадратов. Достаточно просто знать некоторые особенности ее работы. В частности:

  • Если расположить диапазон известных значений переменной y в одной строке или столбце, то каждая строка (столбец) с известными значениями x будет восприниматься программой в качестве отдельной переменной.
  • Если в окне «ТЕНДЕНЦИЯ» не указан диапазон с известными x, то в случае использования функции в Excel программа будет рассматривать его как массив, состоящий из целых чисел, количество которых соответствует диапазону с заданными значениями переменной y.
  • Чтобы получить на выходе массив «предсказанных» значений, выражение для вычисления тенденции нужно вводить как формулу массива.
  • Если не указаны новые значения x, то функция «ТЕНДЕНЦИЯ» считает их равным известным. Если и они не заданы, то в качестве аргумента берется массив 1; 2; 3; 4;…, который соразмерен диапазону с уже заданными параметрами y.
  • Диапазон, содержащий новые значения x должен состоять из такого же или большего количества строк или столбцов, как диапазон с заданными значениями y. Иными словами он должен быть соразмерным независимым переменным.
  • В массиве с известными значениями x может содержаться несколько переменных. Однако если речь идет лишь об одной, то требуется, чтобы диапазоны с заданными значениями x и y были соразмерны. В случае нескольких переменных нужно, чтобы диапазон с заданными значениями y вмещался в одном столбце или в одной строке.
Читать еще:  Как сделать число по модулю в excel?

Функция «ПРЕДСКАЗ»

Регрессионный анализ в Excel реализуется с помощью нескольких функций. Одна из них называется «ПРЕДСКАЗ». Она аналогична «ТЕНДЕНЦИИ», т. е. выдает результат вычислений по методу наименьших квадратов. Однако только для одного X, для которого неизвестно значение Y.

Теперь вы знаете формулы в Excel для чайников, позволяющие спрогнозировать величину будущего значения того или иного показателя согласно линейному тренду.

Метод наименьших квадратов в Excel. Регрессионный анализ

Метод наименьших квадратов (МНК) относится к сфере регрессионного анализа. Он имеет множество применений, так как позволяет осуществлять приближенное представление заданной функции другими более простыми. МНК может оказаться чрезвычайно полезным при обработке наблюдений, и его активно используют для оценки одних величин по результатам измерений других, содержащих случайные ошибки. Из этой статьи вы узнаете, как реализовать вычисления по методу наименьших квадратов в Excel.

Постановка задачи на конкретном примере

Предположим, имеются два показателя X и Y. Причем Y зависит от X. Так как МНК интересует нас с точки зрения регрессионного анализа (в Excel его методы реализуются с помощью встроенных функций), то стоит сразу же перейти к рассмотрению конкретной задачи.

Итак, пусть X — торговая площадь продовольственного магазина, измеряемая в квадратных метрах, а Y — годовой товарооборот, определяемый в миллионах рублей.

Требуется сделать прогноз, какой товарооборот (Y) будет у магазина, если у него та или иная торговая площадь. Очевидно, что функция Y = f (X) возрастающая, так как гипермаркет продает больше товаров, чем ларек.

Несколько слов о корректности исходных данных, используемых для предсказания

Допустим, у нас есть таблица, построенная по данным для n магазинов.

Согласно математической статистике, результаты будут более-менее корректными, если исследуются данные по хотя бы 5-6 объектам. Кроме того, нельзя использовать «аномальные» результаты. В частности, элитный небольшой бутик может иметь товарооборот в разы больший, чем товарооборот больших торговых точек класса «масмаркет».

Суть метода

Данные таблицы можно изобразить на декартовой плоскости в виде точек M1 (x1, y1), … Mn (xn, yn). Теперь решение задачи сведется к подбору аппроксимирующей функции y = f (x), имеющей график, проходящий как можно ближе к точкам M1, M2, ..Mn.

Конечно, можно использовать многочлен высокой степени, но такой вариант не только труднореализуем, но и просто некорректен, так как не будет отражать основную тенденцию, которую и нужно обнаружить. Самым разумным решением является поиск прямой у = ax + b, которая лучше всего приближает экспериментальные данные, a точнее, коэффициентов — a и b.

Оценка точности

При любой аппроксимации особую важность приобретает оценка ее точности. Обозначим через ei разность (отклонение) между функциональными и экспериментальными значениями для точки xi, т. е. ei = yi — f (xi).

Очевидно, что для оценки точности аппроксимации можно использовать сумму отклонений, т. е. при выборе прямой для приближенного представления зависимости X от Y нужно отдавать предпочтение той, у которой наименьшее значение суммы ei во всех рассматриваемых точках. Однако, не все так просто, так как наряду с положительными отклонениями практически будут присутствовать и отрицательные.

Решить вопрос можно, используя модули отклонений или их квадраты. Последний метод получил наиболее широкое распространение. Он используется во многих областях, включая регрессионный анализ (в Excel его реализация осуществляется с помощью двух встроенных функций), и давно доказал свою эффективность.

Метод наименьших квадратов

В Excel, как известно, существует встроенная функция автосуммы, позволяющая вычислить значения всех значений, расположенных в выделенном диапазоне. Таким образом, ничто не помешает нам рассчитать значение выражения (e1 2 + e2 2 + e3 2 + . en 2 ).

В математической записи это имеет вид:

Так как изначально было принято решение об аппроксимировании с помощью прямой, то имеем:

Таким образом, задача нахождения прямой, которая лучше всего описывает конкретную зависимость величин X и Y, сводится к вычислению минимума функции двух переменных:

Для этого требуется приравнять к нулю частные производные по новым переменным a и b, и решить примитивную систему, состоящую из двух уравнений с 2-мя неизвестными вида:

После нехитрых преобразований, включая деление на 2 и манипуляции с суммами, получим:

Решая ее, например, методом Крамера, получаем стационарную точку с некими коэффициентами a * и b * . Это и есть минимум, т. е. для предсказания, какой товарооборот будет у магазина при определенной площади, подойдет прямая y = a * x + b * , представляющая собой регрессионную модель для примера, о котором идет речь. Конечно, она не позволит найти точный результат, но поможет получить представление о том, окупится ли покупка в кредит магазина конкретной площади.

Как реализоавать метод наименьших квадратов в Excel

В «Эксель» имеется функция для расчета значения по МНК. Она имеет следующий вид: «ТЕНДЕНЦИЯ» (известн. значения Y; известн. значения X; новые значения X; конст.). Применим формулу расчета МНК в Excel к нашей таблице.

Для этого в ячейку, в которой должен быть отображен результат расчета по методу наименьших квадратов в Excel, введем знак «=» и выберем функцию «ТЕНДЕНЦИЯ». В раскрывшемся окне заполним соответствующие поля, выделяя:

  • диапазон известных значений для Y (в данном случае данные для товарооборота);
  • диапазон x1, …xn, т. е. величины торговых площадей;
  • и известные, и неизвестные значения x, для которого нужно выяснить размер товарооборота (информацию об их расположении на рабочем листе см. далее).

Кроме того, в формуле присутствует логическая переменная «Конст». Если ввести в соответствующее ей поле 1, то это будет означать, что следует осуществить вычисления, считая, что b = 0.

Если нужно узнать прогноз для более чем одного значения x, то после ввода формулы следует нажать не на «Ввод», а нужно набрать на клавиатуре комбинацию «Shift» + «Control»+ «Enter» («Ввод»).

Некоторые особенности

Регрессионный анализ может быть доступен даже чайникам. Формула Excel для предсказания значения массива неизвестных переменных — «ТЕНДЕНЦИЯ» — может использоваться даже теми, кто никогда не слышал о методе наименьших квадратов. Достаточно просто знать некоторые особенности ее работы. В частности:

  • Если расположить диапазон известных значений переменной y в одной строке или столбце, то каждая строка (столбец) с известными значениями x будет восприниматься программой в качестве отдельной переменной.
  • Если в окне «ТЕНДЕНЦИЯ» не указан диапазон с известными x, то в случае использования функции в Excel программа будет рассматривать его как массив, состоящий из целых чисел, количество которых соответствует диапазону с заданными значениями переменной y.
  • Чтобы получить на выходе массив «предсказанных» значений, выражение для вычисления тенденции нужно вводить как формулу массива.
  • Если не указаны новые значения x, то функция «ТЕНДЕНЦИЯ» считает их равным известным. Если и они не заданы, то в качестве аргумента берется массив 1; 2; 3; 4;…, который соразмерен диапазону с уже заданными параметрами y.
  • Диапазон, содержащий новые значения x должен состоять из такого же или большего количества строк или столбцов, как диапазон с заданными значениями y. Иными словами он должен быть соразмерным независимым переменным.
  • В массиве с известными значениями x может содержаться несколько переменных. Однако если речь идет лишь об одной, то требуется, чтобы диапазоны с заданными значениями x и y были соразмерны. В случае нескольких переменных нужно, чтобы диапазон с заданными значениями y вмещался в одном столбце или в одной строке.

Функция «ПРЕДСКАЗ»

Регрессионный анализ в Excel реализуется с помощью нескольких функций. Одна из них называется «ПРЕДСКАЗ». Она аналогична «ТЕНДЕНЦИИ», т. е. выдает результат вычислений по методу наименьших квадратов. Однако только для одного X, для которого неизвестно значение Y.

Теперь вы знаете формулы в Excel для чайников, позволяющие спрогнозировать величину будущего значения того или иного показателя согласно линейному тренду.

Ссылка на основную публикацию
Adblock
detector