Первый тип — простой, когда мы пытаемся понять связь между одной переменной (например, количеством часов учебы) и другой (например, оценками). Мы пытаемся учесть несколько переменных одновременно, например, количество часов учебы и сна, и занятия спортом, чтобы предсказать, как это влияет на оценки. Можно сказать, что во втором типе вы пытаетесь уловить более сложные связи между параметрами и результатом. В этой статье мы рассмотрели, что такое, простыми словами, линейная регрессия в статистике и примеры ее в машинном обучении.
Сбор и очистка данных
- Эта модель широко используется в различных областях, включая экономику, биологию, инженерию и социальные науки, для прогнозирования результатов и анализа тенденций на основе исторических данных.
- Например, если рассматривать цену на дом, ориентируясь лишь на его площадь, модель не учтет такие важные вещи, как возраст строения или его расположение.
- В статье мы раскроем, как простая модель помогает прогнозировать сложные процессы и находить закономерности в данных.
Для начала можно импортировать необходимые библиотеки, загрузить набор данных и разделить его на обучающий и проверочный наборы. После подгонки модели с использованием обучающих данных можно сделать прогнозы на проверочном наборе и рассчитать метрики оценки для оценки производительности модели. Statsmodels, с другой стороны, предлагает более подробный статистический вывод, включая коэффициенты, p-значения и доверительные интервалы, что позволяет глубже понять взаимосвязи между переменными. Линии регрессии имеют широкий спектр применений в различных областях, включая экономику, биологию, инженерию и социальные науки. В бизнесе регрессионный анализ можно использовать для прогнозирования продаж, оценки маркетинговых стратегий и понимания поведения клиентов. В здравоохранении исследователи могут использовать линии регрессии для анализа взаимосвязи между факторами образа жизни и последствиями для здоровья.
Без вариации мы не можем показать связь между изменениями двух переменных. Если одна или две из них не меняются, то модель не будет содержательно полезной, так как просто не сможет зафиксировать изменения. Набор данных, который мы используем в этом и следующем параграфе, содержит переменные с этими характеристиками. Теперь давайте разберемся, как мы можем использовать несколько переменных одновременно. Разница между фактическими и предсказанными значениями может быть положительной (предсказанное значение меньше фактического) или отрицательной (предсказанное больше фактического).
Далее создаем класс, который будет определять, как выглядит модель изнутри (с точки зрения программирования). Теперь каждое входное значение представлено в виде вектора признаков, каждый вектор состоит из одного признака. Создаем новый файл и в нем немного изменяем инициализацию набора данных.
Оценка производительности модели линейной регрессии
Разница между тем, что было предсказано, и тем, что реально произошло. Важно понимать, где именно ошибается модель, чтобы её корректировать. Например, добавить больше данных или использовать другие показатели. Числовые значения, которые показывают, насколько сильно каждый из факторов влияет на зависимый параметр. Например, квартиры в престижных районах дороже, а на первых этажах дешевле средней рыночной цены. Представьте, что вы работаете в магазине мороженого и нужно понять, как температура на улице влияет на количество проданных порций.
Чтобы линейная регрессия давала надежные и достоверные результаты, необходимо выполнить несколько ключевых предположений. Во-вторых, остатки или различия между наблюдаемыми и прогнозируемыми значениями должны быть нормально распределены. Кроме того, решающее значение имеет гомоскедастичность, а это означает, что дисперсия остатков должна оставаться постоянной на всех уровнях независимой переменной (переменных). Наконец, между независимыми переменными не должно быть мультиколлинеарности, поскольку это может исказить результаты и затруднить определение индивидуального эффекта каждого предиктора.
🔍 Коэффициент детерминации — доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью. Суть такая — для каждой точки на графике мы измеряем расстояние по оси y до каждой проведённой линии. Глядя на два графика, мы видим, что наш MSE имеет форму удлиненной чаши, которая, по-видимому, сглаживается в овале, грубо центрированном по окрестности (m, p) ≈ (0.5, 1.0). Если мы построим MSE линейной регрессии для другого датасета, то получим аналогичную форму. Поскольку мы пытаемся минимизировать MSE, наша цель — выяснить, где находится самая низкая точка в чаше.
Независимые и зависимые переменные должны иметь линейную связь друг с другом. То есть изменения зависимой переменной приводят к изменению независимой переменной линейно. По сути, линейная регрессия заключается в поиске линии, которая лучше всего соответствует набору точек на графике.
Презентация „Линейная функция“
Таким образом, вводя значения объясняющих переменных в уравнение модели, мы можем рассчитать значение зависимой переменной для нового фрагмента данных. Линейная регрессия широко используется в различных областях для различных приложений. В финансах ее можно использовать для прогнозирования цен на акции на основе исторических данных и экономических показателей. В маркетинге компании часто используют линейную регрессию для понимания поведения потребителей и прогнозирования продаж на основе расходов на рекламу и других переменных.
Модель простой линейной регрессии¶
Это помогает нам угадывать результаты на основе существующих закономерностей. Линейная регрессия может показаться сложным термином, но по своей сути это удобный инструмент, который помогает нам понимать и прогнозировать взаимосвязи между двумя переменными. Дисперсию можно устранить с помощью преобразования переменных или использования надежных стандартных ошибок. Цель этого раздела – разработать эквивалентную линейную вероятностную модель.
Остатки в линейной регрессии представляют собой разницу между наблюдаемыми значениями зависимой переменной и значениями, предсказанными моделью линейной регрессии . Другими словами, это вертикальное расстояние между фактическими точками данных и линией регрессии. Важно отметить, что линейная регрессия предполагает, что связь между двумя переменными линейна , а это означает, что изменение зависимой переменной пропорционально изменению независимой переменной. Чтобы найти значения a и b, мы используем метод наименьших квадратов , который стремится минимизировать сумму квадратов ошибок между наблюдаемыми значениями и значениями, предсказанными линией регрессии. Где Y представляет собой зависимую переменную , β 1 , β 2 , β n — независимые переменные, которые могут повлиять на значение Y, регрессию, а ε представляет собой возможную существующую ошибку.
Применение регрессионного анализа в Data Science
В этом нам поможет уравнение линейной функции (привет, шестой класс). Различие между линейными уравнениями, которые мы составили, и нейронной сетью — функция активации линейная регрессия это (например, сигмоида, tanh, ReLU или других). Рассмотрим приведенный ниже рисунок, который использует две визуализации средней квадратичной ошибки в диапазоне, где наклон m находится между -2 и 4, а b между -6 и 8. Эти две вещи похожи, потому что обе показывают связь переменных. Это могут быть показатели продаж на основе уже существующих исторических данных с учётом рекламных расходов, сезонности и других независимых факторов.
- Отбор наблюдений в выборку должен быть случайным, сами наблюдения никак не должны влиять друг на друга и быть независимыми.
- Предположим, что это группа коттеджей, расположенных в одном районе.
- Далее создаем класс, который будет определять, как выглядит модель изнутри (с точки зрения программирования).
- В здравоохранении исследователи могут использовать линии регрессии для анализа взаимосвязи между факторами образа жизни и последствиями для здоровья.
Таким образом, линейная регрессия — это инструмент для анализа и моделирования взаимосвязей между двумя непрерывными переменными. В этом генераторе создаются точки данных со смещением от истинной зависимости, которая описывается с помощью двух случайно сгенерированных параметров k и b. Здесь b – это смещение (по оси у, это смещение зависимости), k – это обычный вес, они оба являются обучаемыми параметрами. Переменные offset_x и offset_y отвечают за случайное смещение точки от истинной зависимости.
Это означает, что изменение зависимой переменной пропорционально изменению независимых переменных. Когда вы наносите данные на график, точки должны приблизительно образовывать прямую линию. С другой стороны, уравнение, рассчитанное с помощью линейной регрессии, также позволяет делать прогнозы значений.
Например, мы строим модель годового дохода человека, который держит портфель акций. При этом какой бы ни была связь работы и зарплаты, к финальному доходу будет всегда прибавляться небольшой процент от инвестиций. Важно отметить, что эти шаги могут незначительно отличаться в зависимости от типа используемой линейной регрессии и используемого статистического программного обеспечения. X — независимая переменная (или предиктор), используемая для прогнозирования. Он также используется при принятии бизнес-решений и оптимизации процессов в промышленности и бизнесе. Создадим набор данных с помощью этого простого генератора данных для функции этого вида.
Оптимизируем значение этой функции к минимуму, то есть в сторону нуля, поэтому нужно использовать вычетание градиента, другими словами это будет градиентный спуск. Здесь слова «отклонение», «ошибка» и «остаток» можно рассматривать как взаимозаменяемые, так как речь идет о расхождении между ответом (output) модели и целевым значением (target). Линейная регрессия — это не просто статистическая методика, а мощный инструмент, позволяющий увидеть скрытые закономерности в данных и превратить их в действенные прогнозы. Освоив линейную регрессию, вы получаете не просто технический навык, а новый способ мышления, который позволяет видеть связи там, где другие видят только цифры. Линейная регрессия — это способ найти связь между переменными и построить линию, которая лучше всего описывает эту связь.
Сначала вычисляется значение частной производной для каждого изменяемого параметра относительно функции ошибки (функции потерь), затем это значение вычитается из текущего значения параметра. N — число наблюдений (объектов), m — число признаков, — список всех значений из набора данных для данного признака (j-я координата вектора), mean – среднее значение, std – стандартное отклонение. В этой статье я рассказываю про линейную регрессию, свойства, которыми должны обладать данные для модели, процесс обучения, регуляризацию, метрики качества. Я рассказываю все в своем стиле и понимании – с инженерной точки зрения, с точки зрения того, как реализовывать с нуля.