Как я могу найти наивысшее значение квадрата R для конкретной переменной (в python)?

ashish jangir спросил: 12 мая 2018 в 04:28 в: python-3.x

В линейной модели y = a_0 + (a_1 × x_1) + (a_2 × x_2) + (a_3 × x_i) + ε, какое значение для i∈ [3,4, ..., 100] приводит к модели с самый высокий R-Squared?

Учитывая CSV-файл с одной зависимой и 100 независимыми переменными.


1 ответ

Maurits Evers ответил: 12 мая 2018 в 12:28

Этот вопрос не имеет большого смысла.

Давайте посмотрим на определение коэффициента определения (т. е. "квадрат квадрата"):

R^2 = 1 - sum(e_i) / ((n - 1) * s^2)

, где sum(e_i) - сумма квадратов остатков, а s^2 - выборка.

Добавление большего количества предикторов потенциально уменьшит сумму квадратные остатки, но дают плохую прогнозирующую производительность из-за переобучения.

Таким образом, критический вопрос здесь будет: Какие функции (переменные) важны для вашей лучшей модели с сильной прогностической эффективностью.

Этот вопрос выходит за рамки SO (или любого другого форума), и я рекомендую (любой) учебник по статистическому моделированию.