Рекомендация тарифов мобильного оператора

Beta

Рекомендация тарифов

Описание данных

Шаг 1. Импорт библиотек и изучение файлов

Шаг 2. Разделение данных на выборки

Шаг 3. Исследование моделей

Модель дерева решений

Модель случайного леса

Модель логистической регрессии

Сравнение качества предсказаний на валидационной выборке

Шаг 4. Проверка моделей на тестовой выборке

Шаг 5. Проверка модели на адекватность

Рекомендация тарифов

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы. Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится.

Постройте модель с максимально большим значением accuracy. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте accuracy на тестовой выборке.

Описание данных

Каждый объект в наборе данных — это информация о поведении одного пользователя за месяц. Известно:

сalls — количество звонков,
minutes — суммарная длительность звонков в минутах,
messages — количество sms-сообщений,
mb_used — израсходованный интернет-трафик в Мб,
is_ultra — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).

Шаг 1. Импорт библиотек и изучение файлов

# импортируем библиотеки
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.dummy import DummyClassifier

# откроем файл и выведем информацию о нем
df = pd.read_csv("datasets/users_behavior.csv")
display(df.head().style.set_caption("Данные о поведении клиентов"))
df.info()

Шаг 2. Разделение данных на выборки

features = df.drop(["is_ultra"], axis=1)
target = df["is_ultra"]

# применим 2 раза train_test_split и разделим датафрейм в соотношении 60/20/20
# сначала выделим 20% исходной выборки в качестве тестовой
features_train_valid, features_test, target_train_valid, target_test = \
train_test_split(features, target, test_size=.2, random_state=12345)
# затем выделим 25% от оставшейся части выборки в качестве валидационной
features_train, features_valid, target_train, target_valid = \
train_test_split(features_train_valid, target_train_valid, test_size=.25, random_state=12345)

print("Размер обучающей выборки признаков: " + str(features_train.shape))
print("Размер обучающей выборки целевого признака: " + str(target_train.shape))
print("Размер валидационной выборки признаков: " + str(features_valid.shape))
print("Размер валидационной выборки целевого признака: " + str(target_valid.shape))
print("Размер тестовой выборки признаков: " + str(features_test.shape))
print("Размер тестовой выборки целевого признака: " + str(target_test.shape))

Можно видеть, что исходная выборка разделилась в нужной нам пропорции.

Шаг 3. Исследование моделей

Модель дерева решений

best_model_tree = None
best_accuracy_valid_tree = 0

for c in ["gini", "entropy"]:
    for d in range(1, 13):
        for s in range(2, 5):
            for l in range(1, 12):
                model_tree = DecisionTreeClassifier(criterion=c, 
                                                    max_depth=d, 
                                                    min_samples_split=s, 
                                                    min_samples_leaf=l, 
                                                    random_state=12345)
                model_tree.fit(features_train, target_train)
                predict_tree = model_tree.predict(features_valid)
                accuracy_tree = accuracy_score(target_valid, predict_tree)
                if accuracy_tree > best_accuracy_valid_tree:
                    best_accuracy_valid_tree = accuracy_tree
                    best_model_tree = model_tree
print("Доля правильных ответов лучшей модели на валидационной выборке \
      \nДерево решений: " + str(best_accuracy_valid_tree))
print("Гиперпараметры лучшей модели: \n" + str(best_model_tree))

Модель случайного леса

best_model_forest = None
best_accuracy_valid_forest = 0

for n in range(1, 16, 2):
    for c in ["gini", "entropy"]:
        for d in range(1, 21):
            for s in range(2, 12):
                for l in range(1, 5):
                    model_forest = RandomForestClassifier(n_estimators=n, 
                                                          criterion=c, 
                                                          max_depth=d, 
                                                          min_samples_split=s, 
                                                          min_samples_leaf=l, 
                                                          random_state=12345)
                    model_forest.fit(features_train, target_train)
                    predict_forest = model_forest.predict(features_valid)
                    accuracy_forest = accuracy_score(target_valid, predict_forest)
                    if accuracy_forest > best_accuracy_valid_forest:
                        best_accuracy_valid_forest = accuracy_forest
                        best_model_forest = model_forest
print("Доля правильных ответов лучшей модели на валидационной выборке \
      \nСлучайный лес: " + str(best_accuracy_valid_forest))
print("Гиперпараметры лучшей модели: \n" + str(best_model_forest))

Модель логистической регрессии

best_model_regr = None
best_accuracy_valid_regr = 0

for s in ["newton-cg", "lbfgs", "liblinear", "sag", "saga"]:
    for i in range(1, 101, 1):
        model_regr = LogisticRegression(solver=s, 
                                        max_iter=i, 
                                        random_state=12345)
        model_regr.fit(features_train, target_train)
        predict_regr = model_regr.predict(features_valid)
        accuracy_valid_regr = accuracy_score(target_valid, predict_regr)
        if accuracy_valid_regr > best_accuracy_valid_regr:
            best_accuracy_valid_regr = accuracy_valid_regr
            best_model_regr = model_regr
print("Доля правильных ответов лучшей модели на валидационной выборке \
      \nЛогистическая регрессия: " + str(best_accuracy_valid_regr))
print("Гиперпараметры лучшей модели: \n" + str(best_model_regr))

‌
‌
‌

Рекомендация тарифов мобильного оператора

.mfe-app-workspace-kj242g{position:absolute;top:-8px;}.mfe-app-workspace-11ezf91{display:inline-block;}.mfe-app-workspace-11ezf91:hover .Anchor__copyLink{visibility:visible;}Рекомендация тарифов

Описание данных

Шаг 1. Импорт библиотек и изучение файлов

Шаг 2. Разделение данных на выборки

Шаг 3. Исследование моделей

Модель дерева решений

Модель случайного леса

Модель логистической регрессии

Рекомендация тарифов