Supervised Learning with scikit-learn
Run the hidden code cell below to import the data used in this course.
Sobre tarefa de classificação em ML:
Abaixo importamos pandas para tratar os dados:
# Importing pandas
import pandas as pd
# Importing the course datasets
diabetes = pd.read_csv('datasets/diabetes_clean.csv')
music = pd.read_csv('datasets/music_clean.csv')
advertising = pd.read_csv('datasets/advertising_and_sales_clean.csv')
telecom = pd.read_csv("datasets/telecom_churn_clean.csv")
Vamos utilizar os dados de diabetes e criar um classificador de previsão de diabetes usandp KNN e vamos avaliar as principais métricas da matriz de confusão do modelo gerado.
O objetivo é prever se cada indivíduo tem ou não probabilidade de ter diabetes com base no índice de massa corporal (IMC) e idade (em anos). Portanto, é um problema de classificação binária. Um valor alvo de 0 indica que o indivíduo não tem diabetes, enquanto um valor de 1 indica que o indivíduo tem diabetes.Vamos usar somente a variável bmi como preditora.
diabetes = diabetes[['bmi','diabetes']]
diabetes.head()
diabetes.info()
Vamos agora criar um array numpy da variavel X que vamos usar como preditora:BMI:
X = diabetes['bmi'].values
Agora vamos chamar de y a variavel target(alvo) que que queremos prever:
y = diabetes['diabetes'].values
Observe que a variavel X esta em uma dimensao, porém para ser usado no sklearn deve ter duas dismensoes
print(X)
Vamos usar o reshape para corrigir isso:
X = X.reshape(-1,1)
print(X)
print(X.shape)