Aprendizado de Maquina com scikit -learn 2
  • AI Chat
  • Code
  • Report
  • Beta
    Spinner

    Supervised Learning with scikit-learn

    Run the hidden code cell below to import the data used in this course.

    Sobre tarefa de classificação em ML:

    Abaixo importamos pandas para tratar os dados:

    # Importing pandas
    import pandas as pd
    # Importing the course datasets 
    diabetes = pd.read_csv('datasets/diabetes_clean.csv')
    music = pd.read_csv('datasets/music_clean.csv')
    advertising = pd.read_csv('datasets/advertising_and_sales_clean.csv')
    telecom = pd.read_csv("datasets/telecom_churn_clean.csv")

    Vamos utilizar os dados de diabetes e criar um classificador de previsão de diabetes usandp KNN e vamos avaliar as principais métricas da matriz de confusão do modelo gerado.

    O objetivo é prever se cada indivíduo tem ou não probabilidade de ter diabetes com base no índice de massa corporal (IMC) e idade (em anos). Portanto, é um problema de classificação binária. Um valor alvo de 0 indica que o indivíduo não tem diabetes, enquanto um valor de 1 indica que o indivíduo tem diabetes.Vamos usar somente a variável bmi como preditora.

    diabetes = diabetes[['bmi','diabetes']]
    diabetes.head()
    diabetes.info()

    Vamos agora criar um array numpy da variavel X que vamos usar como preditora:BMI:

    X = diabetes['bmi'].values

    Agora vamos chamar de y a variavel target(alvo) que que queremos prever:

    y = diabetes['diabetes'].values

    Observe que a variavel X esta em uma dimensao, porém para ser usado no sklearn deve ter duas dismensoes

    print(X)

    Vamos usar o reshape para corrigir isso:

    X = X.reshape(-1,1)
    print(X)
    print(X.shape)