Archives for Abril 2024

Algoritmos de Regressão – Teoria e Prática com Scikit-Learn

Algoritmos de Machine Learning com Python

O Machine Learning, também conhecido como aprendizado de máquina, é um subcampo da inteligência artificial que emprega algoritmos estatísticos para fazer com que os computadores aprendam a partir dos dados e, então, façam previsões ou tomem decisões. Python se tornou uma das linguagens mais populares para o Machine Learning devido à sua simplicidade e à extensa coleção de bibliotecas, como NumPy, pandas e scikit-learn, que tornam a implementação de algoritmos de Machine Learning relativamente direta.

O que é Regressão?

A regressão é uma técnica que tenta prever um valor contínuo (por exemplo, o preço de uma casa) com base em um ou mais valores de entrada (por exemplo, o tamanho da casa, a localização, o número de quartos, etc.). Em outras palavras, ela tenta estabelecer uma relação entre variáveis independentes (entrada) e uma variável dependente (saída).

Regressão Linear: Conceitos fundamentais

A regressão linear é uma das técnicas mais básicas e comumente usadas em Machine Learning e estatística. Na regressão linear, assumimos que a saída depende linearmente das variáveis de entrada.

Podemos expressar essa relação na forma:

y = a0 + a1x1 + a2x2 + a3x3 + … + anxn

1	y = a0 + a1x1 + a2x2 + a3x3 + … + anxn

Aqui, y é a variável alvo e x1, x2, …, xn são as variáveis preditoras ou características. A regressão linear envolvendo apenas uma característica é conhecida como regressão linear simples, enquanto a que envolve múltiplas características é conhecida como regressão linear múltipla. Os parâmetros a0, a1, a2, …, an (também conhecidos como coeficientes ou pesos) do modelo são o que queremos determinar com o algoritmo de regressão linear.

Imagine que você está jogando dardos e tem como alvo um conjunto de números que seguem uma linha reta. Cada vez que joga um dardo, ele se aproxima mais ou menos dessa linha reta. A Regressão Linear é como esse jogo de dardos – só que, em vez de jogar dardos, ela tenta encontrar uma linha que se encaixe da melhor maneira possível em um conjunto de pontos.

Para entendermos melhor, vamos trabalhar com um exemplo simples. Vamos supor que temos os seguintes dados de entrada (peso em kg) e saída (altura em cm):

Peso: [50, 60, 70, 80, 90] 
Altura: [152, 167, 170, 175, 192]

1 2	Peso: [50, 60, 70, 80, 90] Altura: [152, 167, 170, 175, 192]

O que queremos é encontrar uma relação entre esses dois conjuntos de dados. Nosso objetivo é descobrir como o peso de uma pessoa pode influenciar na sua altura. Esse é o principal objetivo da Regressão Linear – encontrar uma relação entre os dados que temos e os que queremos prever.

A Regressão Linear faz isso através de uma equação matemática. No nosso caso, a equação seria assim:

Altura = a0 + a1*Peso + 𝜖

1	Altura = a0 + a1*Peso + 𝜖

Na equação, “a0” e “a1” são os chamados coeficientes. Eles são os números que queremos descobrir para que a nossa equação possa prever a altura de uma pessoa baseada apenas no seu peso.

Substituindo o peso e a altura de cada pessoa em nossa equação de regressão linear, teríamos as seguintes cinco equações (uma para cada observação):

152 = a0 + a150 + 𝜖1 167 = a0 + a160 + 𝜖2 170 = a0 + a170 + 𝜖3 175 = a0 + a180 + 𝜖4 192 = a0 + a1*90 + 𝜖5

1	152 = a0 + a150 + 𝜖1 167 = a0 + a160 + 𝜖2 170 = a0 + a170 + 𝜖3 175 = a0 + a180 + 𝜖4 192 = a0 + a1*90 + 𝜖5

As incógnitas em nosso sistema de equações são os coeficientes a0 (o intercepto) e a1 (a inclinação). O objetivo do algoritmo de regressão linear é encontrar os valores de a0 e a1 que minimizam a soma dos quadrados dos erros (𝜖). Este é um problema de otimização que pode ser resolvido com várias técnicas, incluindo gradientes descendentes e equações normais.

Mas como encontrar os valores de “a0” e “a1” que fazem a nossa equação funcionar da melhor maneira possível?

É aqui que entra o chamado “Erro Quadrático Médio” (MSE, do inglês “Mean Squared Error”). O MSE é uma maneira de calcular o quão errada está a nossa equação. Ele faz isso comparando os valores que nossa equação prevê com os valores reais que temos (no nosso caso, as alturas das pessoas). Quanto menor for o MSE, melhor é a nossa equação.

Então, o que a Regressão Linear faz é testar muitos valores diferentes para “a0” e “a1” e escolher os que fazem o MSE ser o menor possível. Em outras palavras, ela escolhe os valores que fazem a nossa equação prever as alturas das pessoas da maneira mais precisa possível.

Essas técnicas incluem resolver uma equação matricial conhecida como equação normal ou usar uma técnica chamada gradiente descendente para testar diferentes conjuntos de parâmetros iterativamente. Felizmente, não precisamos realizar esses cálculos nós mesmos; podemos usar a classe LinearRegression do sklearn para isso.

Regressão Linear com Scikit-Learn

Para implementar a regressão linear em Python, uma das bibliotecas mais populares é o scikit-learn. Além disso, usaremos outras bibliotecas auxiliares como a matplotlib, para manipulação de dados e visualização.

from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

# Carregando o conjunto de dados diabetes
diabetes = load_diabetes()

# Separando as variáveis independentes (X) e a variável alvo (y)
X = diabetes.data[:, 2]  # Usando apenas uma característica para fins de visualização
y = diabetes.target

# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de regressão linear
model = LinearRegression()

# Treinando o modelo com os dados de treinamento
model.fit(X_train.reshape(-1, 1), y_train)

# Fazendo previsões com os dados de teste
y_pred = model.predict(X_test.reshape(-1, 1))

# Plotando o gráfico de dispersão dos dados de teste
plt.scatter(X_test, y_test, color='blue', label='Dados de Teste')

# Plotando a linha de regressão
plt.plot(X_test, y_pred, color='red', linewidth=2, label='Linha de Regressão')

# Adicionando rótulos e título ao gráfico
plt.xlabel('Característica')
plt.ylabel('Progressão da Doença')
plt.title('Regressão Linear - Diabetes')
plt.legend()

# Exibindo o gráfico
plt.show()

from sklearn.datasets import load_diabetes

from sklearn.linear_model import LinearRegression

from sklearn.model_selection import train_test_split

import matplotlib.pyplot as plt

# Carregando o conjunto de dados diabetes

diabetes = load_diabetes()

# Separando as variáveis independentes (X) e a variável alvo (y)

X = diabetes.data[:, 2] # Usando apenas uma característica para fins de visualização

y = diabetes.target

# Dividindo os dados em conjuntos de treinamento e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de regressão linear

model = LinearRegression()

# Treinando o modelo com os dados de treinamento

model.fit(X_train.reshape(-1, 1), y_train)

# Fazendo previsões com os dados de teste

y_pred = model.predict(X_test.reshape(-1, 1))

# Plotando o gráfico de dispersão dos dados de teste

plt.scatter(X_test, y_test, color='blue', label='Dados de Teste')

# Plotando a linha de regressão

plt.plot(X_test, y_pred, color='red', linewidth=2, label='Linha de Regressão')

# Adicionando rótulos e título ao gráfico

plt.xlabel('Característica')

plt.ylabel('Progressão da Doença')

plt.title('Regressão Linear - Diabetes')

plt.legend()

# Exibindo o gráfico

plt.show()

Explicação do código:

Importamos as bibliotecas necessárias, incluindo matplotlib.pyplot para criar o gráfico.
Carregamos o conjunto de dados “diabetes” usando a função load_diabetes().
Separamos apenas uma característica (feature) para a variável independente (X) usando diabetes.data[:, 2]. Isso é feito apenas para fins de visualização, já que é mais fácil plotar um gráfico bidimensional. A variável alvo (y) permanece a mesma.
Dividimos os dados em conjuntos de treinamento e teste usando a função train_test_split().
Criamos uma instância do modelo de regressão linear usando a classe LinearRegression().
Treinamos o modelo com os dados de treinamento usando o método fit(). Como estamos usando apenas uma característica, precisamos reformatar os dados usando X_train.reshape(-1, 1) para que tenham a forma adequada.
Fazemos previsões com os dados de teste usando o método predict(), também reformatando os dados com X_test.reshape(-1, 1).
Plotamos o gráfico de dispersão dos dados de teste usando a função plt.scatter(), especificando as coordenadas X e y, a cor dos pontos e o rótulo da legenda.
Plotamos a linha de regressão usando a função plt.plot(), especificando as coordenadas X e y (previsões), a cor da linha, a espessura da linha e o rótulo da legenda.
Adicionamos rótulos aos eixos X e Y usando plt.xlabel() e plt.ylabel(), respectivamente, e um título ao gráfico usando plt.title().
Adicionamos uma legenda ao gráfico usando plt.legend().
Por fim, exibimos o gráfico usando plt.show().

O gráfico resultante mostrará os pontos de dados de teste como pontos azuis e a linha de regressão como uma linha vermelha. A linha de regressão representa a relação linear entre a característica selecionada e a progressão da doença, conforme aprendido pelo modelo de regressão linear.

A interpretação do gráfico é que a linha de regressão tenta capturar a tendência geral dos dados, mostrando como a progressão da doença varia em relação à característica selecionada. Quanto mais próximos os pontos estiverem da linha de regressão, melhor o modelo se ajusta aos dados.

Regressão Polinomial: Conceitos Fundamentais

Embora a regressão linear seja eficiente para muitos casos, às vezes a relação entre as variáveis de entrada e saída não é linear. Nesses casos, a regressão polinomial pode ser uma melhor opção. A regressão polinomial tenta encontrar a melhor curva, e não uma linha reta, que se ajusta aos dados.

Regressão Polinomial: Conceitos Fundamentais

A regressão polinomial é uma extensão da regressão linear que pode ajudar quando a relação entre as variáveis de entrada e saída não é linear. Em vez de ajustar uma linha reta, como na regressão linear, a regressão polinomial tenta encontrar a melhor curva que se ajusta aos dados.

Vamos usar um exemplo para ilustrar esse conceito de forma simples e prática. Imaginemos que estamos tentando prever a velocidade de um carro com base no tempo desde que ele foi ligado. Aqui estão os dados:

Tempo (em minutos): [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
Velocidade (em km/h): [10, 20, 30, 40, 50, 60, 65, 70, 70, 70]

Se plotarmos esses pontos em um gráfico, veremos que a relação não é linear. Nos primeiros minutos, a velocidade do carro aumenta rapidamente. Mas depois de algum tempo, a velocidade começa a se estabilizar. Isso não é surpreendente – afinal, devido às limitações físicas, um carro não pode aumentar sua velocidade indefinidamente.

Aqui, uma linha reta (como a usada na regressão linear) não seria a melhor maneira de representar essa relação. Em vez disso, uma curva seria mais adequada – é aí que a regressão polinomial se torna útil.

Na regressão polinomial, a equação não é uma linha reta, mas uma curva. A equação se parece com isto:

Velocidade = a0 + a1Tempo + a2Tempo^2 + … + an*Tempo^n + 𝜖

Aqui, “a0” é o termo constante, “a1” é o coeficiente do tempo, “a2” é o coeficiente do tempo ao quadrado, e assim por diante, até “an”, que é o coeficiente do tempo elevado à potência “n”. O termo “𝜖” é o erro, que é a diferença entre o valor real da velocidade e o valor previsto pela nossa equação.

Assim como na regressão linear, o objetivo do algoritmo de regressão polinomial é encontrar os valores de “a0”, “a1”, “a2”, …, “an” que fazem a nossa equação prever as velocidades de forma mais precisa possível.

Podemos usar o exemplo de dados fornecido para criar um modelo de regressão polinomial com o scikit-learn. Eis um código em Python:

# Importando as bibliotecas necessárias
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
import numpy as np
import matplotlib.pyplot as plt

# Nosso conjunto de dados
Tempo = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]).reshape(-1, 1)
Velocidade = np.array([10, 20, 30, 40, 50, 60, 65, 70, 70, 70])

# Transformando os dados para um formato polinomial
poly = PolynomialFeatures(degree = 2) # Vamos considerar um polinômio de grau 2
Tempo_poly = poly.fit_transform(Tempo)

# Criando o modelo de regressão polinomial
model = LinearRegression()

# Treinando o modelo
model.fit(Tempo_poly, Velocidade)

# Agora vamos criar um gráfico
plt.scatter(Tempo, Velocidade, color = 'blue') # Pontos originais
plt.plot(Tempo, model.predict(Tempo_poly), color = 'red') # Linha da regressão
plt.title('Regressão Polinomial')
plt.xlabel('Tempo')
plt.ylabel('Velocidade')
plt.show()

# Importando as bibliotecas necessárias

from sklearn.preprocessing import PolynomialFeatures

from sklearn.linear_model import LinearRegression

import numpy as np

import matplotlib.pyplot as plt

# Nosso conjunto de dados

Tempo = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]).reshape(-1, 1)

Velocidade = np.array([10, 20, 30, 40, 50, 60, 65, 70, 70, 70])

# Transformando os dados para um formato polinomial

poly = PolynomialFeatures(degree = 2) # Vamos considerar um polinômio de grau 2

Tempo_poly = poly.fit_transform(Tempo)

# Criando o modelo de regressão polinomial

model = LinearRegression()

# Treinando o modelo

model.fit(Tempo_poly, Velocidade)

# Agora vamos criar um gráfico

plt.scatter(Tempo, Velocidade, color = 'blue') # Pontos originais

plt.plot(Tempo, model.predict(Tempo_poly), color = 'red') # Linha da regressão

plt.title('Regressão Polinomial')

plt.xlabel('Tempo')

plt.ylabel('Velocidade')

plt.show()

Este script primeiro importa as bibliotecas necessárias e define os dados. Em seguida, ele transforma os dados para um formato polinomial usando a classe PolynomialFeatures do scikit-learn. Depois, ele cria e treina um modelo de regressão linear com os dados polinomiais. Finalmente, o modelo é usado para prever a velocidade em um novo ponto no tempo.

Por favor, note que esse é um exemplo simplificado. Em um cenário real, você precisaria dividir seus dados em conjuntos de treinamento e teste, ajustar os hiperparâmetros do modelo, avaliar o desempenho do modelo, etc.

Embora a regressão polinomial possa parecer complicada, não precisamos nos preocupar em fazer todos esses cálculos à mão. Assim como na regressão linear, também podemos usar a biblioteca scikit-learn do Python para fazer regressão polinomial com apenas algumas linhas de código.

Regressão Polinomial com Scikit-Learn

Com o scikit-learn, é fácil implementar a regressão polinomial. No exemplo abaixo vamos usar o mesmo conjunto de dados de diabetes para ilustrar a aplicação da Regressão Polinomial.

# Importando as bibliotecas necessárias
from sklearn import datasets
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt
import numpy as np

# Carregando o conjunto de dados de diabetes
diabetes = datasets.load_diabetes()

# Vamos usar apenas uma característica para simplificar
X = diabetes.data[:, np.newaxis, 2]
y = diabetes.target

# Dividindo os dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Transformando os dados para um formato polinomial
poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

# Criando o modelo de regressão polinomial
model = LinearRegression()

# Treinando o modelo
model.fit(X_train_poly, y_train)

# Fazendo previsões
y_pred = model.predict(X_test_poly)

# Calculando o erro quadrático médio
mse = mean_squared_error(y_test, y_pred)

print('Erro Quadrático Médio: ', mse)

# Agora vamos criar um gráfico
plt.scatter(X_test, y_test, color='blue')  # Pontos de teste
plt.scatter(X_test, y_pred, color='red')  # Pontos previstos
plt.title('Regressão Polinomial com Scikit-Learn')
plt.xlabel('Medição de índice de massa corporal')
plt.ylabel('Progressão da doença')
plt.show()

# Importando as bibliotecas necessárias

from sklearn import datasets

from sklearn.preprocessing import PolynomialFeatures

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error

import matplotlib.pyplot as plt

import numpy as np

# Carregando o conjunto de dados de diabetes

diabetes = datasets.load_diabetes()

# Vamos usar apenas uma característica para simplificar

X = diabetes.data[:, np.newaxis, 2]

y = diabetes.target

# Dividindo os dados em conjunto de treinamento e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Transformando os dados para um formato polinomial

poly = PolynomialFeatures(degree=2)

X_train_poly = poly.fit_transform(X_train)

X_test_poly = poly.transform(X_test)

# Criando o modelo de regressão polinomial

model = LinearRegression()

# Treinando o modelo

model.fit(X_train_poly, y_train)

# Fazendo previsões

y_pred = model.predict(X_test_poly)

# Calculando o erro quadrático médio

mse = mean_squared_error(y_test, y_pred)

print('Erro Quadrático Médio: ', mse)

# Agora vamos criar um gráfico

plt.scatter(X_test, y_test, color='blue') # Pontos de teste

plt.scatter(X_test, y_pred, color='red') # Pontos previstos

plt.title('Regressão Polinomial com Scikit-Learn')

plt.xlabel('Medição de índice de massa corporal')

plt.ylabel('Progressão da doença')

plt.show()

Pipeline em Machine Learning

Em um projeto de Machine Learning, muitas vezes precisamos executar várias etapas de processamento de dados em uma ordem específica. O conceito de um pipeline em Machine Learning é uma maneira de automatizar esse fluxo de trabalho, facilitando a experimentação e a manutenção do código.

Aqui está um exemplo de como você pode criar um pipeline para um projeto de regressão:

from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.linear_model import LinearRegression

# Carregando os dados de diabetes
diabetes = load_diabetes()

# Separando as variáveis independentes (X) e a variável dependente (y)
X = diabetes.data
y = diabetes.target

# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o pipeline
pipeline = Pipeline([
    ("scaler", StandardScaler()),
    ("poly_features", PolynomialFeatures(degree=2)),
    ("regressor", LinearRegression())
])

# Treinando o pipeline com os dados de treinamento
pipeline.fit(X_train, y_train)

# Fazendo previsões com os dados de teste
predictions = pipeline.predict(X_test)

from sklearn.datasets import load_diabetes

from sklearn.model_selection import train_test_split

from sklearn.pipeline import Pipeline

from sklearn.preprocessing import StandardScaler, PolynomialFeatures

from sklearn.linear_model import LinearRegression

# Carregando os dados de diabetes

diabetes = load_diabetes()

# Separando as variáveis independentes (X) e a variável dependente (y)

X = diabetes.data

y = diabetes.target

# Dividindo os dados em conjuntos de treinamento e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o pipeline

pipeline = Pipeline([

("scaler", StandardScaler()),

("poly_features", PolynomialFeatures(degree=2)),

("regressor", LinearRegression())

])

# Treinando o pipeline com os dados de treinamento

pipeline.fit(X_train, y_train)

# Fazendo previsões com os dados de teste

predictions = pipeline.predict(X_test)

Neste exemplo, o pipeline consiste em três etapas:

StandardScaler: Esta etapa padroniza os dados, subtraindo a média e dividindo pelo desvio padrão de cada característica. Isso é importante para garantir que todas as características tenham a mesma escala e evitar que características com valores maiores dominem o modelo.
PolynomialFeatures: Esta etapa aplica uma transformação polinomial nos dados, criando novas características com combinações polinomiais das características originais. Neste exemplo, estamos usando um grau polinomial de 2, o que significa que serão criadas características quadráticas.
LinearRegression: Esta é a etapa final, onde um modelo de regressão linear é treinado usando os dados transformados.

Depois de criar o pipeline, usamos o método fit() para treinar o pipeline com os dados de treinamento (X_train e y_train). Isso executa todas as etapas do pipeline em sequência, passando os dados de uma etapa para a próxima.

Por fim, usamos o método predict() para fazer previsões com os dados de teste (X_test). O pipeline aplica automaticamente as mesmas transformações nos dados de teste antes de fazer as previsões.

O uso de um pipeline torna o código mais organizado e modular, permitindo que você experimente facilmente diferentes combinações de etapas de pré-processamento e modelos. Além disso, o pipeline garante que as mesmas transformações sejam aplicadas consistentemente aos dados de treinamento e teste, evitando vazamento de informações e garantindo a integridade do processo de avaliação do modelo.

Validação Cruzada com Pipelines e Scikit-Learn Python

A validação cruzada é uma técnica essencial em aprendizado de máquina que nos permite avaliar o desempenho de um modelo de forma mais robusta e confiável. Ela envolve dividir o conjunto de dados em subconjuntos menores, treinar e testar o modelo em cada subconjunto e, em seguida, combinar os resultados para obter uma estimativa mais precisa do desempenho do modelo.

Considere o seguinte exemplo em Python, onde usamos a biblioteca scikit-learn para realizar a validação cruzada em um modelo de regressão polinomial:

from sklearn import datasets
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline
import numpy as np

# Carregando o conjunto de dados de diabetes
diabetes = datasets.load_diabetes()

# Vamos usar apenas uma característica para simplificar
X = diabetes.data[:, np.newaxis, 2]
y = diabetes.target

# Dividindo os dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o pipeline para a regressão polinomial
model = make_pipeline(PolynomialFeatures(degree=2), LinearRegression())

# Treinando o modelo com validação cruzada
scores = cross_val_score(model, X_train, y_train, cv=5)

print("Scores da validação cruzada: ", scores)

from sklearn import datasets

from sklearn.preprocessing import PolynomialFeatures

from sklearn.model_selection import train_test_split, cross_val_score

from sklearn.linear_model import LinearRegression

from sklearn.pipeline import make_pipeline

import numpy as np

# Carregando o conjunto de dados de diabetes

diabetes = datasets.load_diabetes()

# Vamos usar apenas uma característica para simplificar

X = diabetes.data[:, np.newaxis, 2]

y = diabetes.target

# Dividindo os dados em conjunto de treinamento e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o pipeline para a regressão polinomial

model = make_pipeline(PolynomialFeatures(degree=2), LinearRegression())

# Treinando o modelo com validação cruzada

scores = cross_val_score(model, X_train, y_train, cv=5)

print("Scores da validação cruzada: ", scores)

Neste exemplo, estamos usando o conjunto de dados de diabetes disponível no scikit-learn. Primeiro, dividimos os dados em conjuntos de treinamento e teste usando a função train_test_split(). Em seguida, criamos um pipeline que combina a transformação polinomial (PolynomialFeatures) e o modelo de regressão linear (LinearRegression).

A parte mais importante deste exemplo é o uso da função cross_val_score() para realizar a validação cruzada. Passamos o modelo (pipeline), os dados de treinamento (X_train e y_train) e o parâmetro cv=5, que especifica o número de subconjuntos (folds) a serem usados na validação cruzada. Neste caso, estamos usando a validação cruzada k-fold com k=5.

A função cross_val_score() divide internamente os dados de treinamento em 5 subconjuntos, treina o modelo em 4 subconjuntos e o testa no subconjunto restante. Esse processo é repetido 5 vezes, de modo que cada subconjunto seja usado uma vez como conjunto de teste. No final, obtemos uma lista de 5 scores, representando o desempenho do modelo em cada iteração da validação cruzada.

Ao executar o código fonte acima, você obterá o seguinte resultado:

Scores da validação cruzada: [0.34951055 0.20118732 0.37641365 0.48463914 0.18011347]

Os números impressos são os escores R² para cada uma das 5 divisões (folds) da validação cruzada. A métrica R² (também conhecida como coeficiente de determinação) é uma medida de quão bem as previsões do nosso modelo de regressão se ajustam aos dados reais. O R² varia de 0 a 1, onde 1 significa que nosso modelo explica completamente a variância dos dados alvo.

Analisando os escores, parece que o desempenho do modelo varia um pouco dependendo do subconjunto de dados usado para treinamento. A variação nos escores vai de aproximadamente 0.18 a 0.48. Isso é um indicativo de que nosso modelo está sofrendo de algum grau de variância, pois seu desempenho muda dependendo do subconjunto específico de dados usado para treiná-lo. Pode ser útil experimentar ajustar os hiperparâmetros do modelo, utilizar mais recursos dos dados, ou tentar uma técnica diferente de pré-processamento dos dados para melhorar o desempenho do modelo.

É importante notar que, embora esses escores sejam úteis para avaliar a capacidade de nosso modelo de generalizar para novos dados, eles não nos fornecem a imagem completa. Para uma análise mais completa, você poderia considerar a visualização das previsões reais vs esperadas, ou a verificação de outras métricas de desempenho, como erro médio absoluto ou erro médio quadrático.

A validação cruzada é importante porque nos fornece uma estimativa mais confiável do desempenho do modelo em dados não vistos. Ao treinar e testar o modelo em diferentes subconjuntos dos dados, podemos avaliar sua capacidade de generalização e identificar possíveis problemas de overfitting (quando o modelo se ajusta bem demais aos dados de treinamento, mas tem desempenho ruim em novos dados).

Além disso, a validação cruzada nos permite comparar diferentes modelos ou configurações de hiperparâmetros de maneira justa. Podemos executar a validação cruzada para cada modelo ou configuração e selecionar aquele que apresenta o melhor desempenho médio nos diferentes subconjuntos.

Em resumo, a validação cruzada é uma técnica poderosa para avaliar e comparar modelos de aprendizado de máquina. Ela nos fornece uma estimativa mais robusta do desempenho do modelo, ajuda a identificar problemas de overfitting e permite uma comparação justa entre diferentes modelos. Ao utilizar a validação cruzada, podemos ter mais confiança na capacidade do modelo de generalizar para dados não vistos e tomar decisões mais informadas sobre qual modelo usar em um determinado problema.

Espero que este tutorial tenha sido útil para entender os conceitos e práticas de regressão em Machine Learning utilizando Python. Lembre-se, a chave para se tornar proficiente em Machine Learning é a prática. Então, não se esqueça de experimentar o que você aprendeu aqui em seus próprios projetos!

Introdução ao Machine Learning com Python Usando Scikit-Learn

O mundo do machine learning está em constante evolução, e com a linguagem Python na linha de frente, entrar nessa área é uma jornada empolgante e cheia de possibilidades. Para desenvolvedores iniciantes, a biblioteca Scikit-Learn é a porta de entrada perfeita para essa jornada. Neste artigo, vamos explorar o básico do machine learning e como você pode começar a aplicar seus conceitos usando Scikit-Learn, uma das ferramentas mais populares e poderosas disponíveis.

Introdução ao Scikit-Learn

Scikit-Learn é uma biblioteca de código aberto para Python que se destaca na implementação de algoritmos de machine learning. Desde seu lançamento, tornou-se a escolha preferida para muitos desenvolvedores, graças à sua simplicidade e eficiência.

Vantagens de usar Scikit-Learn para iniciantes em machine learning:

Fácil de aprender: Com uma documentação bem escrita e clara, Scikit-Learn é ideal para quem está começando.
Consistente e intuitivo: A biblioteca segue um design consistente em todas as suas ferramentas, facilitando o aprendizado e a aplicação dos conceitos.
Ampla comunidade: Por ser uma das bibliotecas mais populares, existe uma comunidade grande e ativa que pode oferecer suporte.

O que é Scikit-Learn

Scikit-Learn é uma biblioteca que fornece uma variedade de ferramentas simples e eficientes para mineração de dados e análise de dados. É particularmente conhecida por sua implementação de algoritmos de classificação, regressão e clustering.

Visão geral das funcionalidades e tipos de problemas que podem ser resolvidos com Scikit-Learn:

Classificação: Identificar a qual categoria um objeto pertence.
Regressão: Prever uma resposta contínua.
Clustering: Agrupar pontos de dados semelhantes.
Redução de dimensionalidade: Reduzir o número de variáveis aleatórias a serem consideradas.
Model selection: Comparar, validar e escolher parâmetros e modelos.
Pré-processamento: Transformar ou encodar dados.

Aprenda Machine Learning em 5 Dias. Curso 100% Prático.
Melhor Preço por Tempo Limitado. Clique Aqui e Teste Sem Risco.
30 Dias de Satisfação Garantida!

Estrutura Organizacional do Scikit-Learn: Classes, Métodos e Atributos

A biblioteca Scikit-Learn é construída com uma estrutura organizacional bem definida, que não só ajuda na consistência do código, mas também torna o processo de aprendizado mais intuitivo para os iniciantes. Vamos mergulhar mais fundo e explorar como as classes, métodos e atributos desempenham papéis fundamentais na interação com esta ferramenta poderosa.

Classes: O Coração dos Modelos de Machine Learning

As classes são essencialmente moldes para criar objetos que representam tanto os modelos de machine learning quanto as ferramentas de pré-processamento de dados. No Scikit-Learn, cada algoritmo de machine learning é implementado como uma classe. Essas classes são agrupadas logicamente em módulos, com base no tipo de problema de machine learning que elas resolvem.

Por exemplo:

O módulo linear_model contém classes para algoritmos de regressão linear, como LinearRegression e LogisticRegression.
O módulo cluster oferece classes para algoritmos de agrupamento, como KMeans.
O módulo decomposition tem classes para redução de dimensionalidade, como PCA.

Métodos: As Ações dos Objetos

Após instanciar uma classe para criar um objeto, como um estimador de um modelo de regressão, esse objeto tem vários métodos que você pode utilizar para executar ações específicas. Os métodos são funções incorporadas dentro das classes que realizam operações usando os dados ou o estado do objeto criado a partir da classe.

Os métodos mais comuns encontrados nos estimadores são:

.fit(): Utilizado para treinar o modelo com os dados fornecidos.
.predict(): Após o treinamento, é utilizado para fazer previsões com novos dados.
.transform(): Usado em transformadores para alterar ou selecionar características dos dados.
.fit_transform(): Uma combinação que realiza o treinamento e a transformação em um único passo, otimizando o processo.

Atributos: As Características dos Objetos

Os atributos são variáveis que armazenam informações sobre o estado do objeto. Após treinar um modelo, por exemplo, ele vai conter diversos atributos que fornecem informações úteis. Esses atributos podem incluir detalhes sobre os dados treinados, como parâmetros ajustados, importâncias de características ou coeficientes do modelo.

Por exemplo, um objeto LinearRegression terá atributos como:

.coef_: Que armazena os coeficientes da regressão linear para cada característica.
.intercept_: Que contém o termo independente da linha de regressão.

Vale ressaltar que os atributos terminam com um underscore (_) para diferenciá-los de outros nomes de métodos e para indicar que foram criados a partir dos dados fornecidos.

Exemplo de Uso de Classe, Método e Atributo

Vamos a um exemplo de código onde implementamos um modelo de regressão linear simples com o Scikit-Learn:

from sklearn.linear_model import LinearRegression
import numpy as np

# Dados de exemplo
X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])
# y = 1 * x_0 + 2 * x_1 + 3
y = np.dot(X, np.array([1, 2])) + 3

# Instanciando a classe LinearRegression
modelo = LinearRegression()

# Treinando o modelo com os dados, usando o método .fit()
modelo.fit(X, y)

# Verificando os atributos coef_ e intercept_ após o treino
print("Coeficientes: ", modelo.coef_)
print("Intercept: ", modelo.intercept_)

from sklearn.linear_model import LinearRegression

import numpy as np

# Dados de exemplo

X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])

# y = 1 * x_0 + 2 * x_1 + 3

y = np.dot(X, np.array([1, 2])) + 3

# Instanciando a classe LinearRegression

modelo = LinearRegression()

# Treinando o modelo com os dados, usando o método .fit()

modelo.fit(X, y)

# Verificando os atributos coef_ e intercept_ após o treino

print("Coeficientes: ", modelo.coef_)

print("Intercept: ", modelo.intercept_)

O código apresentado é um exemplo prático de como implementar um modelo de regressão linear simples usando a biblioteca scikit-learn em Python. Vamos detalhar cada parte do código para entender seu funcionamento:

1. Importação de bibliotecas:

– from sklearn.linear_model import LinearRegression: Importa a classe LinearRegression da biblioteca scikit-learn, que é uma implementação do modelo de regressão linear.

– import numpy as np: Importa a biblioteca numpy com o alias np. numpy é uma biblioteca fundamental para computação científica em Python, oferecendo suporte para arrays multidimensionais e diversas operações matemáticas.

2. Preparação dos dados:

– X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]]): Cria um array numpy para as variáveis independentes (features), X. Cada sub-array representa um ponto de dado, com duas dimensões (ou features).

– y = np.dot(X, np.array([1, 2])) + 3: Gera o array de variáveis dependentes (target), y, usando uma operação de produto escalar (np.dot) entre X e um array de coeficientes [1, 2], seguido pela adição de um intercepto 3. A equação representada é y = 1*x_0 + 2*x_1 + 3, onde x_0 e x_1 são as variáveis independentes.

3. Instanciando o modelo de Regressão Linear:

– modelo = LinearRegression(): Cria uma instância da classe LinearRegression. Este objeto modelo será usado para treinar o modelo com os dados.

4. Treinamento do modelo:

– modelo.fit(X, y): Treina o modelo de regressão linear usando os dados X (variáveis independentes) e y (variável dependente). O método .fit() ajusta o modelo linear aos dados, encontrando os coeficientes (pesos) das variáveis independentes e o intercepto que minimizam a soma dos quadrados dos resíduos, uma medida de erro entre os valores observados e os valores previstos pelo modelo.

5. Verificação dos resultados do treinamento:

– print("Coeficientes: ", modelo.coef_): Imprime os coeficientes das variáveis independentes (x_0 e x_1 neste caso) encontrados pelo modelo após o treinamento. Estes valores devem estar próximos de [1, 2], que são os coeficientes usados para gerar y.

– print("Intercept: ", modelo.intercept_): Imprime o valor do intercepto adicionado ao modelo, que deve estar próximo de 3, conforme usado na geração de y.

Este código é um exemplo clássico de como realizar regressão linear com múltiplas variáveis independentes. O objetivo é prever o valor da variável dependente y a partir das variáveis independentes X, baseando-se nos coeficientes (coef_) e no intercepto (intercept_) aprendidos pelo modelo durante o treinamento. A saída esperada deve confirmar que o modelo aprendeu corretamente os coeficientes próximos a [1, 2] e o intercepto próximo a 3, refletindo a relação linear definida inicialmente entre X e y.

Com base nos dados usados no código anterior, vamos imaginar um exemplo prático usando os mesmos dados para facilitar a compreensão. Suponha que você esteja trabalhando em uma lanchonete e queira prever o tempo total de preparo de um pedido com base em duas características: o número de itens no pedido e a complexidade média dos itens.

Dados:

X = [1 1]
    [1 2]
    [2 2]
    [2 3]

X = [1 1]

[1 2]

[2 2]

[2 3]

Nesse exemplo:

A primeira coluna representa o número de itens no pedido.
A segunda coluna representa a complexidade média dos itens, onde 1 indica baixa complexidade, 2 indica média complexidade e 3 indica alta complexidade.

Cada linha representa um pedido específico. Por exemplo:

O primeiro pedido tem 1 item com baixa complexidade.
O segundo pedido tem 1 item com média complexidade.
O terceiro pedido tem 2 itens com média complexidade.
O quarto pedido tem 2 itens com alta complexidade.

Agora, vamos considerar a equação:

y = np.dot(X, np.array([1, 2])) + 3

1 2	y = np.dot(X, np.array([1, 2])) + 3

Nessa equação:

np.array([1, 2]) representa os coeficientes das características. O coeficiente 1 está associado ao número de itens e o coeficiente 2 está associado à complexidade média dos itens.
O valor 3 representa o intercepto, que é o tempo base de preparo, independentemente do número de itens ou da complexidade.

Agora, vamos calcular o tempo total de preparo para cada pedido:

Pedido 1: (1 1) + (1 2) + 3 = 6 minutos
- 1 item com baixa complexidade: 1 * 1 = 1
- Complexidade média dos itens: 1 * 2 = 2
- Tempo base de preparo: 3 minutos
Pedido 2: (1 1) + (2 2) + 3 = 8 minutos
- 1 item com média complexidade: 1 * 1 = 1
- Complexidade média dos itens: 2 * 2 = 4
- Tempo base de preparo: 3 minutos
Pedido 3: (2 1) + (2 2) + 3 = 9 minutos
- 2 itens com média complexidade: 2 * 1 = 2
- Complexidade média dos itens: 2 * 2 = 4
- Tempo base de preparo: 3 minutos
Pedido 4: (2 1) + (3 2) + 3 = 11 minutos
- 2 itens com alta complexidade: 2 * 1 = 2
- Complexidade média dos itens: 3 * 2 = 6
- Tempo base de preparo: 3 minutos

Nesse exemplo, o modelo de regressão linear está prevendo o tempo total de preparo com base no número de itens e na complexidade média dos itens. Os coeficientes [1, 2] indicam que cada item adicional aumenta o tempo de preparo em 1 minuto, e cada nível de complexidade adicional aumenta o tempo de preparo em 2 minutos. O intercepto de 3 minutos representa o tempo base de preparo, independentemente do número de itens ou da complexidade.

Para ficar ainda mais claro, vamos tentar visualizar cada passo da multiplicação das matrizes. Vamos fazer isso passo a passo.

Primeiro, vamos relembrar a matriz X e os coeficientes de características:

X = [1 1]
    [1 2]
    [2 2]
    [2 3]

Coeficientes de características: [1, 2]

X = [1 1]

[1 2]

[2 2]

[2 3]

Coeficientes de características: [1, 2]

Agora, vamos realizar a multiplicação das matrizes:

[1 1]   [1]   [1 * 1 + 1 * 2]   [3]
[1 2] * [2] = [1 * 1 + 2 * 2] = [5]
[2 2]         [2 * 1 + 2 * 2]   [6]
[2 3]         [2 * 1 + 3 * 2]   [8]

[1 1] [1] [1 * 1 + 1 * 2] [3]

[1 2] * [2] = [1 * 1 + 2 * 2] = [5]

[2 2] [2 * 1 + 2 * 2] [6]

[2 3] [2 * 1 + 3 * 2] [8]

O resultado da multiplicação das matrizes é um vetor coluna:

[3]
[5]
[6]
[8]

[3]

[5]

[6]

[8]

Agora, vamos adicionar o intercepto de 3 a cada elemento do vetor resultante:

[3]   [3]   [6]
[5] + [3] = [8]
[6]   [3]   [9]
[8]   [3]   [11]

[3] [3] [6]

[5] + [3] = [8]

[6] [3] [9]

[8] [3] [11]

Portanto, o resultado final da multiplicação das matrizes com os coeficientes de características e a adição do intercepto de 3 é:

[6]
[8]
[9]
[11]

[6]

[8]

[9]

[11]

Esse vetor coluna representa os valores previstos de y para cada amostra de dados na matriz X, considerando os coeficientes de características [1, 2] e o intercepto de 3.

Em termos da equação de regressão linear, podemos representar esse cálculo da seguinte forma:

y = X * [1, 2] + [3, 3, 3, 3]

1 2	y = X * [1, 2] + [3, 3, 3, 3]

Onde:

X é a matriz de características
[1, 2] são os coeficientes de características
[3, 3, 3, 3] é um vetor coluna com o intercepto de 3 repetido para cada amostra de dados

Essa representação mostra como a multiplicação das matrizes com os coeficientes de características e a adição do intercepto resultam nos valores previstos de y para cada amostra de dados.

Esse exemplo ilustra como os dados e a equação de regressão linear podem ser aplicados em um contexto prático para prever o tempo total de preparo de pedidos em uma lanchonete. O modelo aprenderia os coeficientes e o intercepto ideais com base nos dados de treinamento e poderia ser usado para fazer previsões em novos pedidos.

Com esta exploração da estrutura organizacional do Scikit-Learn, os desenvolvedores que estão iniciando podem começar a compreender como interagir com as classes, métodos e atributos, que formam o núcleo da criação, manipulação e análise dos modelos de machine learning utilizando esta biblioteca. Este conhecimento é uma base sólida para adentrar ainda mais fundo no universo do machine learning com Python.

Estimators, Transformers e Predictors: Pilares do Scikit-Learn

A biblioteca Scikit-Learn é projetada seguindo uma filosofia orientada a objetos e é construída em torno de três tipos principais de objetos: Estimators, Transformers e Predictors. Essa estrutura é não apenas fundamental para entender como a biblioteca funciona, mas também crucial para aplicá-la efetivamente na prática.

Estimators: O Fundamento do Modelo

Os Estimators são a base para quase todos os algoritmos de machine learning implementados no Scikit-Learn. Eles são responsáveis por estimar parâmetros com base nos dados fornecidos. Para fazer isso, todos os Estimators possuem o método .fit(), que é o coração do processo de modelagem, usado para treinar o modelo com os dados de entrada.

Exemplo de uso de um Estimator:

from sklearn.cluster import KMeans

# Dados de exemplo para o agrupamento
X = [[6, 7], [2, 1], [3, 2], [8, 9]]

# Instanciação de um Estimator KMeans
kmeans = KMeans(n_clusters=2, n_init=10)

# Treinando o modelo com .fit()
kmeans.fit(X)

# Os centróides do cluster podem ser acessados através de um atributo após o treino
print(kmeans.cluster_centers_)

from sklearn.cluster import KMeans

# Dados de exemplo para o agrupamento

X = [[6, 7], [2, 1], [3, 2], [8, 9]]

# Instanciação de um Estimator KMeans

kmeans = KMeans(n_clusters=2, n_init=10)

# Treinando o modelo com .fit()

kmeans.fit(X)

# Os centróides do cluster podem ser acessados através de um atributo após o treino

print(kmeans.cluster_centers_)

Neste exemplo, KMeans é um Estimator que é usado para encontrar os centróides de um conjunto de dados dado que estamos tentando clusterizar em dois grupos.

Os centróides são os pontos centrais de cada cluster (grupo) encontrado pelo algoritmo de clustering KMeans.

No algoritmo KMeans, o objetivo é dividir um conjunto de dados em K clusters, onde K é um número predefinido. Cada cluster é representado por um centróide, que é o ponto central do cluster.

O processo do algoritmo KMeans pode ser resumido da seguinte forma:

Inicialização: O algoritmo começa escolhendo aleatoriamente K pontos do conjunto de dados como centróides iniciais.
Atribuição: Cada ponto de dados é atribuído ao centróide mais próximo com base em uma medida de distância (geralmente, a distância euclidiana).
Atualização: Após a atribuição de todos os pontos de dados aos centróides, os centróides são recalculados como a média (ou centro de massa) dos pontos de dados atribuídos a cada cluster.
Repetição: Os passos 2 e 3 são repetidos iterativamente até que os centróides não mudem mais significativamente ou até que um número máximo de iterações seja atingido.

Ao final do processo, cada centróide representa o centro do cluster correspondente. Os centróides são os pontos que minimizam a soma das distâncias quadradas entre os pontos de dados e seus respectivos centróides.

Baseado no código fonte fornecido anteriormente, o algoritmo KMeans é aplicado aos dados de exemplo X, que consistem em quatro pontos bidimensionais. O parâmetro n_clusters=2 especifica que queremos encontrar dois clusters. O parâmetro n_init especifica o número de vezes que o algoritmo KMeans será executado com diferentes inicializações aleatórias dos centróides.

O algoritmo KMeans é sensível à inicialização dos centróides, o que significa que diferentes inicializações podem levar a resultados diferentes.
Para mitigar essa sensibilidade e encontrar a melhor solução, o algoritmo é executado várias vezes com diferentes inicializações aleatórias dos centróides.
O valor de n_init=10 indica que o algoritmo será executado 10 vezes com diferentes inicializações aleatórias.
Após as 10 execuções, o algoritmo retornará a melhor solução encontrada, ou seja, a solução com a menor soma das distâncias quadradas entre os pontos de dados e seus respectivos centróides.
Um valor maior de n_init aumenta a chance de encontrar a melhor solução, mas também aumenta o tempo de computação.

Portanto, ao criar a instância do KMeans com kmeans = KMeans(n_clusters=2, n_init=10), estamos configurando o algoritmo para:

Encontrar 2 clusters nos dados (n_clusters=2).
Executar o algoritmo 10 vezes com diferentes inicializações aleatórias dos centróides (n_init=10).
Retornar a melhor solução encontrada entre as 10 execuções.

Após o treinamento do modelo com kmeans.fit(X), os centróides encontrados podem ser acessados através do atributo kmeans.cluster_centers_. Esses centróides representam os pontos centrais dos dois clusters encontrados pelo algoritmo KMeans.

Os centróides são úteis para entender a estrutura dos clusters e podem ser usados para atribuir novos pontos de dados ao cluster mais próximo. Além disso, os centróides podem fornecer insights sobre as características comuns dos pontos de dados em cada cluster.

Em resumo, os centróides são os pontos centrais dos clusters encontrados pelo algoritmo KMeans e representam a média ou o centro de massa dos pontos de dados atribuídos a cada cluster.

Vamos considerar um exemplo prático da vida real baseado nos dados fornecidos.

Suponha que você seja um analista de dados trabalhando para uma rede de restaurantes. A rede possui vários restaurantes em diferentes locais e deseja entender melhor o comportamento dos clientes em relação à localização geográfica. Cada restaurante registra a latitude e a longitude de seus clientes frequentes.

Dados:

Restaurante A: [6, 7]
Restaurante B: [2, 1]
Restaurante C: [3, 2]
Restaurante D: [8, 9]

Cada par de coordenadas representa a latitude e a longitude média dos clientes frequentes de cada restaurante.

Objetivo: O objetivo é agrupar os restaurantes com base na localização geográfica de seus clientes frequentes, a fim de identificar padrões e segmentos de clientes.

Aplicação do algoritmo KMeans: Usando o algoritmo KMeans com n_clusters=2, você pode agrupar os restaurantes em dois clusters com base na similaridade da localização geográfica dos clientes.

Resultados: Após aplicar o algoritmo KMeans aos dados, você obtém os seguintes centróides:

[[7.  8. ]
[2.5 1.5]]

1 2	[[7. 8. ] [2.5 1.5]]

Interpretação dos resultados:

O primeiro centróide [7, 8] representa o centro do cluster que inclui os restaurantes A e D. Isso sugere que os clientes frequentes dos restaurantes A e D tendem a estar localizados em uma região geográfica semelhante, com latitude média de 7 e longitude média de 8.
O segundo centróide [2.5, 1.5] representa o centro do cluster que inclui os restaurantes B e C. Isso indica que os clientes frequentes dos restaurantes B e C tendem a estar localizados em uma região geográfica diferente, com latitude média de 2.5 e longitude média de 1.5.

Insights e ações: Com base nos resultados do agrupamento, você pode obter os seguintes insights e tomar ações correspondentes:

Segmentação de clientes: Os dois clusters identificados representam diferentes segmentos de clientes com base na localização geográfica. Você pode adaptar estratégias de marketing, promoções e ofertas específicas para cada segmento de clientes.
Expansão estratégica: Se a rede de restaurantes estiver planejando abrir novos restaurantes, você pode usar os centróides como referência para identificar locais estratégicos que atendam aos segmentos de clientes identificados.
Análise de preferências: Você pode realizar análises adicionais para entender as preferências e comportamentos dos clientes em cada cluster. Isso pode ajudar a personalizar o menu, o ambiente e o serviço de acordo com as preferências de cada segmento de clientes.

Esse é apenas um exemplo ilustrativo de como o algoritmo KMeans pode ser aplicado a dados de localização geográfica de clientes em uma rede de restaurantes. O mesmo princípio pode ser estendido para outros setores e casos de uso, como análise de mercado, segmentação de clientes, otimização de recursos, entre outros.

Transformers: Preparando os Dados

Os Transformers são ferramentas poderosas fornecidas pela biblioteca scikit-learn para realizar transformações nos dados antes de aplicá-los a um modelo de aprendizado de máquina. Eles desempenham um papel crucial na preparação dos dados, garantindo que estejam em um formato adequado e otimizado para o treinamento do modelo.

Os Transformers podem ser usados para diversas tarefas, como:

Pré-processamento: Isso inclui tarefas como padronização, normalização, codificação de variáveis categóricas, preenchimento de valores ausentes, entre outras. O objetivo é garantir que os dados estejam limpos, consistentes e em um formato adequado para o modelo.
Redução de dimensionalidade: Quando lidamos com conjuntos de dados de alta dimensionalidade, ou seja, com muitas features (variáveis), pode ser benéfico reduzir a dimensionalidade para melhorar o desempenho do modelo e evitar a maldição da dimensionalidade. Os Transformers podem aplicar técnicas como PCA (Principal Component Analysis) ou t-SNE (t-Distributed Stochastic Neighbor Embedding) para reduzir a dimensionalidade dos dados.
Seleção de características: Em alguns casos, pode haver features irrelevantes ou redundantes no conjunto de dados. Os Transformers podem ser usados para selecionar as features mais importantes e descartar as menos relevantes, melhorando assim a eficiência e a interpretabilidade do modelo.

Os Transformers possuem dois métodos principais:

.fit(): Esse método é usado para aprender os parâmetros da transformação com base nos dados fornecidos. Ele analisa os dados e calcula as estatísticas necessárias para realizar a transformação. Por exemplo, no caso do StandardScaler, o método .fit() calcula a média e o desvio padrão de cada feature.
.transform(): Após o Transformer ser ajustado aos dados com o método .fit(), o método .transform() é usado para aplicar a transformação aos dados. Ele utiliza os parâmetros aprendidos durante o .fit() para transformar os dados de acordo com a lógica específica do Transformer.

Exemplo de uso de um Transformer:

from sklearn.preprocessing import StandardScaler

# Dados de exemplo para o pré-processamento
X_train = [[0, 15], [1, -10], [2, 0]]

# Instanciação do Transformer StandardScaler
scaler = StandardScaler()

# Aprendendo os parâmetros com .fit() e aplicando a transformação com .transform()
X_scaled = scaler.fit_transform(X_train)

print(X_scaled)

from sklearn.preprocessing import StandardScaler

# Dados de exemplo para o pré-processamento

X_train = [[0, 15], [1, -10], [2, 0]]

# Instanciação do Transformer StandardScaler

scaler = StandardScaler()

# Aprendendo os parâmetros com .fit() e aplicando a transformação com .transform()

X_scaled = scaler.fit_transform(X_train)

print(X_scaled)

No código acima, o StandardScaler é um Transformer que padroniza os recursos, removendo a média e escalando-os para ter uma variância unitária.

Neste exemplo, estamos usando o Transformer StandardScaler para padronizar os dados. O StandardScaler é um Transformer que remove a média e escala os dados para ter uma variância unitária. Isso é útil quando temos features com escalas diferentes e queremos que todas tenham a mesma influência no modelo.

Aqui está o que cada parte do código faz:

Importamos o StandardScaler da biblioteca scikit-learn.
Definimos um conjunto de dados de exemplo chamado X_train, que consiste em três amostras, cada uma com duas features.
Criamos uma instância do StandardScaler chamada scaler.
Utilizamos o método fit_transform() para ajustar o scaler aos dados de treinamento (X_train) e aplicar a transformação de padronização em uma única etapa. Isso é equivalente a chamar scaler.fit(X_train) seguido de scaler.transform(X_train).
O resultado da transformação é atribuído à variável X_scaled, que contém os dados padronizados.
Por fim, imprimimos os dados padronizados.

A saída do código será semelhante a:

[[-1.22474487  1.33630621]
 [ 0.          -0.26726124]
 [ 1.22474487 -1.06904497]]

[[-1.22474487 1.33630621]

[ 0. -0.26726124]

[ 1.22474487 -1.06904497]]

Cada linha representa uma amostra padronizada, onde cada feature foi transformada para ter média zero e variância unitária.

Mas repare que embora tenha sido mencionado que os métodos .fit() e .transform() são os métodos principais, eles não foram mencionados de forma explícita. Isso acontece porque no código fornecido, os métodos fit() e transform() estão sendo aplicados de forma combinada usando o método fit_transform().

Vamos analisar a linha específica onde isso acontece:

X_scaled = scaler.fit_transform(X_train)

1	X_scaled = scaler.fit_transform(X_train)

Nesta linha, o método fit_transform() é chamado no objeto scaler (que é uma instância do StandardScaler) passando os dados de treinamento X_train como argumento.

O método fit_transform() é uma combinação conveniente dos métodos fit() e transform(). Ele realiza as seguintes etapas:

Chama o método fit() internamente para ajustar o scaler aos dados de treinamento (X_train). Durante essa etapa, o scaler calcula a média e o desvio padrão de cada feature nos dados de treinamento.
Após o ajuste, o método transform() é chamado internamente para aplicar a transformação de padronização nos mesmos dados de treinamento (X_train). Ele subtrai a média e divide pelo desvio padrão de cada feature, utilizando os parâmetros aprendidos durante o fit().
O resultado da transformação é retornado e atribuído à variável X_scaled.

Portanto, a linha X_scaled = scaler.fit_transform(X_train) é equivalente a chamar scaler.fit(X_train) seguido de scaler.transform(X_train), mas de forma mais concisa e eficiente.

É importante ressaltar que o método fit_transform() é usado apenas nos dados de treinamento. Para transformar novos dados (como dados de teste ou dados futuros), você deve usar apenas o método transform(), pois o scaler já foi ajustado aos dados de treinamento anteriormente. Por exemplo:

X_test = [[3, 5], [4, 2]]
X_test_scaled = scaler.transform(X_test)

1 2	X_test = [[3, 5], [4, 2]] X_test_scaled = scaler.transform(X_test)

Neste caso, o scaler já foi ajustado aos dados de treinamento usando fit_transform(), então podemos aplicar a transformação nos dados de teste usando apenas o método transform().

Os Transformers são uma parte essencial do fluxo de trabalho de aprendizado de máquina, permitindo que os dados sejam preparados e transformados de maneira eficiente antes de serem alimentados aos modelos. A biblioteca scikit-learn oferece uma ampla variedade de Transformers para diferentes tarefas de pré-processamento e transformação de dados.

Predictors: Fazendo Previsões

Predictors são objetos em machine learning que, após serem treinados sobre um conjunto de dados, são capazes de fazer previsões sobre novos dados. Eles são a concretização de um modelo que aprendeu padrões nos dados de treinamento e agora pode aplicar esse aprendizado para prever resultados em dados não vistos anteriormente.

Método .predict()

O método .predict() é central para a funcionalidade de um Predictor. Após o treinamento do modelo com um conjunto de dados (usando o método .fit()), o .predict() é usado para aplicar o modelo treinado a novos dados, gerando previsões baseadas no aprendizado anterior.

Exemplo de uso de um Predictor:

from sklearn.linear_model import LinearRegression

# Dados de exemplo
X_train = [[0, 0], [1, 1], [2, 2]]
y_train = [0, 1, 2]

# Instanciação de um Predictor LinearRegression
regressor = LinearRegression()

# Treinando o modelo com .fit()
regressor.fit(X_train, y_train)

# Fazendo previsões com .predict()
X_test = [[3, 3]]
y_pred = regressor.predict(X_test)

print(y_pred)

from sklearn.linear_model import LinearRegression

# Dados de exemplo

X_train = [[0, 0], [1, 1], [2, 2]]

y_train = [0, 1, 2]

# Instanciação de um Predictor LinearRegression

regressor = LinearRegression()

# Treinando o modelo com .fit()

regressor.fit(X_train, y_train)

# Fazendo previsões com .predict()

X_test = [[3, 3]]

y_pred = regressor.predict(X_test)

print(y_pred)

Neste caso, o LinearRegression é um Predictor. Ele é treinado com .fit() usando o conjunto de treinamento e, em seguida, faz previsões para novos dados com o método .predict().

O exemplo fornecido ilustra o uso de um Predictor no contexto de regressão linear, utilizando a biblioteca Scikit-Learn, uma das ferramentas mais populares para machine learning em Python.

Preparação dos Dados: Inicialmente, os dados de treinamento (X_train, y_train) são definidos. Eles representam, respectivamente, as variáveis independentes e a variável dependente que o modelo tentará prever.
Instanciação do Modelo: Um objeto LinearRegression é instanciado. Este objeto é o Predictor, capaz de realizar a regressão linear, um método estatístico que visa modelar a relação entre uma variável dependente e uma ou mais variáveis independentes.
Treinamento do Modelo: O método .fit() é chamado com os dados de treinamento, permitindo que o modelo “aprenda” a relação entre X_train e y_train.
Previsão: Com o modelo treinado, novos dados (X_test) são introduzidos ao modelo através do método .predict(), que gera as previsões (y_pred) baseadas no aprendizado obtido durante o treinamento.

O entendimento destes três tipos de objetos — Estimators, Transformers e Predictors — e de seus métodos associados é essencial para utilizar a biblioteca Scikit-Learn de forma eficaz no desenvolvimento de soluções de machine learning. Eles formam a espinha dorsal de como os algoritmos são aplicados e interagem com os dados no ecossistema de machine learning com Python. A habilidade de articular esses componentes juntos na construção de um pipeline de machine learning é o que permite aos praticantes lidar com problemas reais e criar sistemas preditivos eficientes.

Pre-processamento de Dados com Scikit-Learn: Técnicas Essenciais e Exemplos Práticos

O pre-processamento de dados é uma etapa crucial no pipeline de machine learning. O Scikit-Learn oferece ferramentas robustas para preparar seus dados antes de treinar modelos. Vamos criar um exemplo prático usando um conjunto de dados hipotético de um estudo de saúde, que acompanha a frequência de exercícios, dieta, parâmetros biológicos e uma avaliação de risco de doenças cardíacas.

Criação do Conjunto de Dados de Exemplo

Imagine que temos dados coletados de um aplicativo de monitoramento de saúde com as seguintes colunas: Idade (contínua), Gênero (categórica), Colesterol (contínuo, com valores faltantes), Pressão sanguínea (contínua) e Fumante (categórica, com ‘Sim' ou ‘Não'), com uma coluna target indicando Risco de doença cardíaca (baixo, médio, alto).

import numpy as np
import pandas as pd

# Dados de exemplo
data = {
    'Idade': [25, 35, 45, np.nan, 55, 65, 75, np.nan, 85, 95],
    'Gênero': ['F', 'M', 'F', 'F', 'M', 'M', 'F', 'M', 'F', 'M'],
    'Colesterol': [190, np.nan, 240, 225, 210, np.nan, 180, 195, 220, np.nan],
    'Pressão Sanguínea': [70, 80, 78, 75, 72, 130, 60, 85, 90, 77],
    'Fumante': ['Não', 'Sim', 'Não', 'Não', 'Sim', 'Não', 'Sim', 'Não', 'Não', 'Sim'],
    'Risco': ['baixo', 'médio', 'alto', 'baixo', 'alto', 'médio', 'baixo', 'médio', 'baixo', 'alto']
}

df = pd.DataFrame(data)

import numpy as np

import pandas as pd

# Dados de exemplo

data = {

'Idade': [25, 35, 45, np.nan, 55, 65, 75, np.nan, 85, 95],

'Gênero': ['F', 'M', 'F', 'F', 'M', 'M', 'F', 'M', 'F', 'M'],

'Colesterol': [190, np.nan, 240, 225, 210, np.nan, 180, 195, 220, np.nan],

'Pressão Sanguínea': [70, 80, 78, 75, 72, 130, 60, 85, 90, 77],

'Fumante': ['Não', 'Sim', 'Não', 'Não', 'Sim', 'Não', 'Sim', 'Não', 'Não', 'Sim'],

'Risco': ['baixo', 'médio', 'alto', 'baixo', 'alto', 'médio', 'baixo', 'médio', 'baixo', 'alto']

}

df = pd.DataFrame(data)

Tratando Dados Faltantes (Handling Missing Data)

Dados faltantes podem comprometer a análise se não forem tratados adequadamente. No Scikit-Learn, a classe SimpleImputer é utilizada para lidar com esses valores.

from sklearn.impute import SimpleImputer

# Imputação de dados faltantes na coluna 'Idade' e 'Colesterol'
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
df['Idade'] = imputer.fit_transform(df[['Idade']])
df['Colesterol'] = imputer.fit_transform(df[['Colesterol']])

from sklearn.impute import SimpleImputer

# Imputação de dados faltantes na coluna 'Idade' e 'Colesterol'

imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

df['Idade'] = imputer.fit_transform(df[['Idade']])

df['Colesterol'] = imputer.fit_transform(df[['Colesterol']])

Nesse trecho, estamos lidando com o problema de dados faltantes nas colunas ‘Idade' e ‘Colesterol'. Dados faltantes são valores ausentes no conjunto de dados, representados por np.nan (valor nulo do NumPy).

Primeiro, importamos a classe SimpleImputer do módulo sklearn.impute. Essa classe é usada para preencher os valores faltantes de acordo com uma estratégia especificada.

from sklearn.impute import SimpleImputer

1	from sklearn.impute import SimpleImputer

Em seguida, criamos uma instância do SimpleImputer chamada imputer. Passamos dois parâmetros:

missing_values=np.nan: Indica que os valores faltantes são representados por np.nan.
strategy='mean': Especifica a estratégia usada para preencher os valores faltantes. Nesse caso, usamos a média dos valores presentes na coluna.

imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

1	imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

Agora, aplicamos o imputer nas colunas ‘Idade' e ‘Colesterol' do DataFrame df. Usamos o método fit_transform() para ajustar o imputer aos dados e transformá-los de uma só vez.

df['Idade'] = imputer.fit_transform(df[['Idade']])
df['Colesterol'] = imputer.fit_transform(df[['Colesterol']])

1 2	df['Idade'] = imputer.fit_transform(df[['Idade']]) df['Colesterol'] = imputer.fit_transform(df[['Colesterol']])

Vamos ver o que acontece com os dados de exemplo:

data = {
    'Idade': [25, 35, 45, np.nan, 55, 65, 75, np.nan, 85, 95],
    ...
    'Colesterol': [190, np.nan, 240, 225, 210, np.nan, 180, 195, 220, np.nan],
    ...
}

data = {

'Idade': [25, 35, 45, np.nan, 55, 65, 75, np.nan, 85, 95],

...

'Colesterol': [190, np.nan, 240, 225, 210, np.nan, 180, 195, 220, np.nan],

...

}

Na coluna ‘Idade', temos dois valores faltantes (np.nan). Quando aplicamos o imputer com a estratégia ‘mean', esses valores faltantes serão substituídos pela média das idades presentes. Nesse caso, a média das idades é calculada considerando apenas os valores não nulos: (25 + 35 + 45 + 55 + 65 + 75 + 85 + 95) / 8 = 60. Portanto, os valores faltantes na coluna ‘Idade' serão preenchidos com 60.

Na coluna ‘Colesterol', também temos três valores faltantes. Aplicando o mesmo processo, a média dos valores de colesterol presentes é calculada: (190 + 240 + 225 + 210 + 180 + 195 + 220) / 7 ≈ 208.57. Os valores faltantes na coluna ‘Colesterol' serão preenchidos com 208.57.

Após a aplicação do imputer, o DataFrame df terá os valores faltantes preenchidos com as médias calculadas:

   Idade Gênero  Colesterol  Pressão Sanguínea Fumante  Risco
0   25.0      F       190.0                 70     Não  baixo
1   35.0      M       208.57                80     Sim  médio
2   45.0      F       240.0                 78     Não   alto
3   60.0      F       225.0                 75     Não  baixo
4   55.0      M       210.0                 72     Sim   alto
5   65.0      M       208.57               130     Não  médio
6   75.0      F       180.0                 60     Sim  baixo
7   60.0      M       195.0                 85     Não  médio
8   85.0      F       220.0                 90     Não  baixo
9   95.0      M       208.57                77     Sim   alto

Idade Gênero Colesterol Pressão Sanguínea Fumante Risco

0 25.0 F 190.0 70 Não baixo

1 35.0 M 208.57 80 Sim médio

2 45.0 F 240.0 78 Não alto

3 60.0 F 225.0 75 Não baixo

4 55.0 M 210.0 72 Sim alto

5 65.0 M 208.57 130 Não médio

6 75.0 F 180.0 60 Sim baixo

7 60.0 M 195.0 85 Não médio

8 85.0 F 220.0 90 Não baixo

9 95.0 M 208.57 77 Sim alto

Essa técnica de imputação de dados faltantes usando a média é simples e eficaz em muitos casos. No entanto, existem outras estratégias disponíveis no SimpleImputer, como 'median' (mediana) e 'most_frequent' (valor mais frequente), que podem ser mais apropriadas dependendo das características dos seus dados.

Convertendo Dados Categóricos em Números (Encoding Categorical Data)

Dados categóricos devem ser convertidos para um formato numérico. Usamos LabelEncoder para transformar a coluna target e OneHotEncoder para as características categóricas.

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

# Encoding da coluna 'Gênero' e 'Fumante'
column_transformer = ColumnTransformer(
    [('encoder', OneHotEncoder(), ['Gênero', 'Fumante'])],
    remainder='passthrough'
)

# Aplicando o ColumnTransformer aos dados, excluindo a coluna 'Risco'
x = column_transformer.fit_transform(df.drop('Risco', axis=1))

# Encoding da coluna 'Risco' usando LabelEncoder
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(df['Risco'])

from sklearn.preprocessing import LabelEncoder, OneHotEncoder

from sklearn.compose import ColumnTransformer

# Encoding da coluna 'Gênero' e 'Fumante'

column_transformer = ColumnTransformer(

[('encoder', OneHotEncoder(), ['Gênero', 'Fumante'])],

remainder='passthrough'

)

# Aplicando o ColumnTransformer aos dados, excluindo a coluna 'Risco'

x = column_transformer.fit_transform(df.drop('Risco', axis=1))

# Encoding da coluna 'Risco' usando LabelEncoder

label_encoder = LabelEncoder()

y = label_encoder.fit_transform(df['Risco'])

Depois de lidar com os dados faltantes, precisamos tratar as variáveis categóricas presentes no conjunto de dados. Variáveis categóricas são aquelas que representam categorias ou rótulos, como ‘Gênero' (Feminino/Masculino) e ‘Fumante' (Sim/Não). Como a maioria dos algoritmos de aprendizado de máquina trabalha com dados numéricos, precisamos converter essas variáveis categóricas para um formato numérico.

Vamos analisar o código passo a passo:

Importamos as classes necessárias do Scikit-Learn:
- LabelEncoder e OneHotEncoder do módulo sklearn.preprocessing para codificar as variáveis categóricas.
- ColumnTransformer do módulo sklearn.compose para aplicar transformações em colunas específicas do DataFrame.

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

1 2	from sklearn.preprocessing import LabelEncoder, OneHotEncoder from sklearn.compose import ColumnTransformer

Criamos uma instância do ColumnTransformer chamada column_transformer para codificar as colunas ‘Gênero' e ‘Fumante' usando o OneHotEncoder:
- O primeiro argumento é uma lista de tuplas, onde cada tupla especifica uma transformação a ser aplicada em um conjunto de colunas.
- Nesse caso, temos apenas uma tupla: ('encoder', OneHotEncoder(), ['Gênero', 'Fumante']), que aplica o OneHotEncoder nas colunas ‘Gênero' e ‘Fumante'.
- O parâmetro remainder='passthrough' indica que as colunas não especificadas devem ser mantidas inalteradas.

column_transformer = ColumnTransformer(
    [('encoder', OneHotEncoder(), ['Gênero', 'Fumante'])],
    remainder='passthrough'
)

column_transformer = ColumnTransformer(

[('encoder', OneHotEncoder(), ['Gênero', 'Fumante'])],

remainder='passthrough'

)

Aplicamos o column_transformer nos dados, excluindo a coluna ‘Risco', e atribuímos o resultado à variável X:
- Usamos o método fit_transform() para ajustar o column_transformer aos dados e transformá-los de uma só vez.
- O método drop('Risco', axis=1) é usado para excluir a coluna ‘Risco' do DataFrame antes de aplicar a transformação, pois ela é a variável target e não deve ser incluída nas features.

x = column_transformer.fit_transform(df.drop('Risco', axis=1))

1	x = column_transformer.fit_transform(df.drop('Risco', axis=1))

Criamos uma instância do LabelEncoder chamada label_encoder para codificar a coluna ‘Risco':
- O LabelEncoder é usado para converter os rótulos categóricos em valores numéricos inteiros.
- Aplicamos o label_encoder na coluna ‘Risco' usando o método fit_transform() e atribuímos o resultado à variável y.

label_encoder = LabelEncoder()
y = label_encoder.fit_transform(df['Risco'])

1 2	label_encoder = LabelEncoder() y = label_encoder.fit_transform(df['Risco'])

Após a execução desse código, teremos:

X: um array NumPy contendo as features codificadas:
- As colunas ‘Gênero' e ‘Fumante' serão transformadas em colunas binárias usando o OneHotEncoder. Cada categoria será representada por uma coluna binária.
- As colunas numéricas ‘Idade', ‘Colesterol' e ‘Pressão Sanguínea' serão mantidas inalteradas.
y: um array NumPy contendo os rótulos da variável target ‘Risco' codificados numericamente usando o LabelEncoder.

Por exemplo, supondo que após a codificação tenhamos:

‘Gênero_F' e ‘Gênero_M' representando as categorias de gênero.
‘Fumante_Não' e ‘Fumante_Sim' representando as categorias de fumante.
‘baixo' codificado como 0, ‘médio' como 1 e ‘alto' como 2 na variável target ‘Risco'.

O array X terá a seguinte estrutura:

[[1.0, 0.0, 1.0, 0.0, 25.0, 190.0, 70.0],
 [0.0, 1.0, 0.0, 1.0, 35.0, 208.57, 80.0],
 ...
 [1.0, 0.0, 1.0, 0.0, 85.0, 220.0, 90.0],
 [0.0, 1.0, 0.0, 1.0, 95.0, 208.57, 77.0]]

[[1.0, 0.0, 1.0, 0.0, 25.0, 190.0, 70.0],

[0.0, 1.0, 0.0, 1.0, 35.0, 208.57, 80.0],

...

[1.0, 0.0, 1.0, 0.0, 85.0, 220.0, 90.0],

[0.0, 1.0, 0.0, 1.0, 95.0, 208.57, 77.0]]

e o array y será:

[0, 1, 2, 0, 2, 1, 0, 1, 0, 2]

1	[0, 1, 2, 0, 2, 1, 0, 1, 0, 2]

Agora, com as variáveis categóricas codificadas e a variável target transformada, os dados estão prontos para serem usados em algoritmos de aprendizado de máquina que requerem entrada numérica.

Essa etapa de codificação de variáveis categóricas é fundamental para muitos algoritmos, pois permite que eles processem e aprendam com dados não numéricos de maneira eficaz.

Escalonamento de Características (Feature Scaling)

O escalonamento de características é importante para muitos algoritmos de machine learning. No nosso exemplo, podemos usar StandardScaler para padronizar as features.

from sklearn.preprocessing import StandardScaler

# Instanciando o objeto StandardScaler
scaler = StandardScaler()

# Aplicando o escalonamento no nosso array de características 'X'
x_scaled = scaler.fit_transform(x)

from sklearn.preprocessing import StandardScaler

# Instanciando o objeto StandardScaler

scaler = StandardScaler()

# Aplicando o escalonamento no nosso array de características 'X'

x_scaled = scaler.fit_transform(x)

Vamos detalhar a etapa de escalonamento de características (feature scaling) usando o StandardScaler do Scikit-Learn.

O escalonamento de características é uma técnica de pré-processamento que visa transformar as variáveis numéricas para que tenham uma escala similar. Isso é importante porque muitos algoritmos de aprendizado de máquina são sensíveis à escala das features. Se uma feature tiver uma escala muito maior do que as outras, ela pode dominar o algoritmo e prejudicar o desempenho do modelo.

O StandardScaler é uma classe do Scikit-Learn que padroniza as features, subtraindo a média e dividindo pelo desvio padrão de cada feature. Isso resulta em features com média zero e desvio padrão igual a um.

Vamos analisar o código passo a passo:

Importamos a classe StandardScaler do módulo sklearn.preprocessing:

from sklearn.preprocessing import StandardScaler

1	from sklearn.preprocessing import StandardScaler

Criamos uma instância do StandardScaler chamada scaler:

scaler = StandardScaler()

1	scaler = StandardScaler()

Aplicamos o escalonamento no array de características X usando o método fit_transform() do scaler:
- O método fit_transform() ajusta o scaler aos dados, calculando a média e o desvio padrão de cada feature, e então aplica a transformação nos dados.
- O resultado é atribuído à variável X_scaled.

X_scaled = scaler.fit_transform(X)

1	X_scaled = scaler.fit_transform(X)

Após a execução desse código, x_scaled será um array NumPy contendo as features escalonadas.

Para entender melhor o que o StandardScaler faz, vamos considerar um exemplo simples com apenas duas features numéricas: ‘Idade' e ‘Pressão Sanguínea'.

Suponha que temos os seguintes valores para essas features:

Idade: [25, 35, 45, 55, 65]
Pressão Sanguínea: [120, 130, 140, 150, 160]

Idade: [25, 35, 45, 55, 65]

Pressão Sanguínea: [120, 130, 140, 150, 160]

Ao aplicar o StandardScaler, ele calcula a média e o desvio padrão de cada feature:

‘Idade': média = 45, desvio padrão = 15.81
‘Pressão Sanguínea': média = 140, desvio padrão = 15.81

Em seguida, o StandardScaler subtrai a média de cada valor e divide pelo desvio padrão:

‘Idade' escalonada: [-1.26, -0.63, 0.0, 0.63, 1.26]
‘Pressão Sanguínea' escalonada: [-1.26, -0.63, 0.0, 0.63, 1.26]

Observe que, após o escalonamento, ambas as features têm média zero e desvio padrão igual a um. Isso coloca as features em uma escala similar, o que pode melhorar o desempenho de muitos algoritmos de aprendizado de máquina.

É importante ressaltar que o escalonamento deve ser aplicado apenas nas features numéricas. No código que aplicamos como exemplo, as colunas “Gênero” e “Fumante”, que são categóricas, são transformadas em variáveis numéricas por meio do processo de One-Hot Encoding antes de qualquer escalonamento ser aplicado.

No entanto, é importante notar que, embora essas colunas binárias passem pelo escalonamento, o impacto dessa transformação é limitado devido à natureza binária dos dados. O escalonamento pode ajustar essas colunas para que tenham média 0 e desvio padrão 1, mas, dado que os valores originais são 0 e 1, essa etapa não altera a interpretação dessas variáveis da mesma forma que altera para variáveis contínuas.

Além do StandardScaler, o Scikit-Learn oferece outras técnicas de escalonamento, como o MinMaxScaler (que escala as features para um intervalo específico, geralmente entre 0 e 1) e o RobustScaler (que é menos sensível a outliers nos dados).

O escalonamento de características é uma etapa importante no pré-processamento de dados para muitos algoritmos de aprendizado de máquina, pois ajuda a garantir que todas as features tenham uma influência equilibrada no modelo e pode melhorar significativamente o desempenho e a convergência do algoritmo.

Com o nosso conjunto de dados agora devidamente pré-processado, estamos prontos para avançar para as próximas etapas do pipeline de machine learning, como seleção de modelo e validação cruzada.

Este exemplo destacou a importância do pre-processamento de dados para criar modelos de machine learning robustos e confiáveis com o Scikit-Learn. Ao lidar com dados faltantes, aplicar codificação a dados categóricos e aplicar escalonamento de features, garantimos que nossos modelos possam performar da melhor maneira possível quando aplicados a dados do mundo real.

Introdução aos Pipelines: Simplificando o Processo de Machine Learning

Ao trabalharmos com projetos de machine learning, enfrentamos frequentemente a complexidade de pré-processar nossos dados antes de aplicar algum algoritmo de aprendizado. Um Pipeline no Scikit-Learn é uma ferramenta que nos auxilia a encadear vários passos de transformação e modelagem de maneira a simplificar esse processo.

O Exemplo Prático de um DataFrame

Vamos começar com um DataFrame que simula um conjunto de dados médicos, como segue:

import numpy as np
import pandas as pd

data = {
    'Idade': [25, 35, 45, np.nan, 55, 65, 75, np.nan, 85, 95],
    'Gênero': ['F', 'M', 'F', 'F', 'M', 'M', 'F', 'M', 'F', 'M'],
    'Colesterol': [190, np.nan, 240, 225, 210, np.nan, 180, 195, 220, np.nan],
    'Pressão Sanguínea': [70, 80, 78, 75, 72, 130, 60, 85, 90, 77],
    'Fumante': ['Não', 'Sim', 'Não', 'Não', 'Sim', 'Não', 'Sim', 'Não', 'Não', 'Sim'],
    'Risco': ['baixo', 'médio', 'alto', 'baixo', 'alto', 'médio', 'baixo', 'médio', 'baixo', 'alto']
}

df = pd.DataFrame(data)

import numpy as np

import pandas as pd

data = {

'Idade': [25, 35, 45, np.nan, 55, 65, 75, np.nan, 85, 95],

'Gênero': ['F', 'M', 'F', 'F', 'M', 'M', 'F', 'M', 'F', 'M'],

'Colesterol': [190, np.nan, 240, 225, 210, np.nan, 180, 195, 220, np.nan],

'Pressão Sanguínea': [70, 80, 78, 75, 72, 130, 60, 85, 90, 77],

'Fumante': ['Não', 'Sim', 'Não', 'Não', 'Sim', 'Não', 'Sim', 'Não', 'Não', 'Sim'],

'Risco': ['baixo', 'médio', 'alto', 'baixo', 'alto', 'médio', 'baixo', 'médio', 'baixo', 'alto']

}

df = pd.DataFrame(data)

Neste DataFrame, temos features com tipos de dados variados e também alguns valores ausentes. A necessidade de tratar esses valores ausentes, converter features categóricas e escalar as numéricas é um processo comum e que pode ser bastante trabalhoso.

Simplificação com Pipeline

O uso de um pipeline nos permite automatizar o pré-processamento dos dados. Ele agrupa tarefas que precisam ser executadas em sequência, reduzindo o esforço manual e os erros que podem ocorrer ao realizar essas tarefas separadamente. Vejamos como isso é feito na prática:

from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LogisticRegression

# Definição do pré-processador para o ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', Pipeline(steps=[
            ('imputer', SimpleImputer(strategy='mean')),  # Preenchendo valores ausentes
            ('scaler', StandardScaler())]),               # Escalonando as características numéricas
        ['Idade', 'Colesterol', 'Pressão Sanguínea']),
        ('cat', OneHotEncoder(), ['Gênero', 'Fumante'])  # Convertendo as características categóricas
    ]
)

# Criação do pipeline completo com o ColumnTransformer e o modelo
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression())  # Modelo final que será treinado
])

# Separando as features e o target
X = df.drop('Risco', axis=1)
y = df['Risco']

# Treinando o pipeline completo
pipeline.fit(X, y)

from sklearn.pipeline import Pipeline

from sklearn.impute import SimpleImputer

from sklearn.preprocessing import StandardScaler, OneHotEncoder

from sklearn.compose import ColumnTransformer

from sklearn.linear_model import LogisticRegression

# Definição do pré-processador para o ColumnTransformer

preprocessor = ColumnTransformer(

transformers=[

('num', Pipeline(steps=[

('imputer', SimpleImputer(strategy='mean')), # Preenchendo valores ausentes

('scaler', StandardScaler())]), # Escalonando as características numéricas

['Idade', 'Colesterol', 'Pressão Sanguínea']),

('cat', OneHotEncoder(), ['Gênero', 'Fumante']) # Convertendo as características categóricas

]

)

# Criação do pipeline completo com o ColumnTransformer e o modelo

pipeline = Pipeline(steps=[

('preprocessor', preprocessor),

('classifier', LogisticRegression()) # Modelo final que será treinado

])

# Separando as features e o target

X = df.drop('Risco', axis=1)

y = df['Risco']

# Treinando o pipeline completo

pipeline.fit(X, y)

Vamos analisar o código passo a passo:

Importações necessárias:
- Pipeline do módulo sklearn.pipeline para criar o pipeline.
- SimpleImputer do módulo sklearn.impute para preencher valores ausentes.
- StandardScaler e OneHotEncoder do módulo sklearn.preprocessing para escalonar as características numéricas e converter as características categóricas, respectivamente.
- ColumnTransformer do módulo sklearn.compose para aplicar diferentes transformações em diferentes subconjuntos de colunas.
- LogisticRegression do módulo sklearn.linear_model como o modelo final a ser treinado.
Definição do pré-processador usando o ColumnTransformer:
- O ColumnTransformer permite aplicar diferentes transformações em diferentes subconjuntos de colunas.
- Neste caso, temos dois transformadores:
  - 'num': Um pipeline que lida com as colunas numéricas (‘Idade', ‘Colesterol', ‘Pressão Sanguínea'). Ele consiste em duas etapas:
    - SimpleImputer com strategy='mean' para preencher os valores ausentes com a média da coluna.
    - StandardScaler para escalonar as características numéricas, subtraindo a média e dividindo pelo desvio padrão.
  - 'cat': Um OneHotEncoder para converter as colunas categóricas (‘Gênero', ‘Fumante') em variáveis binárias (one-hot encoding).
Criação do pipeline completo:
- O pipeline completo é criado usando a classe Pipeline do Scikit-Learn.
- Ele consiste em duas etapas:
  - 'preprocessor': O ColumnTransformer definido anteriormente, que aplica as transformações de pré-processamento nos dados.
  - 'classifier': O modelo final a ser treinado, neste caso, uma regressão logística (LogisticRegression).
Separação das features e do target:
- As features (variáveis independentes) são atribuídas à variável X usando df.drop('Risco', axis=1), que remove a coluna ‘Risco' do DataFrame df.
- O target (variável dependente) é atribuído à variável y usando df['Risco'].
Treinamento do pipeline completo:
- O método fit(X, y) é chamado no pipeline completo para treinar o modelo.
- Internamente, o pipeline aplica as seguintes etapas:
  - O pré-processador (preprocessor) é ajustado aos dados X usando o ColumnTransformer. Isso significa que:
    - Os valores ausentes nas colunas numéricas são preenchidos com a média da coluna usando o SimpleImputer.
    - As colunas numéricas são escalonadas usando o StandardScaler.
    - As colunas categóricas são convertidas em variáveis binárias usando o OneHotEncoder.
  - O modelo final (classifier) é treinado nos dados pré-processados usando a regressão logística.

Após o treinamento, o pipeline está pronto para ser usado para fazer previsões em novos dados. Você pode chamar o método predict(X_new) no pipeline para obter as previsões para um novo conjunto de dados X_new.

Para fazer previsões usando o pipeline que você definiu, você pode simplesmente chamar o método predict() no pipeline treinado, passando os novos dados como argumento. Aqui está um exemplo de como você pode fazer isso:

# Suponha que você tenha novos dados em um DataFrame chamado 'new_data'
new_data = pd.DataFrame({
    'Idade': [30, 40, 50],
    'Gênero': ['M', 'F', 'M'],
    'Colesterol': [200, 180, 220],
    'Pressão Sanguínea': [120, 110, 130],
    'Fumante': ['Não', 'Sim', 'Não']
})

# Fazendo previsões usando o pipeline treinado
predictions = pipeline.predict(new_data)

# Imprimindo as previsões
print(predictions)

# Suponha que você tenha novos dados em um DataFrame chamado 'new_data'

new_data = pd.DataFrame({

'Idade': [30, 40, 50],

'Gênero': ['M', 'F', 'M'],

'Colesterol': [200, 180, 220],

'Pressão Sanguínea': [120, 110, 130],

'Fumante': ['Não', 'Sim', 'Não']

})

# Fazendo previsões usando o pipeline treinado

predictions = pipeline.predict(new_data)

# Imprimindo as previsões

print(predictions)

Neste exemplo:

Supomos que você tenha novos dados em um DataFrame chamado new_data. Esses dados devem ter as mesmas colunas que foram usadas para treinar o pipeline, exceto pela coluna ‘Risco', que é a variável target.
Chamamos o método predict() no pipeline treinado (pipeline), passando o DataFrame new_data como argumento. O pipeline aplicará automaticamente as mesmas etapas de pré-processamento que foram definidas durante o treinamento (preenchimento de valores ausentes, escalonamento de características numéricas e codificação one-hot de características categóricas) antes de fazer as previsões usando o modelo treinado.
As previsões são retornadas como um array NumPy e atribuídas à variável predictions.
Imprimimos as previsões usando print(predictions).

O resultado será um array contendo as previsões do modelo para cada amostra nos novos dados. As previsões serão baseadas no modelo treinado (regressão logística, no exemplo fornecido) e nas etapas de pré-processamento definidas no pipeline.

Por exemplo, a saída pode ser algo como:

['baixo' 'médio' 'alto']

1	['baixo' 'médio' 'alto']

Isso indica que o modelo previu as classes de risco ‘baixo', ‘médio' e ‘alto' para as três amostras nos novos dados, respectivamente.

Lembre-se de que as previsões serão baseadas no modelo treinado e nas etapas de pré-processamento definidas no pipeline. Certifique-se de que os novos dados tenham a mesma estrutura e as mesmas colunas que foram usadas durante o treinamento do pipeline.

A principal vantagem de usar um pipeline é que ele encapsula todas as etapas de pré-processamento e o modelo em um único objeto, tornando o código mais legível, modular e fácil de manter. Além disso, ao usar o pipeline, você garante que as mesmas etapas de pré-processamento sejam aplicadas consistentemente tanto no treinamento quanto na previsão.

Vantagens do Pipeline

A grande vantagem de utilizar o Pipeline é que ele encapsula todas as etapas de tratamento dos dados e modelagem, evitando que tenhamos que manualmente aplicar transformações a cada vez que manipulamos ou dividimos os dados em conjuntos de treino e teste. Além disso, o pipeline evita o vazamento de dados do conjunto de teste para o conjunto de treino, pois garante que o pré-processamento seja aplicado separadamente em cada fase. Essa abordagem não só simplifica o código, mas também fortalece a integridade do processo de modelagem.

Portanto, o Pipeline é um recurso poderoso que traz eficiência e segurança ao processo de construção de modelos de machine learning, ao mesmo tempo que mantém um código mais limpo, mais legível e com manutenção mais fácil.

ColumnTransformer

Embora os pipelines sejam extremamente úteis para sequenciar etapas de processamento e modelagem, o ColumnTransformer tem seu próprio poder: permite aplicar transformações distintas a colunas específicas dentro de um DataFrame. Entender as diferenças e complementariedades entre um pipeline e o ColumnTransformer é fundamental para criar um processo de pré-processamento eficaz.

Entendendo o ColumnTransformer

O ColumnTransformer é uma ferramenta do Scikit-Learn projetada para combinar várias transformações de pré-processamento para colunas distintas de um DataFrame. Enquanto um pipeline é ideal para definir uma sequência de passos que serão aplicados à totalidade dos dados, o ColumnTransformer permite que diferentes colunas ou grupos de colunas recebam tratamentos individuais.

Demonstração com um DataFrame Existente

Tomemos como exemplo o DataFrame a seguir, que poderia representar um estudo clínico:

import numpy as np
import pandas as pd

# DataFrame de exemplo
data = {
    'Idade': [25, 35, 45, np.nan, 55, 65, 75, np.nan, 85, 95],
    'Gênero': ['F', 'M', 'F', 'F', 'M', 'M', 'F', 'M', 'F', 'M'],
    'Colesterol': [190, np.nan, 240, 225, 210, np.nan, 180, 195, 220, np.nan],
    'Pressão Sanguínea': [70, 80, 78, 75, 72, 130, 60, 85, 90, 77],
    'Fumante': ['Não', 'Sim', 'Não', 'Não', 'Sim', 'Não', 'Sim', 'Não', 'Não', 'Sim'],
    'Risco': ['baixo', 'médio', 'alto', 'baixo', 'alto', 'médio', 'baixo', 'médio', 'baixo', 'alto']
}
df = pd.DataFrame(data)

import numpy as np

import pandas as pd

# DataFrame de exemplo

data = {

'Idade': [25, 35, 45, np.nan, 55, 65, 75, np.nan, 85, 95],

'Gênero': ['F', 'M', 'F', 'F', 'M', 'M', 'F', 'M', 'F', 'M'],

'Colesterol': [190, np.nan, 240, 225, 210, np.nan, 180, 195, 220, np.nan],

'Pressão Sanguínea': [70, 80, 78, 75, 72, 130, 60, 85, 90, 77],

'Fumante': ['Não', 'Sim', 'Não', 'Não', 'Sim', 'Não', 'Sim', 'Não', 'Não', 'Sim'],

'Risco': ['baixo', 'médio', 'alto', 'baixo', 'alto', 'médio', 'baixo', 'médio', 'baixo', 'alto']

}

df = pd.DataFrame(data)

Diferenças Chave entre Pipeline e ColumnTransformer

A principal diferença entre o ColumnTransformer e os pipelines tradicionais é que, com o ColumnTransformer, podemos realizar ações como:

Preencher valores faltantes apenas em algumas colunas.
Escalar apenas as colunas numéricas.
Codificar apenas as colunas categóricas.

Essas ações podem ser realizadas simultaneamente, mas de forma independente para cada grupo de colunas, o que seria mais complexo se estivéssemos utilizando um pipeline simples.

Aplicação do ColumnTransformer

Aplicar o ColumnTransformer no nosso DataFrame poderia ser feito da seguinte maneira:

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer

# Instanciando o ColumnTransformer
column_transformer = ColumnTransformer(
    transformers=[
        ('num', Pipeline(steps=[
            ('imputer', SimpleImputer(strategy='mean')),  # Tratamento de dados numéricos faltantes
            ('scaler', StandardScaler())                 # Escalonamento dos dados numéricos
        ]), ['Idade', 'Colesterol', 'Pressão Sanguínea']),
        ('cat', OneHotEncoder(), ['Gênero', 'Fumante'])  # Codificação de variáveis categóricas
    ],
    remainder='drop'  # Colunas não listadas serão descartadas
)

# Pré-processamento das colunas com transformações específicas
X_transformed = column_transformer.fit_transform(df)

from sklearn.compose import ColumnTransformer

from sklearn.preprocessing import StandardScaler, OneHotEncoder

from sklearn.impute import SimpleImputer

# Instanciando o ColumnTransformer

column_transformer = ColumnTransformer(

transformers=[

('num', Pipeline(steps=[

('imputer', SimpleImputer(strategy='mean')), # Tratamento de dados numéricos faltantes

('scaler', StandardScaler()) # Escalonamento dos dados numéricos

]), ['Idade', 'Colesterol', 'Pressão Sanguínea']),

('cat', OneHotEncoder(), ['Gênero', 'Fumante']) # Codificação de variáveis categóricas

remainder='drop' # Colunas não listadas serão descartadas

)

# Pré-processamento das colunas com transformações específicas

X_transformed = column_transformer.fit_transform(df)

Conclusão

O Pipeline e o ColumnTransformer são duas ferramentas poderosas do scikit-learn que trabalham de forma complementar para simplificar e automatizar o processo de pré-processamento de dados e construção de modelos de aprendizado de máquina.

O Pipeline permite encadear várias etapas de transformação e estimação em uma única objeto, tornando o fluxo de trabalho mais organizado e fácil de gerenciar. Ele é especialmente útil quando você tem uma sequência fixa de etapas que precisam ser aplicadas consistentemente aos dados, como pré-processamento, seleção de recursos e treinamento do modelo. O Pipeline garante que as etapas sejam executadas na ordem correta e permite que você trate o fluxo de trabalho como um único objeto, facilitando a aplicação de técnicas de validação cruzada e ajuste de hiperparâmetros.

Por outro lado, o ColumnTransformer é uma ferramenta flexível que permite aplicar diferentes transformações em diferentes subconjuntos de colunas de um conjunto de dados. Ele é particularmente útil quando você tem dados heterogêneos, com colunas de diferentes tipos (por exemplo, numéricas, categóricas, de texto) que requerem tratamentos distintos. O ColumnTransformer permite especificar transformações específicas para cada subconjunto de colunas, como imputação de valores ausentes, escalonamento, codificação one-hot, entre outros. Isso elimina a necessidade de pré-processar manualmente cada tipo de coluna e torna o código mais legível e mantível.

A combinação do Pipeline e do ColumnTransformer oferece uma abordagem poderosa e flexível para o pré-processamento de dados e a construção de modelos. O ColumnTransformer pode ser usado dentro de um Pipeline como uma etapa de pré-processamento, permitindo que você aplique transformações específicas em diferentes subconjuntos de colunas antes de passar os dados para as etapas subsequentes do Pipeline, como a seleção de recursos e o treinamento do modelo.

Essa abordagem combinada traz várias vantagens:

1. Código mais limpo e organizado: O Pipeline e o ColumnTransformer ajudam a estruturar o código de forma mais clara e modular, separando as etapas de pré-processamento e treinamento do modelo.

2. Consistência no pré-processamento: O ColumnTransformer garante que as mesmas transformações sejam aplicadas consistentemente em diferentes subconjuntos de colunas, evitando erros e inconsistências manuais.

3. Facilidade de experimentação: O Pipeline permite experimentar facilmente diferentes combinações de etapas de pré-processamento e modelos, simplificando a comparação e a seleção das melhores abordagens.

4. Prevenção de vazamento de dados: Ao usar o Pipeline, você evita o vazamento de informações do conjunto de teste para o conjunto de treinamento, garantindo que as transformações sejam ajustadas apenas nos dados de treinamento e aplicadas aos dados de teste.

5. Simplicidade na implantação: O Pipeline e o ColumnTransformer podem ser serializados e implantados como um único objeto, facilitando a colocação do modelo em produção.

Em resumo, o Pipeline e o ColumnTransformer são ferramentas complementares que trabalham em conjunto para simplificar e aprimorar o processo de pré-processamento de dados e construção de modelos de aprendizado de máquina. Eles promovem um código mais organizado, consistente e fácil de manter, além de facilitar a experimentação e a implantação dos modelos. A combinação dessas ferramentas é uma prática recomendada para projetos de aprendizado de máquina, permitindo um fluxo de trabalho mais eficiente e produtivo.

Avaliação de Modelos com Scikit-Learn: Métricas para Classificação e Regressão

Avaliar um modelo de machine learning é uma etapa crucial para entender o seu desempenho em tarefas de previsão. O Scikit-Learn, uma das bibliotecas mais populares para aprendizado de máquina em Python, oferece uma gama de métricas específicas para avaliar modelos de classificação e de regressão. Vamos explorar essas métricas e entender como elas podem nos ajudar a quantificar a eficácia dos modelos.

Métricas de Classificação

Accuracy (Acurácia)

A acurácia é uma métrica que mede a proporção de previsões corretas realizadas por um modelo de classificação. No Scikit-Learn, podemos usar a função accuracy_score() para calcular facilmente essa taxa, passando como argumentos as listas dos valores verdadeiros e das previsões feitas pelo modelo.

Exemplificando a Utilização da `accuracy_score()` no Cálculo da Acurácia

Preparando os Dados de Exemplo

Imagine que estamos trabalhando com um modelo simples de classificação que tenta prever se um email é ‘spam' ou ‘não spam'. Após o treino e as predições, temos as seguintes listas: uma com os rótulos verdadeiros (y_true) e outra com os rótulos previstos pelo modelo (y_pred).

# Lista dos rótulos verdadeiros
y_true = ['spam', 'não spam', 'spam', 'não spam', 'spam', 'não spam', 'não spam', 'spam', 'spam', 'não spam']

# Lista das predições do modelo
y_pred = ['spam', 'não spam', 'spam', 'spam', 'não spam', 'não spam', 'não spam', 'spam', 'spam', 'spam']

# Lista dos rótulos verdadeiros

y_true = ['spam', 'não spam', 'spam', 'não spam', 'spam', 'não spam', 'não spam', 'spam', 'spam', 'não spam']

# Lista das predições do modelo

y_pred = ['spam', 'não spam', 'spam', 'spam', 'não spam', 'não spam', 'não spam', 'spam', 'spam', 'spam']

Aqui, temos um conjunto de 10 e-mails, onde o modelo fez as suas previsões, acertando algumas e errando outras.

Cálculo da Acurácia

Agora, vamos calcular a acurácia do modelo usando a função accuracy_score() do Scikit-Learn:

from sklearn.metrics import accuracy_score

# Calculando a acurácia
accuracy = accuracy_score(y_true, y_pred)

# Imprimindo a acurácia
print(f"A acurácia do modelo de classificação é: {accuracy:.2f}")

from sklearn.metrics import accuracy_score

# Calculando a acurácia

accuracy = accuracy_score(y_true, y_pred)

# Imprimindo a acurácia

print(f"A acurácia do modelo de classificação é: {accuracy:.2f}")

Suponha que, após executar o código acima, obtemos uma saída indicando uma acurácia de 0.70, ou 70%. Isso significa que o modelo acertou 70% das suas previsões.

Interpretação da Acurácia

O valor de 0.70 de acurácia indica que, em termos gerais, o modelo é razoavelmente bom em diferenciar e-mails ‘spam' de ‘não spam'. No entanto, é sempre importante considerar o contexto e a aplicação prática. Se, por exemplo, o custo de classificar um ‘não spam' como ‘spam' (perder um e-mail importante) for muito alto, outras métricas como a precisão e o recall devem ser avaliadas conjuntamente.

Conclusão

A função accuracy_score() é uma maneira eficiente de obter uma visão rápida da performance de um modelo de classificação. Essa métrica é útil em conjuntos de dados bem balanceados, mas deve ser usada em conjunto com outras métricas em casos de desbalanceamento de classes para que se tenha uma avaliação de desempenho mais completa e confiável.

Precisão e Recall

Entender e aplicar corretamente as métricas de precisão e recall é fundamental para avaliar modelos de classificação, especialmente em contextos onde o equilíbrio entre o reconhecimento correto de classes e a minimização de erros específicos é crucial.

Precisão (Precision)

A precisão mede a exatidão do modelo quando ele faz uma previsão positiva. Em outras palavras, é a proporção de previsões positivas que foram efetivamente corretas. Essa métrica é particularmente importante em situações onde o custo de um falso positivo é alto. Por exemplo, enviar uma promoção para um cliente não interessado pode ser um desperdício de recursos.

Recall (Sensibilidade)

O recall, por sua vez, avalia a capacidade do modelo de encontrar todas as instâncias relevantes dentro de uma classe. É a proporção de positivos reais que foram identificados corretamente. Ele é essencial quando o custo de um falso negativo é elevado, como no diagnóstico de uma doença grave onde falhar em identificar um caso positivo pode ter consequências sérias.

Cálculo de Precisão e Recall

Para calcular essas métricas, utilizamos as funções precision_score() e recall_score() do Scikit-Learn. Continuando com nosso exemplo anterior de classificação de e-mails em ‘spam' ou ‘não spam', podemos usar as mesmas listas de valores verdadeiros e predições do modelo.

from sklearn.metrics import precision_score, recall_score

# Calculando a precisão e o recall
precision = precision_score(y_true, y_pred, pos_label='spam')
recall = recall_score(y_true, y_pred, pos_label='spam')

# Imprimindo os resultados
print(f"Precisão do modelo: {precision:.2f}")
print(f"Recall do modelo: {recall:.2f}")

from sklearn.metrics import precision_score, recall_score

# Calculando a precisão e o recall

precision = precision_score(y_true, y_pred, pos_label='spam')

recall = recall_score(y_true, y_pred, pos_label='spam')

# Imprimindo os resultados

print(f"Precisão do modelo: {precision:.2f}")

print(f"Recall do modelo: {recall:.2f}")

Interpretação das Métricas

Se a precisão for alta (por exemplo, 0.90 ou 90%), isso indica que, quando o modelo prevê um e-mail como ‘spam', é muito provável que realmente seja. No entanto, uma precisão alta não necessariamente significa que o modelo é eficaz em identificar todos os e-mails ‘spam' que recebe.

Por outro lado, um recall alto (também por exemplo, 0.90 ou 90%) sugere que o modelo é habilidoso em capturar a grande maioria dos e-mails ‘spam'. No entanto, um recall alto pode vir acompanhado de um número maior de falsos positivos (e-mails ‘não spam' incorretamente classificados como ‘spam').

Balanceamento entre Precisão e Recall

Em muitos casos, existe uma troca entre precisão e recall. Melhorar um geralmente reduz o desempenho do outro. Uma forma de buscar um equilíbrio é através da métrica F1-Score, que é a média harmônica entre precisão e recall.

Aplicando a F1-Score para Avaliação Equilibrada de Modelos de Classificação

A F1-Score é uma métrica que combina precisão e recall em um único número, oferecendo uma visão equilibrada do desempenho de um classificador. É particularmente útil em situações onde é preciso balancear a importância de minimizar falsos positivos e falsos negativos. A F1-Score é a média harmônica da precisão e do recall e tende a ser mais baixa do que as métricas de precisão e recall individuais se uma delas for muito menor que a outra.

Cálculo da F1-Score

Para calcular a F1-Score, usamos a função f1_score() do Scikit-Learn. Considerando nosso exemplo contínuo sobre a classificação de e-mails, vamos aplicar a F1-Score ao conjunto de previsões feitas pelo nosso modelo.

from sklearn.metrics import f1_score

# Supondo que 'y_true' contém os rótulos verdadeiros e 'y_pred' as previsões do modelo
y_true = ['spam', 'não spam', 'spam', 'não spam', 'spam', 'não spam', 'não spam', 'spam', 'spam', 'não spam']
y_pred = ['spam', 'não spam', 'spam', 'spam', 'não spam', 'não spam', 'não spam', 'spam', 'spam', 'spam']

# Calculando a F1-Score
f1 = f1_score(y_true, y_pred, pos_label='spam')

# Imprimindo o resultado
print(f"A F1-Score do modelo é: {f1:.2f}")

from sklearn.metrics import f1_score

# Supondo que 'y_true' contém os rótulos verdadeiros e 'y_pred' as previsões do modelo

y_true = ['spam', 'não spam', 'spam', 'não spam', 'spam', 'não spam', 'não spam', 'spam', 'spam', 'não spam']

y_pred = ['spam', 'não spam', 'spam', 'spam', 'não spam', 'não spam', 'não spam', 'spam', 'spam', 'spam']

# Calculando a F1-Score

f1 = f1_score(y_true, y_pred, pos_label='spam')

# Imprimindo o resultado

print(f"A F1-Score do modelo é: {f1:.2f}")

Ao executar o código acima, obteremos um valor numérico que indica a F1-Score do modelo. Por exemplo, uma F1-Score de 0.80 indica um bom equilíbrio entre precisão e recall, considerando que o valor pode variar de 0 (pior) a 1 (melhor).

Quando Utilizar a F1-Score

A F1-Score é particularmente valiosa quando precisamos de um equilíbrio entre precisão e recall. Em outras palavras, quando não queremos privilegiar a minimização de um tipo de erro em detrimento do outro. Ela é ideal para cenários em que tanto falsos positivos quanto falsos negativos têm consequências significativas.

A F1-Score é uma métrica robusta para avaliar modelos de classificação, principalmente em conjuntos de dados com classes desbalanceadas ou quando é fundamental manter um equilíbrio entre precisão e recall. Ela fornece uma única métrica que resume a capacidade do modelo de classificar com precis

No entanto, a escolha de focar em precisão, recall ou um equilíbrio entre ambos deve sempre ser guiada pelas necessidades específicas do problema de negócios que o modelo visa resolver.

Conclusão

Precisão e recall são métricas que oferecem um olhar detalhado sobre a performance de um modelo de classificação, cada uma enfatizando um aspecto diferente do desempenho. Ao usá-las em conjunto, é possível ter uma compreensão mais completa sobre onde o modelo está acertando e onde precisa ser aprimorado, permitindo ajustes mais precisos e uma tomada de decisão mais informada na escolha ou no desenvolvimento de modelos de machine learning.

Métricas de Regressão

No universo do aprendizado de máquina, compreender a performance de modelos de regressão é essencial, pois eles são amplamente utilizados para prever valores contínuos. Vamos nos aprofundar em duas métricas centrais: o Erro Quadrático Médio (MSE) e o Coeficiente de Determinação (R²), explorando como eles são calculados e o que realmente representam para a análise do desempenho de modelos de regressão.

Erro Quadrático Médio (MSE)

O Erro Quadrático Médio (MSE) é uma das métricas mais comuns para avaliar modelos de regressão. O MSE é calculado tomando a média das diferenças ao quadrado entre os valores previstos pelo modelo e os valores reais. Esse procedimento penaliza mais os erros grandes, devido ao quadrado, tornando essa métrica bastante sensível a outliers no conjunto de dados.

from sklearn.metrics import mean_squared_error

# Supondo que temos os valores reais 'y_true' e as previsões 'y_pred' do modelo de regressão
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]

# Calculando o MSE
mse = mean_squared_error(y_true, y_pred)

# Apresentando o MSE
print(f"O Erro Quadrático Médio (MSE) do modelo é: {mse:.2f}")

from sklearn.metrics import mean_squared_error

# Supondo que temos os valores reais 'y_true' e as previsões 'y_pred' do modelo de regressão

y_true = [3, -0.5, 2, 7]

y_pred = [2.5, 0.0, 2, 8]

# Calculando o MSE

mse = mean_squared_error(y_true, y_pred)

# Apresentando o MSE

print(f"O Erro Quadrático Médio (MSE) do modelo é: {mse:.2f}")

Um MSE baixo indica que o modelo tem um bom desempenho na previsão dos valores, com uma menor variação dos erros. Um alto MSE, por outro lado, sugere que o modelo pode estar inadequado ou que há variabilidade significativa nos dados que não está sendo capturada pelo modelo.

O RMSE (Root Mean Squared Error) é uma métrica comumente usada para avaliar o desempenho de modelos de regressão no contexto de machine learning. O Scikit-Learn, uma popular biblioteca de machine learning em Python, fornece uma função chamada mean_squared_error que nos permite calcular facilmente o RMSE.

Exemplo prático usando Scikit-Learn: Suponha que você tenha um modelo de regressão para prever o preço de casas com base em características como área, número de quartos, localização, etc. Você treinou o modelo usando um conjunto de dados de treinamento e agora deseja avaliar seu desempenho em um conjunto de dados de teste.

from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

# Gerar dados sintéticos para regressão
X, y = make_regression(n_samples=100, n_features=1, noise=10, random_state=42)

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criar e treinar o modelo de regressão linear
model = LinearRegression()
model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Calcular o RMSE
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print("RMSE:", rmse)

from sklearn.datasets import make_regression

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error

import numpy as np

# Gerar dados sintéticos para regressão

X, y = make_regression(n_samples=100, n_features=1, noise=10, random_state=42)

# Dividir os dados em conjuntos de treinamento e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criar e treinar o modelo de regressão linear

model = LinearRegression()

model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste

y_pred = model.predict(X_test)

# Calcular o RMSE

rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print("RMSE:", rmse)

Neste exemplo:

Usamos a função make_regression do Scikit-Learn para gerar dados sintéticos para um problema de regressão. Especificamos o número de amostras (n_samples), o número de características (n_features), o nível de ruído (noise) e uma semente aleatória (random_state) para reprodutibilidade.
Dividimos os dados gerados em conjuntos de treinamento e teste usando a função train_test_split. Especificamos que 20% dos dados devem ser usados para teste (test_size=0.2).
Criamos uma instância do modelo de regressão linear usando a classe LinearRegression do Scikit-Learn e treinamos o modelo usando o método fit, passando os dados de treinamento (X_train e y_train).
Fazemos previsões no conjunto de teste usando o método predict do modelo treinado, passando X_test.
Calculamos o RMSE usando a função mean_squared_error do Scikit-Learn, passando os valores reais (y_test) e as previsões (y_pred). Em seguida, aplicamos a raiz quadrada usando np.sqrt para obter o RMSE final.
Por fim, imprimimos o valor do RMSE.

O Scikit-Learn simplifica o processo de cálculo do RMSE, fornecendo a função mean_squared_error que realiza internamente os cálculos necessários. Além disso, a biblioteca oferece uma ampla gama de modelos de regressão e recursos para pré-processamento de dados, treinamento de modelos e avaliação de desempenho.

Ao usar o Scikit-Learn, podemos facilmente experimentar diferentes modelos de regressão, ajustar hiperparâmetros e comparar seus desempenhos usando métricas como o RMSE para selecionar o modelo mais adequado para o problema em questão.

Interpretação do RMSE

O valor de RMSE deve sempre ser interpretado no contexto dos dados. Por estar na mesma unidade dos valores observados, o RMSE oferece uma compreensão direta do erro típico que o modelo comete em suas previsões. Quanto menor o RMSE, melhor o modelo é em prever sem grandes erros, e um RMSE de zero indicaria previsões perfeitas.

Comparando Modelos: Em muitas situações, o RMSE é utilizado para comparar diferentes modelos ou configurações de um modelo sobre um mesmo conjunto de dados. O modelo com o menor RMSE é considerado o que tem melhor ajuste.

Sensibilidade a Outliers: Assim como o MSE, o RMSE é bastante sensível a outliers. Erros maiores são mais penalizados, elevando o valor do RMSE. Isso pode ser bom ou ruim, dependendo de se os outliers representam ou não informações valiosas.

Cautela na Interpretação: Mesmo um modelo com um RMSE baixo pode não ser ideal. Se o RMSE é significativamente menor do que a variância dos dados, por exemplo, o modelo pode estar superajustando (overfitting) e não generalizar bem para novos dados.

Coeficiente de Determinação (R² Score)

O Coeficiente de Determinação, também conhecido como R² (R-squared) ou R² Score, é outra métrica comumente usada para avaliar o desempenho de modelos de regressão no contexto de machine learning. O Scikit-Learn fornece a função r2_score para calcular facilmente o R² Score.

O R² Score mede a proporção da variância na variável dependente que é explicada pelas variáveis independentes no modelo de regressão. Ele fornece uma indicação de quão bem o modelo se ajusta aos dados. O valor do R² varia entre 0 e 1, onde:

Um R² de 0 indica que o modelo não explica nenhuma variação nos dados.
Um R² de 1 indica que o modelo explica toda a variação nos dados.

Imagine que você está tentando prever as notas de matemática dos alunos com base no número de horas que eles estudam por semana. Você cria um modelo matemático que tenta explicar essa relação entre as horas de estudo e as notas.

O R² Score é uma medida que nos diz o quão bem o seu modelo explica as variações nas notas de matemática. Ele é como uma nota que você dá para o seu modelo, indicando o quanto ele é bom em fazer previsões.

O R² Score varia de 0 a 1:

Se o R² Score for 0, significa que o seu modelo não explica nada sobre as variações nas notas. É como se você estivesse tentando adivinhar as notas sem nenhuma informação útil.
Se o R² Score for 1, significa que o seu modelo explica perfeitamente todas as variações nas notas. É como se você tivesse encontrado uma fórmula mágica que prevê as notas com 100% de precisão.

Na prática, o R² Score geralmente fica entre 0 e 1. Quanto mais próximo de 1, melhor o seu modelo é em explicar as variações nas notas.

Por exemplo, se o R² Score for 0.75, significa que o seu modelo explica 75% das variações nas notas de matemática. Isso indica que o número de horas de estudo é um bom indicador das notas, mas ainda há outros fatores que influenciam as notas e que não estão incluídos no modelo.

É importante lembrar que um R² Score alto não significa necessariamente que o modelo é perfeito. Ele apenas indica que o modelo explica bem as variações nos dados que você usou para criá-lo. Para ter certeza de que o modelo é bom, você também precisa testá-lo com novos dados e ver se ele ainda faz previsões precisas.

Em resumo, o R² Score é como uma nota que você dá para o seu modelo matemático, indicando o quão bem ele explica as variações nos dados. Quanto mais próximo de 1, melhor o modelo é em fazer previsões. Mas lembre-se de que um R² Score alto não é garantia de um modelo perfeito e que outros fatores também devem ser considerados.

Exemplo prático usando Scikit-Learn: Vamos continuar com o exemplo anterior de previsão de preços de casas usando um modelo de regressão linear. Após treinar o modelo e fazer previsões no conjunto de teste, podemos calcular o R² Score para avaliar o desempenho do modelo.

from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# Gerar dados sintéticos para regressão
X, y = make_regression(n_samples=100, n_features=1, noise=10, random_state=42)

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criar e treinar o modelo de regressão linear
model = LinearRegression()
model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Calcular o R² Score
r2 = r2_score(y_test, y_pred)
print("R² Score:", r2)

from sklearn.datasets import make_regression

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.metrics import r2_score

# Gerar dados sintéticos para regressão

X, y = make_regression(n_samples=100, n_features=1, noise=10, random_state=42)

# Dividir os dados em conjuntos de treinamento e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criar e treinar o modelo de regressão linear

model = LinearRegression()

model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste

y_pred = model.predict(X_test)

# Calcular o R² Score

r2 = r2_score(y_test, y_pred)

print("R² Score:", r2)

Um R² próximo a 1 sugere que o modelo se ajusta bem aos dados, enquanto um valor próximo a 0 indica que o modelo não explica a variância da variável dependente melhor do que um modelo muito simples ou constante.

Neste exemplo:

Usamos a função make_regression do Scikit-Learn para gerar dados sintéticos para um problema de regressão, da mesma forma que no exemplo anterior.
Dividimos os dados em conjuntos de treinamento e teste usando a função train_test_split.
Criamos uma instância do modelo de regressão linear usando a classe LinearRegression do Scikit-Learn e treinamos o modelo usando o método fit, passando os dados de treinamento.
Fazemos previsões no conjunto de teste usando o método predict do modelo treinado.
Calculamos o R² Score usando a função r2_score do Scikit-Learn, passando os valores reais (y_test) e as previsões (y_pred).
Por fim, imprimimos o valor do R² Score.

O R² Score fornece uma medida intuitiva da qualidade do ajuste do modelo aos dados. Quanto mais próximo de 1, melhor o modelo explica a variação nos dados. No entanto, é importante ter em mente que um R² alto não necessariamente indica que o modelo é bom em fazer previsões precisas, especialmente se o modelo estiver sobreajustado (overfitting) aos dados de treinamento.

Além disso, o R² Score tem algumas limitações:

Ele não indica se os coeficientes do modelo são estatisticamente significativos.
Ele não considera a complexidade do modelo, ou seja, um modelo com mais variáveis independentes tende a ter um R² maior, mesmo que essas variáveis não contribuam significativamente para a previsão.

Portanto, é recomendado usar o R² Score em conjunto com outras métricas de avaliação, como o RMSE, e também considerar a interpretabilidade e a complexidade do modelo ao tomar decisões.

O Scikit-Learn simplifica o cálculo do R² Score com a função r2_score, tornando fácil avaliar e comparar diferentes modelos de regressão.

Interpretação e Uso Prático

Ambos, MSE e R², são fundamentais na avaliação de modelos de regressão, mas devem ser interpretados em contexto. Um MSE alto pode ser aceitável em uma variável com alta variabilidade inerente, enquanto um R² alto pode ser enganoso se o modelo estiver superajustado aos dados de treino (overfitting).

Por isso, é importante usar essas métricas em conjunto com uma análise cuidadosa dos resíduos (diferença entre valores previstos e reais), testes de validação cruzada e uma compreensão profunda do domínio do problema para avaliar adequadamente a qualidade das previsões de um modelo de regressão.

Conclusão

MSE e R² são métricas chave para avaliar a qualidade de modelos de regressão. Enquanto o MSE oferece uma visão direta dos erros de previsão do modelo, o R² fornece um olhar sobre quão bem esses valores previstos se ajustam aos valores reais numa escala relativa. Compreender e utilizar essas métricas permite não apenas avaliar o desempenho dos modelos de forma quantitativa, mas também ajuda na melhoria e na escolha da melhor abordagem de modelagem para tarefas preditivas específicas.

Métricas Adicionais

Além dessas métricas padrão, existem outras, como F1-Score, que combina precisão e recall em uma única métrica que busca um equilíbrio entre as duas. Para regressão, temos também o Erro Absoluto Médio (Mean Absolute Error – MAE), que é a média do valor absoluto dos erros.

Importância de Métricas Apropriadas

A escolha da métrica de avaliação adequada é fundamental para garantir que estamos capturando o aspecto do desempenho que mais valorizamos. Por exemplo, em um modelo que prevê doenças graves, um alto recall pode ser mais desejável do que uma alta precisão. Da mesma forma, um modelo de avaliação de riscos financeiros pode exigir uma análise mais detalhada do R² para entender completamente a variabilidade dos retornos.

Modelos de Seleção com Scikit-Learn

A seleção e validação adequadas de modelos são etapas cruciais no desenvolvimento de modelos de aprendizado de máquina eficazes e confiáveis. Neste artigo, exploraremos duas técnicas amplamente utilizadas para avaliar o desempenho de modelos: o Train Test Split e a Kfold Cross-Validation.

Utilizaremos a biblioteca Scikit-Learn em Python para demonstrar a aplicação dessas técnicas em um exemplo prático usando o conjunto de dados California Housing.

Train Test Split

O Train Test Split é uma abordagem simples e direta para dividir um conjunto de dados em duas partes: uma parte para treinar o modelo e outra parte para testar seu desempenho. Essa divisão nos permite avaliar como o modelo generaliza para dados não vistos durante o treinamento.

Vamos ver um exemplo de como aplicar o Train Test Split usando o Scikit-Learn:

from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_california_housing
from sklearn.ensemble import RandomForestRegressor

# Carregando o California Housing dataset
california = fetch_california_housing()
X, y = california.data, california.target

# Dividindo o dataset em 80% treino e 20% teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de regressão com Random Forest
model = RandomForestRegressor()

# Treinando o modelo com os dados de treino
model.fit(X_train, y_train)

# Avaliando o desempenho do modelo com os dados de teste
score = model.score(X_test, y_test)
print(f"Desempenho do Modelo (R² Score): {score:.2f}")

from sklearn.model_selection import train_test_split

from sklearn.datasets import fetch_california_housing

from sklearn.ensemble import RandomForestRegressor

# Carregando o California Housing dataset

california = fetch_california_housing()

X, y = california.data, california.target

# Dividindo o dataset em 80% treino e 20% teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de regressão com Random Forest

model = RandomForestRegressor()

# Treinando o modelo com os dados de treino

model.fit(X_train, y_train)

# Avaliando o desempenho do modelo com os dados de teste

score = model.score(X_test, y_test)

print(f"Desempenho do Modelo (R² Score): {score:.2f}")

Neste exemplo, carregamos o conjunto de dados California Housing usando a função fetch_california_housing(). Em seguida, dividimos o conjunto de dados em 80% para treinamento e 20% para teste usando a função train_test_split(). Criamos um modelo de regressão Random Forest e o treinamos com os dados de treinamento. Por fim, avaliamos o desempenho do modelo nos dados de teste usando o R² Score.

Vamos detalhar o processo para ficar claro a cada passo.

from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_california_housing
from sklearn.ensemble import RandomForestRegressor

from sklearn.model_selection import train_test_split

from sklearn.datasets import fetch_california_housing

from sklearn.ensemble import RandomForestRegressor

Nesta parte, estamos importando as bibliotecas necessárias do Scikit-Learn:

train_test_split: função para dividir o conjunto de dados em conjuntos de treinamento e teste.
fetch_california_housing: função para carregar o conjunto de dados California Housing.
RandomForestRegressor: classe para criar um modelo de regressão Random Forest.

# Carregando o California Housing dataset
california = fetch_california_housing()
X, y = california.data, california.target

# Carregando o California Housing dataset

california = fetch_california_housing()

X, y = california.data, california.target

Aqui, estamos carregando o conjunto de dados California Housing usando a função fetch_california_housing(). Esse conjunto de dados contém informações sobre habitações na Califórnia, como população, renda média, preço médio das casas, entre outros.

california.data contém os recursos (features) do conjunto de dados, que são as variáveis de entrada.
california.target contém os valores alvo (target), que é a variável que queremos prever (preço médio das casas).

# Dividindo o dataset em 80% treino e 20% teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

1 2	# Dividindo o dataset em 80% treino e 20% teste X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Nesta etapa, estamos usando a função train_test_split() para dividir o conjunto de dados em conjuntos de treinamento e teste.

X e y são os recursos e valores alvo do conjunto de dados, respectivamente.
test_size=0.2 especifica que 20% dos dados serão usados para teste e os 80% restantes para treinamento.
random_state=42 é uma semente aleatória para garantir a reprodutibilidade dos resultados.
A função retorna quatro conjuntos de dados: X_train (recursos de treinamento), X_test (recursos de teste), y_train (valores alvo de treinamento) e y_test (valores alvo de teste).

# Criando o modelo de regressão com Random Forest
model = RandomForestRegressor()

1 2	# Criando o modelo de regressão com Random Forest model = RandomForestRegressor()

Aqui, estamos criando uma instância do modelo de regressão Random Forest usando a classe RandomForestRegressor(). O Random Forest é um algoritmo de aprendizado de máquina que combina várias árvores de decisão para fazer previsões.

# Treinando o modelo com os dados de treino
model.fit(X_train, y_train)

1 2	# Treinando o modelo com os dados de treino model.fit(X_train, y_train)

Nesta linha, estamos treinando o modelo Random Forest usando os dados de treinamento. O método fit() ajusta o modelo aos dados de treinamento, encontrando os melhores parâmetros para fazer previsões.

# Avaliando o desempenho do modelo com os dados de teste
score = model.score(X_test, y_test)
print(f"Desempenho do Modelo (R² Score): {score:.2f}")

# Avaliando o desempenho do modelo com os dados de teste

score = model.score(X_test, y_test)

print(f"Desempenho do Modelo (R² Score): {score:.2f}")

Por fim, estamos avaliando o desempenho do modelo treinado usando os dados de teste. O método score() calcula o coeficiente de determinação (R² Score) entre as previsões do modelo e os valores reais dos dados de teste.

O R² Score varia de 0 a 1, onde 1 indica um ajuste perfeito e 0 indica que o modelo não explica nenhuma variação nos dados.
Imprimimos o R² Score formatado com duas casas decimais usando a sintaxe de f-string do Python.

Esse código demonstra o fluxo básico de carregamento de dados, divisão em conjuntos de treinamento e teste, criação e treinamento de um modelo de regressão Random Forest e avaliação do desempenho usando o R² Score nos dados de teste.

Kfold Cross-Validation

Embora o Train Test Split seja uma técnica útil, ele pode não fornecer uma estimativa robusta do desempenho do modelo, especialmente quando lidamos com conjuntos de dados pequenos ou quando queremos uma avaliação mais abrangente. É aí que entra a Kfold Cross-Validation.

Na Kfold Cross-Validation, dividimos o conjunto de dados em “k” partes (geralmente 5 ou 10) e realizamos “k” iterações de treinamento e teste. Em cada iteração, uma parte diferente é usada como conjunto de teste, enquanto as partes restantes são usadas para treinamento.

Ao final, temos “k” resultados de desempenho do modelo, que podem ser combinados para obter uma estimativa mais confiável.

Vamos ver um exemplo de como aplicar a Kfold Cross-Validation usando o Scikit-Learn:

from sklearn.model_selection import cross_val_score

# O modelo RandomForestRegressor já foi instanciado no exemplo anterior

# Executando a validação cruzada Kfold com 10 folds
scores = cross_val_score(model, X, y, cv=10)

# Mostrando o R² Score para cada fold
print("R² Score de cada fold:", scores)

# E a média dos R² Scores
print("Média dos R² Scores:", scores.mean())

from sklearn.model_selection import cross_val_score

# O modelo RandomForestRegressor já foi instanciado no exemplo anterior

# Executando a validação cruzada Kfold com 10 folds

scores = cross_val_score(model, X, y, cv=10)

# Mostrando o R² Score para cada fold

print("R² Score de cada fold:", scores)

# E a média dos R² Scores

print("Média dos R² Scores:", scores.mean())

Vamos explicar o código em detalhes:

from sklearn.model_selection import cross_val_score

1	from sklearn.model_selection import cross_val_score

Nesta linha, estamos importando a função cross_val_score do módulo model_selection do Scikit-Learn. Essa função é usada para realizar a validação cruzada Kfold.

# O modelo RandomForestRegressor já foi instanciado no exemplo anterior

1	# O modelo RandomForestRegressor já foi instanciado no exemplo anterior

Este comentário indica que o modelo Random Forest já foi criado anteriormente, provavelmente usando o código model = RandomForestRegressor(), como vimos no exemplo anterior.

# Executando a validação cruzada Kfold com 10 folds
scores = cross_val_score(model, X, y, cv=10)

1 2	# Executando a validação cruzada Kfold com 10 folds scores = cross_val_score(model, X, y, cv=10)

Aqui, estamos usando a função cross_val_score() para realizar a validação cruzada Kfold com 10 folds.

model é o modelo Random Forest que já foi instanciado anteriormente.
X são os recursos (features) do conjunto de dados completo.
y são os valores alvo (target) do conjunto de dados completo.
cv=10 especifica o número de folds (dobras) a serem usados na validação cruzada. Neste caso, estamos usando 10 folds.

A validação cruzada Kfold divide o conjunto de dados em 10 partes (folds) e realiza 10 iterações de treinamento e teste. Em cada iteração, uma parte diferente é usada como conjunto de teste, enquanto as outras 9 partes são usadas para treinamento. O modelo é treinado e avaliado em cada iteração, e no final, temos 10 pontuações de desempenho (R² Scores) do modelo.

# Mostrando o R² Score para cada fold
print("R² Score de cada fold:", scores)

1 2	# Mostrando o R² Score para cada fold print("R² Score de cada fold:", scores)

Nesta linha, estamos imprimindo os R² Scores obtidos para cada fold da validação cruzada. A variável scores é um array que contém os R² Scores de cada iteração.

# E a média dos R² Scores
print("Média dos R² Scores:", scores.mean())

1 2	# E a média dos R² Scores print("Média dos R² Scores:", scores.mean())

Por fim, estamos calculando e imprimindo a média dos R² Scores obtidos na validação cruzada. A função mean() é usada para calcular a média dos valores no array scores.

A validação cruzada Kfold é uma técnica mais robusta para avaliar o desempenho de um modelo, pois fornece uma estimativa mais confiável de como o modelo se generaliza para dados não vistos. Ao realizar várias iterações de treinamento e teste com diferentes subconjuntos dos dados, obtemos uma avaliação mais abrangente do desempenho do modelo.

Neste exemplo, estamos usando a validação cruzada Kfold com 10 folds para avaliar o desempenho do modelo Random Forest. Os R² Scores obtidos em cada fold nos dão uma ideia da consistência do desempenho do modelo, enquanto a média dos R² Scores fornece uma estimativa geral do desempenho esperado do modelo em dados não vistos.

Interpretação e Seleção do Método

Exploramos duas técnicas importantes para a seleção e validação de modelos: o Train Test Split e a Kfold Cross-Validation. O Train Test Split é uma abordagem simples para avaliar o desempenho do modelo em um subconjunto específico de dados, enquanto a Kfold Cross-Validation fornece uma avaliação mais robusta, considerando diferentes subconjuntos dos dados.

A escolha entre essas técnicas depende de fatores como o tamanho do conjunto de dados, a diversidade dos dados e os recursos computacionais disponíveis. É importante considerar esses aspectos ao selecionar a técnica mais adequada para o seu problema.

O Scikit-Learn oferece uma implementação fácil e eficiente dessas técnicas, permitindo que os desenvolvedores avaliem e comparem diferentes modelos de maneira rápida e confiável.

Ao utilizar essas técnicas de seleção e validação de modelos, podemos garantir que nossos modelos de aprendizado de máquina sejam robustos, generalizáveis e capazes de fornecer resultados precisos e confiáveis em dados não vistos anteriormente.

Conclusão

Este artigo cobriu as bases do machine learning usando Scikit-Learn em Python. Recomendamos a documentação oficial e tutoriais online para continuar sua jornada de aprendizado.

Incluímos diversos exemplos de código Python para ilustrar os conceitos e técnicas discutidos. Agora é a sua vez de explorar o mundo do machine learning e praticar com o Scikit-Learn. Boa sorte!

Domine a Visualização de Dados com Matplotlib em Python

Introdução ao Matplotlib

O Matplotlib é uma biblioteca de visualização de dados incrivelmente poderosa para a linguagem de programação Python. Amplamente reconhecida por sua versatilidade e eficiência, esta ferramenta é uma escolha popular entre cientistas de dados e entusiastas de machine learning. O Matplotlib permite criar uma vasta gama de gráficos estáticos, animados e interativos com apenas algumas linhas de código. Para quem está começando em machine learning, dominar o Matplotlib é fundamental para explorar conjuntos de dados e apresentar insights de forma clara e impactante.

Configuração Inicial no Google Colab

Para desfrutar dos recursos do Matplotlib no Google Colab, siga estes passos simples:

Acesse o Google Colab e crie um novo notebook.
No topo da célula do notebook, digite e execute o comando de importação:

import matplotlib import matplotlib.pyplot as plt

1
2
3

import matplotlib
import matplotlib.pyplot as plt
Verifique a instalação com:

print(matplotlib.__version__)

1
2

print(matplotlib.__version__)

Com o ambiente pronto, você pode começar a criar seus primeiros gráficos!

Aprenda Machine Learning em 5 Dias. Curso 100% Prático.
Melhor Preço por Tempo Limitado. Clique Aqui e Teste Sem Risco.
30 Dias de Satisfação Garantida!

Primeiros Passos com Matplotlib

Plotagem de um Gráfico de Dispersão (Scatter Plot)

O gráfico de dispersão é útil para visualizar a relação entre duas variáveis.

import matplotlib 
import matplotlib.pyplot as plt
x = [1, 2, 3, 4, 5]
y = [2, 3, 4, 5, 6]
plt.scatter(x, y)
plt.title("Gráfico de Dispersão Simples")
plt.xlabel("Eixo X")
plt.ylabel("Eixo Y")
plt.show()

import matplotlib

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]

y = [2, 3, 4, 5, 6]

plt.scatter(x, y)

plt.title("Gráfico de Dispersão Simples")

plt.xlabel("Eixo X")

plt.ylabel("Eixo Y")

plt.show()

O gráfico de dispersão, ou scatter plot, é uma ferramenta fundamental na visualização de dados e é essencialmente utilizado para explorar a relação ou correlação entre duas variáveis numéricas. Aqui está um passo a passo do que acontece no bloco de código que gera um gráfico de dispersão utilizando a biblioteca Matplotlib em Python:

Importação da Biblioteca:

import matplotlib.pyplot as plt

1
2

import matplotlib.pyplot as plt

O primeiro passo é importar o módulo matplotlib.pyplot, geralmente abreviado para plt. Este módulo é uma coleção de funções que tornam o Matplotlib semelhante ao MATLAB, oferecendo uma interface simples para geração de gráficos.
Definindo os Dados:

x = [1, 2, 3, 4, 5] y = [2, 3, 4, 5, 6]

1
2
3

x = [1, 2, 3, 4, 5]
y = [2, 3, 4, 5, 6]

Criamos duas listas: x e y, cada uma contendo uma sequência de números. No contexto do gráfico de dispersão, cada par de elementos correspondentes (x[i], y[i]) representa uma coordenada que será plotada no gráfico. A lista x geralmente representa a variável independente, enquanto a lista y representa a variável dependente.
Utilização da Função scatter():

plt.scatter(x, y)

1
2

plt.scatter(x, y)

Chamamos a função scatter() do módulo matplotlib.pyplot, que recebe os dados do eixo x e do eixo y e gera os pontos no gráfico de dispersão. Por padrão, cada ponto é representado por um marcador circular.
Adicionando Títulos e Rótulos:

plt.title("Gráfico de Dispersão Simples") plt.xlabel("Eixo X") plt.ylabel("Eixo Y")

1
2
3
4

plt.title("Gráfico de Dispersão Simples")
plt.xlabel("Eixo X")
plt.ylabel("Eixo Y")

A função title() é utilizada para adicionar um título ao gráfico. De forma similar, as funções xlabel() e ylabel() são usadas para adicionar rótulos aos eixos x e y, respectivamente. Essas legendas são importantes pois ajudam na interpretação dos dados, facilitando o entendimento do que cada eixo representa.
Exibição do Gráfico:

plt.show()

1
2

plt.show()

Por fim, a função show() é chamada para exibir a figura criada. Quando esta função é executada, uma janela com o gráfico de dispersão é aberta, permitindo a visualização dos pontos que foram plotados.

Este código produz um gráfico simples e claro que mostra a relação linear entre as listas x e y. Através deste gráfico, é possível identificar visualmente tendências, padrões e até mesmo outliers (pontos que se desviam significativamente da tendência dos demais dados).

Plotar um gráfico de dispersão (Scatter Plot) é uma excelente forma de visualizar a distribuição e relação entre duas variáveis. No contexto dos principais Cloud Providers Mundiais, podemos usar um gráfico de dispersão para comparar, por exemplo, a receita global e o crescimento ano a ano dessas empresas. Vamos criar um exemplo um pouco mais complexo que analisa essas métricas.

Preparando os Dados

Suponha que temos os seguintes dados para os Cloud Providers:

cloud_providers = ['AWS', 'Azure', 'Google Cloud', 'IBM', 'Alibaba']
receita = [35.03, 15.16, 8.92, 6.01, 5.65]  # Receita em bilhões de dólares
crescimento = [29, 47, 52, 11, 62]  # Crescimento percentual ano a ano

cloud_providers = ['AWS', 'Azure', 'Google Cloud', 'IBM', 'Alibaba']

receita = [35.03, 15.16, 8.92, 6.01, 5.65] # Receita em bilhões de dólares

crescimento = [29, 47, 52, 11, 62] # Crescimento percentual ano a ano

Aqui, cloud_providers é uma lista de nomes dos fornecedores de nuvem, receita representa a receita anual mais recente de cada um (em bilhões de dólares), e crescimento é o crescimento percentual de receita ano a ano para cada fornecedor.

Plotagem do Gráfico de Dispersão

Vamos plotar os dados em um gráfico de dispersão e adicionar algumas personalizações:

import matplotlib
import matplotlib.pyplot as plt

# Configuração do tamanho da figura para melhor visibilidade
plt.figure(figsize=(10, 6))

# Criação do gráfico de dispersão
for i in range(len(cloud_providers)):
    plt.scatter(receita[i], crescimento[i], label=cloud_providers[i], s=100, alpha=0.5)

# Títulos e rótulos dos eixos
plt.title('Posicionamento dos Principais Cloud Providers Mundiais', fontsize=16)
plt.xlabel('Receita Anual (em bilhões de dólares)', fontsize=12)
plt.ylabel('Crescimento Ano a Ano (%)', fontsize=12)

# Adição de uma grade para melhor leitura dos dados
plt.grid(True)

# Inclusão de uma legenda para identificar cada ponto
plt.legend()

# Exibição do gráfico
plt.show()

import matplotlib

import matplotlib.pyplot as plt

# Configuração do tamanho da figura para melhor visibilidade

plt.figure(figsize=(10, 6))

# Criação do gráfico de dispersão

for i in range(len(cloud_providers)):

plt.scatter(receita[i], crescimento[i], label=cloud_providers[i], s=100, alpha=0.5)

# Títulos e rótulos dos eixos

plt.title('Posicionamento dos Principais Cloud Providers Mundiais', fontsize=16)

plt.xlabel('Receita Anual (em bilhões de dólares)', fontsize=12)

plt.ylabel('Crescimento Ano a Ano (%)', fontsize=12)

# Adição de uma grade para melhor leitura dos dados

plt.grid(True)

# Inclusão de uma legenda para identificar cada ponto

plt.legend()

# Exibição do gráfico

plt.show()

Neste gráfico de dispersão, utilizamos um loop for para iterar sobre as listas de receita e crescimento, plotando cada ponto individualmente. Cada fornecedor de nuvem é representado por um ponto no gráfico, cuja posição é determinada pelo seu valor de receita e crescimento. O tamanho do ponto (s=100) é uniforme para todos, enquanto o parâmetro alpha regula a transparência dos pontos, permitindo melhor visualização caso haja sobreposição. A legenda é importante para identificar cada ponto com seu respectivo fornecedor.

Esse gráfico é útil para stakeholders e analistas de mercado que desejam entender rapidamente como cada fornecedor está posicionado em termos de receita e crescimento. Insights como “o fornecedor com maior receita também é o que cresce mais rápido?” ou “há fornecedores menores com taxas de crescimento altas?” podem ser facilmente obtidos a partir desta visualização.

Ao plotar um gráfico de dispersão (Scatter Plot), a intenção é muitas vezes identificar visualmente qualquer correlação entre duas variáveis numéricas. A presença de padrões, a direção e a densidade dos pontos podem sugerir diferentes tipos de relações. Vamos criar um exemplo que ilustra claramente como esse tipo de gráfico pode ser utilizado para explicar a relação e correlação entre variáveis numéricas.

Exemplo: Relação entre Horas de Estudo e Pontuação em um Teste

Suponha que temos um conjunto de dados que inclui as horas gastas estudando e as pontuações obtidas em um teste por um grupo de estudantes:

horas_estudo = [1, 2, 3, 4, 5, 6, 7, 8]
pontuacao_teste = [50, 55, 60, 65, 70, 75, 80, 85]

horas_estudo = [1, 2, 3, 4, 5, 6, 7, 8]

pontuacao_teste = [50, 55, 60, 65, 70, 75, 80, 85]

A variável horas_estudo representa a quantidade de tempo que cada estudante gastou estudando, enquanto pontuacao_teste é a pontuação que cada um obteve no teste.

Plotando o Gráfico de Dispersão

Vamos criar um gráfico de dispersão para essas duas variáveis e adicionar uma linha de tendência para ajudar a visualizar a correlação:

import matplotlib.pyplot as plt
import numpy as np

#Declaração das variáveis com seus dados
horas_estudo = [1, 2, 3, 4, 5, 6, 7, 8]
pontuacao_teste = [50, 55, 60, 65, 70, 75, 80, 85]

# Criação do gráfico de dispersão
plt.scatter(horas_estudo, pontuacao_teste, alpha=0.6, edgecolors='w', s=100)

# Cálculo da linha de tendência
z = np.polyfit(horas_estudo, pontuacao_teste, 1)
p = np.poly1d(z)
plt.plot(horas_estudo, p(horas_estudo), "r--")

# Títulos e rótulos dos eixos
plt.title('Relação entre Horas de Estudo e Pontuação no Teste', fontsize=16)
plt.xlabel('Horas de Estudo', fontsize=12)
plt.ylabel('Pontuação no Teste', fontsize=12)

# Adição de uma grade para melhor leitura dos dados
plt.grid(True)

# Adição de uma grade para melhor leitura dos dados
plt.grid(True)

import matplotlib.pyplot as plt

import numpy as np

#Declaração das variáveis com seus dados

horas_estudo = [1, 2, 3, 4, 5, 6, 7, 8]

pontuacao_teste = [50, 55, 60, 65, 70, 75, 80, 85]

# Criação do gráfico de dispersão

plt.scatter(horas_estudo, pontuacao_teste, alpha=0.6, edgecolors='w', s=100)

# Cálculo da linha de tendência

z = np.polyfit(horas_estudo, pontuacao_teste, 1)

p = np.poly1d(z)

plt.plot(horas_estudo, p(horas_estudo), "r--")

# Títulos e rótulos dos eixos

plt.title('Relação entre Horas de Estudo e Pontuação no Teste', fontsize=16)

plt.xlabel('Horas de Estudo', fontsize=12)

plt.ylabel('Pontuação no Teste', fontsize=12)

# Adição de uma grade para melhor leitura dos dados

plt.grid(True)

# Adição de uma grade para melhor leitura dos dados

plt.grid(True)

Neste gráfico, cada ponto representa um estudante, com o eixo X mostrando as horas de estudo e o eixo Y as pontuações no teste. A linha vermelha pontilhada é a linha de tendência, que foi calculada usando uma função de ajuste polinomial (np.polyfit() e np.poly1d()), indicando a direção geral da correlação entre as variáveis.

Cálculo da linha de tendência:
- z = np.polyfit(horas_estudo, pontuacao_teste, 1): A função np.polyfit() da biblioteca NumPy é utilizada para ajustar um polinômio de grau especificado (neste caso, 1, indicando um polinômio linear) aos dados fornecidos. Ela retorna os coeficientes do polinômio que melhor se ajusta aos dados, no sentido dos mínimos quadrados. Para um polinômio de grau 1, z conterá dois valores: a inclinação da linha (slope) e o intercepto y (intercept).
- p = np.poly1d(z): Após obter os coeficientes, np.poly1d() é utilizado para criar um objeto polinomial p a partir dos coeficientes z. Este objeto é uma função que pode ser chamada com um valor de x (neste caso, horas_estudo), retornando o valor de y correspondente na linha de tendência calculada.
Desenho da linha de tendência no gráfico:
- plt.plot(horas_estudo, p(horas_estudo), "r--"): Esta linha utiliza a função plt.plot() para desenhar a linha de tendência no gráfico. horas_estudo é usado como o eixo x, e p(horas_estudo) calcula os valores correspondentes no eixo y usando a função polinomial p criada anteriormente. "r--" define o estilo da linha de tendência, onde "r" significa vermelho e "--" indica que a linha será tracejada.

Este processo é essencial para análise de dados e visualização, pois a linha de tendência ajuda a entender a relação entre as variáveis analisadas. No contexto deste código, a linha de tendência mostra como a pontuação do teste tende a variar com o número de horas estudadas. Se a inclinação da linha for positiva, indica que há uma tendência de aumento na pontuação com o aumento das horas de estudo. Uma inclinação negativa indicaria o contrário. A visualização dessa relação em um gráfico ajuda não apenas a entender os dados atuais, mas também a fazer previsões sobre dados futuros dentro do mesmo contexto.

Interpretação da Correlação

Ao observar o gráfico, podemos ver que há um padrão ascendente nos pontos: quanto mais horas de estudo, maior a pontuação no teste, o que sugere uma correlação positiva entre as duas variáveis. A linha de tendência reforça visualmente essa relação. Essa informação é valiosa, por exemplo, para professores que querem enfatizar a importância do estudo na melhora do desempenho dos alunos.

Gráficos de dispersão são, portanto, ferramentas poderosas que ajudam a identificar tendências e padrões, possibilitando inferências sobre a força e a direção da relação entre variáveis numéricas, elementos fundamentais em campos como estatística, ciência de dados e pesquisa em geral.

Criação de um Gráfico de Barras (Bar Chart)

Ideal para comparar diferentes grupos.

import matplotlib 
import matplotlib.pyplot as plt

categorias = ['A', 'B', 'C', 'D']
valores = [3, 7, 2, 5]
plt.bar(categorias, valores)
plt.title("Gráfico de Barras Simples")
plt.show()

import matplotlib

import matplotlib.pyplot as plt

categorias = ['A', 'B', 'C', 'D']

valores = [3, 7, 2, 5]

plt.bar(categorias, valores)

plt.title("Gráfico de Barras Simples")

plt.show()

O gráfico de barras é uma forma de representação gráfica que é utilizada para comparar valores entre diferentes categorias. É composto por barras, que podem ser exibidas horizontal ou verticalmente, e é particularmente útil quando se quer comparar várias categorias de dados entre si. Vamos detalhar o que acontece neste exemplo específico de código que cria um gráfico de barras utilizando o Matplotlib:

Definição das Categorias e Valores:

categorias = ['A', 'B', 'C', 'D'] valores = [3, 7, 2, 5]

1
2
3

categorias = ['A', 'B', 'C', 'D']
valores = [3, 7, 2, 5]

Aqui, duas listas são definidas: categorias e valores. A lista categorias contém rótulos de texto que representam as diferentes categorias a serem comparadas no gráfico. A lista valores contém números que correspondem ao tamanho ou medida de cada categoria.
Criação do Gráfico de Barras:

plt.bar(categorias, valores)

1
2

plt.bar(categorias, valores)

A função bar() é utilizada para desenhar o gráfico de barras. Os rótulos das categorias são passados como o primeiro argumento, e os respectivos valores são o segundo argumento. Esta função irá automaticamente associar cada valor com sua categoria correspondente e exibir as barras no gráfico com alturas proporcionais aos valores fornecidos.
Adicionando Título ao Gráfico:

plt.title("Gráfico de Barras Simples")

1
2

plt.title("Gráfico de Barras Simples")

A função title() adiciona um título ao gráfico. Títulos são cruciais para fornecer ao leitor uma rápida compreensão do que o gráfico está apresentando.
Visualização do Gráfico:

plt.show()

1
2

plt.show()

Por fim, show() é a função que renderiza e exibe o gráfico. Quando essa função é chamada, uma janela é aberta mostrando o gráfico de barras com as categorias no eixo x e os valores representados pelas alturas das barras no eixo y.

O gráfico de barras gerado a partir deste código facilita a comparação imediata entre as quatro categorias distintas, permitindo a visualização rápida de qual categoria possui o maior ou menor valor. É uma ferramenta visual extremamente eficaz para destacar diferenças entre grupos e é amplamente utilizado em relatórios de negócios, pesquisa acadêmica e, claro, na área de machine learning e análise de dados, para obter insights dos dados categóricos.

Gráficos de barras são excelentes para comparar visualmente quantidades em diferentes categorias e podem revelar de maneira clara as diferenças entre elas. Vamos criar um exemplo de um gráfico de barras que destaca a utilidade dessa ferramenta no mundo prático, por exemplo, ao comparar a receita gerada por diferentes filiais de uma empresa.

Exemplo: Receita Anual por Filial

Imagine que uma empresa possui cinco filiais e deseja visualizar a receita de cada uma no último ano para tomar decisões estratégicas. Aqui estão os dados:

filiais = ['Filial A', 'Filial B', 'Filial C', 'Filial D', 'Filial E']
receita = [200, 240, 150, 400, 220]  # Receita em milhares de dólares

filiais = ['Filial A', 'Filial B', 'Filial C', 'Filial D', 'Filial E']

receita = [200, 240, 150, 400, 220] # Receita em milhares de dólares

As filiais são as categorias, e os valores em receita representam a receita anual em milhares de dólares para cada uma.

Plotagem do Gráfico de Barras

Agora, vamos plotar um gráfico de barras para visualizar essas informações:

import matplotlib 
import matplotlib.pyplot as plt


filiais = ['Filial A', 'Filial B', 'Filial C', 'Filial D', 'Filial E']
receita = [200, 240, 150, 400, 220]  # Receita em milhares de dólares

# Definindo as posições das barras no eixo X
#Esta linha cria uma sequência de números iguais ao número de filiais, que #será usada para definir as posições das barras no eixo X do gráfico.

posicoes = range(len(filiais))

# Criação do gráfico de barras
plt.bar(posicoes, receita, color='skyblue', edgecolor='black')

# Adição dos nomes das filiais nas marcas do eixo X
#A função plt.xticks() é usada para adicionar os nomes das filiais como #rótulos nas marcas do eixo X, utilizando as posições definidas anteriormente.
plt.xticks(posicoes, filiais)

# Título e rótulos dos eixos
plt.title('Receita Anual por Filial', fontsize=16)
plt.xlabel('Filiais', fontsize=12)
plt.ylabel('Receita (em milhares de dólares)', fontsize=12)

# Adição de uma grade no eixo Y para facilitar a comparação das barras
plt.grid(True, axis='y', linestyle='--', alpha=0.7)

# Exibição do gráfico
plt.show()

import matplotlib

import matplotlib.pyplot as plt

filiais = ['Filial A', 'Filial B', 'Filial C', 'Filial D', 'Filial E']

receita = [200, 240, 150, 400, 220] # Receita em milhares de dólares

# Definindo as posições das barras no eixo X

#Esta linha cria uma sequência de números iguais ao número de filiais, que #será usada para definir as posições das barras no eixo X do gráfico.

posicoes = range(len(filiais))

# Criação do gráfico de barras

plt.bar(posicoes, receita, color='skyblue', edgecolor='black')

# Adição dos nomes das filiais nas marcas do eixo X

#A função plt.xticks() é usada para adicionar os nomes das filiais como #rótulos nas marcas do eixo X, utilizando as posições definidas anteriormente.

plt.xticks(posicoes, filiais)

# Título e rótulos dos eixos

plt.title('Receita Anual por Filial', fontsize=16)

plt.xlabel('Filiais', fontsize=12)

plt.ylabel('Receita (em milhares de dólares)', fontsize=12)

# Adição de uma grade no eixo Y para facilitar a comparação das barras

plt.grid(True, axis='y', linestyle='--', alpha=0.7)

# Exibição do gráfico

plt.show()

Neste gráfico, cada barra representa uma filial, e a altura da barra é proporcional à receita anual da filial correspondente. A escolha de uma cor suave como ‘skyblue' permite que os olhos do espectador se concentrem nas diferenças de altura das barras, enquanto a borda ‘black' ajuda a definir cada barra claramente.

Interpretação do Gráfico de Barras

A visualização clara das diferenças de altura entre as barras permite que gestores identifiquem imediatamente a filial com maior e menor receita. No nosso exemplo, é evidente que a ‘Filial D' supera significativamente as outras em termos de receita, o que pode suscitar perguntas sobre as estratégias bem-sucedidas implementadas nesta filial e como elas podem ser aplicadas nas outras. Por outro lado, a ‘Filial C' poderia ser um ponto de foco para investigação e melhorias.

O gráfico de barras aqui demonstra sua utilidade prática ao destacar as diferenças entre as categorias de uma maneira que é fácil e rápida de compreender, fornecendo uma base sólida para análises e decisões empresariais subsequentes.

Elaboração de um Histograma (Histogram)

Um histograma é um tipo de gráfico que permite visualizar a distribuição de frequências de um conjunto de dados.

Exemplo 1: Distribuição de Idades em um Local de Trabalho

Para criar um exemplo mais realista, vamos considerar a distribuição das idades dos funcionários em uma empresa de médio porte. Este é um exemplo de uso prático onde um histograma pode ajudar a visualizar a diversidade de idades e planejar iniciativas como programas de treinamento, aposentadoria ou recrutamento.

Neste caso, temos um conjunto de idades que representam os funcionários da empresa:

idades = [
    23, 29, 22, 35, 42, 39, 56, 48, 33, 36, 26, 24, 28, 30, 50, 45, 41, 31, 57, 55,
    52, 47, 63, 59, 60, 38, 37, 49, 44, 43, 53, 27, 25, 34, 32, 40, 46, 58, 61, 54,
    51, 64, 62, 65, 66, 67, 29, 21, 24, 28, 26, 30, 22, 35, 31, 48, 43, 38, 39, 36
]  # Idades dos funcionários

idades = [

23, 29, 22, 35, 42, 39, 56, 48, 33, 36, 26, 24, 28, 30, 50, 45, 41, 31, 57, 55,

52, 47, 63, 59, 60, 38, 37, 49, 44, 43, 53, 27, 25, 34, 32, 40, 46, 58, 61, 54,

51, 64, 62, 65, 66, 67, 29, 21, 24, 28, 26, 30, 22, 35, 31, 48, 43, 38, 39, 36

] # Idades dos funcionários

Criando um Histograma

Com esses dados, podemos plotar um histograma que ilustrará a distribuição das idades:

import matplotlib
import matplotlib.pyplot as plt
idades = [
    23, 29, 22, 35, 42, 39, 56, 48, 33, 36, 26, 24, 28, 30, 50, 45, 41, 31, 57, 55,
    52, 47, 63, 59, 60, 38, 37, 49, 44, 43, 53, 27, 25, 34, 32, 40, 46, 58, 61, 54,
    51, 64, 62, 65, 66, 67, 29, 21, 24, 28, 26, 30, 22, 35, 31, 48, 43, 38, 39, 36
]  # Idades dos funcionários
# Criação do histograma
plt.hist(idades, bins=[20, 30, 40, 50, 60, 70], color='dodgerblue', edgecolor='black')

# Título e rótulos dos eixos
plt.title('Distribuição de Idades no Local de Trabalho', fontsize=16)
plt.xlabel('Idade', fontsize=12)
plt.ylabel('Quantidade de Funcionários', fontsize=12)

# Adição de marcações no eixo X para as faixas etárias
plt.xticks([25, 35, 45, 55, 65])

# Exibição do histograma
plt.show()

import matplotlib

import matplotlib.pyplot as plt

idades = [

23, 29, 22, 35, 42, 39, 56, 48, 33, 36, 26, 24, 28, 30, 50, 45, 41, 31, 57, 55,

52, 47, 63, 59, 60, 38, 37, 49, 44, 43, 53, 27, 25, 34, 32, 40, 46, 58, 61, 54,

51, 64, 62, 65, 66, 67, 29, 21, 24, 28, 26, 30, 22, 35, 31, 48, 43, 38, 39, 36

] # Idades dos funcionários

# Criação do histograma

plt.hist(idades, bins=[20, 30, 40, 50, 60, 70], color='dodgerblue', edgecolor='black')

# Título e rótulos dos eixos

plt.title('Distribuição de Idades no Local de Trabalho', fontsize=16)

plt.xlabel('Idade', fontsize=12)

plt.ylabel('Quantidade de Funcionários', fontsize=12)

# Adição de marcações no eixo X para as faixas etárias

plt.xticks([25, 35, 45, 55, 65])

# Exibição do histograma

plt.show()

A definição dos ‘bins' corresponde a faixas etárias de dez anos, facilitando a interpretação das principais faixas etárias na empresa. A cor ‘dodgerblue' é vibrante e torna as barras claramente visíveis, enquanto a borda ‘black' separa bem cada categoria de idade.

Este histograma fornece insights valiosos para o RH sobre a composição etária da força de trabalho. Ao examinar a altura das barras, a empresa pode identificar se possui uma população jovem, um equilíbrio de gerações, ou um grupo predominantemente sênior.

Usando os Dados para Planejamento Estratégico

Por exemplo, uma alta frequência de funcionários nas faixas mais jovens pode indicar a necessidade de programas de desenvolvimento de carreira para cultivar talentos a longo prazo. Por outro lado, se a maioria dos funcionários estiver nas faixas de maior idade, estratégias de planejamento sucessório e transmissão de conhecimento podem ser vitais.

O histograma, neste caso, é uma ferramenta poderosa de visualização que capacita os gestores a tomar decisões informadas sobre gestão de talentos e estratégias organizacionais, alinhando os esforços de recursos humanos com os objetivos a longo prazo da empresa.

Exemplo 2: Visualizando os Tempos de Resposta do Website com Histograma

Analisar os tempos de resposta de um website é essencial para compreender a experiência do usuário. Vamos criar um histograma baseado em uma simulação de dados que representam os tempos médios de resposta a cada hora em um dia.

Neste código Python, utilizamos a biblioteca numpy para gerar 24 dados que simulam os tempos de resposta do website em um período de 24 horas. Substituímos aleatoriamente 5 desses dados para representar tempos de resposta superiores a 1 segundo, o que pode indicar uma experiência de usuário prejudicada.

import matplotlib
import matplotlib.pyplot as plt
import numpy as np

# Gerar 24 dados aleatórios para simular os tempos de resposta médios a cada hora do dia
tempos_resposta = np.random.uniform(low=0.5, high=1.0, size=24)

# Substituir aleatoriamente alguns valores por tempos de resposta > 1 segundo
tempos_resposta[np.random.choice(np.arange(24), size=5, replace=False)] = np.random.uniform(low=1.0, high=1.5, size=5)

# Criar o histograma
plt.hist(tempos_resposta, bins=10, color='skyblue', edgecolor='black')

# Adicionar títulos e rótulos
plt.title('Distribuição dos Tempos de Resposta do Website')
plt.xlabel('Tempo de Resposta (segundos)')
plt.ylabel('Frequência')

# Desenhar uma linha vertical em x=1 para facilitar a visualização dos tempos > 1 segundo
plt.axvline(x=1, color='red', linestyle='--', label='1 segundo')

# Adicionar legenda
plt.legend()

# Exibir o gráfico
plt.show()

import matplotlib

import matplotlib.pyplot as plt

import numpy as np

# Gerar 24 dados aleatórios para simular os tempos de resposta médios a cada hora do dia

tempos_resposta = np.random.uniform(low=0.5, high=1.0, size=24)

# Substituir aleatoriamente alguns valores por tempos de resposta > 1 segundo

tempos_resposta[np.random.choice(np.arange(24), size=5, replace=False)] = np.random.uniform(low=1.0, high=1.5, size=5)

# Criar o histograma

plt.hist(tempos_resposta, bins=10, color='skyblue', edgecolor='black')

# Adicionar títulos e rótulos

plt.title('Distribuição dos Tempos de Resposta do Website')

plt.xlabel('Tempo de Resposta (segundos)')

plt.ylabel('Frequência')

# Desenhar uma linha vertical em x=1 para facilitar a visualização dos tempos > 1 segundo

plt.axvline(x=1, color='red', linestyle='--', label='1 segundo')

# Adicionar legenda

plt.legend()

# Exibir o gráfico

plt.show()

Ao executar este script, obtemos um histograma que representa a distribuição dos tempos de resposta do website. A linha vertical vermelha em x=1 é um marcador visual significativo; ela divide o gráfico entre tempos de resposta que são considerados aceitáveis (menos de 1 segundo) e aqueles que podem comprometer a experiência do usuário (mais de 1 segundo).

Os picos no histograma indicam os intervalos de tempo de resposta mais frequentes. A cor ‘skyblue' fornece um contraste efetivo com a linha vermelha, destacando a região do gráfico onde os tempos de resposta excedem o limiar crítico de 1 segundo.

Esse tipo de visualização é inestimável para a equipe de TI ou de operações de um website, pois ajuda a identificar os períodos em que o desempenho do website precisa ser melhorado. Uma maior frequência de tempos acima de 1 segundo pode ser um indicador para possíveis intervenções, como otimização de código, aumento de recursos de servidor ou a implementação de soluções de cache mais eficientes.

Portanto, ao utilizar um histograma para visualizar os tempos de resposta do website, a equipe responsável pode agir proativamente para assegurar que o website opere dentro dos padrões ideais, mantendo os usuários satisfeitos com uma navegação rápida e eficaz.

Desenho de um Gráfico de Linhas (Line Graph)

Perfeito para visualizar tendências ao longo do tempo.

import matplotlib
import matplotlib.pyplot as plt
x = range(10)
y = [x**2 for x in range(10)]
plt.plot(x, y)
plt.title("Gráfico de Linhas Simples")
plt.show()

import matplotlib

import matplotlib.pyplot as plt

x = range(10)

y = [x**2 for x in range(10)]

plt.plot(x, y)

plt.title("Gráfico de Linhas Simples")

plt.show()

O gráfico de linhas é uma das formas mais diretas e eficazes para representar tendências e mudanças ao longo do tempo ou para visualizar relações contínuas entre variáveis. É utilizado em uma ampla gama de campos, desde finanças até ciências naturais, pela sua capacidade de mostrar a evolução dos dados de forma clara e compreensível. Vamos explorar cada etapa do processo de criação de um gráfico de linhas usando o Matplotlib:

Definição dos Dados das Coordenadas X e Y:

x = range(10) y = [x**2 for x in range(10)]

1
2
3

x = range(10)
y = [x**2 for x in range(10)]

Criamos uma sequência de números (de 0 a 9, neste caso) que serão usados como pontos no eixo X. Para os valores correspondentes do eixo Y, aplicamos uma operação (neste exemplo, a potência quadrada) para cada valor em X. O resultado é uma lista de valores Y que mostra uma tendência crescente – cada valor de Y é o quadrado de seu correspondente X.
Plotagem do Gráfico de Linhas:

plt.plot(x, y)

1
2

plt.plot(x, y)

A função plot() é chamada para desenhar o gráfico de linhas. A função conecta os pontos definidos pelos valores de X e Y com linhas, criando uma representação gráfica da relação entre essas duas variáveis.
Adição de um Título ao Gráfico:

plt.title("Gráfico de Linhas Simples")

1
2

plt.title("Gráfico de Linhas Simples")

A função title() adiciona um título descritivo ao gráfico de linhas. Isso fornece um contexto adicional e ajuda os observadores a entenderem rapidamente o que o gráfico está demonstrando.
Exibição do Gráfico:

plt.show()

1
2

plt.show()

O método show() é usado para exibir a figura gerada. Quando chamado, ele abre uma janela gráfica que mostra o gráfico de linhas, com os pontos conectados por linhas, exibindo a relação entre os eixos X e Y.

Este gráfico de linhas em particular ilustra uma relação quadrática entre X e Y, mostrando que, conforme X aumenta, Y aumenta numa taxa que se acelera (por ser o quadrado de X).

Gráficos de linhas como esse são extremamente úteis para análise de tendências, pois as linhas suavizam variações pontuais e destacam a direção em que os dados estão se movendo. Em machine learning, gráficos de linhas são frequentemente usados para avaliar o desempenho dos algoritmos ao longo de várias iterações de treinamento, e em análise de dados, para visualizar séries temporais e outras tendências contínuas nos dados.

Integração com Pandas para Visualização de Dados

Matplotlib e Pandas formam uma combinação poderosa para visualizar dados diretamente de DataFrames.

import pandas as pd

# Exemplo com dados financeiros
dados_financeiros = {'Ano': [2015, 2016, 2017, 2018], 'Lucro': [15, 18, 20, 22]}
df = pd.DataFrame(dados_financeiros)
df.plot(x='Ano', y='Lucro', kind='line')
plt.show()

# Exemplo com dados climáticos
dados_climaticos = pd.DataFrame({'Temperatura': [22, 24, 19, 24]})
dados_climaticos.hist(bins=3)
plt.show()

import pandas as pd

# Exemplo com dados financeiros

dados_financeiros = {'Ano': [2015, 2016, 2017, 2018], 'Lucro': [15, 18, 20, 22]}

df = pd.DataFrame(dados_financeiros)

df.plot(x='Ano', y='Lucro', kind='line')

plt.show()

# Exemplo com dados climáticos

dados_climaticos = pd.DataFrame({'Temperatura': [22, 24, 19, 24]})

dados_climaticos.hist(bins=3)

plt.show()

A biblioteca Pandas, em conjunto com o Matplotlib, oferece recursos sofisticados para a visualização de dados que estão estruturados em DataFrames, uma estrutura de dados bidimensional e versátil do Pandas. A capacidade de criar visualizações a partir de DataFrames sem a necessidade de extração prévia de informações simplifica o processo de análise de dados. Exploraremos como funciona essa integração:

Importação da Biblioteca Pandas:

import pandas as pd

1
2

import pandas as pd

Pandas é uma biblioteca do Python que fornece estruturas de dados de alto desempenho e fáceis de usar, juntamente com ferramentas de análise de dados. Começamos importando essa biblioteca para poder usar seus recursos de maneira eficaz.
Criação do DataFrame com Dados Financeiros:

dados_financeiros = {'Ano': [2015, 2016, 2017, 2018], 'Lucro': [15, 18, 20, 22]} df = pd.DataFrame(dados_financeiros)

1
2
3

dados_financeiros = {'Ano': [2015, 2016, 2017, 2018], 'Lucro': [15, 18, 20, 22]}
df = pd.DataFrame(dados_financeiros)

Aqui, um dicionário com duas chaves (‘Ano' e ‘Lucro') e uma lista de valores associados é convertido em um DataFrame, que é uma das estruturas de dados centrais do Pandas. Cada chave do dicionário torna-se uma coluna no DataFrame, e a lista de valores associada a cada chave torna-se as linhas correspondentes a essa coluna.
Visualização dos Dados Financeiros com Plot:

df.plot(x='Ano', y='Lucro', kind='line')

1
2

df.plot(x='Ano', y='Lucro', kind='line')

O método plot() do DataFrame é utilizado para gerar o gráfico de linhas. Especificamos que a coluna ‘Ano' deve ser usada para o eixo X e ‘Lucro' para o eixo Y. O argumento kind='line' informa que queremos um gráfico de linhas.
Exibição do Gráfico de Linhas:

plt.show()

1
2

plt.show()

Ao chamarmos plt.show(), o Matplotlib renderiza o gráfico de linhas, exibindo a tendência do lucro ao longo dos anos especificados.
Criação do DataFrame com Dados Climáticos:

dados_climaticos = pd.DataFrame({'Temperatura': [22, 24, 19, 24]})

1
2

dados_climaticos = pd.DataFrame({'Temperatura': [22, 24, 19, 24]})

Similarmente, outro DataFrame é criado, desta vez contendo dados climáticos de temperatura.
Visualização dos Dados Climáticos com Histograma:

dados_climaticos.hist(bins=3)

1
2

dados_climaticos.hist(bins=3)

Para a visualização da distribuição de temperaturas, utilizamos o método hist(), que cria um histograma para a coluna ‘Temperatura'. O parâmetro bins=3 especifica que queremos que os dados sejam agrupados em 3 intervalos.
Exibição do Histograma:

plt.show()

1
2

plt.show()

Novamente, plt.show() é chamado para mostrar o gráfico, desta vez um histograma das temperaturas registradas.

A integração do Matplotlib com o Pandas torna o processo de visualização de dados altamente intuitivo e eficiente. Com apenas algumas linhas de código, é possível criar gráficos de linhas, histogramas e muitos outros tipos de visualizações diretamente de um DataFrame, permitindo que os analistas e cientistas de dados se concentrem em extrair insights significativos dos dados, ao invés de se preocuparem com detalhes técnicos de plotagem de gráficos.

Design de Gráficos

O design eficaz de gráficos é uma ferramenta poderosa para aprimorar a comunicação de dados complexos. Aqui estão dois exemplos práticos de como podemos personalizar gráficos para diferentes conjuntos de dados, tornando-os visualmente atraentes e informativos:

Exemplo 1: Desempenho de Vendas ao Longo do Ano

Consideremos um conjunto de dados que representa as vendas mensais de uma empresa:

meses = ['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho']
vendas = [200, 220, 250, 270, 300, 320]

meses = ['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho']

vendas = [200, 220, 250, 270, 300, 320]

Aqui, meses são os dados para o eixo X, e vendas são os dados para o eixo Y. Agora, vamos personalizar o gráfico de linhas:

plt.plot(meses, vendas, color='green', linestyle='-', marker='o')
plt.title("Desempenho de Vendas ao Longo do Ano", fontsize=14, color='darkgreen')
plt.xlabel("Meses", fontsize=12)
plt.ylabel("Vendas (em unidades)", fontsize=12)
plt.legend(['Unidades Vendidas'])
plt.grid(True)
plt.show()

plt.plot(meses, vendas, color='green', linestyle='-', marker='o')

plt.title("Desempenho de Vendas ao Longo do Ano", fontsize=14, color='darkgreen')

plt.xlabel("Meses", fontsize=12)

plt.ylabel("Vendas (em unidades)", fontsize=12)

plt.legend(['Unidades Vendidas'])

plt.grid(True)

plt.show()

Neste gráfico, a cor verde simboliza crescimento, e os marcadores em forma de círculo (‘o') em cada ponto de dados ajudam a destacar as vendas de cada mês. A linha contínua (‘-‘) conecta os pontos, mostrando a tendência de crescimento ao longo do ano.

Exemplo 2: Comparação do Crescimento de Três Produtos

Agora, imaginemos que queremos comparar o crescimento de vendas de três produtos diferentes ao longo do tempo:

trimestres = [1, 2, 3, 4]
produto_a = [60, 65, 72, 80]
produto_b = [55, 68, 75, 85]
produto_c = [50, 60, 80, 90]

trimestres = [1, 2, 3, 4]

produto_a = [60, 65, 72, 80]

produto_b = [55, 68, 75, 85]

produto_c = [50, 60, 80, 90]

Cada lista representa as vendas de um produto em diferentes trimestres. Agora, vamos criar um gráfico de linhas para cada produto:

plt.plot(trimestres, produto_a, color='blue', linestyle='-', marker='s', linewidth=2)
plt.plot(trimestres, produto_b, color='red', linestyle='--', marker='^', linewidth=2)
plt.plot(trimestres, produto_c, color='purple', linestyle='-.', marker='d', linewidth=2)

plt.title("Comparação do Crescimento de Três Produtos", fontsize=16, color='navy')
plt.xlabel("Trimestres", fontsize=14)
plt.ylabel("Vendas (em unidades)", fontsize=14)
plt.legend(['Produto A', 'Produto B', 'Produto C'])
plt.grid(True)
plt.show()

plt.plot(trimestres, produto_a, color='blue', linestyle='-', marker='s', linewidth=2)

plt.plot(trimestres, produto_b, color='red', linestyle='--', marker='^', linewidth=2)

plt.plot(trimestres, produto_c, color='purple', linestyle='-.', marker='d', linewidth=2)

plt.title("Comparação do Crescimento de Três Produtos", fontsize=16, color='navy')

plt.xlabel("Trimestres", fontsize=14)

plt.ylabel("Vendas (em unidades)", fontsize=14)

plt.legend(['Produto A', 'Produto B', 'Produto C'])

plt.grid(True)

plt.show()

Cada linha tem uma cor distinta, um estilo diferente (sólida, tracejada, pontilhada), e marcadores distintos (quadrado, triângulo, losango) para representar visualmente a trajetória de vendas de cada produto. O gráfico personalizado facilita a comparação do desempenho dos produtos de um olhar e permite que a audiência identifique rapidamente padrões e tendências.

Através desses dois exemplos, fica evidente como a personalização no design de gráficos pode enriquecer a história que os dados contam e reforçar as conclusões que desejamos destacar. Ao optarmos por cores, estilos de linhas e marcadores, criamos uma narrativa visual que não apenas capta a atenção mas também facilita o entendimento.

A Interface Orientada a Objetos do Matplotlib: Mais Controle de Seus Gráficos

Quando se trata de criar visualizações de dados personalizadas, a interface orientada a objetos (OO) do Matplotlib oferece um nível de controle que supera em muito a simplicidade do pyplot. Esta abordagem permite não apenas criar gráficos mais complexos, mas também gerenciá-los de maneira mais eficiente, especialmente quando estamos lidando com múltiplas visualizações em uma única figura.

Considere o seguinte exemplo que ilustra a flexibilidade da interface OO do Matplotlib:

import matplotlib
import matplotlib.pyplot as plt

# Dados para os gráficos
a = [1, 2, 3, 4]
b = [7, 3, 1, 4]
c = [4, 2, 3, 5]

# Criação de uma figura e dois subplots (axes) lado a lado
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10, 4))

# Utilização do primeiro Axes (ax1) para um gráfico de dispersão
ax1.scatter(a, b, color='blue')
ax1.set_title('Gráfico de Dispersão')
ax1.set_xlabel('Eixo X')
ax1.set_ylabel('Eixo Y')

# Utilização do segundo Axes (ax2) para um gráfico de linha
ax2.plot(a, c, color='red')
ax2.set_title('Gráfico de Linha')
ax2.set_xlabel('Eixo X')
ax2.set_ylabel('Eixo Y')

# Ajuste do layout para evitar sobreposições indesejadas
fig.tight_layout()

# Exibição dos gráficos
plt.show()

import matplotlib

import matplotlib.pyplot as plt

# Dados para os gráficos

a = [1, 2, 3, 4]

b = [7, 3, 1, 4]

c = [4, 2, 3, 5]

# Criação de uma figura e dois subplots (axes) lado a lado

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10, 4))

# Utilização do primeiro Axes (ax1) para um gráfico de dispersão

ax1.scatter(a, b, color='blue')

ax1.set_title('Gráfico de Dispersão')

ax1.set_xlabel('Eixo X')

ax1.set_ylabel('Eixo Y')

# Utilização do segundo Axes (ax2) para um gráfico de linha

ax2.plot(a, c, color='red')

ax2.set_title('Gráfico de Linha')

ax2.set_xlabel('Eixo X')

ax2.set_ylabel('Eixo Y')

# Ajuste do layout para evitar sobreposições indesejadas

fig.tight_layout()

# Exibição dos gráficos

plt.show()

Ao usar a função plt.subplots(1, 2, figsize=(10, 4)), nós efetivamente indicamos ao Matplotlib que queremos uma figura com uma linha e duas colunas de subplots, juntamente com um tamanho específico definido pelo figsize. Isso nos dá uma tela dividida em duas áreas de gráfico distintas, referenciadas pelas variáveis ax1 e ax2.

Com ax1.scatter() e ax2.plot(), cada gráfico é criado de forma independente dentro de sua respectiva área. Isso nos permite não apenas escolher diferentes tipos de gráficos para representar nossos dados, mas também ajustar títulos, rótulos dos eixos e outros elementos estéticos de forma individualizada. Por exemplo, um gráfico pode ser de dispersão enquanto o outro pode mostrar a evolução dos dados através de uma linha, facilitando a comparação e a análise conjunta dos dados.

Esse nível de detalhe e personalização é um poderoso recurso para quem precisa comunicar informações complexas de maneira clara e precisa, seja em relatórios, artigos científicos ou apresentações de negócios.

Portanto, dominar a interface orientada a objetos do Matplotlib é uma habilidade valiosa para qualquer pessoa que trabalha com análise de dados. Ela possibilita a construção de visualizações de dados que são ao mesmo tempo informativas e esteticamente agradáveis, proporcionando uma compreensão mais profunda dos dados representados.

Vamos a mais um exemplo. Suponha que queremos criar uma figura que contenha um gráfico de barras e um de linha, ilustrando diferentes tipos de dados que possuem algum tipo de relação. Por exemplo, podemos estar interessados em mostrar vendas de um produto (gráfico de barras) e a satisfação do cliente (gráfico de linha) ao longo do mesmo período de tempo.

Aqui está como poderíamos fazer isso:

import matplotlib
import matplotlib.pyplot as plt
import numpy as np

# Dados de exemplo
meses = np.array(['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun'])
vendas = np.array([20, 35, 30, 35, 27, 25])
satisfacao_cliente = np.array([70, 82, 73, 65, 90, 83])

# Criação de um objeto Figure e dois objetos Axes
fig, ax1 = plt.subplots()

# Plotando as vendas com um gráfico de barras no primeiro Axes
ax1.bar(meses, vendas, color='g', label='Vendas')
ax1.set_xlabel('Mês')
ax1.set_ylabel('Vendas', color='g')
ax1.tick_params('y', colors='g')

# Criando um segundo Axes que compartilha o mesmo eixo x
ax2 = ax1.twinx()

# Plotando a satisfação do cliente com um gráfico de linha no segundo Axes
ax2.plot(meses, satisfacao_cliente, color='b', label='Satisfação do Cliente')
ax2.set_ylabel('Satisfação do Cliente (%)', color='b')
ax2.tick_params('y', colors='b')

# Adicionar títulos e mostrar a legenda
fig.suptitle('Vendas e Satisfação do Cliente por Mês')
ax1.legend(loc='upper left')
ax2.legend(loc='upper right')

# Mostrar o gráfico
plt.show()

import matplotlib

import matplotlib.pyplot as plt

import numpy as np

# Dados de exemplo

meses = np.array(['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun'])

vendas = np.array([20, 35, 30, 35, 27, 25])

satisfacao_cliente = np.array([70, 82, 73, 65, 90, 83])

# Criação de um objeto Figure e dois objetos Axes

fig, ax1 = plt.subplots()

# Plotando as vendas com um gráfico de barras no primeiro Axes

ax1.bar(meses, vendas, color='g', label='Vendas')

ax1.set_xlabel('Mês')

ax1.set_ylabel('Vendas', color='g')

ax1.tick_params('y', colors='g')

# Criando um segundo Axes que compartilha o mesmo eixo x

ax2 = ax1.twinx()

# Plotando a satisfação do cliente com um gráfico de linha no segundo Axes

ax2.plot(meses, satisfacao_cliente, color='b', label='Satisfação do Cliente')

ax2.set_ylabel('Satisfação do Cliente (%)', color='b')

ax2.tick_params('y', colors='b')

# Adicionar títulos e mostrar a legenda

fig.suptitle('Vendas e Satisfação do Cliente por Mês')

ax1.legend(loc='upper left')

ax2.legend(loc='upper right')

# Mostrar o gráfico

plt.show()

Neste exemplo, o objeto ax1 é usado para plotar o gráfico de barras e o objeto ax2 é criado com a chamada ax1.twinx(), o que significa que ax2 é um novo conjunto de eixos que compartilha o eixo x com ax1, mas tem um eixo y independente. Isso é particularmente útil quando temos variáveis com diferentes escalas de medida.

No gráfico de barras (ax1.bar), as vendas são representadas como barras verdes, com seus valores no eixo y à esquerda. No gráfico de linha (ax2.plot), a satisfação do cliente é representada por uma linha azul, com seus valores no eixo y à direita.

Essa combinação de diferentes tipos de gráficos em uma única figura permite que o público-alvo compreenda facilmente a relação entre as duas variáveis, fornecendo uma comparação visual direta em uma única vista.

Utilizando a interface orientada a objetos, você tem controle total sobre cada aspecto dos seus gráficos, permitindo-lhe criar visualizações precisas e de alto impacto para seus dados.

Explorar a fundo o Matplotlib abre um mundo de possibilidades em análise e apresentação de dados. Para iniciantes em Python e machine learning, desenvolver habilidades no uso desta biblioteca é um passo significativo no caminho para se tornarem cientistas de dados proficientes.

Não esqueça de consultar a documentação oficial do Matplotlib e buscar outros recursos como tutoriais e comunidades online para aprofundar seus conhecimentos.

Cada exemplo neste artigo é apenas o início de sua aventura com visualização de dados. Com prática e curiosidade, você logo estará criando gráficos dinâmicos e insights valiosos a partir dos seus conjuntos de dados. Boa sorte na sua jornada de aprendizado!

Python & Pandas: Guia Essencial para Machine Learning com Python

A área de machine learning tem crescido de maneira exponencial, e com o Python à frente desse avanço, bibliotecas como o Pandas se tornaram ferramentas indispensáveis. Neste guia, exploraremos as funcionalidades do Pandas, essenciais para preparação de dados em projetos de machine learning.

O que é o Pandas? Pandas é uma biblioteca de código aberto que proporciona estruturas de dados de alto desempenho e ferramentas de análise para a linguagem de programação Python. Com Pandas, lidar com tabelas de dados se torna tão intuitivo quanto manipular planilhas no Excel.

Importando o Pandas Para começar a aproveitar as funcionalidades do Pandas, primeiro precisamos importá-lo:

import pandas as pd

1 2	import pandas as pd

Explorando a Criação de Séries com o Pandas

As séries do Pandas são estruturas que se assemelham a arrays unidimensionais e têm a flexibilidade de funcionar quase como uma coluna isolada de uma planilha. O grande diferencial de uma série é a possibilidade de associar um índice customizado a cada um de seus elementos, oferecendo uma variedade de formas para manipular e acessar os dados. Diferentemente de um índice puramente numérico, estes rótulos podem ser strings, datas, ou qualquer tipo imutável, adicionando uma camada de personalização e praticidade.

As séries se aproximam das colunas de tabelas devido a características importantes:

Estrutura Unidimensional: Assim como uma coluna de uma tabela que organiza os dados verticalmente, uma série mantém seus valores alinhados em uma única dimensão linear.
Índices Associados: Cada entrada em uma série tem um rótulo único que funciona como índice, semelhante à maneira como uma linha é identificada em uma tabela.
Operações Verticais: Processos como filtragem e agregação são feitos ao longo do eixo da série, de forma equivalente ao que seria feito com colunas de uma tabela.

Para ilustrar, tomemos um conjunto de dados de idades:

import pandas as pd
idades = [25, 30, 35]
serie_idades = pd.Series(idades)
print(idades, end='nn')
print(serie_idades, end='nn')

import pandas as pd

idades = [25, 30, 35]

serie_idades = pd.Series(idades)

print(idades, end='nn')

print(serie_idades, end='nn')

Aqui, convertemos uma lista de idades em uma série no Pandas usando pd.Series(idades). Para adicionar uma camada de detalhamento, podemos nomear cada idade:

import pandas as pd
# Associando idades a nomes
serie_nome_idades = pd.Series(idades, index=['Alice', 'Bob', 'Charlie'])
print(serie_nome_idades, end='nn')

import pandas as pd

# Associando idades a nomes

serie_nome_idades = pd.Series(idades, index=['Alice', 'Bob', 'Charlie'])

print(serie_nome_idades, end='nn')

Assim, obtemos uma série nomeada que parece e age como uma coluna de uma tabela:

Alice      25
Bob        30
Charlie    35

Alice 25

Bob 30

Charlie 35

Esta representação é muito próxima daquela de uma coluna tabular onde os índices (neste caso, nomes) e os valores (idades) estão alinhados verticalmente.

Essa estrutura nos permite acessar dados de maneira intuitiva. Por exemplo, para obter a idade de Alice, fazemos:

idade_alice = serie_nome_idades['Alice']
print(idade_alice)  # Output: 25

idade_alice = serie_nome_idades['Alice']

print(idade_alice) # Output: 25

Consideremos outro exemplo, criando uma série com índices alfabéticos:

import pandas as pd
# Criando uma série com índices alfabéticos
serie = pd.Series(data=[100, 200, 300], index=['a', 'b', 'c'])

import pandas as pd

# Criando uma série com índices alfabéticos

serie = pd.Series(data=[100, 200, 300], index=['a', 'b', 'c'])

Nesta série, valores como [100, 200, 300] são acessíveis através dos índices [‘a', ‘b', ‘c'], contrastando com o acesso tradicional por números.

Cada um desses exemplos mostra o potencial do Pandas para organizar dados de uma forma que seja tanto funcional quanto intuitivamente compreensível, evidenciando o poder das séries para a análise e manipulação de dados.

Séries com Diferentes Tipos de Dados

Séries do Pandas podem conter qualquer tipo de dados:

import pandas as pd
# Series com tipos de dados mistos
serie_mista = pd.Series(data=[100, 'Python', 3.14])
print(serie_mista, end='nn')

import pandas as pd

# Series com tipos de dados mistos

serie_mista = pd.Series(data=[100, 'Python', 3.14])

print(serie_mista, end='nn')

Aqui, 100 é um inteiro, 'Python' é uma string e 3.14 é um número de ponto flutuante.

Nesse caso, ao imprimir a variável teremos a saída a seguir, onde o tipo de dados resultante é um objeto e não um tipo de dados primitivo.

0       100
1    Python
2      3.14
dtype: object

0 100

1 Python

2 3.14

dtype: object

Séries a Partir de Dicionários

Também é possível criar uma Series diretamente de um dicionário de Python:

# Series de um dicionário
serie_dict = pd.Series({'a': 1, 'b': 2, 'c': 3})

# Series de um dicionário

serie_dict = pd.Series({'a': 1, 'b': 2, 'c': 3})

Os pares chave-valor do dicionário se tornam os índices e os dados da Series, respectivamente.

Operações em Series

Séries do Pandas são mais do que simples coleções de dados; elas vêm equipadas com a capacidade de executar uma vasta gama de operações matemáticas e estatísticas, que são cruciais para a análise de dados.

Operações Matemáticas Básicas

Você pode realizar operações matemáticas elemento a elemento diretamente em uma série, da mesma forma que faria com números individuais:

import pandas as pd
# Criando uma série com índices alfabéticos
serie = pd.Series(data=[100, 200, 300], index=['a', 'b', 'c'])
# Duplicando os valores em uma série
serie_dobrada = serie * 2
print(serie_dobrada)

import pandas as pd

# Criando uma série com índices alfabéticos

serie = pd.Series(data=[100, 200, 300], index=['a', 'b', 'c'])

# Duplicando os valores em uma série

serie_dobrada = serie * 2

print(serie_dobrada)

As operações são vetorizadas, o que significa que são aplicadas a cada item da série sem a necessidade de um loop explícito. Isso simplifica o código e melhora o desempenho.

Métodos Estatísticos Comuns

O Pandas facilita a obtenção de medidas estatísticas comuns, como média, mediana, desvio padrão e muito mais, tudo com métodos simples e diretos:

# Calculando a média dos valores
media = serie.mean()

# Encontrando a mediana
mediana = serie.median()

# Obtendo o desvio padrão
desvio_padrao = serie.std()

# Calculando a média dos valores

media = serie.mean()

# Encontrando a mediana

mediana = serie.median()

# Obtendo o desvio padrão

desvio_padrao = serie.std()

Essas funções fornecem um resumo instantâneo da distribuição dos seus dados, o que é extremamente útil na análise exploratória de dados.

Operações de Comparação e Booleanas

Séries do Pandas também suportam operações de comparação, que são úteis para filtrar dados ou testar condições:

# Verificando valores acima da média 
valores_acima_media = serie > serie.mean() 
print(valores_acima_media,'nn')
# Selecionando apenas valores acima de um determinado threshold 
valores_selecionados = serie[serie > 50]
print(valores_selecionados, 'nn')

# Verificando valores acima da média

valores_acima_media = serie > serie.mean()

print(valores_acima_media,'nn')

# Selecionando apenas valores acima de um determinado threshold

valores_selecionados = serie[serie > 50]

print(valores_selecionados, 'nn')

Isso cria uma nova série de valores booleanos (True ou False), que você pode usar para indexação condicional.

Operações com Funções Universais do NumPy

A integração perfeita com o NumPy permite que você aplique suas funções universais (ufuncs) às séries do Pandas:

import numpy as np

# Aplicando logaritmo natural a cada valor
log_valores = np.log(serie)

import numpy as np

# Aplicando logaritmo natural a cada valor

log_valores = np.log(serie)

Essa operação é muito poderosa para transformações de dados, normalização e outras análises matemáticas avançadas.

Trabalhando com Valores Faltantes

Quando trabalhamos com conjuntos de dados, é comum encontrarmos situações onde nem todas as informações estão disponíveis. Estes são os chamados valores faltantes ou “missing values”. No contexto do Pandas, esses valores são geralmente representados por NaN (Not a Number) ou None.

Dados de Exemplo

Vamos criar uma Series que representa as temperaturas médias mensais de uma cidade ao longo de um ano, incluindo alguns valores faltantes.

import pandas as pd
import numpy as np

# Criando uma Series com temperaturas médias mensais, onde alguns meses têm valores faltantes (NaN)
temperaturas = pd.Series([25.3, np.nan, 27.5, 26.4, np.nan, 24.1, 22.5, 21.8, np.nan, 23.4, 24.8, 26.2], 
                         index=['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 
                                'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro'])

print("Series Original:")
print(temperaturas)

import pandas as pd

import numpy as np

# Criando uma Series com temperaturas médias mensais, onde alguns meses têm valores faltantes (NaN)

temperaturas = pd.Series([25.3, np.nan, 27.5, 26.4, np.nan, 24.1, 22.5, 21.8, np.nan, 23.4, 24.8, 26.2],

index=['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho',

'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro'])

print("Series Original:")

print(temperaturas)

Identificando Valores Faltantes

A função isnull() é usada para criar uma série booleana onde cada posição reflete se o valor no dado correspondente da série original está faltando ou não. Isso é feito da seguinte maneira:

nulos = temperaturas.isnull()
print("nValores Faltantes (True indica um valor faltante):")
print(nulos)

nulos = temperaturas.isnull()

print("nValores Faltantes (True indica um valor faltante):")

print(nulos)

Preenchendo Valores Faltantes

Para preencher os valores faltantes com a média das temperaturas:

temperaturas_preenchida = temperaturas.fillna(temperaturas.mean())
print("nSeries com Valores Faltantes Preenchidos pela Média:")
print(temperaturas_preenchida)

temperaturas_preenchida = temperaturas.fillna(temperaturas.mean())

print("nSeries com Valores Faltantes Preenchidos pela Média:")

print(temperaturas_preenchida)

Removendo Valores Faltantes

Para remover os valores faltantes da Series:

temperaturas_sem_nulos = temperaturas.dropna()
print("nSeries sem Valores Faltantes:")
print(temperaturas_sem_nulos)

temperaturas_sem_nulos = temperaturas.dropna()

print("nSeries sem Valores Faltantes:")

print(temperaturas_sem_nulos)

Este exemplo demonstra como trabalhar especificamente com Series no Pandas para tratar valores faltantes. Primeiro, identificamos esses valores utilizando isnull(). Em seguida, aplicamos duas abordagens para gerenciar os dados faltantes: preenchendo-os com a média das temperaturas disponíveis, através do método fillna(), ou removendo-os completamente com dropna(). Ambas as técnicas são fundamentais para a preparação e limpeza de dados antes de realizar análises mais profundas

Utilizando .apply() para Operações Customizadas

Para operações mais complexas ou personalizadas, o método .apply() é extremamente útil. Ele permite que você aplique uma função a cada item na série:

# Aplicando uma função customizada a cada elemento da série
serie_customizada = serie.apply(lambda x: x**2 if x > 50 else x + 10)
print(serie_customizada, end='nn')

# Aplicando uma função customizada a cada elemento da série

serie_customizada = serie.apply(lambda x: x**2 if x > 50 else x + 10)

print(serie_customizada, end='nn')

Essa abordagem oferece flexibilidade máxima, já que você pode definir qualquer função, seja ela embutida, customizada ou lambda, para manipular seus dados de forma precisa.

Concatenação e Operações Aritméticas entre Séries

Você também pode realizar operações aritméticas entre séries diferentes, além de concatená-las para formar uma nova série:

# Somando valores de duas séries diferentes
soma_series = serie1 + serie2

# Concatenando séries
serie_concatenada = pd.concat([serie1, serie2])

# Somando valores de duas séries diferentes

soma_series = serie1 + serie2

# Concatenando séries

serie_concatenada = pd.concat([serie1, serie2])

Ao realizar operações aritméticas entre séries, o Pandas automaticamente alinha os dados baseado nos índices. Se um índice não estiver presente em ambas as séries, o valor resultante será NaN.

Conclusão das Operações em Séries

Dominar essas operações em séries do Pandas é fundamental para a análise e tratamento de dados. Esses métodos e funções facilitam a execução de cálculos estatísticos, manipulações de dados e preparações necessárias para análises mais profundas ou visualizações. Com o Pandas, você tem todas as ferramentas necessárias para transformar seus dados em insights valiosos de maneira eficiente e eficaz.

Criando DataFrame no Pandas

O DataFrame é uma das estruturas de dados mais importantes e úteis dentro do Pandas. Pense nele como uma tabela de dados multidimensional onde cada coluna pode conter tipos diferentes de dados, ou seja, ele é heterogêneo. Os DataFrames vêm com os dois eixos rotulados – as linhas (índice) e as colunas.

Para criar um DataFrame do zero, você pode simplesmente passar uma lista de listas ou um array 2D, junto com uma lista opcional de nomes de colunas:

import pandas as pd

# Criando um DataFrame simples
dataframe = pd.DataFrame(data=[[1, 'John'], [2, 'Jane']], columns=['ID', 'Nome'])

import pandas as pd

# Criando um DataFrame simples

dataframe = pd.DataFrame(data=[[1, 'John'], [2, 'Jane']], columns=['ID', 'Nome'])

Neste exemplo, criamos um DataFrame com duas colunas: ‘ID' e ‘Nome'. O DataFrame pode armazenar dados de diferentes tipos, como ilustrado aqui com números e strings.

DataFrames a Partir de Dicionários de Listas

Outra maneira comum de criar DataFrames é através de um dicionário de listas. Cada chave do dicionário se torna uma coluna no DataFrame, e a lista associada contém os dados para essa coluna:

# DataFrame a partir de um dicionário
dados = {
    'ID': [1, 2, 3],
    'Nome': ['John', 'Jane', 'Jim'],
    'Idade': [22, 33, 44]
}
df_dicionario = pd.DataFrame(dados)

# DataFrame a partir de um dicionário

dados = {

'ID': [1, 2, 3],

'Nome': ['John', 'Jane', 'Jim'],

'Idade': [22, 33, 44]

}

df_dicionario = pd.DataFrame(dados)

Esse método é bastante intuitivo e alinha-se ao conceito de que um DataFrame é uma coleção de Séries com o mesmo índice.

DataFrames com Índices Personalizados

Você pode especificar os índices das linhas, que é especialmente útil quando os índices têm significado próprio:

# DataFrame a partir de um dicionário
dados = {
    'ID': [1, 2, 3],
    'Nome': ['John', 'Jane', 'Jim'],
    'Idade': [22, 33, 44]
}
df_indices = pd.DataFrame(data=dados, index=['linha1', 'linha2','linha3'])
print(df_indices)

# DataFrame a partir de um dicionário

dados = {

'ID': [1, 2, 3],

'Nome': ['John', 'Jane', 'Jim'],

'Idade': [22, 33, 44]

}

df_indices = pd.DataFrame(data=dados, index=['linha1', 'linha2','linha3'])

print(df_indices)

Adicionando Colunas a um DataFrame Existente

Após criar um DataFrame, é possível adicionar novas colunas a ele:

# Adicionando uma nova coluna ao DataFrame
df_indices['Salário'] = [50000, 60000, 70000]
print(df_indices)

# Adicionando uma nova coluna ao DataFrame

df_indices['Salário'] = [50000, 60000, 70000]

print(df_indices)

Esta operação insere a coluna ‘Salário' no DataFrame existente df_indices.

Criando DataFrames Complexos

DataFrames podem ser muito mais complexos, contendo diversas colunas de tipos variados e ser usados para representar datasets grandes e multidimensionais, que são comuns em projetos de análise de dados e machine learning:

import pandas as pd
import numpy as np
# DataFrame complexo com vários tipos de dados
df_complexo = pd.DataFrame({
    'A': pd.Series([1, 2, 3], index=['primeiro', 'segundo', 'terceiro']),
    'B': np.linspace(0, np.pi, 3),
    'C': pd.date_range(start='20210101', periods=3, freq='D')
})
print(df_complexo)

import pandas as pd

import numpy as np

# DataFrame complexo com vários tipos de dados

df_complexo = pd.DataFrame({

'A': pd.Series([1, 2, 3], index=['primeiro', 'segundo', 'terceiro']),

'B': np.linspace(0, np.pi, 3),

'C': pd.date_range(start='20210101', periods=3, freq='D')

})

print(df_complexo)

O DataFrame df_complexo é criado utilizando o construtor pd.DataFrame(), que organiza os dados em uma estrutura tabular de linhas e colunas. Este DataFrame específico é composto por três colunas (‘A', ‘B', ‘C'), cada uma contendo um tipo diferente de dado.

Componentes Detalhados

Coluna ‘A'

pd.Series([1, 2, 3], index=['primeiro', 'segundo', 'terceiro']): Esta série representa a coluna ‘A' do DataFrame. Uma Series do Pandas é um array unidimensional capaz de armazenar qualquer tipo de dado (integers, strings, floats, objetos Python, etc.). A série é composta por três inteiros (1, 2, 3) e utiliza um índice personalizado (['primeiro', 'segundo', 'terceiro']), que especifica os rótulos das linhas para os valores correspondentes.

Coluna ‘B'

np.linspace(0, np.pi, 3): Esta expressão utiliza a função linspace do NumPy para gerar três valores igualmente espaçados entre 0 e π (aproximadamente 3.14159). linspace é uma função útil para gerar uma sequência de números com espaçamento uniforme entre os valores de início e fim especificados. A coluna ‘B', portanto, contém valores float que variam de 0 a π, distribuídos uniformemente.

Coluna ‘C'

pd.date_range(start='20210101', periods=3, freq='D'): Esta expressão cria uma sequência de datas usando a função date_range do Pandas. O argumento start='20210101' define a data de início da sequência como 1º de janeiro de 2021. O periods=3 especifica que a sequência deve conter três datas. O freq='D' indica que a frequência entre as datas é diária. Assim, a coluna ‘C' contém uma sequência de três datas consecutivas, começando em 1º de janeiro de 2021.

Resumo do DataFrame

Ao combinar esses componentes, o df_complexo fica estruturado da seguinte forma:

Coluna ‘A': Contém inteiros com índices personalizados.
Coluna ‘B': Contém floats representando uma sequência numérica de 0 a π.
Coluna ‘C': Contém objetos de data, especificamente três dias consecutivos a partir de 1º de janeiro de 2021.

Este DataFrame exemplifica a flexibilidade do Pandas em lidar com diversos tipos de dados em uma única estrutura, permitindo uma análise de dados complexa e variada. A capacidade de especificar índices para as séries, gerar sequências numéricas com NumPy, e criar sequências de datas facilita o manuseio de dados para análise e visualização.

Importância do DataFrame no Machine Learning

No machine learning, os DataFrames são usados para armazenar e manipular conjuntos de dados utilizados para treinar e testar algoritmos. Eles permitem uma análise exploratória eficaz, facilitando a visualização dos dados, a identificação de padrões e a limpeza de dados antes de alimentar os algoritmos de machine learning. A habilidade de manipular DataFrames com eficiência é, portanto, uma habilidade valiosa para qualquer desenvolvedor Python que trabalhe com análise de dados e machine learning.

Usando read_csv() na Prática

A função read_csv() é uma das ferramentas mais poderosas e amplamente utilizadas do Pandas, permitindo que desenvolvedores carreguem dados de arquivos CSV (Comma-Separated Values) diretamente para um DataFrame. O formato CSV é um padrão da indústria para o armazenamento de tabelas de dados devido à sua simplicidade e interoperabilidade.

Carregando um Arquivo CSV Simples

A maneira mais básica de carregar um arquivo CSV com o Pandas é passando o caminho do arquivo para a função read_csv():

import pandas as pd

# Lendo um arquivo CSV em um DataFrame
df = pd.read_csv('caminho/para/seu/arquivo.csv')

import pandas as pd

# Lendo um arquivo CSV em um DataFrame

df = pd.read_csv('caminho/para/seu/arquivo.csv')

Assim que executar este código, o Pandas lê o arquivo CSV e cria um DataFrame chamado df com os dados contidos no arquivo.

Lidando com Cabeçalhos de Colunas

Arquivos CSV geralmente contêm uma primeira linha que serve como cabeçalho, indicando o nome de cada coluna:

# Lendo um CSV com cabeçalho
df_com_cabecalho = pd.read_csv('caminho/para/seu/arquivo.csv', header=0)

# Lendo um CSV com cabeçalho

df_com_cabecalho = pd.read_csv('caminho/para/seu/arquivo.csv', header=0)

Se o arquivo CSV não tiver uma linha de cabeçalho, você pode especificar header=None e fornecer os nomes das colunas usando o parâmetro names:

# Lendo um CSV sem cabeçalho
df_sem_cabecalho = pd.read_csv('caminho/para/seu/arquivo.csv', header=None, names=['Coluna1', 'Coluna2', 'Coluna3'])

# Lendo um CSV sem cabeçalho

df_sem_cabecalho = pd.read_csv('caminho/para/seu/arquivo.csv', header=None, names=['Coluna1', 'Coluna2', 'Coluna3'])

Especificando Tipos de Dados

O Pandas é muito bom em inferir tipos de dados, mas às vezes você pode querer especificar os tipos de dados de colunas para garantir que sejam lidos corretamente:

# Especificando tipos de dados de colunas
df_tipos = pd.read_csv('caminho/para/seu/arquivo.csv', dtype={'Coluna1': int, 'Coluna2': float})

# Especificando tipos de dados de colunas

df_tipos = pd.read_csv('caminho/para/seu/arquivo.csv', dtype={'Coluna1': int, 'Coluna2': float})

Tratando Dados Faltantes

Dados faltantes são comuns em muitos conjuntos de dados e podem ser tratados durante a leitura do arquivo CSV:

# Tratando dados faltantes com o valor NaN padrão do Pandas
df_dados_faltantes = pd.read_csv('caminho/para/seu/arquivo.csv', na_values=['NA', ''])

# Tratando dados faltantes com o valor NaN padrão do Pandas

df_dados_faltantes = pd.read_csv('caminho/para/seu/arquivo.csv', na_values=['NA', ''])

Manipulando Grandes Conjuntos de Dados

Para grandes conjuntos de dados, pode ser útil ler o arquivo em pedaços. O Pandas permite que você faça isso com o parâmetro chunksize:

# Lendo um CSV em pedaços
tamanho_do_chunk = 500
chunks = pd.read_csv('caminho/para/seu/arquivo.csv', chunksize=tamanho_do_chunk)
for chunk in chunks:
    # faça algo com cada pedaço, como processamento ou análise

# Lendo um CSV em pedaços

tamanho_do_chunk = 500

chunks = pd.read_csv('caminho/para/seu/arquivo.csv', chunksize=tamanho_do_chunk)

for chunk in chunks:

# faça algo com cada pedaço, como processamento ou análise

Parâmetros Adicionais

A função read_csv() vem com vários outros parâmetros que permitem personalizar como os dados são lidos, incluindo:

usecols: para selecionar quais colunas carregar.
skiprows: para pular um número específico de linhas no início do arquivo.
nrows: para carregar um número específico de linhas.
parse_dates: para analisar colunas como datas.

Exemplo Prático de Análise Inicial

Assim que os dados são carregados em um DataFrame, a análise inicial pode começar com métodos simples, como head() para visualizar as primeiras linhas ou describe() para obter uma descrição estatística dos dados:

# Análise inicial
print(df.head())
print(df.describe())

# Análise inicial

print(df.head())

print(df.describe())

Dominar a função read_csv() é uma habilidade essencial para qualquer desenvolvedor Python interessado em análise de dados e machine learning, pois ela abre as portas para a exploração e modelagem de praticamente qualquer conjunto de dados disponível em formato CSV.

Exportando Dados de um DataFrame Exportar seus dados é tão simples quanto carregá-los. Para salvar seu DataFrame em um arquivo CSV, você usará:

df.to_csv('caminho/para/seu/novo_arquivo.csv')

1 2	df.to_csv('caminho/para/seu/novo_arquivo.csv')

Explorando um Pouco Mais os Dados em DataFrame

Para executar os exemplos a seguir, faça o download do arquivo de exemplo clicando aqui e importe o arquivo no seu Google Colab.

Agora que temos nosso arquivo pandas-sample-data.csv, vamos mergulhar na análise e exploração de dados utilizando este DataFrame. Este processo é essencial para entender a natureza dos dados com os quais estamos trabalhando.

Carregando o Arquivo CSV

Começaremos carregando o arquivo pandas-sample-data.csv em um DataFrame do Pandas:

import pandas as pd
classData = pd.read_csv('pandas-sample-data.csv')
print(classData)

import pandas as pd

classData = pd.read_csv('pandas-sample-data.csv')

print(classData)

Análise Preliminar dos Dados

Com o DataFrame carregado, realizamos uma análise preliminar para entender a estrutura dos dados:

# Visualizando as primeiras 5 linhas
print(classData.head())

# Visualizando as últimas 5 linhas
print(classData.tail())

# Visualizando as primeiras 5 linhas

print(classData.head())

# Visualizando as últimas 5 linhas

print(classData.tail())

Tipos de Dados e Informações do DataFrame

Vamos verificar os tipos de dados e obter mais informações sobre o DataFrame:

# Verificando os tipos de dados
print(classData.dtypes)

# Informações sobre o DataFrame
print(classData.info())

# Verificando os tipos de dados

print(classData.dtypes)

# Informações sobre o DataFrame

print(classData.info())

Sumário Estatístico

Analisamos estatísticas descritivas que podem nos dar insights valiosos:

# Resumo estatístico das colunas numéricas
print(classData.describe())

# Resumo estatístico das colunas categóricas
print(classData.describe(include=[object]))

# Resumo estatístico das colunas numéricas

print(classData.describe())

# Resumo estatístico das colunas categóricas

print(classData.describe(include=[object]))

Contagem de Valores Únicos

Contamos valores únicos para entender a distribuição dos dados nas colunas categóricas:

# Contagem de instrutores únicos
print(classData['Instrutor'].value_counts())

# Contagem de AE únicos
print(classData['AE'].value_counts())

# Contagem de instrutores únicos

print(classData['Instrutor'].value_counts())

# Contagem de AE únicos

print(classData['AE'].value_counts())

Seleção e Filtragem

Podemos selecionar colunas específicas e filtrar linhas para análise focada:

# Seleção de colunas específicas
df_avaliacao_inscritos = classData[['Avaliacao', 'Inscritos']]
print(df_avaliacao_inscritos, end='nn')

# Filtragem de linhas baseada em uma condição
df_filtrado = classData[classData['Avaliacao'] >= 4.5]
print(df_filtrado, end='nn')

# Seleção de colunas específicas

df_avaliacao_inscritos = classData[['Avaliacao', 'Inscritos']]

print(df_avaliacao_inscritos, end='nn')

# Filtragem de linhas baseada em uma condição

df_filtrado = classData[classData['Avaliacao'] >= 4.5]

print(df_filtrado, end='nn')

Ordenando Dados

Ordenamos o DataFrame para visualizar os dados baseados em certos critérios:

# Ordenando pela avaliação de forma descendente
df_ordenado = classData.sort_values(by='Avaliacao', ascending=False)
print(df_ordenado)

# Ordenando pela avaliação de forma descendente

df_ordenado = classData.sort_values(by='Avaliacao', ascending=False)

print(df_ordenado)

Agrupando e Agregando Dados

Agregamos dados para obter métricas por grupo, como a média de inscritos por instrutor:

# Agrupando por instrutor e obtendo a média de inscritos
df_grupo_inscritos = classData.groupby('Instrutor')['Inscritos'].mean()
print(df_grupo_inscritos)

# Agrupando por instrutor e obtendo a média de inscritos

df_grupo_inscritos = classData.groupby('Instrutor')['Inscritos'].mean()

print(df_grupo_inscritos)

Trabalhando com Dados Faltantes

Identificamos e tratamos dados faltantes para melhorar a qualidade do nosso dataset:

# Identificando dados faltantes
print(classData.isnull().sum())

# Preenchendo dados faltantes
df_preenchido = classData.fillna({'Avaliacao': classData['Avaliacao'].mean()})
print(df_preenchido)

# Identificando dados faltantes

print(classData.isnull().sum())

# Preenchendo dados faltantes

df_preenchido = classData.fillna({'Avaliacao': classData['Avaliacao'].mean()})

print(df_preenchido)

Vamos analisar cada linha do código acima.

Identificando Dados Faltantes

# Identificando dados faltantes 
print(classData.isnull().sum())

1 2	# Identificando dados faltantes print(classData.isnull().sum())

Nesta etapa, você está identificando quantos valores faltantes (NaNs – Not a Number) existem em cada coluna do DataFrame classData. O método .isnull() retorna um DataFrame booleano, onde True indica a presença de um valor faltante. Ao encadear o método .sum() após .isnull(), você está somando a quantidade de valores True (ou seja, faltantes) em cada coluna. Isso fornece um resumo rápido de quantos valores faltantes existem por coluna, o que é crucial para decidir como lidar com esses dados ausentes.

Preenchendo Dados Faltantes

df_preenchido = classData.fillna({'Avaliacao': classData['Avaliacao'].mean()})

1	df_preenchido = classData.fillna({'Avaliacao': classData['Avaliacao'].mean()})

Nesta linha, você está lidando com os dados faltantes na coluna Avaliacao do DataFrame classData. O método .fillna() é utilizado para preencher os valores NaN encontrados no DataFrame. O argumento passado para .fillna() é um dicionário que especifica a coluna a ser modificada (Avaliacao) e o valor com o qual os NaNs serão substituídos (classData['Avaliacao'].mean()).

{‘Avaliacao': classData[‘Avaliacao'].mean()}: Este dicionário indica que apenas a coluna Avaliacao deve ter seus valores NaN preenchidos. O valor utilizado para o preenchimento é a média (mean()) dos valores existentes na coluna Avaliacao. Isso é uma prática comum para manter a consistência dos dados, especialmente em colunas numéricas, onde a média pode ser uma boa estimativa para valores faltantes, assumindo que os dados ausentes são aleatoriamente distribuídos.
df_preenchido: O resultado da operação de preenchimento é atribuído a uma nova variável, df_preenchido. Isso significa que classData permanece inalterado, preservando os dados originais, enquanto df_preenchido contém a versão modificada do DataFrame, onde os valores faltantes na coluna Avaliacao foram preenchidos com a média.

Plotando Dados

Visualizamos os dados para identificar tendências e padrões usando gráficos:

# Plotando a distribuição das avaliações
classData['Avaliacao'].plot(kind='hist')

1 2	# Plotando a distribuição das avaliações classData['Avaliacao'].plot(kind='hist')

Correlações

Exploramos correlações para entender como as variáveis estão relacionadas entre si:

# Correlação entre número de inscritos e avaliação do curso
print(df[['Inscritos', 'Avaliacao']].corr())

# Correlação entre número de inscritos e avaliação do curso

print(df[['Inscritos', 'Avaliacao']].corr())

Realizando estas operações de exploração de dados, ganhamos insights valiosos e preparamos o terreno para análises mais avançadas. Esta visão holística dos dados nos permite tomar decisões informadas sobre como proceder com a limpeza de dados, análises estatísticas mais profundas ou até mesmo modelagem preditiva.

Alterando Lables de Linhas e Colunas no DataFrame

Trabalhar com DataFrames exige não apenas habilidades analíticas, mas também capacidade de organização e padronização. O Pandas facilita esse processo através do método rename, o qual nos permite modificar os rótulos das colunas e linhas para atender a diversas necessidades de análise e apresentação. Vamos explorar como você pode fazer isso com o nosso arquivo pandas-sample-data.csv.

Mudando os Rótulos das Colunas

Em nosso DataFrame, temos informações importantes que poderiam ser representadas de uma maneira mais clara. Vejamos como renomear as colunas de forma prática:

classData.rename(columns={
    'ID_Curso': 'Código_Curso', 
    'Instrutor': 'Nome_Instrutor',
    'AE': 'Assistente_Ensino',
    'Inscritos': 'Total_Inscritos',
    'Avaliacao': 'Média_Avaliação'
}, inplace=True)
print(classData)

classData.rename(columns={

'ID_Curso': 'Código_Curso',

'Instrutor': 'Nome_Instrutor',

'AE': 'Assistente_Ensino',

'Inscritos': 'Total_Inscritos',

'Avaliacao': 'Média_Avaliação'

}, inplace=True)

print(classData)

Aqui, utilizamos um dicionário para mapear os nomes antigos para os novos, e inplace=True para garantir que a mudança afete o DataFrame original.

Padronização e Limpeza dos Nomes de Colunas

Para seguir um padrão mais técnico, poderíamos querer converter todos os nomes de colunas para letras minúsculas e substituir os espaços por underscores:

classData.rename(columns=lambda x: x.lower().replace(" ", "_"), inplace=True)
print(classData)

1 2	classData.rename(columns=lambda x: x.lower().replace(" ", "_"), inplace=True) print(classData)

Renomeando as Linhas

Embora seja menos comum, às vezes pode ser necessário renomear os rótulos das linhas. Vamos supor que queremos prefixar cada índice com ‘Linha_':

classData.rename(index=lambda i: 'Linha_' + str(i), inplace=True)
print(classData)

1 2	classData.rename(index=lambda i: 'Linha_' + str(i), inplace=True) print(classData)

Renomeação Estratégica ao Carregar o CSV

Podemos também optar por renomear as colunas imediatamente após a leitura do arquivo CSV:

classData = pd.read_csv('pandas-sample-data.csv') 
classData.columns = ['Código_Curso', 'Nome_Instrutor', 'Assistente_Ensino', 'Total_Inscritos', 'Média_Avaliação']
print(classData)

classData = pd.read_csv('pandas-sample-data.csv')

classData.columns = ['Código_Curso', 'Nome_Instrutor', 'Assistente_Ensino', 'Total_Inscritos', 'Média_Avaliação']

print(classData)

Ao adotar nomes mais claros e descritivos, você melhora a compreensão e a comunicação dos dados, tornando seu trabalho mais produtivo e menos propenso a erros.

Considerações Finais

Renomear os labels é uma prática simples, mas poderosa, que pode fazer toda a diferença na gestão e interpretação dos seus dados. Se você vai apresentar seus resultados a colegas, criar visualizações, ou preparar seus dados para análise preditiva, as renomeações adequadas ajudam a manter a consistência e claridade em todo o seu processo de trabalho com o Pandas.

Selecionando Dados de um DataFrame

Quando estamos trabalhando com DataFrames no Pandas, há momentos em que precisamos selecionar dados específicos para análises pontuais. Seja uma única coluna, um conjunto de linhas, ou uma combinação dos dois, o Pandas oferece métodos eficientes para seleção.

Selecionar Colunas

Se desejarmos selecionar uma única coluna do DataFrame, podemos usar o nome da coluna entre colchetes ou como um atributo do DataFrame:

# Selecionando a coluna 'Inscritos' usando colchetes
inscritos = classData['Inscritos']

# Selecionando a coluna 'Avaliacao' como um atributo
avaliacao = classData.Avaliacao

# Selecionando a coluna 'Inscritos' usando colchetes

inscritos = classData['Inscritos']

# Selecionando a coluna 'Avaliacao' como um atributo

avaliacao = classData.Avaliacao

Para selecionar múltiplas colunas, fornecemos uma lista de nomes de colunas entre colchetes:

# Selecionando múltiplas colunas
df_selecionado = classData[['Instrutor', 'AE', 'Avaliacao']]

# Selecionando múltiplas colunas

df_selecionado = classData[['Instrutor', 'AE', 'Avaliacao']]

Seleção de Linhas no DataFrame

A habilidade de selecionar linhas específicas em um DataFrame é um elemento chave para análise de dados eficiente. Dentro do ecossistema do Pandas, há várias maneiras de se realizar esta tarefa, desde a seleção básica com loc e iloc, até métodos mais avançados. Uma técnica poderosa envolve o uso de arrays booleanos, que permite filtrar linhas com base em condições lógicas complexas.

Utilizando Arrays Booleanos para Filtragem de Dados

Arrays booleanos são criados ao aplicar operadores de comparação a colunas do DataFrame. Eles consistem em séries de valores True ou False, dependendo se a condição é satisfeita ou não para cada linha. Vejamos como podemos empregar essa técnica:

# Criando um array booleano para cursos com Avaliacao maior que 4.7
array_booleano = classData['Avaliacao'] > 4.7
print(array_booleano,end='nn')

# Selecionando linhas que satisfazem a condição
cursos_top = classData[array_booleano]
print(cursos_top,end='nn')

# Criando um array booleano para cursos com Avaliacao maior que 4.7

array_booleano = classData['Avaliacao'] > 4.7

print(array_booleano,end='nn')

# Selecionando linhas que satisfazem a condição

cursos_top = classData[array_booleano]

print(cursos_top,end='nn')

Neste exemplo, cursos_top contém apenas as linhas do DataFrame original onde a coluna Avaliacao é maior que 4.7. Isso é especialmente útil para isolar um subset de dados com características específicas.

Combinando Condições com Arrays Booleanos

Podemos combinar múltiplas condições utilizando operadores lógicos como & (e) e | (ou):

# Selecionando cursos com Avaliacao acima de 4.7 E menos de 50 Inscritos
condicao = (classData['Avaliacao'] > 4.7) & (classData['Inscritos'] < 50)
cursos_selecionados = classData[condicao]
print(cursos_selecionados, end='nn')

# Selecionando cursos com Avaliacao acima de 4.7 E menos de 50 Inscritos

condicao = (classData['Avaliacao'] > 4.7) & (classData['Inscritos'] < 50)

cursos_selecionados = classData[condicao]

print(cursos_selecionados, end='nn')

Aqui, cursos_selecionados incluirá apenas as linhas onde ambas as condições são verdadeiras.

Invertendo Condições com o Operador ~

Também é possível inverter uma condição usando o operador ~, o que é equivalente a dizer ‘não':

# Selecionando cursos que NÃO têm Avaliacao de 4.8
cursos_nao_48 = classData[~(classData['Avaliacao'] == 4.8)]

# Selecionando cursos que NÃO têm Avaliacao de 4.8

cursos_nao_48 = classData[~(classData['Avaliacao'] == 4.8)]

Com cursos_nao_48, excluímos do DataFrame as linhas que possuem Avaliação igual a 4.8.

Usando Arrays Booleanos com loc

Para uma filtragem mais avançada, podemos utilizar o array booleano com loc, que permite selecionar tanto linhas quanto colunas específicas:

# Usando 'loc' com array booleano para selecionar linhas e a coluna 'Instrutor'
instrutores_top_cursos = classData.loc[df['Avaliacao'] > 4.7, 'Instrutor']

1 2	# Usando 'loc' com array booleano para selecionar linhas e a coluna 'Instrutor' instrutores_top_cursos = classData.loc[df['Avaliacao'] > 4.7, 'Instrutor']

Assim, instrutores_top_cursos contém os nomes dos instrutores cujos cursos possuem uma avaliação superior a 4.7.

Aplicando Arrays Booleanos a Análises Complexas

Quando suas análises se tornam mais complexas, você pode encontrar necessidade de criar arrays booleanos com base em múltiplos critérios ou manipulá-los para adaptar aos seus objetivos de análise.

Arrays booleanos são uma ferramenta poderosa e flexível no seu repertório do Pandas, permitindo que você faça a seleção de dados com critérios precisos e lógica complexa, aprimorando significativamente suas capacidades de exploração e análise de dados.

Selecionar Linhas e Colunas

Navegando por Linhas e Colunas no DataFrame

Ao lidar com conjuntos de dados como o nosso ‘pandas-sample-data.csv', frequentemente você se verá na situação de necessitar não apenas selecionar linhas ou colunas isoladas, mas sim combinações específicas de ambas. O Pandas oferece um método bastante elegante e poderoso para fazer isso, que nos permite alcançar um nível de precisão sob medida para nossas análises.

Combinando loc e iloc para Seleção Específica

O método loc permite selecionar com base nos rótulos das linhas e nomes das colunas, enquanto iloc trabalha com as posições numéricas (índices) de linhas e colunas.

Vamos usar loc para obter a nota de avaliação e o instrutor de um curso específico:

# Selecionando a avaliação e o instrutor do curso MT101
avaliacao_instrutor_mt101 = classData.loc[classData['ID_Curso'] == 'MT101', ['Instrutor', 'Avaliacao']]

# Selecionando a avaliação e o instrutor do curso MT101

avaliacao_instrutor_mt101 = classData.loc[classData['ID_Curso'] == 'MT101', ['Instrutor', 'Avaliacao']]

Este comando nos dá todas as linhas onde o ID do curso é ‘MT101', mas apenas as colunas ‘Instrutor' e ‘Avaliacao'.

Selecionando Intervalos com iloc

Suponha que queremos selecionar um intervalo de cursos e somente algumas de suas características, podemos utilizar iloc da seguinte maneira:

# Selecionando os primeiros 5 cursos e apenas as colunas de 'Instrutor' e 'Avaliacao'
primeiros_cursos = classData.iloc[0:5, [1, 4]]

# Selecionando os primeiros 5 cursos e apenas as colunas de 'Instrutor' e 'Avaliacao'

primeiros_cursos = classData.iloc[0:5, [1, 4]]

Lembre-se que iloc é exclusivo na parte superior do intervalo, então este comando irá buscar as linhas de índice 0 a 4.

Filtrando por Condições Complexas e Selecionando Colunas

Quando você precisa aplicar filtros mais complexos e, ao mesmo tempo, selecionar certas colunas, você pode combinar arrays booleanos com loc:

# Selecionando cursos com avaliação maior que 4.7 e as colunas 'Instrutor' e 'Avaliacao'
cursos_avaliacao_alta = classData.loc[classData['Avaliacao'] > 4.7, ['Instrutor', 'Avaliacao']]

1 2	# Selecionando cursos com avaliação maior que 4.7 e as colunas 'Instrutor' e 'Avaliacao' cursos_avaliacao_alta = classData.loc[classData['Avaliacao'] > 4.7, ['Instrutor', 'Avaliacao']]

Aqui, o resultado conterá apenas as linhas dos cursos com nota acima de 4.7, e das colunas, somente ‘Instrutor' e ‘Avaliacao' serão retornadas.

Selecionando Baseado em Múltiplos Critérios

Podemos inclusive aplicar múltiplos critérios para selecionar nossos dados:

# Selecionando cursos de 'FI' e que tenham mais de 45 inscritos
cursos_fi_45_inscritos = classData.loc[(classData['ID_Curso'].str.contains('FI')) & (classData['Inscritos'] > 45)]

1 2	# Selecionando cursos de 'FI' e que tenham mais de 45 inscritos cursos_fi_45_inscritos = classData.loc[(classData['ID_Curso'].str.contains('FI')) & (classData['Inscritos'] > 45)]

Dessa forma, somente linhas correspondentes aos cursos de Finanças (FI) com mais de 45 inscritos serão selecionadas.

Conclusão de Seleção de Dados

A habilidade de selecionar linhas e colunas de maneira seletiva e combinada é um pilar fundamental na análise de dados, oferecendo-nos a possibilidade de enfocar em subconjuntos de dados que são mais relevantes para nossos questionamentos e análises. Com as funcionalidades avançadas do Pandas, essa tarefa não só se torna facilitada, mas também incrivelmente poderosa, permitindo-nos extrair insights preciosos e tomar decisões baseadas em dados estruturados e bem definidos.

Atualizando o DataFrame

Muito além de apenas ler e selecionar dados, a gestão eficaz de um DataFrame muitas vezes requer atualizações cuidadosas. Estas podem ser alterações pontuais em registros específicos, imputação de valores faltantes ou ajustes em massa, como recalculação de estatísticas após uma mudança nos dados.

Atualizando Valores Individuais

Suponha que você descobriu que o número de inscritos para o curso MT102, ministrado por Luiz Costa, está incorreto. Para atualizar esse valor, utilizamos:

import pandas as pd
classData = pd.read_csv('pandas-sample-data.csv') 
classData.loc[(classData['ID_Curso'] == 'MT102') & (classData['Instrutor'] == 'Luiz Costa'), 'Inscritos'] = 59
print(classData)

import pandas as pd

classData = pd.read_csv('pandas-sample-data.csv')

classData.loc[(classData['ID_Curso'] == 'MT102') & (classData['Instrutor'] == 'Luiz Costa'), 'Inscritos'] = 59

print(classData)

Imputando Valores Faltantes

Nosso DataFrame possui algumas células vazias, representando dados faltantes. Podemos decidir imputar um valor padrão ou calcular um valor baseado em outras observações:

# Imputando a média de inscritos nos cursos onde falta essa informação
media_inscritos = df['Inscritos'].mean()
df['Inscritos'].fillna(value=media_inscritos, inplace=True)

# Imputando a média de inscritos nos cursos onde falta essa informação

media_inscritos = df['Inscritos'].mean()

df['Inscritos'].fillna(value=media_inscritos, inplace=True)

Atualizações Baseadas em Condições

Às vezes, queremos atualizar uma coluna com base em uma condição em outra. Por exemplo, podemos querer dar um boost nas avaliações dos cursos com poucos inscritos para refletir uma política de incentivo:

import pandas as pd
df = pd.read_csv('pandas-sample-data.csv') 
df.loc[df['Inscritos'] < 50, 'Avaliacao'] *= 1.1

import pandas as pd

df = pd.read_csv('pandas-sample-data.csv')

df.loc[df['Inscritos'] < 50, 'Avaliacao'] *= 1.1

Alterando o Tipo de Dados de Uma Coluna

Em algumas situações, é necessário converter o tipo de dados de uma coluna para realizar certos tipos de análises ou visualizações:

# Convertendo a coluna 'Inscritos' de float para int
df['Inscritos'] = df['Inscritos'].astype(int)

# Convertendo a coluna 'Inscritos' de float para int

df['Inscritos'] = df['Inscritos'].astype(int)

É sempre uma boa prática remover ou substituir os valores Nulos ou “NaN”. Em caso de erros ao aplicar a conversão, verifique se não há valores “NaN” nos seus dados.

Se você não quer perder dados removendo linhas, outra opção é preencher os valores NaN com um valor padrão, como 0, antes de fazer a conversão. Note que a escolha do valor para preencher depende do contexto dos seus dados e da análise que você está realizando.

df['Inscritos'].fillna(0, inplace=True)
df['Inscritos'] = df['Inscritos'].astype(int)

1 2	df['Inscritos'].fillna(0, inplace=True) df['Inscritos'] = df['Inscritos'].astype(int)

Adicionando Colunas Calculadas

Digamos que queiramos adicionar uma nova coluna que mostre a relação entre o número de inscritos e a avaliação do curso:

df['Relacao_Inscritos_Avaliacao'] = df['Inscritos'] / df['Avaliacao']

1 2	df['Relacao_Inscritos_Avaliacao'] = df['Inscritos'] / df['Avaliacao']

Removendo Colunas ou Linhas

Às vezes, queremos remover colunas ou linhas do nosso DataFrame para focar em dados mais relevantes para a análise:

# Removendo a coluna 'AE' (Assistente de Ensino)
df.drop(columns='AE', inplace=True)

# Removendo a coluna 'AE' (Assistente de Ensino)

df.drop(columns='AE', inplace=True)

Renomeando Colunas em Massa

Quando decidimos padronizar nomes de colunas ou apenas queremos simplificá-los:

df.rename(columns={'Instrutor': 'Prof', 'Inscritos': 'Alunos', 'Avaliacao': 'Nota'}, inplace=True)

1 2	df.rename(columns={'Instrutor': 'Prof', 'Inscritos': 'Alunos', 'Avaliacao': 'Nota'}, inplace=True)

Reordenando Colunas

Para melhor compreensão ou apresentação, você pode querer reordenar as colunas de um DataFrame:

df = df[['ID_Curso', 'Prof', 'Alunos', 'Nota', 'Relacao_Inscritos_Avaliacao']]

1 2	df = df[['ID_Curso', 'Prof', 'Alunos', 'Nota', 'Relacao_Inscritos_Avaliacao']]

Ajustando Índices Após Alterações

Por fim, após remover ou adicionar linhas, pode ser necessário redefinir o índice do DataFrame:

df.reset_index(drop=True, inplace=True)

1 2	df.reset_index(drop=True, inplace=True)

Estas são apenas algumas das muitas operações que você pode realizar para manter, atualizar e aprimorar o seu DataFrame ‘pandas-sample-data.csv'. Ao dominar essas técnicas, você garante que seus dados estão sempre precisos, atualizados e prontos para análise, permitindo que você extraia o máximo de insights valiosos de seus conjuntos de dados.

Métodos Úteis no Pandas

O Pandas é uma poderosa biblioteca em Python dedicada à manipulação e análise de dados. Para usufruir plenamente de suas funcionalidades, é essencial familiarizar-se com uma série de métodos que simplificam e enriquecem o processo de trabalho com DataFrames. Vamos explorar estes métodos com exemplos baseados em nosso conjunto de dados ‘pandas-sample-data.csv'.

describe(): Resumo Estatístico de Alto Nível

Este método é incrivelmente útil quando você deseja uma visão geral rápida das estatísticas descritivas de um DataFrame:

resumo_estatistico = df.describe()

1 2	resumo_estatistico = df.describe()

Com resumo_estatistico, você obtém a contagem, média, desvio padrão, mínimo, percentis e máximo de todas as colunas numéricas do DataFrame.

unique(): Explorando a Diversidade de Valores

Se você estiver interessado em ver a variedade de cursos, instrutores ou assistentes de ensino, unique() é o método perfeito para isso:

valores_unicos = df['Instrutor'].unique()

1 2	valores_unicos = df['Instrutor'].unique()

valores_unicos agora contém uma lista dos instrutores sem repetições.

groupby(): Análise Agrupada por Categorias

O groupby() permite agrupar o DataFrame por uma ou mais colunas e aplicar funções de agregação:

media_por_curso = df.groupby('ID_Curso')['Avaliacao'].mean()

1 2	media_por_curso = df.groupby('ID_Curso')['Avaliacao'].mean()

media_por_curso trará a média de avaliações para cada ID de curso.

merge(): Unindo DataFrames por Informação em Comum

Imagine que você tem outro DataFrame professores_df que contém mais informações sobre os instrutores. Com merge(), você pode combinar estes DataFrames facilmente:

df_detalhado = df.merge(professores_df, on='Instrutor')

1 2	df_detalhado = df.merge(professores_df, on='Instrutor')

df_detalhado agora contém dados combinados de ambos os DataFrames com base no nome do instrutor.

pivot_table(): Tabelas Dinâmicas para Análise Multidimensional

Às vezes, você precisa reestruturar seus dados para uma análise mais complexa, o pivot_table() é essencial para isso:

tabela_dinamica = df.pivot_table(values='Inscritos', index='ID_Curso', columns='Instrutor', aggfunc='sum')

1 2	tabela_dinamica = df.pivot_table(values='Inscritos', index='ID_Curso', columns='Instrutor', aggfunc='sum')

Com tabela_dinamica, você terá uma visão dos inscritos organizada por curso e instrutor.

Maximizando o Uso dos Métodos no Pandas

Esses métodos representam apenas a superfície do que você pode alcançar com o Pandas. Quando usados em conjunto e com compreensão de suas funcionalidades, eles formam uma poderosa base para manipulação de dados e extração de insights.

Explorar métodos como describe(), unique(), groupby(), merge() e pivot_table() permite que você transforme e refine seus dados em informações valiosas com eficiência e precisão. Ao se tornar proficientes nestas técnicas, analistas e cientistas de dados estão equipados para enfrentar desafios complexos de dados e extrair conclusões significativas que impulsionam decisões informadas e estratégicas.

Este artigo é apenas o começo de sua jornada no aprendizado de machine learning com Python, mas o domínio do Pandas é um passo CRUCIAL. Pratique os conceitos aqui abordados e você estará no caminho certo para tornar-se proficiente na manipulação de dados e na implementação de modelos de machine learning poderosos e eficazes. Happy coding!

Python & Pandas: Guia Essencial para Machine Learning com Python

Importando o Pandas Para começar a aproveitar as funcionalidades do Pandas, primeiro precisamos importá-lo:

import pandas as pd

1 2	import pandas as pd

Explorando a Criação de Séries com o Pandas

As séries se aproximam das colunas de tabelas devido a características importantes:

Estrutura Unidimensional: Assim como uma coluna de uma tabela que organiza os dados verticalmente, uma série mantém seus valores alinhados em uma única dimensão linear.
Índices Associados: Cada entrada em uma série tem um rótulo único que funciona como índice, semelhante à maneira como uma linha é identificada em uma tabela.
Operações Verticais: Processos como filtragem e agregação são feitos ao longo do eixo da série, de forma equivalente ao que seria feito com colunas de uma tabela.

Para ilustrar, tomemos um conjunto de dados de idades:

import pandas as pd
idades = [25, 30, 35]
serie_idades = pd.Series(idades)
print(idades, end='\n\n')
print(serie_idades, end='\n\n')

import pandas as pd

idades = [25, 30, 35]

serie_idades = pd.Series(idades)

print(idades, end='\n\n')

print(serie_idades, end='\n\n')

Aqui, convertemos uma lista de idades em uma série no Pandas usando pd.Series(idades). Para adicionar uma camada de detalhamento, podemos nomear cada idade:

import pandas as pd
# Associando idades a nomes
serie_nome_idades = pd.Series(idades, index=['Alice', 'Bob', 'Charlie'])
print(serie_nome_idades, end='\n\n')

import pandas as pd

# Associando idades a nomes

serie_nome_idades = pd.Series(idades, index=['Alice', 'Bob', 'Charlie'])

print(serie_nome_idades, end='\n\n')

Assim, obtemos uma série nomeada que parece e age como uma coluna de uma tabela:

Alice      25
Bob        30
Charlie    35

Alice 25

Bob 30

Charlie 35

Esta representação é muito próxima daquela de uma coluna tabular onde os índices (neste caso, nomes) e os valores (idades) estão alinhados verticalmente.

Essa estrutura nos permite acessar dados de maneira intuitiva. Por exemplo, para obter a idade de Alice, fazemos:

idade_alice = serie_nome_idades['Alice']
print(idade_alice)  # Output: 25

idade_alice = serie_nome_idades['Alice']

print(idade_alice) # Output: 25

Consideremos outro exemplo, criando uma série com índices alfabéticos:

import pandas as pd
# Criando uma série com índices alfabéticos
serie = pd.Series(data=[100, 200, 300], index=['a', 'b', 'c'])

import pandas as pd

# Criando uma série com índices alfabéticos

serie = pd.Series(data=[100, 200, 300], index=['a', 'b', 'c'])

Nesta série, valores como [100, 200, 300] são acessíveis através dos índices [‘a', ‘b', ‘c'], contrastando com o acesso tradicional por números.

Séries com Diferentes Tipos de Dados

Séries do Pandas podem conter qualquer tipo de dados:

import pandas as pd
# Series com tipos de dados mistos
serie_mista = pd.Series(data=[100, 'Python', 3.14])
print(serie_mista, end='\n\n')

import pandas as pd

# Series com tipos de dados mistos

serie_mista = pd.Series(data=[100, 'Python', 3.14])

print(serie_mista, end='\n\n')

Aqui, 100 é um inteiro, 'Python' é uma string e 3.14 é um número de ponto flutuante.

Nesse caso, ao imprimir a variável teremos a saída a seguir, onde o tipo de dados resultante é um objeto e não um tipo de dados primitivo.

0       100
1    Python
2      3.14
dtype: object

0 100

1 Python

2 3.14

dtype: object

Séries a Partir de Dicionários

Também é possível criar uma Series diretamente de um dicionário de Python:

# Series de um dicionário
serie_dict = pd.Series({'a': 1, 'b': 2, 'c': 3})

# Series de um dicionário

serie_dict = pd.Series({'a': 1, 'b': 2, 'c': 3})

Os pares chave-valor do dicionário se tornam os índices e os dados da Series, respectivamente.

Operações em Series

Operações Matemáticas Básicas

Você pode realizar operações matemáticas elemento a elemento diretamente em uma série, da mesma forma que faria com números individuais:

import pandas as pd
# Criando uma série com índices alfabéticos
serie = pd.Series(data=[100, 200, 300], index=['a', 'b', 'c'])
# Duplicando os valores em uma série
serie_dobrada = serie * 2
print(serie_dobrada)

import pandas as pd

# Criando uma série com índices alfabéticos

serie = pd.Series(data=[100, 200, 300], index=['a', 'b', 'c'])

# Duplicando os valores em uma série

serie_dobrada = serie * 2

print(serie_dobrada)

As operações são vetorizadas, o que significa que são aplicadas a cada item da série sem a necessidade de um loop explícito. Isso simplifica o código e melhora o desempenho.

Métodos Estatísticos Comuns

O Pandas facilita a obtenção de medidas estatísticas comuns, como média, mediana, desvio padrão e muito mais, tudo com métodos simples e diretos:

# Calculando a média dos valores
media = serie.mean()

# Encontrando a mediana
mediana = serie.median()

# Obtendo o desvio padrão
desvio_padrao = serie.std()

# Calculando a média dos valores

media = serie.mean()

# Encontrando a mediana

mediana = serie.median()

# Obtendo o desvio padrão

desvio_padrao = serie.std()

Essas funções fornecem um resumo instantâneo da distribuição dos seus dados, o que é extremamente útil na análise exploratória de dados.

Operações de Comparação e Booleanas

Séries do Pandas também suportam operações de comparação, que são úteis para filtrar dados ou testar condições:

# Verificando valores acima da média 
valores_acima_media = serie > serie.mean() 
print(valores_acima_media,'\n\n')
# Selecionando apenas valores acima de um determinado threshold 
valores_selecionados = serie[serie > 50]
print(valores_selecionados, '\n\n')

# Verificando valores acima da média

valores_acima_media = serie > serie.mean()

print(valores_acima_media,'\n\n')

# Selecionando apenas valores acima de um determinado threshold

valores_selecionados = serie[serie > 50]

print(valores_selecionados, '\n\n')

Isso cria uma nova série de valores booleanos (True ou False), que você pode usar para indexação condicional.

Operações com Funções Universais do NumPy

A integração perfeita com o NumPy permite que você aplique suas funções universais (ufuncs) às séries do Pandas:

import numpy as np

# Aplicando logaritmo natural a cada valor
log_valores = np.log(serie)

import numpy as np

# Aplicando logaritmo natural a cada valor

log_valores = np.log(serie)

Essa operação é muito poderosa para transformações de dados, normalização e outras análises matemáticas avançadas.

Trabalhando com Valores Faltantes

Dados de Exemplo

Vamos criar uma Series que representa as temperaturas médias mensais de uma cidade ao longo de um ano, incluindo alguns valores faltantes.

import pandas as pd
import numpy as np

# Criando uma Series com temperaturas médias mensais, onde alguns meses têm valores faltantes (NaN)
temperaturas = pd.Series([25.3, np.nan, 27.5, 26.4, np.nan, 24.1, 22.5, 21.8, np.nan, 23.4, 24.8, 26.2], 
                         index=['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 
                                'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro'])

print("Series Original:")
print(temperaturas)

import pandas as pd

import numpy as np

# Criando uma Series com temperaturas médias mensais, onde alguns meses têm valores faltantes (NaN)

temperaturas = pd.Series([25.3, np.nan, 27.5, 26.4, np.nan, 24.1, 22.5, 21.8, np.nan, 23.4, 24.8, 26.2],

index=['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho',

'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro'])

print("Series Original:")

print(temperaturas)

Identificando Valores Faltantes

nulos = temperaturas.isnull()
print("\nValores Faltantes (True indica um valor faltante):")
print(nulos)

nulos = temperaturas.isnull()

print("\nValores Faltantes (True indica um valor faltante):")

print(nulos)

Preenchendo Valores Faltantes

Para preencher os valores faltantes com a média das temperaturas:

temperaturas_preenchida = temperaturas.fillna(temperaturas.mean())
print("\nSeries com Valores Faltantes Preenchidos pela Média:")
print(temperaturas_preenchida)

temperaturas_preenchida = temperaturas.fillna(temperaturas.mean())

print("\nSeries com Valores Faltantes Preenchidos pela Média:")

print(temperaturas_preenchida)

Removendo Valores Faltantes

Para remover os valores faltantes da Series:

temperaturas_sem_nulos = temperaturas.dropna()
print("\nSeries sem Valores Faltantes:")
print(temperaturas_sem_nulos)

temperaturas_sem_nulos = temperaturas.dropna()

print("\nSeries sem Valores Faltantes:")

print(temperaturas_sem_nulos)

Utilizando .apply() para Operações Customizadas

Para operações mais complexas ou personalizadas, o método .apply() é extremamente útil. Ele permite que você aplique uma função a cada item na série:

# Aplicando uma função customizada a cada elemento da série
serie_customizada = serie.apply(lambda x: x**2 if x > 50 else x + 10)
print(serie_customizada, end='\n\n')

# Aplicando uma função customizada a cada elemento da série

serie_customizada = serie.apply(lambda x: x**2 if x > 50 else x + 10)

print(serie_customizada, end='\n\n')

Essa abordagem oferece flexibilidade máxima, já que você pode definir qualquer função, seja ela embutida, customizada ou lambda, para manipular seus dados de forma precisa.

Concatenação e Operações Aritméticas entre Séries

Você também pode realizar operações aritméticas entre séries diferentes, além de concatená-las para formar uma nova série:

# Somando valores de duas séries diferentes
soma_series = serie1 + serie2

# Concatenando séries
serie_concatenada = pd.concat([serie1, serie2])

# Somando valores de duas séries diferentes

soma_series = serie1 + serie2

# Concatenando séries

serie_concatenada = pd.concat([serie1, serie2])

Conclusão das Operações em Séries

Criando DataFrame no Pandas

Para criar um DataFrame do zero, você pode simplesmente passar uma lista de listas ou um array 2D, junto com uma lista opcional de nomes de colunas:

import pandas as pd

# Criando um DataFrame simples
dataframe = pd.DataFrame(data=[[1, 'John'], [2, 'Jane']], columns=['ID', 'Nome'])

import pandas as pd

# Criando um DataFrame simples

dataframe = pd.DataFrame(data=[[1, 'John'], [2, 'Jane']], columns=['ID', 'Nome'])

Neste exemplo, criamos um DataFrame com duas colunas: ‘ID' e ‘Nome'. O DataFrame pode armazenar dados de diferentes tipos, como ilustrado aqui com números e strings.

DataFrames a Partir de Dicionários de Listas

Outra maneira comum de criar DataFrames é através de um dicionário de listas. Cada chave do dicionário se torna uma coluna no DataFrame, e a lista associada contém os dados para essa coluna:

# DataFrame a partir de um dicionário
dados = {
    'ID': [1, 2, 3],
    'Nome': ['John', 'Jane', 'Jim'],
    'Idade': [22, 33, 44]
}
df_dicionario = pd.DataFrame(dados)

# DataFrame a partir de um dicionário

dados = {

'ID': [1, 2, 3],

'Nome': ['John', 'Jane', 'Jim'],

'Idade': [22, 33, 44]

}

df_dicionario = pd.DataFrame(dados)

Esse método é bastante intuitivo e alinha-se ao conceito de que um DataFrame é uma coleção de Séries com o mesmo índice.

DataFrames com Índices Personalizados

Você pode especificar os índices das linhas, que é especialmente útil quando os índices têm significado próprio:

# DataFrame a partir de um dicionário
dados = {
    'ID': [1, 2, 3],
    'Nome': ['John', 'Jane', 'Jim'],
    'Idade': [22, 33, 44]
}
df_indices = pd.DataFrame(data=dados, index=['linha1', 'linha2','linha3'])
print(df_indices)

# DataFrame a partir de um dicionário

dados = {

'ID': [1, 2, 3],

'Nome': ['John', 'Jane', 'Jim'],

'Idade': [22, 33, 44]

}

df_indices = pd.DataFrame(data=dados, index=['linha1', 'linha2','linha3'])

print(df_indices)

Adicionando Colunas a um DataFrame Existente

Após criar um DataFrame, é possível adicionar novas colunas a ele:

# Adicionando uma nova coluna ao DataFrame
df_indices['Salário'] = [50000, 60000, 70000]
print(df_indices)

# Adicionando uma nova coluna ao DataFrame

df_indices['Salário'] = [50000, 60000, 70000]

print(df_indices)

Esta operação insere a coluna ‘Salário' no DataFrame existente df_indices.

Criando DataFrames Complexos

import pandas as pd
import numpy as np
# DataFrame complexo com vários tipos de dados
df_complexo = pd.DataFrame({
    'A': pd.Series([1, 2, 3], index=['primeiro', 'segundo', 'terceiro']),
    'B': np.linspace(0, np.pi, 3),
    'C': pd.date_range(start='20210101', periods=3, freq='D')
})
print(df_complexo)

import pandas as pd

import numpy as np

# DataFrame complexo com vários tipos de dados

df_complexo = pd.DataFrame({

'A': pd.Series([1, 2, 3], index=['primeiro', 'segundo', 'terceiro']),

'B': np.linspace(0, np.pi, 3),

'C': pd.date_range(start='20210101', periods=3, freq='D')

})

print(df_complexo)

Componentes Detalhados

Coluna ‘A'

pd.Series([1, 2, 3], index=['primeiro', 'segundo', 'terceiro']): Esta série representa a coluna ‘A' do DataFrame. Uma Series do Pandas é um array unidimensional capaz de armazenar qualquer tipo de dado (integers, strings, floats, objetos Python, etc.). A série é composta por três inteiros (1, 2, 3) e utiliza um índice personalizado (['primeiro', 'segundo', 'terceiro']), que especifica os rótulos das linhas para os valores correspondentes.

Coluna ‘B'

np.linspace(0, np.pi, 3): Esta expressão utiliza a função linspace do NumPy para gerar três valores igualmente espaçados entre 0 e π (aproximadamente 3.14159). linspace é uma função útil para gerar uma sequência de números com espaçamento uniforme entre os valores de início e fim especificados. A coluna ‘B', portanto, contém valores float que variam de 0 a π, distribuídos uniformemente.

Coluna ‘C'

pd.date_range(start='20210101', periods=3, freq='D'): Esta expressão cria uma sequência de datas usando a função date_range do Pandas. O argumento start='20210101' define a data de início da sequência como 1º de janeiro de 2021. O periods=3 especifica que a sequência deve conter três datas. O freq='D' indica que a frequência entre as datas é diária. Assim, a coluna ‘C' contém uma sequência de três datas consecutivas, começando em 1º de janeiro de 2021.

Resumo do DataFrame

Ao combinar esses componentes, o df_complexo fica estruturado da seguinte forma:

Coluna ‘A': Contém inteiros com índices personalizados.
Coluna ‘B': Contém floats representando uma sequência numérica de 0 a π.
Coluna ‘C': Contém objetos de data, especificamente três dias consecutivos a partir de 1º de janeiro de 2021.

Importância do DataFrame no Machine Learning

Usando read_csv() na Prática

Carregando um Arquivo CSV Simples

A maneira mais básica de carregar um arquivo CSV com o Pandas é passando o caminho do arquivo para a função read_csv():

import pandas as pd

# Lendo um arquivo CSV em um DataFrame
df = pd.read_csv('caminho/para/seu/arquivo.csv')

import pandas as pd

# Lendo um arquivo CSV em um DataFrame

df = pd.read_csv('caminho/para/seu/arquivo.csv')

Assim que executar este código, o Pandas lê o arquivo CSV e cria um DataFrame chamado df com os dados contidos no arquivo.

Lidando com Cabeçalhos de Colunas

Arquivos CSV geralmente contêm uma primeira linha que serve como cabeçalho, indicando o nome de cada coluna:

# Lendo um CSV com cabeçalho
df_com_cabecalho = pd.read_csv('caminho/para/seu/arquivo.csv', header=0)

# Lendo um CSV com cabeçalho

df_com_cabecalho = pd.read_csv('caminho/para/seu/arquivo.csv', header=0)

Se o arquivo CSV não tiver uma linha de cabeçalho, você pode especificar header=None e fornecer os nomes das colunas usando o parâmetro names:

# Lendo um CSV sem cabeçalho
df_sem_cabecalho = pd.read_csv('caminho/para/seu/arquivo.csv', header=None, names=['Coluna1', 'Coluna2', 'Coluna3'])

# Lendo um CSV sem cabeçalho

df_sem_cabecalho = pd.read_csv('caminho/para/seu/arquivo.csv', header=None, names=['Coluna1', 'Coluna2', 'Coluna3'])

Especificando Tipos de Dados

O Pandas é muito bom em inferir tipos de dados, mas às vezes você pode querer especificar os tipos de dados de colunas para garantir que sejam lidos corretamente:

# Especificando tipos de dados de colunas
df_tipos = pd.read_csv('caminho/para/seu/arquivo.csv', dtype={'Coluna1': int, 'Coluna2': float})

# Especificando tipos de dados de colunas

df_tipos = pd.read_csv('caminho/para/seu/arquivo.csv', dtype={'Coluna1': int, 'Coluna2': float})

Tratando Dados Faltantes

Dados faltantes são comuns em muitos conjuntos de dados e podem ser tratados durante a leitura do arquivo CSV:

# Tratando dados faltantes com o valor NaN padrão do Pandas
df_dados_faltantes = pd.read_csv('caminho/para/seu/arquivo.csv', na_values=['NA', ''])

# Tratando dados faltantes com o valor NaN padrão do Pandas

df_dados_faltantes = pd.read_csv('caminho/para/seu/arquivo.csv', na_values=['NA', ''])

Manipulando Grandes Conjuntos de Dados

Para grandes conjuntos de dados, pode ser útil ler o arquivo em pedaços. O Pandas permite que você faça isso com o parâmetro chunksize:

# Lendo um CSV em pedaços
tamanho_do_chunk = 500
chunks = pd.read_csv('caminho/para/seu/arquivo.csv', chunksize=tamanho_do_chunk)
for chunk in chunks:
    # faça algo com cada pedaço, como processamento ou análise

# Lendo um CSV em pedaços

tamanho_do_chunk = 500

chunks = pd.read_csv('caminho/para/seu/arquivo.csv', chunksize=tamanho_do_chunk)

for chunk in chunks:

# faça algo com cada pedaço, como processamento ou análise

Parâmetros Adicionais

A função read_csv() vem com vários outros parâmetros que permitem personalizar como os dados são lidos, incluindo:

usecols: para selecionar quais colunas carregar.
skiprows: para pular um número específico de linhas no início do arquivo.
nrows: para carregar um número específico de linhas.
parse_dates: para analisar colunas como datas.

Exemplo Prático de Análise Inicial

# Análise inicial
print(df.head())
print(df.describe())

# Análise inicial

print(df.head())

print(df.describe())

Exportando Dados de um DataFrame Exportar seus dados é tão simples quanto carregá-los. Para salvar seu DataFrame em um arquivo CSV, você usará:

df.to_csv('caminho/para/seu/novo_arquivo.csv')

1 2	df.to_csv('caminho/para/seu/novo_arquivo.csv')

Explorando um Pouco Mais os Dados em DataFrame

Para executar os exemplos a seguir, faça o download do arquivo de exemplo clicando aqui e importe o arquivo no seu Google Colab.

Carregando o Arquivo CSV

Começaremos carregando o arquivo pandas-sample-data.csv em um DataFrame do Pandas:

import pandas as pd
classData = pd.read_csv('pandas-sample-data.csv')
print(classData)

import pandas as pd

classData = pd.read_csv('pandas-sample-data.csv')

print(classData)

Análise Preliminar dos Dados

Com o DataFrame carregado, realizamos uma análise preliminar para entender a estrutura dos dados:

# Visualizando as primeiras 5 linhas
print(classData.head())

# Visualizando as últimas 5 linhas
print(classData.tail())

# Visualizando as primeiras 5 linhas

print(classData.head())

# Visualizando as últimas 5 linhas

print(classData.tail())

Tipos de Dados e Informações do DataFrame

Vamos verificar os tipos de dados e obter mais informações sobre o DataFrame:

# Verificando os tipos de dados
print(classData.dtypes)

# Informações sobre o DataFrame
print(classData.info())

# Verificando os tipos de dados

print(classData.dtypes)

# Informações sobre o DataFrame

print(classData.info())

Sumário Estatístico

Analisamos estatísticas descritivas que podem nos dar insights valiosos:

# Resumo estatístico das colunas numéricas
print(classData.describe())

# Resumo estatístico das colunas categóricas
print(classData.describe(include=[object]))

# Resumo estatístico das colunas numéricas

print(classData.describe())

# Resumo estatístico das colunas categóricas

print(classData.describe(include=[object]))

Contagem de Valores Únicos

Contamos valores únicos para entender a distribuição dos dados nas colunas categóricas:

# Contagem de instrutores únicos
print(classData['Instrutor'].value_counts())

# Contagem de AE únicos
print(classData['AE'].value_counts())

# Contagem de instrutores únicos

print(classData['Instrutor'].value_counts())

# Contagem de AE únicos

print(classData['AE'].value_counts())

Seleção e Filtragem

Podemos selecionar colunas específicas e filtrar linhas para análise focada:

# Seleção de colunas específicas
df_avaliacao_inscritos = classData[['Avaliacao', 'Inscritos']]
print(df_avaliacao_inscritos, end='\n\n')

# Filtragem de linhas baseada em uma condição
df_filtrado = classData[classData['Avaliacao'] >= 4.5]
print(df_filtrado, end='\n\n')

# Seleção de colunas específicas

df_avaliacao_inscritos = classData[['Avaliacao', 'Inscritos']]

print(df_avaliacao_inscritos, end='\n\n')

# Filtragem de linhas baseada em uma condição

df_filtrado = classData[classData['Avaliacao'] >= 4.5]

print(df_filtrado, end='\n\n')

Ordenando Dados

Ordenamos o DataFrame para visualizar os dados baseados em certos critérios:

# Ordenando pela avaliação de forma descendente
df_ordenado = classData.sort_values(by='Avaliacao', ascending=False)
print(df_ordenado)

# Ordenando pela avaliação de forma descendente

df_ordenado = classData.sort_values(by='Avaliacao', ascending=False)

print(df_ordenado)

Agrupando e Agregando Dados

Agregamos dados para obter métricas por grupo, como a média de inscritos por instrutor:

# Agrupando por instrutor e obtendo a média de inscritos
df_grupo_inscritos = classData.groupby('Instrutor')['Inscritos'].mean()
print(df_grupo_inscritos)

# Agrupando por instrutor e obtendo a média de inscritos

df_grupo_inscritos = classData.groupby('Instrutor')['Inscritos'].mean()

print(df_grupo_inscritos)

Trabalhando com Dados Faltantes

Identificamos e tratamos dados faltantes para melhorar a qualidade do nosso dataset:

# Identificando dados faltantes
print(classData.isnull().sum())

# Preenchendo dados faltantes
df_preenchido = classData.fillna({'Avaliacao': classData['Avaliacao'].mean()})
print(df_preenchido)

# Identificando dados faltantes

print(classData.isnull().sum())

# Preenchendo dados faltantes

df_preenchido = classData.fillna({'Avaliacao': classData['Avaliacao'].mean()})

print(df_preenchido)

Vamos analisar cada linha do código acima.

Identificando Dados Faltantes

# Identificando dados faltantes 
print(classData.isnull().sum())

1 2	# Identificando dados faltantes print(classData.isnull().sum())

Preenchendo Dados Faltantes

df_preenchido = classData.fillna({'Avaliacao': classData['Avaliacao'].mean()})

1	df_preenchido = classData.fillna({'Avaliacao': classData['Avaliacao'].mean()})

{‘Avaliacao': classData[‘Avaliacao'].mean()}: Este dicionário indica que apenas a coluna Avaliacao deve ter seus valores NaN preenchidos. O valor utilizado para o preenchimento é a média (mean()) dos valores existentes na coluna Avaliacao. Isso é uma prática comum para manter a consistência dos dados, especialmente em colunas numéricas, onde a média pode ser uma boa estimativa para valores faltantes, assumindo que os dados ausentes são aleatoriamente distribuídos.
df_preenchido: O resultado da operação de preenchimento é atribuído a uma nova variável, df_preenchido. Isso significa que classData permanece inalterado, preservando os dados originais, enquanto df_preenchido contém a versão modificada do DataFrame, onde os valores faltantes na coluna Avaliacao foram preenchidos com a média.

Plotando Dados

Visualizamos os dados para identificar tendências e padrões usando gráficos:

# Plotando a distribuição das avaliações
classData['Avaliacao'].plot(kind='hist')

1 2	# Plotando a distribuição das avaliações classData['Avaliacao'].plot(kind='hist')

Correlações

Exploramos correlações para entender como as variáveis estão relacionadas entre si:

import pandas as pd
df = pd.read_csv('pandas-sample-data.csv')
# Correlação entre número de inscritos e avaliação do curso
print(df[['Inscritos', 'Avaliacao']].corr())

import pandas as pd

df = pd.read_csv('pandas-sample-data.csv')

# Correlação entre número de inscritos e avaliação do curso

print(df[['Inscritos', 'Avaliacao']].corr())

Alterando Lables de Linhas e Colunas no DataFrame

Mudando os Rótulos das Colunas

Em nosso DataFrame, temos informações importantes que poderiam ser representadas de uma maneira mais clara. Vejamos como renomear as colunas de forma prática:

classData.rename(columns={
    'ID_Curso': 'Código_Curso', 
    'Instrutor': 'Nome_Instrutor',
    'AE': 'Assistente_Ensino',
    'Inscritos': 'Total_Inscritos',
    'Avaliacao': 'Média_Avaliação'
}, inplace=True)
print(classData)

classData.rename(columns={

'ID_Curso': 'Código_Curso',

'Instrutor': 'Nome_Instrutor',

'AE': 'Assistente_Ensino',

'Inscritos': 'Total_Inscritos',

'Avaliacao': 'Média_Avaliação'

}, inplace=True)

print(classData)

Aqui, utilizamos um dicionário para mapear os nomes antigos para os novos, e inplace=True para garantir que a mudança afete o DataFrame original.

Padronização e Limpeza dos Nomes de Colunas

Para seguir um padrão mais técnico, poderíamos querer converter todos os nomes de colunas para letras minúsculas e substituir os espaços por underscores:

classData.rename(columns=lambda x: x.lower().replace(" ", "_"), inplace=True)
print(classData)

1 2	classData.rename(columns=lambda x: x.lower().replace(" ", "_"), inplace=True) print(classData)

Renomeando as Linhas

Embora seja menos comum, às vezes pode ser necessário renomear os rótulos das linhas. Vamos supor que queremos prefixar cada índice com ‘Linha_':

classData.rename(index=lambda i: 'Linha_' + str(i), inplace=True)
print(classData)

1 2	classData.rename(index=lambda i: 'Linha_' + str(i), inplace=True) print(classData)

Renomeação Estratégica ao Carregar o CSV

Podemos também optar por renomear as colunas imediatamente após a leitura do arquivo CSV:

classData = pd.read_csv('pandas-sample-data.csv') 
classData.columns = ['Código_Curso', 'Nome_Instrutor', 'Assistente_Ensino', 'Total_Inscritos', 'Média_Avaliação']
print(classData)

classData = pd.read_csv('pandas-sample-data.csv')

classData.columns = ['Código_Curso', 'Nome_Instrutor', 'Assistente_Ensino', 'Total_Inscritos', 'Média_Avaliação']

print(classData)

Ao adotar nomes mais claros e descritivos, você melhora a compreensão e a comunicação dos dados, tornando seu trabalho mais produtivo e menos propenso a erros.

Considerações Finais

Selecionando Dados de um DataFrame

Selecionar Colunas

Se desejarmos selecionar uma única coluna do DataFrame, podemos usar o nome da coluna entre colchetes ou como um atributo do DataFrame:

import pandas as pd
classData = pd.read_csv('pandas-sample-data.csv')
# Selecionando a coluna 'Inscritos' usando colchetes
inscritos = classData['Inscritos']
print(inscritos)

# Selecionando a coluna 'Avaliacao' como um atributo
avaliacao = classData.Avaliacao
print(avaliacao)

import pandas as pd

classData = pd.read_csv('pandas-sample-data.csv')

# Selecionando a coluna 'Inscritos' usando colchetes

inscritos = classData['Inscritos']

print(inscritos)

# Selecionando a coluna 'Avaliacao' como um atributo

avaliacao = classData.Avaliacao

print(avaliacao)

Para selecionar múltiplas colunas, fornecemos uma lista de nomes de colunas entre colchetes:

import pandas as pd
classData = pd.read_csv('pandas-sample-data.csv')
# Selecionando múltiplas colunas 
df_selecionado = classData[['Instrutor', 'AE', 'Avaliacao']]
print(df_selecionado)

import pandas as pd

classData = pd.read_csv('pandas-sample-data.csv')

# Selecionando múltiplas colunas

df_selecionado = classData[['Instrutor', 'AE', 'Avaliacao']]

print(df_selecionado)

Seleção de Linhas no DataFrame

Utilizando Arrays Booleanos para Filtragem de Dados

import pandas as pd
classData = pd.read_csv('pandas-sample-data.csv')
# Criando um array booleano para cursos com Avaliacao maior que 4.7
array_booleano = classData['Avaliacao'] > 4.7
print(array_booleano,end='\n\n')

# Selecionando linhas que satisfazem a condição
cursos_top = classData[array_booleano]
print(cursos_top,end='\n\n')

import pandas as pd

classData = pd.read_csv('pandas-sample-data.csv')

# Criando um array booleano para cursos com Avaliacao maior que 4.7

array_booleano = classData['Avaliacao'] > 4.7

print(array_booleano,end='\n\n')

# Selecionando linhas que satisfazem a condição

cursos_top = classData[array_booleano]

print(cursos_top,end='\n\n')

Combinando Condições com Arrays Booleanos

Podemos combinar múltiplas condições utilizando operadores lógicos como & (e) e | (ou):

# Selecionando cursos com Avaliacao acima de 4.7 E menos de 50 Inscritos
condicao = (classData['Avaliacao'] > 4.7) & (classData['Inscritos'] < 50)
cursos_selecionados = classData[condicao]
print(cursos_selecionados, end='\n\n')

# Selecionando cursos com Avaliacao acima de 4.7 E menos de 50 Inscritos

condicao = (classData['Avaliacao'] > 4.7) & (classData['Inscritos'] < 50)

cursos_selecionados = classData[condicao]

print(cursos_selecionados, end='\n\n')

Aqui, cursos_selecionados incluirá apenas as linhas onde ambas as condições são verdadeiras.

Invertendo Condições com o Operador ~

Também é possível inverter uma condição usando o operador ~, o que é equivalente a dizer ‘não':

# Selecionando cursos que NÃO têm Avaliacao de 4.8
cursos_nao_48 = classData[~(classData['Avaliacao'] == 4.8)]

# Selecionando cursos que NÃO têm Avaliacao de 4.8

cursos_nao_48 = classData[~(classData['Avaliacao'] == 4.8)]

Com cursos_nao_48, excluímos do DataFrame as linhas que possuem Avaliação igual a 4.8.

Usando Arrays Booleanos com loc

Para uma filtragem mais avançada, podemos utilizar o array booleano com loc, que permite selecionar tanto linhas quanto colunas específicas:

import pandas as pd
classData = pd.read_csv('pandas-sample-data.csv')
# Usando 'loc' com array booleano para selecionar linhas e a coluna 'Instrutor'
instrutores_top_cursos = classData.loc[classData['Avaliacao'] > 4.7, 'Instrutor']
print(instrutores_top_cursos)

import pandas as pd

classData = pd.read_csv('pandas-sample-data.csv')

# Usando 'loc' com array booleano para selecionar linhas e a coluna 'Instrutor'

instrutores_top_cursos = classData.loc[classData['Avaliacao'] > 4.7, 'Instrutor']

print(instrutores_top_cursos)

Assim, instrutores_top_cursos contém os nomes dos instrutores cujos cursos possuem uma avaliação superior a 4.7.

Aplicando Arrays Booleanos a Análises Complexas

Selecionar Linhas e Colunas

Navegando por Linhas e Colunas no DataFrame

Combinando loc e iloc para Seleção Específica

O método loc permite selecionar com base nos rótulos das linhas e nomes das colunas, enquanto iloc trabalha com as posições numéricas (índices) de linhas e colunas.

Vamos usar loc para obter a nota de avaliação e o instrutor de um curso específico:

# Selecionando a avaliação e o instrutor do curso MT101
avaliacao_instrutor_mt101 = classData.loc[classData['ID_Curso'] == 'MT101', ['Instrutor', 'Avaliacao']]

# Selecionando a avaliação e o instrutor do curso MT101

avaliacao_instrutor_mt101 = classData.loc[classData['ID_Curso'] == 'MT101', ['Instrutor', 'Avaliacao']]

Este comando nos dá todas as linhas onde o ID do curso é ‘MT101', mas apenas as colunas ‘Instrutor' e ‘Avaliacao'.

Selecionando Intervalos com iloc

Suponha que queremos selecionar um intervalo de cursos e somente algumas de suas características, podemos utilizar iloc da seguinte maneira:

# Selecionando os primeiros 5 cursos e apenas as colunas de 'Instrutor' e 'Avaliacao'
primeiros_cursos = classData.iloc[0:5, [1, 4]]

# Selecionando os primeiros 5 cursos e apenas as colunas de 'Instrutor' e 'Avaliacao'

primeiros_cursos = classData.iloc[0:5, [1, 4]]

Lembre-se que iloc é exclusivo na parte superior do intervalo, então este comando irá buscar as linhas de índice 0 a 4.

Filtrando por Condições Complexas e Selecionando Colunas

Quando você precisa aplicar filtros mais complexos e, ao mesmo tempo, selecionar certas colunas, você pode combinar arrays booleanos com loc:

# Selecionando cursos com avaliação maior que 4.7 e as colunas 'Instrutor' e 'Avaliacao'
cursos_avaliacao_alta = classData.loc[classData['Avaliacao'] > 4.7, ['Instrutor', 'Avaliacao']]

1 2	# Selecionando cursos com avaliação maior que 4.7 e as colunas 'Instrutor' e 'Avaliacao' cursos_avaliacao_alta = classData.loc[classData['Avaliacao'] > 4.7, ['Instrutor', 'Avaliacao']]

Aqui, o resultado conterá apenas as linhas dos cursos com nota acima de 4.7, e das colunas, somente ‘Instrutor' e ‘Avaliacao' serão retornadas.

Selecionando Baseado em Múltiplos Critérios

Podemos inclusive aplicar múltiplos critérios para selecionar nossos dados:

# Selecionando cursos de 'FI' e que tenham mais de 45 inscritos
cursos_fi_45_inscritos = classData.loc[(classData['ID_Curso'].str.contains('FI')) & (classData['Inscritos'] > 45)]

1 2	# Selecionando cursos de 'FI' e que tenham mais de 45 inscritos cursos_fi_45_inscritos = classData.loc[(classData['ID_Curso'].str.contains('FI')) & (classData['Inscritos'] > 45)]

Dessa forma, somente linhas correspondentes aos cursos de Finanças (FI) com mais de 45 inscritos serão selecionadas.

Conclusão de Seleção de Dados

Atualizando o DataFrame

Atualizando Valores Individuais

Suponha que você descobriu que o número de inscritos para o curso MT102, ministrado por Luiz Costa, está incorreto. Para atualizar esse valor, utilizamos:

classData = pd.read_csv('pandas-sample-data.csv') 
classData.loc[(classData['ID_Curso'] == 'MT102') & (classData['Instrutor'] == 'Luiz Costa'), 'Inscritos'] = 59

1 2	classData = pd.read_csv('pandas-sample-data.csv') classData.loc[(classData['ID_Curso'] == 'MT102') & (classData['Instrutor'] == 'Luiz Costa'), 'Inscritos'] = 59

Imputando Valores Faltantes

Nosso DataFrame possui algumas células vazias, representando dados faltantes. Podemos decidir imputar um valor padrão ou calcular um valor baseado em outras observações:

import pandas as pd
df = pd.read_csv('pandas-sample-data.csv')
# Imputando a média de inscritos nos cursos onde falta essa informação
media_inscritos = df['Inscritos'].mean()
df['Inscritos'].fillna(value=media_inscritos, inplace=True)

import pandas as pd

df = pd.read_csv('pandas-sample-data.csv')

# Imputando a média de inscritos nos cursos onde falta essa informação

media_inscritos = df['Inscritos'].mean()

df['Inscritos'].fillna(value=media_inscritos, inplace=True)

Atualizações Baseadas em Condições

import pandas as pd
df = pd.read_csv('pandas-sample-data.csv')
df = pd.read_csv('pandas-sample-data.csv')
df.loc[df['Inscritos'] < 50, 'Avaliacao'] *= 1.1

import pandas as pd

df = pd.read_csv('pandas-sample-data.csv')

df.loc[df['Inscritos'] < 50, 'Avaliacao'] *= 1.1

Alterando o Tipo de Dados de Uma Coluna

Em algumas situações, é necessário converter o tipo de dados de uma coluna para realizar certos tipos de análises ou visualizações:

import pandas as pd
df = pd.read_csv('pandas-sample-data.csv')
# Convertendo a coluna 'Inscritos' de float para int
df['Inscritos'] = df['Inscritos'].astype(int)

import pandas as pd

df = pd.read_csv('pandas-sample-data.csv')

# Convertendo a coluna 'Inscritos' de float para int

df['Inscritos'] = df['Inscritos'].astype(int)

Adicionando Colunas Calculadas

Digamos que queiramos adicionar uma nova coluna que mostre a relação entre o número de inscritos e a avaliação do curso:

import pandas as pd
df = pd.read_csv('pandas-sample-data.csv')
df['Relacao_Inscritos_Avaliacao'] = df['Inscritos'] / df['Avaliacao']

import pandas as pd

df = pd.read_csv('pandas-sample-data.csv')

df['Relacao_Inscritos_Avaliacao'] = df['Inscritos'] / df['Avaliacao']

Removendo Colunas ou Linhas

Às vezes, queremos remover colunas ou linhas do nosso DataFrame para focar em dados mais relevantes para a análise:

import pandas as pd
df = pd.read_csv('pandas-sample-data.csv')
# Removendo a coluna 'AE' (Assistente de Ensino)
df.drop(columns='AE', inplace=True)

import pandas as pd

df = pd.read_csv('pandas-sample-data.csv')

# Removendo a coluna 'AE' (Assistente de Ensino)

df.drop(columns='AE', inplace=True)

Renomeando Colunas em Massa

Quando decidimos padronizar nomes de colunas ou apenas queremos simplificá-los:

import pandas as pd
df = read_csv('pandas-sample-data.csv')
df.rename(columns={'Instrutor': 'Prof', 'Inscritos': 'Alunos', 'Avaliacao': 'Nota'}, inplace=True)

import pandas as pd

df = read_csv('pandas-sample-data.csv')

df.rename(columns={'Instrutor': 'Prof', 'Inscritos': 'Alunos', 'Avaliacao': 'Nota'}, inplace=True)

Reordenando Colunas

Para melhor compreensão ou apresentação, você pode querer reordenar as colunas de um DataFrame:

import pandas as pd
df = read_csv('pandas-sample-data.csv')
df = df[['ID_Curso', 'Prof', 'Alunos', 'Nota', 'Relacao_Inscritos_Avaliacao']]

import pandas as pd

df = read_csv('pandas-sample-data.csv')

df = df[['ID_Curso', 'Prof', 'Alunos', 'Nota', 'Relacao_Inscritos_Avaliacao']]

Ajustando Índices Após Alterações

Por fim, após remover ou adicionar linhas, pode ser necessário redefinir o índice do DataFrame:

import pandas as pd
df = read_csv('pandas-sample-data.csv')
df.reset_index(drop=True, inplace=True)

import pandas as pd

df = read_csv('pandas-sample-data.csv')

df.reset_index(drop=True, inplace=True)

Métodos Úteis no Pandas

describe(): Resumo Estatístico de Alto Nível

Este método é incrivelmente útil quando você deseja uma visão geral rápida das estatísticas descritivas de um DataFrame:

resumo_estatistico = df.describe()

1 2	resumo_estatistico = df.describe()

Com resumo_estatistico, você obtém a contagem, média, desvio padrão, mínimo, percentis e máximo de todas as colunas numéricas do DataFrame.

unique(): Explorando a Diversidade de Valores

Se você estiver interessado em ver a variedade de cursos, instrutores ou assistentes de ensino, unique() é o método perfeito para isso:

valores_unicos = df['Instrutor'].unique()

1 2	valores_unicos = df['Instrutor'].unique()

valores_unicos agora contém uma lista dos instrutores sem repetições.

groupby(): Análise Agrupada por Categorias

O groupby() permite agrupar o DataFrame por uma ou mais colunas e aplicar funções de agregação:

media_por_curso = df.groupby('ID_Curso')['Avaliacao'].mean()

1 2	media_por_curso = df.groupby('ID_Curso')['Avaliacao'].mean()

media_por_curso trará a média de avaliações para cada ID de curso.

merge(): Unindo DataFrames por Informação em Comum

Imagine que você tem outro DataFrame professores_df que contém mais informações sobre os instrutores. Com merge(), você pode combinar estes DataFrames facilmente:

df_detalhado = df.merge(professores_df, on='Instrutor')

1 2	df_detalhado = df.merge(professores_df, on='Instrutor')

df_detalhado agora contém dados combinados de ambos os DataFrames com base no nome do instrutor.

pivot_table(): Tabelas Dinâmicas para Análise Multidimensional

Às vezes, você precisa reestruturar seus dados para uma análise mais complexa, o pivot_table() é essencial para isso:

tabela_dinamica = df.pivot_table(values='Inscritos', index='ID_Curso', columns='Instrutor', aggfunc='sum')

1 2	tabela_dinamica = df.pivot_table(values='Inscritos', index='ID_Curso', columns='Instrutor', aggfunc='sum')

Com tabela_dinamica, você terá uma visão dos inscritos organizada por curso e instrutor.

Maximizando o Uso dos Métodos no Pandas

Archives for Abril 2024

Algoritmos de Machine Learning com Python

O que é Regressão?

Regressão Linear: Conceitos fundamentais

Regressão Linear com Scikit-Learn

Regressão Polinomial: Conceitos Fundamentais

Regressão Polinomial com Scikit-Learn

Pipeline em Machine Learning

Validação Cruzada com Pipelines e Scikit-Learn Python

Introdução ao Machine Learning com Python Usando Scikit-Learn

O que é Scikit-Learn

Aprenda Machine Learning em 5 Dias. Curso 100% Prático. Melhor Preço por Tempo Limitado. Clique Aqui e Teste Sem Risco. 30 Dias de Satisfação Garantida!

Estrutura Organizacional do Scikit-Learn: Classes, Métodos e Atributos

Classes: O Coração dos Modelos de Machine Learning

Métodos: As Ações dos Objetos

Atributos: As Características dos Objetos

Exemplo de Uso de Classe, Método e Atributo

Estimators, Transformers e Predictors: Pilares do Scikit-Learn

Estimators: O Fundamento do Modelo

Transformers: Preparando os Dados

Predictors: Fazendo Previsões

Pre-processamento de Dados com Scikit-Learn: Técnicas Essenciais e Exemplos Práticos

Criação do Conjunto de Dados de Exemplo

Tratando Dados Faltantes (Handling Missing Data)

Convertendo Dados Categóricos em Números (Encoding Categorical Data)

Escalonamento de Características (Feature Scaling)

Introdução aos Pipelines: Simplificando o Processo de Machine Learning

O Exemplo Prático de um DataFrame

Simplificação com Pipeline

Vantagens do Pipeline

ColumnTransformer

Entendendo o ColumnTransformer

Demonstração com um DataFrame Existente

Diferenças Chave entre Pipeline e ColumnTransformer

Aplicação do ColumnTransformer

Conclusão

Avaliação de Modelos com Scikit-Learn: Métricas para Classificação e Regressão

Métricas de Classificação

Exemplificando a Utilização da accuracy_score() no Cálculo da Acurácia

Preparando os Dados de Exemplo

Cálculo da Acurácia

Interpretação da Acurácia

Conclusão

Precisão e Recall

Precisão (Precision)

Recall (Sensibilidade)

Cálculo de Precisão e Recall

Interpretação das Métricas

Balanceamento entre Precisão e Recall

Aplicando a F1-Score para Avaliação Equilibrada de Modelos de Classificação

Cálculo da F1-Score

Quando Utilizar a F1-Score

Conclusão

Métricas de Regressão

Erro Quadrático Médio (MSE)

Interpretação do RMSE

Coeficiente de Determinação (R² Score)

Interpretação e Uso Prático

Conclusão

Métricas Adicionais

Importância de Métricas Apropriadas

Modelos de Seleção com Scikit-Learn

Train Test Split

Kfold Cross-Validation

Interpretação e Seleção do Método

Introdução ao Matplotlib

Configuração Inicial no Google Colab

Aprenda Machine Learning em 5 Dias. Curso 100% Prático. Melhor Preço por Tempo Limitado. Clique Aqui e Teste Sem Risco. 30 Dias de Satisfação Garantida!

Primeiros Passos com Matplotlib

Plotagem de um Gráfico de Dispersão (Scatter Plot)

Criação de um Gráfico de Barras (Bar Chart)

Elaboração de um Histograma (Histogram)

Desenho de um Gráfico de Linhas (Line Graph)

Integração com Pandas para Visualização de Dados

Design de Gráficos

Python & Pandas: Guia Essencial para Machine Learning com Python

Dados de Exemplo

Identificando Valores Faltantes

Componentes Detalhados

Coluna ‘A'

Aprenda Machine Learning em 5 Dias. Curso 100% Prático.
Melhor Preço por Tempo Limitado. Clique Aqui e Teste Sem Risco.
30 Dias de Satisfação Garantida!

Exemplificando a Utilização da `accuracy_score()` no Cálculo da Acurácia

Aprenda Machine Learning em 5 Dias. Curso 100% Prático.
Melhor Preço por Tempo Limitado. Clique Aqui e Teste Sem Risco.
30 Dias de Satisfação Garantida!