A avaliação de algoritmos de Aprendizado supervisionado consiste em testar o modelo obtido através de um algoritmo utilizando exemplos cujo resultado esperado já é conhecido.

O primeiro passo para a avaliação é fazer uma amostragem do conjunto de dados inicial, dividindo o conjunto em um conjunto de treinamento e um conjunto de teste. Dessa forma, é possível testar o modelo utilizando dados que não foram utilizados no treinamento, tornando a avaliação mais confiável. Os principais métodos de amostragem são:

  • Resubstituição: o modelo é treinado e testado com o mesmo conjunto de dados
  • Holdout: o conjunto de dados original é divido em uma porcentagem fixa de exemplos para treinamento e teste
  • Cross-validation: o conjunto de dados com exemplos é dividido aleatoriamente em partições de tamanho , sendo que uma das partições é utilizada para teste, enquanto as outras são utilizadas para treinamento. O treinamento é repetido vezes, cada vez com uma partição de teste diferente. Nesse método o erro é dado pela média dos erros de cada um dos treinamentos

Feita a amostragem dos conjuntos de treinamento e teste, é necessário avaliar o modelo gerado verificando as predições feitas para os dados do conjunto de teste. Uma ferramenta fundamental para a avaliação das predições é a matriz de confusão, que relaciona os resultados esperados com os resultados de fato produzidos pelo modelo quando aplicado ao conjunto de dados de teste.

Com base na matriz de confusão, é possível classificar os resultados em tipos:

  • True positive (TP): a classe predita é positiva e a classe esperada também.
  • False positive (FP) (erro tipo ): a classe predita é positiva mas a classe esperada era negativa.
  • True negative (TN): a classe predita é negativa e a classe esperada também.
  • False negative (FN) (erro tipo ): a classe predita é negativa mas a classe esperada era positiva.

Vale notar que a matriz de confusão pode ser facilmente estendida para problemas nos quais há muitas classes possíveis.

Com os resultados verificados na matriz de confusão, é possível derivar métricas de avaliação que nos permitem determinar com maior precisão a qualidade dos resultados produzidos pelo modelo.

  • A acurácia representa a frequência com a qual o classificador previu corretamente a classe:
  • A precisão representa a proporção de acertos do modelo para uma determinada classe:
  • A revocação (recall) representa a proporção de exemplos classificados em uma classe com relação ao total de exemplos daquela classe: .
  • O F-score combina as medidas de precisão e revocação, obtendo um resultado mais completo que descreve o quão bom é o classificador: .