Para comparar o desempenho de diferentes modelos, usamos métricas de avaliação, como
- Precisão: A porcentagem de previsões totais que estavam corretas. A precisão é mais alta quando as classes são equilibradas.
- Precisão: De todos os e -mails, o modelo rotulado como uma determinada categoria, a porcentagem que estava correta.
- Lembrar: De todos os e -mails que realmente pertencem a uma categoria, a porcentagem que o modelo identificou corretamente.
- F1-score: A média harmônica de precisão e recall. F1 fornece uma medida equilibrada de desempenho, quando você se preocupa com falsos positivos e falsos negativos.
- Apoiar: Indica quantas amostras reais havia para cada classe. O suporte é útil para entender a distribuição da classe.
Etapa 4: teste o modelo de classificação e avalie o desempenho
A listagem de código abaixo combina várias etapas – pré -processando os dados do teste, prevendo os valores de destino dos dados de teste e avaliando o desempenho do modelo, plotando a matriz de confusão e a precisão da computação, a precisão e a recuperação. A matriz de confusão compara as previsões do modelo com os rótulos reais. O relatório de classificação resume as métricas de avaliação para cada classe.
#Reading Test Data
test_df = pd.read_csv(test_Data.txt',delimiter=";",names=('text','label'))
# Applying same transformation as on Train Data
X_test,y_test = test_df.text,test_df.label
#pre-processing of text
test_corpus = text_transformation(X_test)
#convert text data into vectors
testdata = cv.transform(test_corpus)
#predict the target
predictions = clf.predict(testdata)
#evaluating model performance parameters
mlp.rcParams('figure.figsize') = 10,5
plot_confusion_matrix(y_test,predictions)
print('Accuracy_score: ', accuracy_score(y_test,predictions))
print('Precision_score: ', precision_score(y_test,predictions,average="micro"))
print('Recall_score: ', recall_score(y_test,predictions,average="micro"))
print(classification_report(y_test,predictions))
Saída –
Idg

Idg
Embora os limiares aceitáveis variem dependendo do caso de uso, uma pontuação F1-média acima de 0,80 é geralmente considerada boa para a classificação de texto de várias classes. A pontuação F1 do modelo de 0,8409 indica que o modelo está executando de maneira confiável nas seis categorias de email.