Micro F1 Score

The Micro F1 Score is an evaluation metric used primarily in multi-class and multi-label classification tasks. Unlike Macro F1 Score, it calculates global counts of true positives, false positives, and false negatives across all classes, then uses these to compute a single Precision, Recall, and F1 Score.

It is most useful when the dataset is imbalanced and you care more about overall performance than per-class fairness.

Definition

Micro F1 = 2 \cdot \frac{Micro Precision \cdot Micro Recall}{Micro Precision + Micro Recall}

Where:

Micro Precision = \frac{\sum T P}{\sum T P + \sum F P}

Micro Recall = \frac{\sum T P}{\sum T P + \sum F N}

Instead of averaging individual class scores, Micro F1 aggregates global totals of:

True Positives (TP)
False Positives (FP)
False Negatives (FN)

Step-by-Step Example

Suppose a 3-class classification problem with:

Class A: TP=50, FP=10, FN=5
Class B: TP=30, FP=15, FN=10
Class C: TP=20, FP=5, FN=15

Global totals:

TP = 50 + 30 + 20 = 100
FP = 10 + 15 + 5 = 30
FN = 5 + 10 + 15 = 30

Micro Precision = \frac{100}{100 + 30} = \frac{100}{130} \approx 0.769

Micro Recall = \frac{100}{100 + 30} = \frac{100}{130} \approx 0.769

Micro F1 = 2 \cdot \frac{0.769 \cdot 0.769}{0.769 + 0.769} = 0.769

Micro Precision and Recall are equal, so Micro F1 equals them.

Micro vs Macro vs Weighted F1

Metric	How It Works	Best For
Micro F1	Global average across all classes (TP, FP, FN summed first)	Imbalanced data where you care about overall performance
Macro F1	Average of F1 scores per class (unweighted)	Equal importance for each class
Weighted F1	Average of F1 scores per class (weighted by class size)	Imbalanced data, focus on majority classes

Use Cases

Multi-label text classification
Image tagging tasks
Medical diagnosis systems with multiple labels
Imbalanced datasets with focus on global accuracy

Limitations

May **hide poor performance** on minority classes
Doesn't reflect per-class fairness

Related Pages

SEO Keywords

micro f1 score, f1 score for multi-class classification, machine learning evaluation metrics, micro average f1, macro vs micro f1, multi-label classification f1 score, f1 score imbalance