Tldr
Посмотрите приложение здесь.
Увеличение изображения — это распространенная техника, используемая при обучении моделей компьютерного зрения для создания искусственных учебных данных путем преобразования реальных учебных данных, например, случайных поворотов и сдвигов.

Однако такие дополнения часто могут быть источником тонких ошибок. Например, вот типичный конвейер преобразования PyTorch:
from torchvision import transforms
transform = transforms.Compose([
transforms.RandomAffine(degrees=360, translate=(0.64, 0.98), scale=(0.81, 2.85), shear=(0.1, 0.5), fill=0, interpolation=InterpolationMode.NEAREST),
transforms.ColorJitter(brightness=0.62, contrast=0.3, saturation=0.44, hue=0.24),
transforms.RandomVerticalFlip(p=0.45)
])
Вы видите, что здесь явно что-то не так?
Что ж, давайте посмотрим, что произойдет, когда мы действительно попытаемся применить эти преобразования к нашей кошке.

Как видите, преобразования не были настроены должным образом, и в результате значительное количество изображений оказались совершенно неузнаваемыми. Если мы обучим модель на этом расширенном наборе данных, она больше не сможет узнать, как выглядит кошка.
Подобные ошибки сложны тем, что при их обнаружении не возникает никаких ошибок. Вместо этого результатом будет то, что модель будет работать не так хорошо на не дополненном тестовом наборе данных, как могла бы.
Представляем визуализатор преобразований PyTorch
Вы можете использовать этот инструмент для разработки и проверки правильности ваших преобразований на реальных изображениях, прежде чем использовать их в сценарии обучения. Он поддерживает все преобразования, предоставляемые в пакете torchvision.transforms
.
Проверьте его здесь!