Визуализатор для преобразований изображений PyTorch


Tldr

Посмотрите приложение здесь.

Увеличение изображения — это распространенная техника, используемая при обучении моделей компьютерного зрения для создания искусственных учебных данных путем преобразования реальных учебных данных, например, случайных поворотов и сдвигов.

Мы создали 4 новых изображения кошек!

Однако такие дополнения часто могут быть источником тонких ошибок. Например, вот типичный конвейер преобразования PyTorch:

from torchvision import transforms

transform = transforms.Compose([
    transforms.RandomAffine(degrees=360, translate=(0.64, 0.98), scale=(0.81, 2.85), shear=(0.1, 0.5), fill=0, interpolation=InterpolationMode.NEAREST),
    transforms.ColorJitter(brightness=0.62, contrast=0.3, saturation=0.44, hue=0.24),
    transforms.RandomVerticalFlip(p=0.45)
])
Вход в полноэкранный режим Выход из полноэкранного режима

Вы видите, что здесь явно что-то не так?

Что ж, давайте посмотрим, что произойдет, когда мы действительно попытаемся применить эти преобразования к нашей кошке.

Половина из них даже не похожа на кошку!

Как видите, преобразования не были настроены должным образом, и в результате значительное количество изображений оказались совершенно неузнаваемыми. Если мы обучим модель на этом расширенном наборе данных, она больше не сможет узнать, как выглядит кошка.

Подобные ошибки сложны тем, что при их обнаружении не возникает никаких ошибок. Вместо этого результатом будет то, что модель будет работать не так хорошо на не дополненном тестовом наборе данных, как могла бы.

Представляем визуализатор преобразований PyTorch

Вы можете использовать этот инструмент для разработки и проверки правильности ваших преобразований на реальных изображениях, прежде чем использовать их в сценарии обучения. Он поддерживает все преобразования, предоставляемые в пакете torchvision.transforms.

Проверьте его здесь!

Оцените статью
Procodings.ru
Добавить комментарий