С чего начать: подборка курсов по компьютерному зрению

25 ноября 2017, 11:30

Предположим, у вас есть идея научить бездушный ноутбук узнавать вашего кота. Или наводить смартфон на игроков чемпионата по баскетболу, чтобы приложение подсказывало вам их имена, годы рождения, процент попаданий и годовую зарплату. Всё это — это поводы углубиться в изучение машинного зрения.

Читать далее

Иллюстрация: iamWire

Краткий ликбез

Компьютерное (машинное) зрение — это набор технологий, методов и алгоритмов, целью которых является «научить бездушный компьютер обозревать окружающую действительность с некоторой долей оразумения».

Сегодня процесс машинного зрения реализуется через «фильтрацию» изображений на необходимый ряд признаков и обработку результатов этой фильтрации. Поэтому, прежде чем начинать разговор об излюбленных нейросетях и машинном обучении, важно понять, что основа компьютерного зрения — это именно обработка изображений. Таким образом, единственный способ позволить компьютеру «увидеть» нашу реальность — дать ему ряд нужных признаков и попросить найти их на изображении.

К примеру, есть задача научить ваш MacBook узнавать кота в видеочате в скайпе. Для начала нужно «рассказать» машине об основных признаках кота. Затем — показывать фото котов: белых, серых, маленьких, больших, размытых, четких, в светлой комнате, темной. Чем больше разных котов увидит машина, тем лучше она адаптируется и с большей вероятностью начнёт узнавать кота в разных условиях. Такая методика называется глубинным обучением, оно же и является основной сложностью сегодня, потому что исследователь всегда остаётся ограничен базой изображений.

Затем можно отправиться в полевые условия и начать видеочат с котом. Компьютер захватывает сцену реального мира из видеопотока, сканирует её на наличие признаков кота, и, найдя их, сигнализирует об этом.

Исследователи пытаются найти совершенно иные подходы к компьютерному зрению, однако анализ изображения и машинное обучение — пока единственный способ «увидеть» нас для компьютера. 

С чего начать обучение?

ВАРИАНТ 1: Онлайн-курсы. Платные и бесплатные

  1.  Introduction to Computer Vision, Udacity (бесплатно).
    Четырёхмесячный курс о классической теории компьютерного зрения. Визуальная система человека и работа с изображением: обработка, освещение, движение, классификация и распознавание;
  2. Computer Vision, Center For Research in Computer Vision (бесплатно).
    Курс из 20 лекций по 45-90 минут. Академично и глубоко рассматриваются фундаментальные матрицы изображений, оптический поток, масштабно-инвариантное преобразование признаков, различные алгоритмы и методы работы с изображением;
  3. Введение в компьютерное зрение, Лекториум (бесплатно).
    В курсе рассматривают как базовые понятия компьютерного зрения, так и ряд современных алгоритмов, позволяющих решать практические задачи. Отдельно отмечают связь методов компьютерного зрения с обработкой зрительной информации в мозгу человека;
  4. Deep Learning in Computer Vision, Coursera (бесплатно).
    Этот пятый курс из семи в специализации «Машинное обучение». Речь пойдет о распознавании изображений и видео, включая классификацию, поиск изображений, методы обнаружения объектов, отслеживание объектов в видео, распознавание человеческих действий и, наконец, редактирование и создание новых изображений;
  5. Computer Vision Courses, Udemy (платно, от 10$).
    Ряд платных курсов, среди которых можно найти и изучить основы машинного обучения, наиболее известнын готовые библиотеки и технологии для работы с CV.

Часть онлайн-курсов посвящена работе с OpenCV — одной из популярных библиотек с открытым кодом, которая предоставляет набор типов данных и алгоритмов для обработки изображений:

Иллюстрация: xerox

ВАРИАНТ 2: Читать книги

Хотя компьютерное зрение — область, которую невозможно объять без реального программирования, подковаться теоретически тоже будет полезно. Для этого стоит обратить внимание на следущие издания:

  1. Richard Szeliski, Computer Vision: Algorithms and Applications;
  2. Simon J. D. Prince, Computer Vision: Models, Learning, and Inference;
  3. Hairong Qi, Wesley E. Snyder Fundamentals of Computer Vision.

ВАРИАНТ 3: Работа

Можно старым «дедовским способом» найти работу с подходящим проектом, и узнавать, учиться и экспериментировать непосредственно в процессе.

Будущее компьютерного зрения

Исследователи прогнозируют использование компьютерного зрения в будущем практически во всех областях жизни человека: робототехника, биометрика, медицина, индустрия развлечений. По прогнозам Microsoft, к 2027 году появятся решения, способные не просто записывать изображение окружающего мира, а действительно «видеть» его, помогать в работе и в повседневной жизни людям самых разных сфер деятельности.

Обсуждение