IBM без разрешения использовала фото Flickr для алгоритмов распознавания лиц

13 марта 2019, 16:24
IBM без разрешения использовала фото Flickr для алгоритмов распознавания лиц

IBM использовала около миллиона фотографий Flickr для тренировки алгоритмов распознавания лиц, а также передавала фото со сторонними исследователями, пишет The Verge со ссылкой на NBC.

Как отмечают издания, люди, изображённые на фото, не давали согласия на их использование для систем распознавания лиц, которые впоследствии могут применяться для видеонаблюдения за ними же. И хотя они позволяли их авторам фото снимать себя, они не имели понятия, что в дальнейшем эти фото будут аннотировать и применять для обучения алгоритмов.

Сбором фотографий занималась не сама IBM — они являются частью более крупного датасета из 99,2 млн изображений YFCC100M, который для исследований собирала Yahoo, ранее владевшая Flickr. Все фото распространялись по лицензии Creative Commons, разрешающей их свободное использование с некоторыми ограничениями.

Фотографии, к примеру, могли использоваться для обучения алгоритмов различать людей по расе — ранее The Verge сообщал о разработке IBM для распознавания людей по возрасту и цвету кожи на видео. Компания «профилирование» по расе отрицала, но вместе с тем утверждает, что подобные датасеты позволяют повысить качество систем распознавания, которые сейчас показывают неодинаковые результаты на фото людей с различным цветом кожи.

В любом случае, обычный человек не сможет узнать, включены ли фотографии с ним в датасет IBM, и потребовать удалить их. Компания делится датасетом только для целей научных или корпоративных исследований: она заявила, что очень серьёзно подходит к конфиденциальности, а датасет передаётся только проверенным исследователям и включает только изображения, находящиеся в свободном доступе.

NBC получила его через сторонний источник и создала инструмент (он размещён прямо в статье), с помощью которого фотографы могут проверить наличие их логинов Flickr в базе IBM. Компания же предлагает людям присылать URL фотографий, которые они хотели бы удалить из датасета — будь то сделанные ими или те, на которых они изображены, — и обещает удалить их.

Обсуждение