Высокотехнологичные компании при обучении искусственного интеллекта применяют сомнительные или прямо запрещенные приемы — к примеру, используют биометрические данные детей без согласия их родителей. «Эксперт» познакомился с докладом организации HRW и выяснил, почему развитие ИИ вступает в конфликт с неприкосновенностью личной жизни людей, сообщает expert.ru.
Фото: Freepik
Их затягивают в сети
Разработчики ИИ рутинно используют фотографии несовершеннолетних при обучении его алгоритмов (ИИ должен понимать, как выглядят люди разных возрастов, чтобы уметь их воспроизводить). Свыше 360 изображений детей начиная с трехлетнего возраста, были обнаружены в одной только базе данных германской компании LAION-5B, выяснила Human Rights Watch (HRW).
В этом не было бы особой проблемы, если бы не один нюанс. По данным расследователей, фотоснимки детей были скачаны из открытых источников в интернете, в частности, в виде скриншотов из роликов в YouTube. Ни дети, ни их родители или опекуны не давали согласия на использование этих фотографий с целью обучения генеративных алгоритмов. Это само по себе нарушает законы ряда стран о неприкосновенности личных данных граждан, а когда речь идет о малолетних, то противоречит и морально-этическим нормам.
Правозащитники обратили особое внимание на то, что на большинстве снимков, о которых идет речь, изображены дети австралийских аборигенов и индейцев Амазонии. Похоже, создатели LAION рассчитывали, что представители этих племен не настолько продвинутые пользователи интернета, чтобы поднимать скандалы из-за своих фотографий.
LAION (акроним от Large-scale Artificial Intelligence Open Network — крупномасштабная открытая сеть искусственного интеллекта) — некоммерческая организация, зарегистрированная в Германии в 2021 г. Она создает и администрирует базы данных фото- и видеоизображений с открытым программным кодом, используемых при обучении алгоритмов ИИ. Ее коды используются в таких известных генеративных моделях как Stable Diffusion и Imagen. В 2023 г. компания выпустила собственный чатбот Open Assistant — также с открытым программным кодом.
Другим тревожным звонком стало открытие, что фотографии детей в базе данных содержат ссылки, позволяющие узнать их имена, место жительства, возраст, учебное заведение и прочие персональные данные. Особенность базы данных LAION заключается в том, что ее датасет не содержит изображений как таковых — он состоит из их URL (указатель местонахождения ресурса в Сети этих фотографий). Используя такие ссылки, сотрудница HRW в одном случае проследила ребенка из базы LAION-5B вплоть до его детского сада в австралийском городе Перт.
Подобные данные в руках злоумышленников могут представлять риски для безопасности малолетних, предупреждают в HRW.
Человечество действительно стоит перед перспективой своими руками создать себе Большого Брата, который будет знать всё обо всех без ведома самих людей, сказал «Эксперту» доцент Национального исследовательского университета ИТМО Александр Кугаевских.
«Принципиально в этом нет чего-то нового, потому что в разрозненном виде давно предпринимаются усилия переложить работу по OSINT (сбор данных по открытым источникам) на компьютерные программы. Просто алгоритмы ИИ выводят эту работу на более высокий уровень быстродействия и точности, когда по одной фотографии человека машина в доли секунды компилирует воедино все его личные данные — чуть ли не до генетического уровня», — говорит он.
Все остается в интернете
Эксперты указывают, что причиненный LAION вред невозможно исправить по сугубо технологическим причинам: даже если администраторы базы данных удалят из нее спорные фотографии (а после публикации доклада HRW они уже этим занимаются), алгоритмы ИИ все равно уже запомнили эти данные и неизбежно будут использовать их при генерации соответствующих запросов.
Учитывая, что LAION-5B содержит 5,85 млрд изображений, полученных с 2014 г., в HRW уверены, что обнаруженные ими в случайной выборке из 5000 файлов три с половиной сотни детских фотографий — это только вершина айсберга. Их опасения подтверждаются расследованием, проведенным в декабре 2023 г. компанией Stanford Internet Observatory — оно обнаружило в продукции нейросетей свыше 3200 фотографий и видео, содержащих признаки насилия над детьми (в том числе в плане половой неприкосновенности).
Правозащитники и эксперты опасаются, что наличие в датасете детских имиджей может быть использовано для создания так называемых deepfakes — сгенерированных изображений, содержащих подлинные лица.
Проблема LAION состоит не только в том, что компания собирала личные данные детей без их и их родителей ведома. Неизвестно, насколько собранные ею данные защищены от похищения злоумышленниками, говорит Александр Кугаевских.
«Уже не раз хакеры проводили атаки и на большие языковые модели, и на генеративные модели с задачей вернуть исходную фотографию человека, на базе которой ИИ создавал свой „креатив“, сняв с нее все позднейшие наслоения. Исходник, конечно, вряд ли получится восстановить в точности, но воссоздать оригинал до степени узнаваемости человека можно вполне. А этого качества более чем достаточно, чтобы сгенерировать какой-нибудь дипфейк», — подчеркивает он.
Чаще всего deepfakes используются для генерации изображений сексуального характера — и если для них будут использованы лица детей, это прямо подпадает под уголовную ответственность за распространение детской порнографии. HRW не уточняет, как может быть разделена ответственность между непосредственным создателем таких материалов и сервисом, давшим педофилам техническую возможность это сделать, но упоминает, что работу LAION финансируют такие компании, как Doodlebot, Hugging Face и Stability AI.
Это не только гипотетическая возможность: только в июне было зафиксировано около полусотни инцидентов, когда школьницы обнаруживали в Сети изображения своих лиц, смонтированные с фигурами обнаженных моделей (речь идет только об инцидентах, получивших огласку; в реальности же число таких случаев может быть многократно больше).
Ранее собственное расследование «кухни» LAION провела баварская телерадиокомпания Bayerischer Rundfunk. Ее журналисты также установили, что база данных немецкого разработчика содержит огромное количество персональных данных, запрещенных к публичному распространению и использованию.
Реальность такова, что обучение алгоритмов ИИ несет в себе «встроенный» риск утечки персональных данных, и с этим риском приходится смириться, говорит Кугаевских.
«Пока можно успокоить себя — чтобы Большой Брат в его новом облике стал реальностью, предстоит собрать еще колоссальный объем данных. Хорошая новость в том, что все равно эта мозаичная картина должна быть первоначально создана людьми — ИИ пока не способен самостоятельно выстраивать взаимосвязи между разрозненными данными без подсказки. Но это только вопрос времени, потому что чисто технологически в этом нет ничего невозможного», — прогнозирует эксперт.
Попутно правозащитники усомнились и в надежности защиты данных в том же YouTube. Упомянутое видео австралийского школьника было защищено в этом сервисе настройками приватности, что никак не воспрепятствовало его появлению в «тренировочной базе» LAION.
Автор Игорь Серебряный
Источник expert.ru