Большая языковая модель для личного использования.
Фото: Freepik
Искусственный интеллект (ИИ) может самостоятельно отдавать хакерам данные, которые ему передают пользователи, а базы данных наиболее популярных чат-ботов часто оказываются приоритетной целью для атак. Недавняя утечка из китайской DeepSeek-AI позволяла любому человеку просматривать данные всех, кто общался с этими моделями, через браузер. Тем не менее безопасное взаимодействие с ИИ возможно. Специалисты, опрошенные редакцией, считают, что запуск больших языковых моделей (LLM) на собственном компьютере поможет избежать потери чувствительных данных. При этом низкая ресурсоемкость DeepSeek позволит запускать их даже тем, кто не имеет доступа к большим вычислительным ресурсам,сообщает expert.ru.
Неуникальный случай
На фоне крупной хакерской атаки на сервера DeepSeek, которая проходила с 28 января по 1 февраля, команда исследователей Wiz обнаружила критическую уязвимость, которая позволяла получить открытый доступ к базам данных компании. Специалисты запустили несколько простых алгоритмов, которые выявляли все веб-ссылки, связанные с DeepSeek. В открытом доступе оказались данные о пользователях, пароли, истории чатов. Перейти на них можно было без регистрации, а «вытащить» данные через веб-интерфейс позволял обычный запрос на SQL (язык программирования для работы с базами данных).
Утечка DeepSeek — неуникальный случай. Любое онлайн-приложение, позволяющее общаться с ИИ, подразумевает, что в руках разработчиков могут оказаться данные, которые предоставляет пользователь. Они «оседают» в корпоративных базах и, возможно, используются при обучении моделей. Даже если сама база останется нетронутой, информацию в ней может «знать» LLM, и существуют возможности «вытащить» ее через специальные запросы. По оценкам исследователей Cisco и Пенсильванского университета, DeepSeek свободно предоставляет любую, даже запрещенную, информацию через свой чат-интерфейс, а внутренние механизмы защиты работают только в двух из трех случаев для флагманских моделей Claude 3.5 и o1-Preview.
Обезопасить данные при общении с ИИ можно за счет локального запуска моделей. В таком случае данные, которые пользователи передают чат-боту, не направляются разработчикам через веб-интерфейс.
Для локального запуска DeepSeek остается весьма перспективным за счет весьма низкой потребности в ресурсах. Полноценную версию R1, имеющую 671 млрд параметров, возможно запустить на серверном оборудовании стоимостью всего $2000, сообщает ресурс Digital Spaceport. Можно запустить модель и на персональном компьютере. Помимо основного и самого тяжеловесного варианта на 671 млрд параметров, модель R1 также представлена в версиях от 1,5 до 70 млрд параметров. Наиболее легкая из них — 1,5 млрд — может быть запущена на устройстве с объемом видеопамяти (VRAM) всего 4 Гб. Например, этому требованию соответствует Macbook Air 2020 г. от Apple с графической картой M1, дающей около 5 Гб VRAM. Также эту версию модели можно будет запустить на устройствах с видеокартами серии Nvidia GeForce 20 2018 г. — самая слабая и дешевая из них даст 6 Гб VRAM.
Для запуска потребуется установка приложения Ollama, после этого через командную строку ввести необходимую версию из списка доступных (например, «ollama run deepseek-r1:1.5b» — без кавычек). Далее чат-ботом можно пользоваться неограниченно через системный терминал. Чтобы придать Ollama привычный визуальный интерфейс чат-бота, можно также установить приложение Chatbox AI.
Утечка пользовательских данных в моделях DeepSeek не является уникальной, считает руководитель группы исследований и разработки технологий машинного обучения «Лаборатории Касперского» Владислав Тушканов. Почти два года назад произошел инцидент, связанный с ошибкой в решении с открытым исходным кодом, которое использовали в OpenAI: в результате некоторые пользователи могли видеть переписки других людей в ChatGPT, напоминает он. Также в прошлом специалисты «Лаборатории Касперского» обнаружили на теневых и других специализированных площадках объявления с продажей логинов и паролей от аккаунтов в ИИ-сервисах. Если такие учетные данные попадут в руки злоумышленников, они смогут получить доступ к перепискам пользователей в чат-ботах.
Как ИИ сливает данные
В случае с DeepSeek некоторые сведения могли оказаться доступны неопределенному кругу лиц предположительно из-за ошибки в конфигурации базы данных. Исследователи Wiz сообщили об этом DeepSeek, после чего разработчик устранил уязвимость, рассказал Владислав Тушканов.
DeepSeek может использовать данные, которые ранее уже были загружены в систему, для обучения нейросетей нового образца, добавляет директор продуктового направления компании «КомьюнитиТех» (Community tech) Игорь Горячев. Это означает, что конфиденциальная информация может попасть в процесс обучения и в итоге стать доступной для всех, кто использует нейросеть, поясняет он. В этом случае и хакерских атак не требуется — такие данные уже будут доступны напрямую в модели, уточняет он.
Крайне маловероятно, что после обучения модели на пользовательских данных их можно будет извлечь напрямую, но такая вероятность всё же есть, отмечает при этом руководитель группы специальных проектов ML департамента Positive Technologies Алексей Пехтерев.
Как заткнуть слив
Локальный запуск вполне рабочий вариант, уверен руководитель продуктового направления Data Science ИИ-платформы Hybrid Илья Лысенко. Если модель работает прямо на пользовательском компьютере, данные никуда не уходят и шансы на утечку резко падают, поясняет он. Но стоит иметь в виду, что интерфейсы для работы с моделями тоже могут передавать данные в сеть. Их можно запускать, но только если есть уверенность в поставщике.
В корпоративной среде важно учитывать, что даже известные и надежные инструменты вроде LM Studio или Ollama тоже могут содержать уязвимости, указывает Тушканов. Так, в Ollama в декабре 2024 г. была обнаружена уязвимость, приводящая к потенциальному произвольному запуску кода, то есть такого, который пользователь не создавал. Кроме того, сами LLM могут содержать заложенные вредоносные скрипты, поэтому необходимо следовать практикам безопасного использования открытого программного обеспечения.
LM Studio идеально подходит для небольших компаний, желающих протестировать работу различных LLM или реализовать локальные задачи без существенных требований по интеграции в существующую корпоративную IT-инфраструктуру, указывает руководитель направления по развитию бизнеса ИИ FIGURA Кирилл Гладышев. Для более сложных задач имеет смысл использовать инструменты российских разработчиков платформенных решений, таких как Just AI, red_mad_robot и других, считает он. Для запуска на пользовательском ПК, если модель используется одним пользователем, Алексей Пехтерев из Positive Technologies рекомендует ориентироваться на квантованные 4-bit версии. К ним относятся модели DeepSeek-Coder-V2-Lite-Instruct и DeepSeek-R1-Distill-Qwen-14B. Для работы с русским языком лучше подойдет Llama-3.1-8B-Instruct.
Автор Антон Козлов
Источник expert.ru