Гики создают стартапы, новички покупают курсы, художники остаются без работы, но неловкая реальность заключается в том, что ИИ активно внедряется, но сценарий развивается не по предсказуемому пути, а как бросок кубиков.
И в начале отрасли, гранью этого кубика, которая первым делом приземляется, часто оказывается либо желтой, либо серой.
Причина очень проста: жажда быстрой прибыли создает动力, тем более что на начальных этапах развития отрасли всегда полно недостатков. Смотрим на эту группу данных, и всё становится ясно:
В настоящее время более 43% узлов сервиса MCP имеют непроверенные пути вызова Shell, более 83% развертываний имеют уязвимости в конфигурации MCP (Model Context Protocol); 88% развертываний AI-компонентов вообще не активировали никакие механизмы защиты; 150000 легковесных AI-развёртываний, таких как Ollama, в настоящее время находятся в публичной сети по всему миру, более 1 миллиарда долларов вычислительной мощности было захвачено для майнинга...
Что еще более иронично, чтобы атаковать самые умные большие модели, нужны лишь примитивные методы — достаточно одного набора открытых по умолчанию портов, одного открытого файла конфигурации YAML или одного непроверенного пути вызова Shell, или даже, если подсказка введена достаточно точно, большая модель сама может помочь серым схемам найти направление атаки. Дверь к корпоративной конфиденциальности данных так легко открывается в эру ИИ.
Но проблема не безнадежна: ИИ имеет не только генерирующую и атакующую стороны. Как использовать ИИ для защиты становится все более важной темой нашего времени; одновременно, на облаке, разработка правил для ИИ также становится важным направлением исследований для ведущих облачных провайдеров, и безопасность Alibaba Cloud является одним из самых ярких примеров.
На недавно завершившемся мероприятии Alibaba Cloud FlyTech, Alibaba Cloud официально объявила о двух направлениях своей облачной безопасности: Security for AI и AI for Security, а также представила серию продуктов «AI 云 盾 (Cloud Shield for AI)» для предоставления клиентам «конечного решения по безопасности для применения моделей», что является одним из лучших примеров текущих исследований в отрасли.
01 AI бросает кости, почему всегда серый и желтый вверх?
В истории технологий человечества ИИ не является первым новым видом, который «попробовал себя в желтой暴力», серый и желтый также стали причиной взрыва, что является закономерностью, а не случайностью.
В 1839 году, когда была представлена фотография на серебряных пластинах, первой волной пользователей стала порноиндустрия;
В начале интернета, когда электронная коммерция только начинала развиваться, сайты для взрослых уже начали осваивать онлайн-платежи;
Сегодняшние крупные модели для охотников за выгодой в некотором роде повторяют миф о быстром обогащении эпохи доменных имен.
Преимущества эпохи всегда сначала захватываются серыми и желтыми. Потому что они не заботятся о соблюдении норм, не ждут регулирования, а эффективность у них естественно высокая.
Поэтому каждый период взрыва технологий сначала представляет собой "замешанную кашу", и ИИ не исключение.
В декабре 2023 года хакер всего лишь с помощью одной подсказки – «$1 предложение» – почти заставил робота-оператора автосалона продать Chevrolet за 1 доллар. Это самый распространенный вид «атаки с помощью подсказок» (Prompt Injection) в эпоху ИИ: не требуется проверка прав, не оставляются следы в журналах, и благодаря «умелым словам» можно изменить всю логическую цепочку.
Далее, это «атака на jailbreak». Злоумышленники с помощью риторических вопросов, ролевых игр, обходных подсказок и других методов успешно заставляют модель произносить то, что изначально не должно быть сказано: порнографическое содержание, производство наркотиков, ложные предупреждающие сообщения...
В Гонконге кто-то даже сумел украсть 200 миллионов гонконгских долларов с корпоративных счетов, подделав голос высокопрофильных руководителей.
Помимо мошенничества, у ИИ также существует риск «непреднамеренного вывода»: в 2023 году у одной из образовательных гигантов система большого моделирования случайно сгенерировала учебный материал с экстремальным содержанием, всего за 3 дня родители начали защищать свои права, общественное мнение вспыхнуло, а рыночная стоимость компании уменьшилась на 12 миллиардов юаней.
Искусственный интеллект не понимает закон, но он обладает способностью, и как только эта способность выходит из-под контроля, она может причинить вред.
Но с другой стороны, технологии ИИ новые, но конечные направления и способы серой экономики и порнографии остаются неизменными, а для их решения все равно требуется безопасность.
02 Безопасность для ИИ
Сначала скажу одну холодную истину, которую коллективно избегает индустрия ИИ:
Суть больших моделей заключается не в «интеллекте» и не в «понимании», а в семантическом генерации под контролем вероятностей. Именно поэтому, как только выходят за пределы обучающего контекста, они могут выдавать неожиданные результаты.
Этот сверхнорматив может заключаться в том, что вы хотите, чтобы он писал новости, а он пишет стихи; также может быть так, что вы хотите, чтобы он рекомендовал товары, а он вдруг сообщает вам, что сегодня в Токио температура 25 градусов Цельсия. Более того, вы говорите ему в игре, что если не получить лицензионный серийный номер определенного программного обеспечения, его расстреляют, и большая модель действительно может придумать, как помочь пользователю найти лицензионный серийный номер программного обеспечения без затрат.
Чтобы обеспечить контролируемый вывод, компаниям необходимо разбираться как в моделях, так и в безопасности. Согласно последнему отчету IDC "Оценка возможностей безопасности больших моделей в Китае", Alibaba заняла первое место по 4 из 7 показателей в конкурентной борьбе с ведущими компаниями страны, обладающими возможностями больших моделей безопасности, а остальные 3 показателя также превышают средние показатели по отрасли.
В плане подхода, ответ, предоставленный безопасностью Alibaba Cloud, также очень прямолинеен: обеспечить безопасность на опережение AI, создать полный стек защиты, преимущественно снизу вверх, охватывающий три уровня — от безопасности инфраструктуры до контроля ввода-вывода больших моделей и защиты сервисов AI.
На этих трех уровнях наиболее заметным является средний уровень, специально предназначенный для управления рисками больших моделей — «AI безопасные барьеры» (AI Guardrail).
Как правило, основные риски безопасности больших моделей включают в себя: нарушение содержания, утечка конфиденциальных данных, атаки с внедрением подсказок, иллюзии модели и атаки на уязвимости.
Однако традиционные решения безопасности в основном имеют универсальную архитектуру, предназначенную для веба, а не для «говорящих программ», что, естественно, не позволяет точно выявлять и реагировать на уникальные риски больших моделей. Новые проблемы, такие как безопасность сгенерированного контента, защита от атак в контексте и надежность вывода модели, также трудно охватить. Более того, традиционные решения лишены средств тонкой настройки и механизмов визуальной прослеживаемости, что приводит к огромным слепым зонам в управлении ИИ для компаний, которые не понимают, в чем проблема, и, следовательно, не могут ее решить.
Настоящая сила AI Guardrail заключается не только в том, что «он может остановить», но и в том, что независимо от того, работаете ли вы с крупными предобученными моделями, AI-сервисами или различными формами AI-агентов, он понимает, о чем вы говорите, что генерирует большая модель, тем самым обеспечивая точное обнаружение рисков и активные защитные возможности, обеспечивая соответствие, безопасность и стабильность.
Конкретно, AI Guardrail отвечает за защиту в трех категориях сценариев:
ꔷ Минимальные требования к соблюдению: многомерная проверка текста, вводимого и выводимого генеративным ИИ, на соответствие, охватывающая рискованные категории, такие как чувствительные к политике, порнография и вульгарность, предвзятость и дискриминация, плохие ценности и т. д.; глубокое обнаружение возможных утечек личных данных и конфиденциальной информации в процессе взаимодействия с ИИ; поддержка распознавания чувствительного контента, связанного с личной и корпоративной конфиденциальностью; предоставление цифровых водяных знаков для обеспечения соответствия AI-сгенерированного контента законодательству и стандартам платформы;
ꔷ Защита от угроз: для внешних атак, таких как атаки с использованием подсказок, загрузка вредоносных файлов, вредоносные URL-ссылки и т.д., возможно осуществление实时检测 и блокировки, что позволяет избежать рисков для конечных пользователей AI-приложений;
Здоровье модели: внимание к стабильности и надежности самой AI модели, установлена целая система проверки для проблем, таких как джейлбрейк модели и пауки Prompt, чтобы предотвратить злоупотребление, неправильное использование или возникновение неконтролируемых выводов, создавая "иммунную защиту" AI системы;
Самое примечательное, что AI Guardrail не просто складывает вышеупомянутые несколько модулей обнаружения вместе, а достигает настоящего ALL IN ONE API, не разделяя модули, не добавляя денег и не меняя продукты. Для моделирования входных и выходных рисков клиентам не нужно покупать дополнительные продукты; Различные модельные риски, такие как риск инъекции, вредоносные файлы, соответствие контента, галлюцинации и т. д., могут быть решены в одном и том же продукте. Один интерфейс может обнаруживать 10+ типов сценариев атак, поддерживать 4 метода развертывания (прокси API, интеграция платформы, доступ к шлюзу и монтирование WAF), реакцию на уровне миллисекунд и одновременную обработку на уровне 1 000 с точностью до 99%.
Именно поэтому истинное значение AI Guardrail заключается в том, чтобы превратить «безопасность модели» в «продуктовые возможности», позволяя одному интерфейсу заменять целую команду по безопасности.
Конечно, большие модели — это не абстрактная концепция, это системы, работающие на аппаратном обеспечении и коде, и поддерживающие верхние уровни приложений. Что касается безопасности инфраструктуры и защиты сервисов AI, то безопасность Alibaba Cloud также была обновлена.
Уровень инфраструктуры, Alibaba Cloud Security запустила Центр облачной безопасности,核心是 AI-BOM、AI-SPM 等产品。
В частности, возможности AI-BOM (AI список материалов) и AI-SPM (AI управление безопасностью) решают две проблемы: «Какие AI компоненты я установил» и «Сколько у этих компонентов уязвимостей».
Основой AI-BOM является захват всех AI-компонентов в развертывании: Ray, Ollama, Mlflow, Jupyter, TorchServe и более 30 популярных компонентов формируют «Список материалов AI-программного обеспечения», который автоматически выявляет существующие уязвимости безопасности и проблемы с зависимостями. Обнаружение проблемных активов больше не зависит от ручной проверки, а осуществляется с помощью облачного сканирования.
AI-SPM позиционируется больше как «雷达»: он постоянно оценивает безопасность системы с нескольких аспектов, таких как уязвимости, открытые порты, утечка учетных данных, открытая конфигурация, несанкционированный доступ и т.д., динамически предоставляя уровень риска и рекомендации по исправлению. Это преобразует безопасность из «снимков соответствия» в «потоковое управление».
Одним предложением: AI-BOM знает, где вы могли установить патч, AI-SPM знает, где вы можете снова получить удар, поэтому необходимо как можно быстрее усилить меры предосторожности.
Для защиты AI приложений основным продуктом безопасности Alibaba Cloud является WAAP (Защита веб-приложений и API).
Модель может быть максимально умной, но если входные данные состоят только из запросов скриптов, поддельных токенов и злоупотребления интерфейсами, то она не продержится и нескольких секунд. Alibaba WAAP (Защита веб-приложений и API) создана именно для этого. Она не обрабатывает AI-приложения как «традиционные веб-системы», а предоставляет специальные правила уязвимости для AI-компонентов, библиотеку бизнес-отпечатков AI и систему профилирования трафика.
Например: WAAP охватывает более 50 компонентов уязвимостей, таких как загрузка любых файлов Mlflow и удаленное выполнение команд Ray; встроенная библиотека отпечатков AI-паука может распознавать более 10 000 новых образцов и инструменты оценки моделей каждый час; функция распознавания API-активов может автоматически обнаруживать, какая система внутри компании открыла интерфейс GPT, создавая «карты точек» для команды безопасности.
Самое главное, что WAAP и AI Guardrail не противоречат друг другу, а дополняют друг друга: один смотрит на то, «кто идет», а другой — на то, «что было сказано». Один – как «аутентификатор», а другой – как «цензор слов и дел». Это дает приложениям ИИ своего рода способность «самоиммунитета» — выявляя, изолируя, отслеживая и противодействуя, они могут не только «остановить плохих парней», но и «не дать модели стать плохой самой по себе».
03 ИИ для безопасности
Раз уж AI применяется как игра в кости, кто-то использует его для предсказания судьбы, кто-то заставляет его писать любовные стихи, кто-то использует его для серой экономики, то неудивительно, что кто-то использует его для обеспечения безопасности.
Ранее для безопасной эксплуатации требовалась группа людей, которые ежедневно следили за множеством красных и зеленых сигналов тревоги, патрулируя день и ночь, днем принимая на себя вчерашние проблемы, а ночью дежуря с системой.
Теперь все это можно доверить ИИ. В 2024 году облачная безопасность Alibaba полностью интегрирует крупные модели и запускает кластер AI-возможностей, охватывающий безопасность данных, безопасность контента, безопасность бизнеса и безопасность операций, а также предлагает новый слоган: Protect at AI Speed.
Смысл очень ясен: бизнес развивается быстро, риски ещё быстрее, но безопасность должна быть на шаг впереди.
А использование ИИ для обеспечения безопасности на самом деле состоит из двух вещей: повышение эффективности операций по безопасности + интеллектуальное обновление продуктов безопасности.
Основная проблема традиционных систем безопасности заключается в том, что «обновление правил отстает»: атакующие изменились, правила остались прежними; поступили тревоги, но никто не понимает.
Ключ к изменениям, которые приносят большие модели, заключается в переходе от управления безопасностью на основе правил к управлению на основе моделей, создавая замкнутую экосистему с помощью «способности ИИ к пониманию + обратной связи от пользователей» — ИИ понимает поведение пользователей → обратная связь от пользователей сигнализирует о результатах → постоянное обучение модели → способности к обнаружению становятся все более точными → циклы становятся все короче → риски становятся все труднее скрыть, так называемое «данные летающего колеса»:
Его преимущества заключаются в двух аспектах:
С одной стороны, повышается эффективность работы облачных арендаторов с точки зрения безопасности: в прошлом обнаружение угроз часто означало неэффективную модель «массовые тревоги + ручная проверка». Сегодня интеллектуальное моделирование точно выявляет аномальное поведение, такое как вредоносный трафик, вторжение на хост и бэкдор-скрипты, а также значительно повышает частоту срабатывания сигналов тревоги. В то же время, вокруг канала утилизации система реализовала глубокую синергию между автоматической утилизацией и чрезвычайно быстрым реагированием - чистота хоста стабильна на уровне 99%, а чистота потока близка к 99,9%. В настоящее время уровень охвата типов тревожных событий достиг 99%, а уровень охвата пользователей больших моделей также превысил 88%, а человеческая эффективность работы команды по обеспечению безопасности была беспрецедентно высвобождена.
С другой стороны, возможности продуктов облачной безопасности быстро совершенствуются. На уровне безопасности данных и уровне безопасности бизнеса ИИ доверена роль «привратника»: основываясь на способности больших моделей, он может автоматически идентифицировать 800+ типов данных о сущностях в облаке и интеллектуально десенсибилизировать и шифровать их. В дополнение к структурированным данным, система также имеет более 30 встроенных моделей распознавания документов и изображений, которые могут идентифицировать, классифицировать и шифровать конфиденциальную информацию, такую как идентификационные номера и элементы контрактов на изображениях в режиме реального времени. Общая эффективность маркировки данных повышается в 5 раз, а точность распознавания достигает 95%, что значительно снижает риск утечки конфиденциальных данных.
Пример: в сценарии безопасности контента традиционным подходом является проверка людьми, маркировка и масштабное обучение с использованием аннотаций. Теперь, благодаря инженерии подсказок и семантическому усилению, Alibaba достигла реальных результатов: увеличение эффективности аннотирования на 100%, повышение распознавания нечетких выражений на 73%, увеличение распознавания содержания изображений на 88% и точность обнаружения атак на живое лицо AI на 99%.
Если говорить о том, что Flywheel акцентирует внимание на автономной защите, сочетающей ИИ и человеческий опыт, то интеллектуальный помощник является универсальным ассистентом для сотрудников безопасности.
Безопасные операторы ежедневно сталкиваются с самой распространенной проблемой: что означает это предупреждение? Почему оно сработало? Это ложное срабатывание? Как мне с этим справиться? Ранее для решения этих вопросов приходилось просматривать логи, проверять историю, спрашивать старших сотрудников, создавать рабочие заявки, обращаться в техническую поддержку... Теперь достаточно одного предложения.
Однако функции интеллектуального помощника заключаются не только в том, чтобы быть роботом для вопросов и ответов, он больше похож на вертикальный Copilot в области безопасности, его пять ключевых возможностей включают:
Помощник по вопросам продуктов: автоматически отвечает на то, как настроить определенную функцию, почему срабатывает эта стратегия, какие ресурсы не защищены, заменяя собой большое количество заявок на обслуживание;
Эксперт по объяснению тревог: введите номер тревоги, автоматически получите объяснение события, трассировку цепочки атак, рекомендованную стратегию реагирования и поддержку многоязычного вывода;
Ассистент по анализу инцидентов безопасности: автоматически структурирует полную цепочку одного инцидента вторжения, генерирует временную шкалу, карту атакующих путей и рекомендации по определению ответственности;
Генератор отчетов: одно нажатие для создания ежемесячных/ежеквартальных/экстренных отчетов по безопасности, охватывающих статистику событий, обратную связь по обработке, эффективность операций, поддерживает визуальный экспорт;
Поддержка всех языков: уже охвачены китайский и английский, международная версия выйдет в июне, поддерживает автоматическую адаптацию к привычкам использования зарубежных команд.
Не стоит недооценивать эти «пять мелочей». На данный момент официальные данные Alibaba показывают: обслужено более 40 000 пользователей, уровень удовлетворенности пользователей составляет 99,81%, охват типов предупреждений достигает 100%, а возможности поддержки prompt увеличились на 1175% (по сравнению с FY24). Проще говоря, это объединяет коллег, получивших максимальные баллы за ночные смены, стажеров, пишущих отчеты, инженеров, занимающихся предупреждениями, и консультантов по безопасности, понимающих бизнес, все в одном API, а благодаря этой способности людям остается только принимать решения, больше не патрулируя.
04 Эпилог
Оглядываясь назад, в истории никогда не было недостатка в «революционных технологиях», недоставало лишь технологий, которые могли бы пережить второй год ажиотажа.
Интернет, P2P, блокчейн, беспилотные машины... Каждая волна технологических прорывов когда-либо называлась «новой инфраструктурой», но в конечном итоге лишь немногие из них смогли преодолеть «управленческий вакуум» и стать настоящей инфраструктурой.
Современный генеративный ИИ находится на аналогичном этапе: с одной стороны, модели цветут, капитал стремится к ним, приложения преодолевают уровни; с другой стороны, инъекции подсказок, превышение полномочий содержания, утечка данных, манипуляции с моделями, множество уязвимостей, размытые границы и неопределённость ответственности.
Но ИИ — это не то же самое, что технологии прошлого. Он может не только рисовать, писать стихи, программировать, переводить, но и имитировать человеческий язык, суждения и даже эмоции. Но из-за этого уязвимость ИИ связана не только с уязвимостями кода, но и с картографированием человеческой природы. Люди предвзяты, и они также будут учиться; Люди жадны до удобства, и они также будут использовать вас в своих интересах.
Удобство самой технологии является усилителем такого отображения: в прошлом ИТ-системы требовали «авторизации пользователей», атаки осуществлялись посредством проникновения; теперь большие модели нуждаются лишь в инъекции подсказок, и общаясь с вами, могут привести к сбоям в системе и утечке конфиденциальной информации.
Конечно, не существует идеальной AI-системы, это научная фантастика, а не инженерия.
Единственный ответ заключается в том, чтобы использовать безопасные модели для защиты небезопасных моделей; использовать интеллектуальные системы для противодействия интеллектуальным угрозам — бросая кости с ИИ, Alibaba выбирает безопасную сторону.
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Почему в эпоху ИИ серый рынок и порнография всегда всплывают первыми?
Автор: насосный гик
Гики создают стартапы, новички покупают курсы, художники остаются без работы, но неловкая реальность заключается в том, что ИИ активно внедряется, но сценарий развивается не по предсказуемому пути, а как бросок кубиков.
И в начале отрасли, гранью этого кубика, которая первым делом приземляется, часто оказывается либо желтой, либо серой.
Причина очень проста: жажда быстрой прибыли создает动力, тем более что на начальных этапах развития отрасли всегда полно недостатков. Смотрим на эту группу данных, и всё становится ясно:
В настоящее время более 43% узлов сервиса MCP имеют непроверенные пути вызова Shell, более 83% развертываний имеют уязвимости в конфигурации MCP (Model Context Protocol); 88% развертываний AI-компонентов вообще не активировали никакие механизмы защиты; 150000 легковесных AI-развёртываний, таких как Ollama, в настоящее время находятся в публичной сети по всему миру, более 1 миллиарда долларов вычислительной мощности было захвачено для майнинга...
Что еще более иронично, чтобы атаковать самые умные большие модели, нужны лишь примитивные методы — достаточно одного набора открытых по умолчанию портов, одного открытого файла конфигурации YAML или одного непроверенного пути вызова Shell, или даже, если подсказка введена достаточно точно, большая модель сама может помочь серым схемам найти направление атаки. Дверь к корпоративной конфиденциальности данных так легко открывается в эру ИИ.
Но проблема не безнадежна: ИИ имеет не только генерирующую и атакующую стороны. Как использовать ИИ для защиты становится все более важной темой нашего времени; одновременно, на облаке, разработка правил для ИИ также становится важным направлением исследований для ведущих облачных провайдеров, и безопасность Alibaba Cloud является одним из самых ярких примеров.
На недавно завершившемся мероприятии Alibaba Cloud FlyTech, Alibaba Cloud официально объявила о двух направлениях своей облачной безопасности: Security for AI и AI for Security, а также представила серию продуктов «AI 云 盾 (Cloud Shield for AI)» для предоставления клиентам «конечного решения по безопасности для применения моделей», что является одним из лучших примеров текущих исследований в отрасли.
01 AI бросает кости, почему всегда серый и желтый вверх?
В истории технологий человечества ИИ не является первым новым видом, который «попробовал себя в желтой暴力», серый и желтый также стали причиной взрыва, что является закономерностью, а не случайностью.
В 1839 году, когда была представлена фотография на серебряных пластинах, первой волной пользователей стала порноиндустрия;
В начале интернета, когда электронная коммерция только начинала развиваться, сайты для взрослых уже начали осваивать онлайн-платежи;
Сегодняшние крупные модели для охотников за выгодой в некотором роде повторяют миф о быстром обогащении эпохи доменных имен.
Преимущества эпохи всегда сначала захватываются серыми и желтыми. Потому что они не заботятся о соблюдении норм, не ждут регулирования, а эффективность у них естественно высокая.
Поэтому каждый период взрыва технологий сначала представляет собой "замешанную кашу", и ИИ не исключение.
В декабре 2023 года хакер всего лишь с помощью одной подсказки – «$1 предложение» – почти заставил робота-оператора автосалона продать Chevrolet за 1 доллар. Это самый распространенный вид «атаки с помощью подсказок» (Prompt Injection) в эпоху ИИ: не требуется проверка прав, не оставляются следы в журналах, и благодаря «умелым словам» можно изменить всю логическую цепочку.
Далее, это «атака на jailbreak». Злоумышленники с помощью риторических вопросов, ролевых игр, обходных подсказок и других методов успешно заставляют модель произносить то, что изначально не должно быть сказано: порнографическое содержание, производство наркотиков, ложные предупреждающие сообщения...
В Гонконге кто-то даже сумел украсть 200 миллионов гонконгских долларов с корпоративных счетов, подделав голос высокопрофильных руководителей.
Помимо мошенничества, у ИИ также существует риск «непреднамеренного вывода»: в 2023 году у одной из образовательных гигантов система большого моделирования случайно сгенерировала учебный материал с экстремальным содержанием, всего за 3 дня родители начали защищать свои права, общественное мнение вспыхнуло, а рыночная стоимость компании уменьшилась на 12 миллиардов юаней.
Искусственный интеллект не понимает закон, но он обладает способностью, и как только эта способность выходит из-под контроля, она может причинить вред.
Но с другой стороны, технологии ИИ новые, но конечные направления и способы серой экономики и порнографии остаются неизменными, а для их решения все равно требуется безопасность.
02 Безопасность для ИИ
Сначала скажу одну холодную истину, которую коллективно избегает индустрия ИИ:
Суть больших моделей заключается не в «интеллекте» и не в «понимании», а в семантическом генерации под контролем вероятностей. Именно поэтому, как только выходят за пределы обучающего контекста, они могут выдавать неожиданные результаты.
Этот сверхнорматив может заключаться в том, что вы хотите, чтобы он писал новости, а он пишет стихи; также может быть так, что вы хотите, чтобы он рекомендовал товары, а он вдруг сообщает вам, что сегодня в Токио температура 25 градусов Цельсия. Более того, вы говорите ему в игре, что если не получить лицензионный серийный номер определенного программного обеспечения, его расстреляют, и большая модель действительно может придумать, как помочь пользователю найти лицензионный серийный номер программного обеспечения без затрат.
Чтобы обеспечить контролируемый вывод, компаниям необходимо разбираться как в моделях, так и в безопасности. Согласно последнему отчету IDC "Оценка возможностей безопасности больших моделей в Китае", Alibaba заняла первое место по 4 из 7 показателей в конкурентной борьбе с ведущими компаниями страны, обладающими возможностями больших моделей безопасности, а остальные 3 показателя также превышают средние показатели по отрасли.
В плане подхода, ответ, предоставленный безопасностью Alibaba Cloud, также очень прямолинеен: обеспечить безопасность на опережение AI, создать полный стек защиты, преимущественно снизу вверх, охватывающий три уровня — от безопасности инфраструктуры до контроля ввода-вывода больших моделей и защиты сервисов AI.
На этих трех уровнях наиболее заметным является средний уровень, специально предназначенный для управления рисками больших моделей — «AI безопасные барьеры» (AI Guardrail).
Как правило, основные риски безопасности больших моделей включают в себя: нарушение содержания, утечка конфиденциальных данных, атаки с внедрением подсказок, иллюзии модели и атаки на уязвимости.
Однако традиционные решения безопасности в основном имеют универсальную архитектуру, предназначенную для веба, а не для «говорящих программ», что, естественно, не позволяет точно выявлять и реагировать на уникальные риски больших моделей. Новые проблемы, такие как безопасность сгенерированного контента, защита от атак в контексте и надежность вывода модели, также трудно охватить. Более того, традиционные решения лишены средств тонкой настройки и механизмов визуальной прослеживаемости, что приводит к огромным слепым зонам в управлении ИИ для компаний, которые не понимают, в чем проблема, и, следовательно, не могут ее решить.
Настоящая сила AI Guardrail заключается не только в том, что «он может остановить», но и в том, что независимо от того, работаете ли вы с крупными предобученными моделями, AI-сервисами или различными формами AI-агентов, он понимает, о чем вы говорите, что генерирует большая модель, тем самым обеспечивая точное обнаружение рисков и активные защитные возможности, обеспечивая соответствие, безопасность и стабильность.
Конкретно, AI Guardrail отвечает за защиту в трех категориях сценариев:
ꔷ Минимальные требования к соблюдению: многомерная проверка текста, вводимого и выводимого генеративным ИИ, на соответствие, охватывающая рискованные категории, такие как чувствительные к политике, порнография и вульгарность, предвзятость и дискриминация, плохие ценности и т. д.; глубокое обнаружение возможных утечек личных данных и конфиденциальной информации в процессе взаимодействия с ИИ; поддержка распознавания чувствительного контента, связанного с личной и корпоративной конфиденциальностью; предоставление цифровых водяных знаков для обеспечения соответствия AI-сгенерированного контента законодательству и стандартам платформы;
ꔷ Защита от угроз: для внешних атак, таких как атаки с использованием подсказок, загрузка вредоносных файлов, вредоносные URL-ссылки и т.д., возможно осуществление实时检测 и блокировки, что позволяет избежать рисков для конечных пользователей AI-приложений;
Здоровье модели: внимание к стабильности и надежности самой AI модели, установлена целая система проверки для проблем, таких как джейлбрейк модели и пауки Prompt, чтобы предотвратить злоупотребление, неправильное использование или возникновение неконтролируемых выводов, создавая "иммунную защиту" AI системы;
Самое примечательное, что AI Guardrail не просто складывает вышеупомянутые несколько модулей обнаружения вместе, а достигает настоящего ALL IN ONE API, не разделяя модули, не добавляя денег и не меняя продукты. Для моделирования входных и выходных рисков клиентам не нужно покупать дополнительные продукты; Различные модельные риски, такие как риск инъекции, вредоносные файлы, соответствие контента, галлюцинации и т. д., могут быть решены в одном и том же продукте. Один интерфейс может обнаруживать 10+ типов сценариев атак, поддерживать 4 метода развертывания (прокси API, интеграция платформы, доступ к шлюзу и монтирование WAF), реакцию на уровне миллисекунд и одновременную обработку на уровне 1 000 с точностью до 99%.
Именно поэтому истинное значение AI Guardrail заключается в том, чтобы превратить «безопасность модели» в «продуктовые возможности», позволяя одному интерфейсу заменять целую команду по безопасности.
Конечно, большие модели — это не абстрактная концепция, это системы, работающие на аппаратном обеспечении и коде, и поддерживающие верхние уровни приложений. Что касается безопасности инфраструктуры и защиты сервисов AI, то безопасность Alibaba Cloud также была обновлена.
Уровень инфраструктуры, Alibaba Cloud Security запустила Центр облачной безопасности,核心是 AI-BOM、AI-SPM 等产品。
В частности, возможности AI-BOM (AI список материалов) и AI-SPM (AI управление безопасностью) решают две проблемы: «Какие AI компоненты я установил» и «Сколько у этих компонентов уязвимостей».
Основой AI-BOM является захват всех AI-компонентов в развертывании: Ray, Ollama, Mlflow, Jupyter, TorchServe и более 30 популярных компонентов формируют «Список материалов AI-программного обеспечения», который автоматически выявляет существующие уязвимости безопасности и проблемы с зависимостями. Обнаружение проблемных активов больше не зависит от ручной проверки, а осуществляется с помощью облачного сканирования.
AI-SPM позиционируется больше как «雷达»: он постоянно оценивает безопасность системы с нескольких аспектов, таких как уязвимости, открытые порты, утечка учетных данных, открытая конфигурация, несанкционированный доступ и т.д., динамически предоставляя уровень риска и рекомендации по исправлению. Это преобразует безопасность из «снимков соответствия» в «потоковое управление».
Одним предложением: AI-BOM знает, где вы могли установить патч, AI-SPM знает, где вы можете снова получить удар, поэтому необходимо как можно быстрее усилить меры предосторожности.
Для защиты AI приложений основным продуктом безопасности Alibaba Cloud является WAAP (Защита веб-приложений и API).
Модель может быть максимально умной, но если входные данные состоят только из запросов скриптов, поддельных токенов и злоупотребления интерфейсами, то она не продержится и нескольких секунд. Alibaba WAAP (Защита веб-приложений и API) создана именно для этого. Она не обрабатывает AI-приложения как «традиционные веб-системы», а предоставляет специальные правила уязвимости для AI-компонентов, библиотеку бизнес-отпечатков AI и систему профилирования трафика.
Например: WAAP охватывает более 50 компонентов уязвимостей, таких как загрузка любых файлов Mlflow и удаленное выполнение команд Ray; встроенная библиотека отпечатков AI-паука может распознавать более 10 000 новых образцов и инструменты оценки моделей каждый час; функция распознавания API-активов может автоматически обнаруживать, какая система внутри компании открыла интерфейс GPT, создавая «карты точек» для команды безопасности.
Самое главное, что WAAP и AI Guardrail не противоречат друг другу, а дополняют друг друга: один смотрит на то, «кто идет», а другой — на то, «что было сказано». Один – как «аутентификатор», а другой – как «цензор слов и дел». Это дает приложениям ИИ своего рода способность «самоиммунитета» — выявляя, изолируя, отслеживая и противодействуя, они могут не только «остановить плохих парней», но и «не дать модели стать плохой самой по себе».
03 ИИ для безопасности
Раз уж AI применяется как игра в кости, кто-то использует его для предсказания судьбы, кто-то заставляет его писать любовные стихи, кто-то использует его для серой экономики, то неудивительно, что кто-то использует его для обеспечения безопасности.
Ранее для безопасной эксплуатации требовалась группа людей, которые ежедневно следили за множеством красных и зеленых сигналов тревоги, патрулируя день и ночь, днем принимая на себя вчерашние проблемы, а ночью дежуря с системой.
Теперь все это можно доверить ИИ. В 2024 году облачная безопасность Alibaba полностью интегрирует крупные модели и запускает кластер AI-возможностей, охватывающий безопасность данных, безопасность контента, безопасность бизнеса и безопасность операций, а также предлагает новый слоган: Protect at AI Speed.
Смысл очень ясен: бизнес развивается быстро, риски ещё быстрее, но безопасность должна быть на шаг впереди.
А использование ИИ для обеспечения безопасности на самом деле состоит из двух вещей: повышение эффективности операций по безопасности + интеллектуальное обновление продуктов безопасности.
Основная проблема традиционных систем безопасности заключается в том, что «обновление правил отстает»: атакующие изменились, правила остались прежними; поступили тревоги, но никто не понимает.
Ключ к изменениям, которые приносят большие модели, заключается в переходе от управления безопасностью на основе правил к управлению на основе моделей, создавая замкнутую экосистему с помощью «способности ИИ к пониманию + обратной связи от пользователей» — ИИ понимает поведение пользователей → обратная связь от пользователей сигнализирует о результатах → постоянное обучение модели → способности к обнаружению становятся все более точными → циклы становятся все короче → риски становятся все труднее скрыть, так называемое «данные летающего колеса»:
Его преимущества заключаются в двух аспектах:
С одной стороны, повышается эффективность работы облачных арендаторов с точки зрения безопасности: в прошлом обнаружение угроз часто означало неэффективную модель «массовые тревоги + ручная проверка». Сегодня интеллектуальное моделирование точно выявляет аномальное поведение, такое как вредоносный трафик, вторжение на хост и бэкдор-скрипты, а также значительно повышает частоту срабатывания сигналов тревоги. В то же время, вокруг канала утилизации система реализовала глубокую синергию между автоматической утилизацией и чрезвычайно быстрым реагированием - чистота хоста стабильна на уровне 99%, а чистота потока близка к 99,9%. В настоящее время уровень охвата типов тревожных событий достиг 99%, а уровень охвата пользователей больших моделей также превысил 88%, а человеческая эффективность работы команды по обеспечению безопасности была беспрецедентно высвобождена.
С другой стороны, возможности продуктов облачной безопасности быстро совершенствуются. На уровне безопасности данных и уровне безопасности бизнеса ИИ доверена роль «привратника»: основываясь на способности больших моделей, он может автоматически идентифицировать 800+ типов данных о сущностях в облаке и интеллектуально десенсибилизировать и шифровать их. В дополнение к структурированным данным, система также имеет более 30 встроенных моделей распознавания документов и изображений, которые могут идентифицировать, классифицировать и шифровать конфиденциальную информацию, такую как идентификационные номера и элементы контрактов на изображениях в режиме реального времени. Общая эффективность маркировки данных повышается в 5 раз, а точность распознавания достигает 95%, что значительно снижает риск утечки конфиденциальных данных.
Пример: в сценарии безопасности контента традиционным подходом является проверка людьми, маркировка и масштабное обучение с использованием аннотаций. Теперь, благодаря инженерии подсказок и семантическому усилению, Alibaba достигла реальных результатов: увеличение эффективности аннотирования на 100%, повышение распознавания нечетких выражений на 73%, увеличение распознавания содержания изображений на 88% и точность обнаружения атак на живое лицо AI на 99%.
Если говорить о том, что Flywheel акцентирует внимание на автономной защите, сочетающей ИИ и человеческий опыт, то интеллектуальный помощник является универсальным ассистентом для сотрудников безопасности.
Безопасные операторы ежедневно сталкиваются с самой распространенной проблемой: что означает это предупреждение? Почему оно сработало? Это ложное срабатывание? Как мне с этим справиться? Ранее для решения этих вопросов приходилось просматривать логи, проверять историю, спрашивать старших сотрудников, создавать рабочие заявки, обращаться в техническую поддержку... Теперь достаточно одного предложения.
Однако функции интеллектуального помощника заключаются не только в том, чтобы быть роботом для вопросов и ответов, он больше похож на вертикальный Copilot в области безопасности, его пять ключевых возможностей включают:
Помощник по вопросам продуктов: автоматически отвечает на то, как настроить определенную функцию, почему срабатывает эта стратегия, какие ресурсы не защищены, заменяя собой большое количество заявок на обслуживание;
Эксперт по объяснению тревог: введите номер тревоги, автоматически получите объяснение события, трассировку цепочки атак, рекомендованную стратегию реагирования и поддержку многоязычного вывода;
Ассистент по анализу инцидентов безопасности: автоматически структурирует полную цепочку одного инцидента вторжения, генерирует временную шкалу, карту атакующих путей и рекомендации по определению ответственности;
Генератор отчетов: одно нажатие для создания ежемесячных/ежеквартальных/экстренных отчетов по безопасности, охватывающих статистику событий, обратную связь по обработке, эффективность операций, поддерживает визуальный экспорт;
Поддержка всех языков: уже охвачены китайский и английский, международная версия выйдет в июне, поддерживает автоматическую адаптацию к привычкам использования зарубежных команд.
Не стоит недооценивать эти «пять мелочей». На данный момент официальные данные Alibaba показывают: обслужено более 40 000 пользователей, уровень удовлетворенности пользователей составляет 99,81%, охват типов предупреждений достигает 100%, а возможности поддержки prompt увеличились на 1175% (по сравнению с FY24). Проще говоря, это объединяет коллег, получивших максимальные баллы за ночные смены, стажеров, пишущих отчеты, инженеров, занимающихся предупреждениями, и консультантов по безопасности, понимающих бизнес, все в одном API, а благодаря этой способности людям остается только принимать решения, больше не патрулируя.
04 Эпилог
Оглядываясь назад, в истории никогда не было недостатка в «революционных технологиях», недоставало лишь технологий, которые могли бы пережить второй год ажиотажа.
Интернет, P2P, блокчейн, беспилотные машины... Каждая волна технологических прорывов когда-либо называлась «новой инфраструктурой», но в конечном итоге лишь немногие из них смогли преодолеть «управленческий вакуум» и стать настоящей инфраструктурой.
Современный генеративный ИИ находится на аналогичном этапе: с одной стороны, модели цветут, капитал стремится к ним, приложения преодолевают уровни; с другой стороны, инъекции подсказок, превышение полномочий содержания, утечка данных, манипуляции с моделями, множество уязвимостей, размытые границы и неопределённость ответственности.
Но ИИ — это не то же самое, что технологии прошлого. Он может не только рисовать, писать стихи, программировать, переводить, но и имитировать человеческий язык, суждения и даже эмоции. Но из-за этого уязвимость ИИ связана не только с уязвимостями кода, но и с картографированием человеческой природы. Люди предвзяты, и они также будут учиться; Люди жадны до удобства, и они также будут использовать вас в своих интересах.
Удобство самой технологии является усилителем такого отображения: в прошлом ИТ-системы требовали «авторизации пользователей», атаки осуществлялись посредством проникновения; теперь большие модели нуждаются лишь в инъекции подсказок, и общаясь с вами, могут привести к сбоям в системе и утечке конфиденциальной информации.
Конечно, не существует идеальной AI-системы, это научная фантастика, а не инженерия.
Единственный ответ заключается в том, чтобы использовать безопасные модели для защиты небезопасных моделей; использовать интеллектуальные системы для противодействия интеллектуальным угрозам — бросая кости с ИИ, Alibaba выбирает безопасную сторону.