OpenAI представляет ИИ-агент «Operator» для автоматизации задач
OpenAI представила Operator — агента на базе искусственного интеллекта, предназначенного для автономного выполнения веб-задач. Используя встроенный браузер, оператор может взаимодействовать с веб-сайтами, вводя текст, щелкая мышью и прокручивая страницы, что упрощает множество повторяющихся задач для пользователей.
Что такое Operator?
Operator — один из первых “агентов” OpenAI, инструментов искусственного интеллекта, способных самостоятельно выполнять задачи на основе инструкций пользователя. В настоящее время Operator находится на стадии предварительного исследования и будет развиваться благодаря отзывам пользователей. Согласно OpenAI, он может выполнять такие задачи, как заполнение формуляров, заказ продуктов и даже создание мемов.
“Оператор может использовать те же интерфейсы, с которыми люди взаимодействуют ежедневно, что помогает экономить время и расширяет возможности цифрового взаимодействия”, — пояснили в OpenAI.
Как работает оператор
Оператор работает на базе новой модели под названием Computer-Using Agent (CUA), которая объединяет визуальные возможности GPT-4 с расширенным мышлением посредством обучения с подкреплением. CUA позволяет оператору взаимодействовать с графическими интерфейсами пользователя (GUI), такими как кнопки, меню и текстовые поля, анализируя снимки экрана и выполняя действия, как обычный пользователь.
Когда оператор сталкивается с проблемами, он использует логику для самокоррекции. В более сложных сценариях он возвращает управление пользователю, обеспечивая совместную работу. Оператор уже добился самых высоких результатов в тестах WebArena и WebVoyager, которые являются ключевыми для выполнения задач в браузере.
Основные возможности
- Автоматизация задач: Автоматизируйте повторяющиеся задачи, такие как заказ продуктов, заполнение формуляров и бронирование услуг.
- Многозадачность: выполняйте несколько задач одновременно, например, бронируйте авиабилеты во время онлайн-покупок.
- Настройка: добавление персонализированных инструкций для конкретных веб-сайтов или рабочих процессов.
- Сохранение подсказок: Сохраняйте часто используемые подсказки для быстрого и удобного доступа.
- Режим управления: приостановка и передача управления пользователю для выполнения важных задач, таких как ввод платежных реквизитов или учетных данных для входа в систему.
Безопасность и конфиденциальность
OpenAI уделяет приоритетное внимание безопасности и конфиденциальности оператора, внедряя множество мер предосторожности для обеспечения безопасного использования:
- Мониторинг задач: Оператор запрашивает подтверждение пользователя перед выполнением важных действий.
- Обработка конфиденциальных данных: пользователям предлагается взять на себя выполнение задач, связанных с конфиденциальной информацией, такой как пароли или платежные реквизиты.
- Управление конфиденциальностью данных: данные о просмотре могут быть удалены, а настройками конфиденциальности можно управлять одним щелчком мыши.
- Обнаружение угроз: Оператор оснащен всем необходимым для обнаружения и предотвращения попыток фишинга, вредоносного кода и скрытых подсказок.
Несмотря на то, что OpenAI использует надежные средства защиты, OpenAI признает, что это все еще предварительный исследовательский проект и он может столкнуться с ограничениями.
Ограничения и планы на будущее
Оператор находится на ранней стадии становления и может столкнуться с трудностями при выполнении задач, связанных со сложными интерфейсами, таких как создание слайд-шоу или управление календарями. OpenAI изложил свои планы на будущее:
- CUA Model API: OpenAI планирует выпустить CUA model через API, что позволит разработчикам создавать свои собственные агенты.
- Улучшенная обработка рабочих процессов: ведутся работы по усовершенствованию, которые позволят оператору управлять более сложными рабочими процессами.
- Расширенная доступность: После доработки Operator будет доступен пользователям Plus, Team и Enterprise, а также планируется полная интеграция с ChatGPT.
Экосистема и сотрудничество
OpenAI сотрудничает с такими компаниями, как DoorDash, Instacart, OpenTable, Priceline и другими, чтобы усовершенствовать Operator для реальных приложений. Он также изучает варианты использования в государственном секторе совместно с такими организациями, как город Стоктон, для упрощения доступа к государственным услугам.
Благодаря этим партнерским отношениям OpenAI стремится обеспечить практическую отдачу оператора в различных отраслях, одновременно улучшая его функциональность на основе отзывов пользователей и бизнеса.
Использование и доступность
Operator стал доступен для профессиональных пользователей в США с 23 января 2025 года с помощью operator.chatgpt.com. Пользователи могут инициировать выполнение задач, описывая, что им нужно, и при необходимости могут взять управление на себя.
OpenAI планирует постепенно распространить Operator на дополнительные уровни пользователей, включая Plus, Team и Enterprise, после тщательной проверки безопасности и удобства использования.