LangChain и Browser-Use: Создание ИИ-агентов для работы с веб-браузером. Быстрый старт
В этой статье я покажу, как быстро настроить и запустить ИИ-агента, который сможет искать информацию в Google и анализировать веб-страницы.
1. Что такое LangChain и Browser-Use?
LangChain — это фреймворк для работы с языковыми моделями (LLM), который позволяет создавать интеллектуальные агенты с инструментами для поиска информации, выполнения вычислений и взаимодействия с внешними сервисами.
Browser-Use — это Python-библиотека, позволяющая языковым моделям управлять веб-браузером: посещать сайты, кликать по ссылкам, заполнять формы и анализировать страницы.
Комбинируя эти две технологии, можно создать мощного интеллектуального агента для автоматизированного взаимодействия с интернетом.
2. Установка необходимых библиотек
Перед началом работы установите зависимости с помощью pip:
pip install -U langchain langchain-openai langchain-community browser-use python-dotenv serpapi google-search-results numexpr
3. Настройка API-ключей
Для работы с OpenAI и SerpAPI необходимо получить API-ключи. Добавьте их в файл .env:
SERPAPI_API_KEY: Для чего нужен и как получить?
SERPAPI — это сервис, который предоставляет API для парсинга результатов поисковых систем (Google, Bing, Yahoo и других). Где получить ключ? Перейдите на сайт serpapi.com. Нажмите Sign Up и создайте аккаунт (доступна бесплатная пробная версия). После регистрации войдите в личный кабинет. На странице Dashboard ваш ключ будет указан в разделе API Key. Пример: abcd1234...5678xyz. Бесплатный план дает 100 запросов/месяц (достаточно для тестирования). Для коммерческих проектов выберите подходящий тариф (от $50/месяц).
OPENAI_API_KEY=ваш_openai_ключ
SERPAPI_API_KEY=ваш_serpapi_ключ
4. Код агента
Создайте файл browser_agent.py и добавьте следующий код:
👉 Гитхаб
5. Разбор кода
Импортируем библиотеки: langchain_openai, browser_use, dotenv, asyncio и другие.
Загружаем API-ключи из .env.
Инициализируем языковую модель (ChatOpenAI).
Определяем инструмент Google Search.
Формулируем задачу: найти новости об OpenAI и затем основателей компании.
Создаем агента с помощью initialize_agent.
Запускаем агента асинхронно (arun(task)).
Выводим результат или логируем ошибки.
6. Запуск агента
Запустите скрипт с помощью Python:
python browser_agent.py
Ожидаемый результат:
Агент использует инструмент поиска для получения информации о последних новостях OpenAI.
Посещает один из найденных веб-сайтов.
Извлекает имена основателей OpenAI и выводит их в консоль.
7. Улучшение агента
Дополнительные возможности:
Интеграция с векторными базами данных: хранение и анализ информации.
Добавление памяти (Memory): сохранение истории запросов.
Расширение списка инструментов: работа с API других сервисов.
Обработка сложных цепочек действий (Chains).
Использование Browser-Use для взаимодействия с веб-страницами
Агент может не только искать информацию, но и управлять браузером. Например, можно добавить поддержку кликов и заполнения форм.
Пример:
Этот код позволяет агенту открыть веб-страницу и извлечь текст.
Удачи!
Программирование на python
882 поста11.9K подписчика
Правила сообщества
Публиковать могут пользователи с любым рейтингом. Однако!
Приветствуется:
• уважение к читателям и авторам
• конструктивность комментариев
• простота и информативность повествования
• тег python2 или python3, если актуально
• код публиковать в виде цитаты, либо ссылкой на специализированный сайт
Не рекомендуется:
• допускать оскорбления и провокации
• распространять вредоносное ПО
• просить решить вашу полноценную задачу за вас
• нарушать правила Пикабу