9

LangChain и Browser-Use: Создание ИИ-агентов для работы с веб-браузером. Быстрый старт

В этой статье я покажу, как быстро настроить и запустить ИИ-агента, который сможет искать информацию в Google и анализировать веб-страницы.


1. Что такое LangChain и Browser-Use?

LangChain — это фреймворк для работы с языковыми моделями (LLM), который позволяет создавать интеллектуальные агенты с инструментами для поиска информации, выполнения вычислений и взаимодействия с внешними сервисами.

Browser-Use — это Python-библиотека, позволяющая языковым моделям управлять веб-браузером: посещать сайты, кликать по ссылкам, заполнять формы и анализировать страницы.

Комбинируя эти две технологии, можно создать мощного интеллектуального агента для автоматизированного взаимодействия с интернетом.


2. Установка необходимых библиотек

Перед началом работы установите зависимости с помощью pip:

pip install -U langchain langchain-openai langchain-community browser-use python-dotenv serpapi google-search-results numexpr


3. Настройка API-ключей

Для работы с OpenAI и SerpAPI необходимо получить API-ключи. Добавьте их в файл .env:

SERPAPI_API_KEY: Для чего нужен и как получить?

SERPAPI — это сервис, который предоставляет API для парсинга результатов поисковых систем (Google, Bing, Yahoo и других). Где получить ключ? Перейдите на сайт serpapi.com. Нажмите Sign Up и создайте аккаунт (доступна бесплатная пробная версия). После регистрации войдите в личный кабинет. На странице Dashboard ваш ключ будет указан в разделе API Key. Пример: abcd1234...5678xyz. Бесплатный план дает 100 запросов/месяц (достаточно для тестирования). Для коммерческих проектов выберите подходящий тариф (от $50/месяц).

OPENAI_API_KEY=ваш_openai_ключ
SERPAPI_API_KEY=ваш_serpapi_ключ


4. Код агента

Создайте файл browser_agent.py и добавьте следующий код:

LangChain и Browser-Use: Создание ИИ-агентов для работы с веб-браузером. Быстрый старт Python, Гайд, Программа, Openai, Программирование, Длиннопост

👉 Гитхаб

5. Разбор кода

  1. Импортируем библиотеки: langchain_openai, browser_use, dotenv, asyncio и другие.

  2. Загружаем API-ключи из .env.

  3. Инициализируем языковую модель (ChatOpenAI).

  4. Определяем инструмент Google Search.

  5. Формулируем задачу: найти новости об OpenAI и затем основателей компании.

  6. Создаем агента с помощью initialize_agent.

  7. Запускаем агента асинхронно (arun(task)).

  8. Выводим результат или логируем ошибки.


6. Запуск агента

Запустите скрипт с помощью Python:

python browser_agent.py

Ожидаемый результат:

  1. Агент использует инструмент поиска для получения информации о последних новостях OpenAI.

  2. Посещает один из найденных веб-сайтов.

  3. Извлекает имена основателей OpenAI и выводит их в консоль.


7. Улучшение агента

Дополнительные возможности:

  • Интеграция с векторными базами данных: хранение и анализ информации.

  • Добавление памяти (Memory): сохранение истории запросов.

  • Расширение списка инструментов: работа с API других сервисов.

  • Обработка сложных цепочек действий (Chains).

Использование Browser-Use для взаимодействия с веб-страницами

Агент может не только искать информацию, но и управлять браузером. Например, можно добавить поддержку кликов и заполнения форм.

Пример:

LangChain и Browser-Use: Создание ИИ-агентов для работы с веб-браузером. Быстрый старт Python, Гайд, Программа, Openai, Программирование, Длиннопост

Этот код позволяет агенту открыть веб-страницу и извлечь текст.

Удачи!

Правила сообщества

Публиковать могут пользователи с любым рейтингом. Однако!


Приветствуется:

• уважение к читателям и авторам

• конструктивность комментариев

• простота и информативность повествования

• тег python2 или python3, если актуально

• код публиковать в виде цитаты, либо ссылкой на специализированный сайт


Не рекомендуется:

• допускать оскорбления и провокации

• распространять вредоносное ПО

• просить решить вашу полноценную задачу за вас

• нарушать правила Пикабу