Парсинг сайтов с помощью Google Table V2
Дополнение к первой версии парсера, для работы с каждой страничкой товара отдельно. Дописываем данный скрипт в первую версию парсера. Скрипт пробегается по первому столбцу таблицы, подгружая ссылку из каждой ячейки и отправляю ее на парсинг
function readlink() {
var ss = SpreadsheetApp.getActiveSpreadsheet();
var sheet = ss.getSheets()[0];
var range = sheet.getRange("A1:A5000");//Диапазон работы скрипта
for(var j=Номер первой строки ;j<=Номер последней строки;j++){ // Цикл для прохождения всех ячеек первого столбца.
cell = range.getCell(j,1);
getProductContent(j,"https://cleanshop.ru/"+cell.getValue())//Отправляет на анализ каждую страничку товара.
}
Если вы работаете в одной таблицы для получения ссылок на товары и их анализ.
1. Делаете копию функции function getPageContent(startRow,url) задаем ей новое имя function getProductContent(startRow,url).1.1 Настраиваем в ней рабочий диапазон ячеек var range = sheet.getRange("B1:Z5000"); со второго столбца "В" тк первый столбец занят нашими ссылками.
1.2. После чего добавляем в нее скрипты для парсинга информации со странички товара необходимой нам.
2. Настраиваете функцию function getPageContent(startRow,url) только для получения ссылок на товар и запись их в первый столбец таблицы.
2.1 Строку cell=cell.offset(1,-5); меняем на cell=cell.offset(1,0); чтобы перемещаться на одну строчку вниз не затрагивая столбцы. А также удаляем все cell=cell.offset(0,1); т.к теперь мы работаем только с одним столбцом и перемещаться по ним нет необходимости.
В итоге у вас должно получиться 4 функции
function getconten() - Для отправки страницы со списком товара на парсинг.
function getPageContent(startRow,url) - Парсинг списка товаров для получения ссылок на них.
function readlink() - Чтение ссылок из первого столбца для отправки их на отдельный парсингfunction getProductContent(startRow,url) - Парсинг уже страницы самого товара.
Сначала запускаете function getconten() чтобы получить список ссылок на товар, после function readlink() чтобы получить информацию с товара. Если товаров много то скрипт завершится ошибкой о превышение времени работы. Вам нужно найти последнюю строчку на который он закончил и ее номер вписать в цикл for(var j=Сюда;j<=Номер последней строки;j++) в function readlink() и снова запустить скрипт тогда он продолжит уже с этой строки.
P.S Google Apps Script ‒ это язык программирования, основанный на JavaScript. С его помощью можно добавить меню, диалоги и боковые панели в Google Документы, Таблицы и Формы, а также создавать новые функции в Google Таблицах.
Кроме того, Apps Script позволяет разрабатывать приложения и взаимодействовать со многими сервисами Google, включая AdSense, Analytics, Finance, Gmail, Диск, Календарь и Карты.
Ссылка на официальную документацию
Web-технологии
534 поста5.8K подписчиков
Правила сообщества
1. Не оскорблять других пользователей
2. Не пытаться продвигать свои услуги под видом тематических постов
3. Не заниматься рекламой
4. Никакой табличной верстки
5. Тег сообщества(не обязателен) pikaweb