Как с помощью Google Таблицы извлекать адреса сайтов из списка страниц

Андрей Буйлов

Автор статьи
Андрей Буйлов

Подробнее об авторе

В этой статье мы рассмотрим, как с помощью Google Таблиц извлекать адреса сайтов из списка страниц. Это важная и востребованная прикладная задача, требующаяся для проведения дальнейшего анализа именно доменов конкурентов, а не конкретных страниц.

Инструкция и формулы

Есть несколько вариантов. как извлекать адреса сайтов из списка страниц:

  • когда нужен просто список доменов;
  • когда необходимо оставить адреса с протоколом;
  • если нужен уникальный список (без повторов).

Расскажу о каждом из вариантов.

Вариант первый: только список доменов

Берем список страниц и копируем его в Google Таблицы. Список берете тот, что у вас, возможно, уже есть или можете, например, выгрузить страницы из выдачи Яндекса или Google.



Во втором столбце записываете вот такую формулу:

Примерно так это должно выглядеть:



То есть берется регулярное выражение и заменяется в несколько итераций:

  1. первая итерация — отрезается протокол;
  2. вторая итерация — отрезается www;
  3. третья итерация — отрезают хвосты в УРЛах.

Получается три вложенных замены. А функция IFERROR в формуле задает условие, что если вдруг возникнет ошибка, то ничего не будет. То есть если вдруг что-то не сработает, Google Sheets не выдаст ошибку, а ничего не будет выведено в строке. Либо можете записать, чтобы был поставлен прочерк.

Это первый вариант действий, когда оставляем только список доменов. Таким образом, в данном списке будут не только уникальные домены — как видно на скриншоте выше, они будут повторятся. Просто идет построчное перечисление. И в результате получаем напротив каждой страницы только домен без www, без протокола и адреса в конце.

Вариант второй: оставляем протокол

Второй вариант заключается в удалении всего, кроме протокола.

Используется вот такая формула:



Примерно так будет выглядеть в таблице:



Этот вариант также бывает нужен. Например, для парсинга данных на парсере. При загрузке данных на парсер некоторые пресеты требуют, чтобы домен был указан с протоколом. Можно сделать так, чтобы протокол добавлялся автоматически и везде вписывался https. Но если будут присутствовать адреса страниц с протоколом http, то возникнут сложности и потребуется дополнительно настаривать и доделывать пресет. Поэтому проще всего сразу делать с протоколом.

Вариант третий: уникальный список доменов

Если вам нужен уникальный список, то есть без повторов — например, для того, чтобы его куда-то дальше отправлять — можете использовать третью формулу:





Просто берете список, который хотите уникализировать, и прописываете эту формулу. При её использовании убираются все повторы.

Заключение

Если вы держите где-то в закладках подобную таблицу, то это довольно удобно и с этим можно быстро выполнить работу. Например, у меня есть подобная таблица с разными вкладками, которые решают различные прикладные задачи. Так что пользуйте, она вам быстро все посчитает.

Есть также варианты парсинга внутри (про это будет статья позже), и тут бывают сложности и приходится подождать, потому что данные тянутся с других страниц.

В данном же случае данные берутся из первой ячейки, так что вы сразу получаете результат.



Остались вопросы? Задавайте! Мы обязательно ответим.
Последние статьи