Jak korzystać z Arkuszy Google do ściągania danych stron internetowych i budowania kampanii

Dowiedz się, jak w prosty sposób korzystać z Arkuszy Google do przeglądania stron internetowych i danych, skracania czasu wykonywania i ograniczania błędów — bez kodowania!

Wszyscy byliśmy w sytuacji, w której w pewnym momencie musieliśmy wydobyć dane ze strony internetowej.

Podczas pracy nad nowym kontem lub kampanią możesz nie mieć danych lub informacji dostępnych na przykład do tworzenia reklam.

W idealnym świecie otrzymalibyśmy całą zawartość, strony docelowe i istotne informacje, których potrzebujemy, w łatwym do zaimportowania formacie, takim jak CSV, arkusz kalkulacyjny Excel lub Arkusz Google. (Lub przynajmniej pod warunkiem, że potrzebujemy danych w kartach, które można zaimportować do jednego z wyżej wymienionych formatów.)

Ale nie zawsze tak jest.

Ci, którzy nie mają narzędzi do web scrapingu — lub wiedzy o kodowaniu, aby użyć czegoś takiego jak Python do pomocy w zadaniu — musieli uciekać się do żmudnej pracy polegającej na ręcznym kopiowaniu i wklejaniu setek lub tysięcy wpisów.

W niedawnej pracy mój zespół został poproszony o:

  • Wejdź na stronę klienta.
  • Pobierz ponad 150 nowych produktów na 15 różnych stronach.
  • Skopiuj i wklej nazwę produktu i adres URL strony docelowej każdego produktu do arkusza kalkulacyjnego.

Teraz możesz sobie wyobrazić, jak długie byłoby to zadanie, gdybyśmy to zrobili i wykonali je ręcznie.

Jest to nie tylko czasochłonne, ale ponieważ ktoś ręcznie przegląda tak wiele elementów i stron i fizycznie musi kopiować i wklejać dane produktu według produktu, szanse na popełnienie błędu lub dwóch są dość wysokie.

Przejrzenie dokumentu i upewnienie się, że nie zawiera błędów, wymagałoby wtedy jeszcze więcej czasu. Musi być lepszy sposób.

reklama

Co to jest IMPORTXML?

Wpisz Arkusze Google. Chciałbym poznać funkcję IMPORTXML.

Według strony pomocy technicznej Google IMPORTXML „importuje dane z różnych typów danych strukturalnych, w tym kanałów XML, HTML, CSV, TSV oraz RSS i ATOM XML”.

Zasadniczo IMPORTXML to funkcja umożliwiająca zbieranie uporządkowanych danych ze stron internetowych — nie jest wymagana znajomość kodowania.

Na przykład można szybko i łatwo wyodrębnić dane, takie jak tytuły stron, opisy lub linki, ale także bardziej złożone informacje.

 

Jak IMPORTXML może pomóc w usuwaniu elementów strony internetowej?

Sama funkcja jest dość prosta i wymaga tylko dwóch wartości:

  • Adres URL strony internetowej, z której zamierzamy wyodrębnić lub zeskrobać informacje.
  • Oraz XPath elementu, w którym zawarte są dane.

XPath to skrót od XML Path Language i może być używany do poruszania się po elementach i atrybutach w dokumencie XML.

Na przykład, aby wyodrębnić tytuł strony z https://en.wikipedia.org/wiki/Moon_landing, użyjemy:

=IMPORTXML(„https://en.wikipedia.org/wiki/Lądowanie_księżyca”, „//tytuł”)

To zwróci wartość: Lądowanie na Księżycu – Wikipedia.

Lub, jeśli szukamy opisu strony, spróbuj tego:

=IMPORTXML(„https://www.searchenginejournal.com/”,”//meta[@name=’opis’]/@content”)

Oto krótka lista najpopularniejszych i najbardziej użytecznych zapytań XPath:

  • Tytuł strony: //tytuł
  • Meta opis strony: //meta[@name=’opis’]/@content
  • Strona H1: //h1
  • Linki do stron: //@href

Zobacz IMPORTXML w akcji

Od czasu odkrycia IMPORTXML w Arkuszach Google stał się on naprawdę jedną z naszych tajnych broni w automatyzacji wielu naszych codziennych zadań, od tworzenia kampanii i reklam po badanie treści i nie tylko.

Co więcej, funkcja w połączeniu z innymi formułami i dodatkami może być używana do bardziej zaawansowanych zadań, które w innym przypadku wymagałyby zaawansowanych rozwiązań i rozwoju, takich jak narzędzia zbudowane w Pythonie.

Ale w tym przypadku przyjrzymy się IMPORTXML w jego najbardziej podstawowej formie: zdrapywaniu danych ze strony internetowej.

Spójrzmy na praktyczny przykład.

Wyobraź sobie, że poproszono nas o stworzenie kampanii dla Search Engine Journal.

Chcieliby, abyśmy reklamowali 30 ostatnich artykułów, które zostały opublikowane w sekcji PPC strony internetowej.

Można powiedzieć, że całkiem proste zadanie.

Niestety redakcja nie jest w stanie przesłać nam danych i uprzejmie prosi nas o zajrzenie na stronę internetową w celu uzyskania informacji wymaganych do zorganizowania kampanii.

Jak wspomniano na początku naszego artykułu, jednym ze sposobów na zrobienie tego byłoby otwarcie dwóch okien przeglądarki — jednego ze stroną internetową, a drugiego z Arkuszami Google lub Excelem. Następnie zaczęlibyśmy kopiować i wklejać informacje, artykuł po artykule i link po linku.

Ale używając IMPORTXML w Arkuszach Google, możemy osiągnąć ten sam wynik przy niewielkim lub zerowym ryzyku popełnienia błędów w ułamku czasu.

Krok 1: Zacznij od nowego arkusza Google

Najpierw otwieramy nowy, pusty dokument Arkuszy Google

 

Krok 2: Dodaj zawartość, której potrzebujesz do zdrapania

Dodaj adres URL strony (lub stron), z których chcemy pobrać informacje.

Krok 3: Znajdź ścieżkę XPath

Znajdujemy ścieżkę XPath elementu, którego zawartość chcemy zaimportować do naszego arkusza danych.

W naszym przykładzie zacznijmy od tytułów ostatnich 30 artykułów.

Przejdź do Chrome. Po najechaniu na tytuł jednego z artykułów kliknij prawym przyciskiem myszy i wybierz Sprawdź.

Upewnij się, że tytuł artykułu jest nadal zaznaczony i podświetlony, a następnie ponownie kliknij prawym przyciskiem myszy i wybierz opcję Kopiuj > Kopiuj XPath .

 

 

Krok 4: Wyodrębnij dane do Arkuszy Google

Wróć do dokumentu Arkuszy Google, wprowadź funkcję IMPORTXML w następujący sposób:

=IMPORTXML(B1,”//*[zaczyna się od(@id, 'tytuł’)]”)

Kilka rzeczy do zapamiętania:

Po pierwsze , w naszej formule zastąpiliśmy adres URL strony odwołaniem do komórki, w której jest przechowywany adres URL (B1).

Po drugie , podczas kopiowania XPath z Chrome zawsze będzie to ujęte w podwójnych cudzysłowach.

(//*[@id=”tytuł_1″])

Jednak, aby upewnić się, że nie złamie formuły, należy zmienić znak podwójnego cudzysłowu na znak pojedynczego cudzysłowu.

(//*[@id=’tytuł_1′])

Zwróć uwagę, że w tym przypadku, ponieważ tytuł ID strony zmienia się dla każdego artykułu (title_1, title_2 itd.), musimy nieznacznie zmodyfikować zapytanie i użyć „zaczyna się od”, aby przechwycić wszystkie elementy na stronie z identyfikatorem, który zawiera 'tytuł.’

Lista zawiera wszystkie artykuły, które pojawiły się na stronie, którą właśnie zdobyliśmy (w tym mój poprzedni artykuł o automatyzacji i sposobach wykorzystania modułów dostosowania reklam do poprawy skuteczności kampanii Google Ads ).

Możesz również zastosować to do skrobania wszelkich innych informacji potrzebnych do skonfigurowania kampanii reklamowej.

Dodajmy adresy URL stron docelowych, polecany fragment każdego artykułu oraz nazwisko autora do naszego dokumentu Arkuszy.

W przypadku adresów URL stron docelowych musimy dostosować zapytanie, aby określić, że szukamy elementu HREF dołączonego do tytułu artykułu.

Dlatego nasze zapytanie będzie wyglądało tak:

=IMPORTXML(B1,”//*[zaczyna się od(@id, 'tytuł’)]/@href”)

Teraz dołącz '/@href’ na końcu ścieżki Xpath.

Rozwiązywanie problemów

Jedną rzeczą, na którą należy uważać, jest to, że aby móc w pełni rozwinąć i wypełnić arkusz kalkulacyjny wszystkimi danymi zwróconymi przez zapytanie, kolumna, w której są wypełnione dane, musi mieć wystarczającą liczbę wolnych komórek i żadnych innych danych.

Działa to w podobny sposób, jak w przypadku korzystania z ARRAYFORMULA, aby formuła mogła się rozwinąć, w tej samej kolumnie nie mogą znajdować się żadne inne dane.

 

Wniosek

I masz w pełni zautomatyzowany, bezbłędny sposób na pobieranie danych z (potencjalnie) dowolnej strony internetowej, niezależnie od tego, czy potrzebujesz treści i opisów produktów, czy danych e-commerce, takich jak cena produktu lub koszty wysyłki.

W czasach, gdy informacje i dane mogą być przewagą wymaganą do uzyskania lepszych niż przeciętne wyników, możliwość łatwego i szybkiego przeszukiwania stron internetowych i ustrukturyzowanych treści może być bezcenna. Poza tym, jak widzieliśmy powyżej, IMPORTXML może pomóc skrócić czas wykonania i zmniejszyć ryzyko popełnienia błędów.

Ponadto funkcja ta jest nie tylko świetnym narzędziem, które może być używane wyłącznie do zadań PPC , ale może być naprawdę przydatna w wielu różnych projektach wymagających skrobania stron internetowych, w tym zadań SEO i treści.