XPath Scraper Basic-Extended.pdf

(102 KB) Pobierz

XPath Scraper Basic/Extended (XScraper)

Wielokrotnie w artykułach czy komentarzach przejawiałem niechęć do scraperów, gdzie

wykorzystuje się wyrażenia RegEx. Skłoniło mnie to do napisania swojego programu do

wyciągania danych ze stron WWW, który opiera się na języku ścieżek XML (XPath). XPath

Scraper (w skrócie XScraper lub XS) w wersji podstawowej (Basic) od dzisiaj dostępny jest za free

dla każdego czytelnika mojego bloga. W dalszej części wpisu, znajdziecie krótką prezentację

programu.

Wersję podstawową można wykorzystać do

testowania wyrażeń

XPath

oraz ręcznego

wyodrębniania danych

ze stron internetowych. Prawdziwy potencjał tkwi w trybie

automatycznym, który jest piekielnie skuteczny (w wersji Basic opcja nieaktywna). XScraper

Extended będzie dostępny wyłącznie dla nielicznych. Na 99% będą prowadzone prace nad jego

rozwojem. Dla wersji Basic można spodziewać się jedynie krytycznych aktualizacji (o ile będą

konieczne).

Aplikacje, które mam na własny użytek nie muszą być ładne, ważne aby robiły to do czego zostały

powołane. Szersze udostępnianie programów zawsze wiąże się z podrasowaniem wyglądu

interfejsu, w związku z tym okno aplikacji od czasu prezentacji zrzutu na fanpage na Facebooku

przeszło niezły lifting. Sami przyznacie, że teraz wygląda lepiej?

Przejdźmy do konkretów. Okno główne zawiera dwa pola:

•

URL - wprowadzamy adres strony/podstrony (z http).

•

XPATH - wyrażenie języka XPath.

W jaki sposób konstruować wyrażenia? Po szczegóły odsyłam do

poradnika.

Tak na marginesie,

można sobie ułatwić pracę z XPath poprzez zainstalowanie dwóch dodatków do przeglądarki

Firefox, mianowicie

Firebug

jako podstawę oraz rozszerzenie w postaci

FirePath.

Przed uruchomieniem scrapera można wybrać atrybut, który chcemy poddać inspekcji TEXT lub

HREF (domyślnie). Jaka jest różnica? HREF wybieramy, kiedy naszym celem jest wyodrębnienie

np. linków, TEXT kiedy chcemy wydobyć np. anchor text z odsyłaczy. Ta funkcja została

wprowadzona jako ułatwienie.

Po zakończeniu procesu na wyjściu otrzymamy listę linków, postów, artykułów, proxy lub inne

dane, które można łatwo zapisać do pliku TXT. Program jest bardzo prosty, każdy sobie z nim

poradzi.

W trybie automatycznym użytkownik może wczytać zestaw danych (URL + XPath footprint).

Dzięki temu w kilkanaście minut można wykonać pracę, która normalnie zajmuje kilka godzin

Na zakończenie, wspierane są witryny, które zakodowane są w

standardzie UTF-8.

Jeśli trafimy na

inne kodowanie, na wyjściu zobaczymy ładne krzaczki. W wersji Basic nie zostanie dodana obsługa

innych standardów (np. iso-8859-2).

Link do pobrania programu znajdziecie na fanpage, zakładka Free SEO Tools.

http://chomikuj.pl/Manunu

Plik z chomika:

Manunu

Inne pliki z tego folderu:

Bootowalny pendrive USB z Windows.pdf (314 KB)
LCD.pdf (569 KB)
Amatorskie PCB.pdf.pdf (520 KB)
24 popełniane błędy przy pozycjonowaniu.pdf (119 KB)
BIOS w praktyce.doc (111 KB)

XPath Scraper Basic-Extended.pdf

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: