XPath Scraper Basic-Extended.pdf

(102 KB) Pobierz
XPath Scraper Basic/Extended (XScraper)
Wielokrotnie w artykułach czy komentarzach przejawiałem niechęć do scraperów, gdzie
wykorzystuje się wyrażenia RegEx. Skłoniło mnie to do napisania swojego programu do
wyciągania danych ze stron WWW, który opiera się na języku ścieżek XML (XPath). XPath
Scraper (w skrócie XScraper lub XS) w wersji podstawowej (Basic) od dzisiaj dostępny jest za free
dla każdego czytelnika mojego bloga. W dalszej części wpisu, znajdziecie krótką prezentację
programu.
Wersję podstawową można wykorzystać do
testowania wyrażeń
XPath
oraz ręcznego
wyodrębniania danych
ze stron internetowych. Prawdziwy potencjał tkwi w trybie
automatycznym, który jest piekielnie skuteczny (w wersji Basic opcja nieaktywna). XScraper
Extended będzie dostępny wyłącznie dla nielicznych. Na 99% będą prowadzone prace nad jego
rozwojem. Dla wersji Basic można spodziewać się jedynie krytycznych aktualizacji (o ile będą
konieczne).
Aplikacje, które mam na własny użytek nie muszą być ładne, ważne aby robiły to do czego zostały
powołane. Szersze udostępnianie programów zawsze wiąże się z podrasowaniem wyglądu
interfejsu, w związku z tym okno aplikacji od czasu prezentacji zrzutu na fanpage na Facebooku
przeszło niezły lifting. Sami przyznacie, że teraz wygląda lepiej?
Przejdźmy do konkretów. Okno główne zawiera dwa pola:
URL - wprowadzamy adres strony/podstrony (z http).
XPATH - wyrażenie języka XPath.
W jaki sposób konstruować wyrażenia? Po szczegóły odsyłam do
poradnika.
Tak na marginesie,
można sobie ułatwić pracę z XPath poprzez zainstalowanie dwóch dodatków do przeglądarki
Firefox, mianowicie
Firebug
jako podstawę oraz rozszerzenie w postaci
FirePath.
Przed uruchomieniem scrapera można wybrać atrybut, który chcemy poddać inspekcji TEXT lub
HREF (domyślnie). Jaka jest różnica? HREF wybieramy, kiedy naszym celem jest wyodrębnienie
np. linków, TEXT kiedy chcemy wydobyć np. anchor text z odsyłaczy. Ta funkcja została
wprowadzona jako ułatwienie.
Po zakończeniu procesu na wyjściu otrzymamy listę linków, postów, artykułów, proxy lub inne
dane, które można łatwo zapisać do pliku TXT. Program jest bardzo prosty, każdy sobie z nim
poradzi.
W trybie automatycznym użytkownik może wczytać zestaw danych (URL + XPath footprint).
Dzięki temu w kilkanaście minut można wykonać pracę, która normalnie zajmuje kilka godzin
Na zakończenie, wspierane są witryny, które zakodowane są w
standardzie UTF-8.
Jeśli trafimy na
inne kodowanie, na wyjściu zobaczymy ładne krzaczki. W wersji Basic nie zostanie dodana obsługa
innych standardów (np. iso-8859-2).
Link do pobrania programu znajdziecie na fanpage, zakładka Free SEO Tools.
http://chomikuj.pl/Manunu
Zgłoś jeśli naruszono regulamin