Web crawlerek

Egy igazán izgalmas téma a programozás során a különféle web crawlerek elkészítése, és ehhez például a Java is tökéletes. Most nem fogok azon vitatkozni, hogy melyik programozási nyelven lehetne a leggyorsabb crawlert megírni, mert számomra irreleváns. A Java van kéznél, és nekem nagyon jól megfelel.

Ugye a crawler feladata az, hogy megadok neki egy kiinduló pontot, ő meg letölti nekem az adatokat, miközben ide-oda ugrál az aloldalak vagy weboldalak hálózata között. A Google kereső robotjai is ezt teszik, megnyitnak egy weboldalt, majd végig mennek a rajta található linkeken, és feldolgozzák az adatokat. Gyakorlatilag Sergei Brin és Larry Page is erről írta a szakdolgozatát, akkor találták ki a weboldalak értékét mérő PageRank mutatójukat. A Google pedig ennek megfelelően értékelte a weben talált adatokat, és állítottak össze, állítja össze a mai napig is a kereső találati listáit.

Ami a számomra érdekes, az a különféle adatok lementése. Szabadidőmben próbálgatom a saját crawlerek elkészítését, a felmerülő problémákról majd később írok. Most nem jelent gondot letölteni bármilyen weboldalt, de az adatok feldolgozása már problémásabb. Itt jön képbe a Regex, és ebben még sokat kell gyakorolnom. Most ott az adat, és még nem tudom megmondani, hogy pontosan milyen minták alapján böngéssze ki nekem belőle a Java a kívánt dolgokat. Pedig Pasztuhov Dániel is megmondta a StudiCore kurzusán, hogy ez egy jó dolog, ő például imádja. Szerintem én is imádni fogom, AMINT megtanulom 🙂

Tehát most a közeljövőben újra ráfekszem a Regex-re, és addig gyakorlom, míg tökéletesítem a tudásom.

Szólj hozzá!