IT, Entrepreneurship, Web, Internet, Motivation, Inspiration
Jan 24 2008

rss + web crawler = web clipper

oke…. setelah sekian lama berberat-berat ria dengan tulisan-tulisan berat macam:

sekarang saatnya kembali lagi ke kompetensi murni saya sebagai orang IT. Kalau memang ingin menjadi SDM IT yang benar-benar expert, maka saya juga harus menguasai aspek-aspek teknis dari IT itu sendiri, sesuai dengan tulisan saya disini: SDM IT yang gak suka IT vs SDM non IT yang cinta IT . Kalau tidak saya cuma akan jadi sapi ompong yang keras suara lenguhannya tapi gak bisa menggigit :) Oleh karena itu kali ini saya ingin menulis sesuatu yang menyentuh ke aspek teknis dari suatu teknologi dibidang internet, yaitu web clipper. Tentunya disini saya tidak akan membahasakannya dengan segala macam kode-kode aneh yang tidak Anda mengerti. Saya akan menjelaskkanya dengan bahasa manusia, jadi ya… teknis tapi gak teknis-teknis amat :)

Apa itu web clipper? Kalau dilihat dari judulnya dapat dilihat bahwa web clipper bisa dibilang merupakan kombinasi dari dua jenis teknologi web yang berbeda yaitu RSS (Really Simple Syndication) dan web crawler. Sebelum masuk ke penjelasan tentang apa itu web clipper, saya akan menjelaskan sedikit tentang dua teknologi yang saya sebutkan diatas,

RSS (Really Simple Syndication), merupakan sebuah teknologi untuk menarik konten dari suatu situs ke situs kita sendiri. Contoh: csui05 blog aggregator (merupakan aggregator blog teman-teman saya di fasilkom UI 2005). Situs tersebut menarik konten blog dari semua teman saya satu angkatan untuk ditampilka disitus tersebut. Blog ini juga termasuk blog yang di-aggregate (ditarik konten tulisannya) di situs tersebut. Supaya konten tulisan dari suatu situs dapat ditarik, maka situs tersebut harus mengaktifkan fitur RSS-nya, kebanyakan blog engine (wordpress, blogger dll) yang beredar dijagad maya saat ini sudah memiliki fitur RSS sehingga semua blog tersebut bisa di-aggregate. Untuk dapat menarik isi sebuah situs kedalam situs yang kita buat, kita cukup meng-copy link RSS dari situs yang bersangkutan kedalam RSS engine yang kita miliki disitus kita. Nanti engine tersebut akan secara rutin mengecek apakah ada tulisan baru yang bisa diambil atau tidak? jika ada, maka engine tersebut akan meng-copy tulisan tersebut untuk diitampilkan disitus kita.

Web Crawler, kalau yang satu ini adalah teknologi memungkinkan komputer kita secara otomatis menjelajahi dunia maya. Aplikasi web crawler ini akan “merangkak” terus menjelajahi setiap sudut internet. Dia akan mengunjungi setiap halaman web dan kemudian merambah semua link yang ada dalam halaman web tersebut. Saat ini, didunia ada satu web crawler yang jangkauannya sudah paling luas, yaitu web crawler nya mbah google, Katanya sih google telah berhasil merambah semua halaman web yang ada di Internet yang jumlah mencapai (kurang lebih) 8 milyar. Dengan aplikasi ini, kita dapat terus memantau perkembangan berbagai halaman web yang ada di jagad maya.

Sekarang baru masuk ke penjelasan tentang apa itu web clipper. Web clipper merupakan kombinasi dari dua teknologi diatas. Jika kita perhatikan, dua teknologi diatas kan punya kelemahan. Untuk teknologi RSS, kita hanya bisa menarik konten web yang memang menyediakan link rss nya ke publik. Bagaimana dengan situs-situs yang tidak ada fitur RSS nya? Untuk itulah dibuat teknologi yang namanya web clipper. Web clipper mampu merambah suatu situs dan kemudian menarik konten dari situs tersebut walaupun situs tersebut tidak memiliki fitur RSS. Saya akan menjelaskan cara kerja dengan studi kasus berikut:

Situs detik.com yang merupakan situs berita terbesar di Indonesia, itu tidak memiliki fitur RSS. Lalu bagaimana caranya agar kita dapat mengambil berita-berita yang mucul disana? Kita akan menariknya secara manual, setiap situs berita punya format sendiri dalam hal penulisan berita. Pada situs detik.com, tanggal dan waktu diletakkan diatas judul, Judul ditulisan dengan huruf yang besar baru kemudian dibagian bawah judul diletakkan isi beritanya. Jika kita mengklik judul berita tersebut maka kita akan mendapatkan format baku penulisan berita di detik.com secara utuh. Format baku tersebut nantinya akan kita kustomasikan secara khusus pada web clipper yang kita buat, supaya web clipper tersebut dapat menampilkan isi situs detik.com sesuai dengan format yang ada di detik.com. Oleh karena itu, memang agak rumit untuk membuat web clipper karena kita harus membuat satu web clipper sendiri untuk satu satu situs dengan format penulisan tertentu. Dengan RSS, kita tidak perlu memikirkan hal tersebut karena RSS menyeragamkan format penulisan situs yang menggunakan fiturnya.

Sekian saja penjelasan tentang web clipper, Kalau ada yang kurang jelas langsung tanya aja deh…

Semoga bermanfaat :)


↑ Back to top