kelebihan dan kekurang web scraping - sudekytrick

Latest

BANNER 728X90

Thursday 1 June 2017

kelebihan dan kekurang web scraping




Web scraping  adalah teknik yang digunakan untuk mengambil isi sebuah halaman web secara spesifik, misalnya link gambar, isi berita atau sejenisnya.

Bagaimana melakukan “Scraped” konten?

Ada dua cara untuk melakukan “scraped” konten:
1. Manual – ini adalah cara yang paling sederhana, dengan copy paste dari situs lain.
2. Otomatis – ini membutuhkan tools atau program (biasa disebut “bot”) yang dibuat untuk crawl web dan mengambil semua konten yang sesuai dengan parameter tertentu.

Bagaimana cara melindungi konten?

Meskipun ada beberapa tool dan aplikasi untuk membantu membatasi atau bahkan mencegah situs Scraping, Ada beberapa cara yang benar-benar dapat menghentikan scraping.
Cara teknis untuk menghentikan Scraping Bots
  • Blok alamat IP.
  • Blok bot dengan tools seperti layanan CAPTHCA yang memverifikasi manusia adalah operator.
  • Layanan komersial anti-bot.
  • Gunakan JavaScript dan file robots.txt untuk membatasi bot yang masuk.
Masalah dalam blok teknis:. Tidak ada cara yang benar-benar efektif untuk mencegah copy-paste pembaca dari situsmu dan mempublikasikannya di situs mereka sendiri.

Hanya cara yang nyata yang bisa mengalahkan web scraper

Hal terbaik yang bisa kamu lakukan adalah menyertakan link situs ke dalam copy teks, sehingga ketika mereka copy kontenmu, itu akan mengirim traffic kembali ke situsmu. Ketika mereka copy-paste, mereka hampir tidak pernah menghapus link tersebut, sehingga ketika di-copy linkmu akan mendapatkan keuntungan.
Sebenarnya, kamu tidak perlu khawatir tentang semua hal itu. Selama menjadi yang pertama mempublish kontenmu, Google akan mengindeks postinganmu seperti aslinya dan sisanya akan dianggap sebagai salinan atau duplikat konten.
Konten kami mungkin sering dicopy-paste dan mereka mencoba untuk mendapatkan keuntungan dari konten kami, tapi mustahil untuk menghentikannya.
Meskipun kita memiliki kekuatan hukum untuk konten, namun perlu usaha yang besar untuk mengatasinya.
Meskipun beberapa blogger dan penulis telah meminta pembaca untuk tidak menyalin atau setidaknya memberikan atribut kembali di situs utama. Namun pada kenyataanya, sebagian besar web scrapers tidak benar-benar peduli tentang permintaan ini.

No comments:

Post a Comment