Sebelum melakukan
indexing, langkah pertama
yang harus dilakukan
adalah membuat atau menulis sebuah file konfigurasi Swish-e untuk indexing. File konfigurasi Swish-e diperlukan untuk mengatur proses indexing nantinya sesuai dengan yang diinginkan. Pada contoh ini, nama file dituliskan dengan nama “crawling.conf”. Siapkan file-file
yang ingin di-index
dan simpan di
dalam satu folder.
Contoh di dalam folder
“file_html_pdf” terdapat beberapa
file HTML dan
PDF. File crawling.conf
dan folder “file_html_pdf” disimpan pada direktori yang sama.
#crawling #directory yang diindex IndexDir ./file_html_pdf #file yang diindex IndexOnly .html .pdf #konversi pdf ke txt FileFilter .pdf pdftotext "'%p'-" #untuk mengambil konten html DefaultContents HTML* StoreDescription HTML* <body> 200000 200000 #meng-create file index IndexFile ./hasil_index.index
#meng-create file index
IndexFile ./hasil_index.index
Setelah selesai membuat file konfigurasi maka kita dapat menjalankan proses indexing dari
file konfigurasi Swish-e yang
telah dibuat tersebut. Adapun cara menjalankannya adalah sebagai berikut.
$ swish-e –c crawling.conf