INFORMATION EXTRACTION PADA PESANAN PEMBELIAN MENGGUNAKAN RETINANET DAN TESSERACT UNTUK TOKO MAJU
Abstract
Proses jual beli telah berubah seiring berjalannya waktu mengikuti perkembangan zaman. Proses transaksi dapat dilakukan secara langsung melalui toko fisik atau dengan sistem pemesanan yang diikuti dengan dokumen berupa pesanan pembelian. Melalui pesanan pembelian, pengusaha memperoleh banyak manfaat, seperti menghindari kesalahan pengadaan barang, menentukan harga pasar, sebagai bukti pemesanan dari pembeli, dan lain-lain. Akan tetapi, banyak dari pengusaha retail masih belum menyimpan data tersebut secara terstruktur, sehingga sulit untuk melakukan analisis dan pelacakan. Meskipun banyak dari pesanan pembelian telah berbentuk digital seperti PDF, pencatatan terstruktur bersumber dari dokumen digital masih memerlukan upaya lebih dalam waktu dan usaha, serta rawan kesalahan jika dilakukan secara manual oleh manusia. Berangkat dari permasalahan tersebut, tugas akhir ini bertujuan untuk membuat model information extraction dari pesanan pembelian berbentuk PDF. Alur kerja dari tugas akhir ini dimulai dengan pengumpulan data, data pre-processing, information extraction, evaluasi, dan penyimpanan kedalam database. Data yang digunakan pada tugas akhir ini adalah pesanan pembelian dari “Toko Maju” yang berbentuk PDF. Kemudian, pesanan pembelian akan dirubah ke format JPEG, sebelum dilakukan proses pelabelan dan pembentukan bounding boxes. Proses information extraction meliputi proses object detection dan Optical Character Recognition (OCR). Object detection akan menggunakan model Keras RetinaNet. Setelah letak daerah ekstraksi ditemukan, maka akan dilakukan deteksi karakter atau OCR dengan menggunakan library Tesseract. Informasi hasil ekstraksi kemudian akan disimpan ke database MySQL dengan menggunakan library pymysql. Model information extraction memperoleh nilai confidence sebesar 95.6% dan nilai accuracy sebesar 95.5%. Dengan menggunakan model information extraction ini, diharapkan pengusaha retail dapat melakukan pencatatan terstruktur dengan lebih mudah.

