Cara mengekstrak teks dari dokumen PDF

Ini bisa sangat frustasi untuk mencoba mengekstrak teks dari file PDF untuk menggunakannya di aplikasi lain.

Ekstrak teks menggunakan Acrobat Reader

Langkah 1

Buka file di Acrobat Reader. Di Windows, pilih "File -> Ekspor teks dokumen", beri nama dokumen dan simpan.

Langkah 2

Pada sistem operasi Mac atau Linux, salin teks dengan mengakses menu "View" dan pilih "Continuous" atau "Continuous-Orientation". (Opsi pertama akan memberi Anda teks dalam satu kolom, sedangkan opsi kedua akan memformat teks sebagai halaman berdampingan). Pergi ke "Edit -> Pilih semua" dan kemudian "Edit -> Salin".

Langkah 3

Gunakan alat Pilih jika Anda hanya ingin mengekstrak bagian dari teks. Klik pada alat "Pilih teks" dan kemudian pilih informasi yang Anda inginkan. Dalam dokumen dengan banyak format kolom, Anda harus menggunakan alat pertama "Pilihan Kolom". Pergi ke "Edit -> Copy"

Konversi PDF ke HTML

Langkah 1

Gunakan Gmail sebagai cara pintas. Lampirkan file PDF ke email dan kirimkan ke akun Gmail Anda. Ketika Anda membuka email, Anda akan melihat serangkaian opsi di samping lampiran. Pilih opsi "Lihat sebagai HTML" dan simpan file yang terbuka di jendela terpisah. Meskipun Anda tidak akan dapat melihat grafik, file HTML mempertahankan format dokumen teks.

Langkah 2

Ekstrak dan ubah file pada baris perintah. Pengguna Linux dapat menggunakan perintah konversi dasar yang akan mengubah file .pdf menjadi file .txt: "Pdftotext filename.pdf". Pastikan untuk mengubah nama file dengan nama file PDF.

Langkah 3

Unduh program konversi teks PDF. Ada sejumlah program open source dan program gratis yang tersedia, seperti PDFBox dan Easy PDF to Text Converter. Banyak dari program-program ini juga dapat mengkonversi file PDF ke HTML.