10 algoritme terbaik dalam penambangan data

Penambangan data mencapai kesimpulan penting melalui observasi rumit dalam jumlah besar.

Pohon keputusan

Algoritma pohon keputusan terdiri dari mengatur data dalam pemilihan bersaing membentuk cabang-cabang pengaruh setelah keputusan awal. Batang pohon melambangkan keputusan awal, dan dimulai dengan pertanyaan ya atau tidak, bagaimana cara sarapan atau tidak. Mengambil sarapan dan tidak sarapan adalah dua cabang pohon yang berbeda, dan setiap pilihan berikutnya akan memiliki cabang yang berbeda yang mengarah ke titik akhir.

Algoritma K-means

Algoritma K-means didasarkan pada analisis kelompok. Cobalah untuk membagi data yang dikumpulkan ke dalam "kelompok" terpisah yang dikelompokkan berdasarkan karakteristik umum.

Mendukung mesin vektor

Algoritma mesin vektor pendukung mengambil data input dan memprediksi yang mana dari dua kategori yang mungkin termasuk data input. Contohnya adalah mengumpulkan kode pos dari sekelompok pemilih dan mencoba memprediksi apakah pemilih adalah Demokrat atau Republik.

Algoritma a priori

Algoritma apriori biasanya mengontrol data transaksi. Misalnya, di toko pakaian, algoritme dapat mengontrol kemeja yang biasanya dibeli oleh pelanggan.

Algoritma EM

Algoritma ini mendefinisikan parameter dengan menganalisa data dan memprediksi kemungkinan keluaran masa depan atau kejadian acak dalam parameter data. Sebagai contoh, algoritma EM dapat mencoba untuk memprediksi waktu letusan berikutnya dari geyser berdasarkan data waktu letusan masa lalu.

Algoritma PageRank

Algoritma PageRank adalah algoritma dasar untuk mesin pencari. Beri nilai dan perkirakan relevansi bagian data tertentu dalam kumpulan besar, seperti satu situs web dalam kumpulan yang lebih besar dari semua situs web Internet.

Algoritma AdaBoost

Algoritma AdaBoost bekerja dalam algoritma pembelajaran lain yang mengantisipasi perilaku sesuai dengan data yang diamati sehingga mereka sensitif terhadap ekstrem statistik. Meskipun algoritma EM mungkin bias karena geyser yang memiliki dua letusan dalam waktu kurang dari satu menit ketika biasanya memiliki ruam sekali sehari, algoritma AdaBoost akan memodifikasi output dari algoritma EM dengan menganalisis relevansi titik akhir.

Algoritma tetangga k terdekat

Algoritma ini mengenali pola di lokasi data dan mengaitkannya dengan data dengan pengenal yang lebih besar. Misalnya, jika Anda ingin menetapkan kantor pos untuk setiap lokasi geografis rumah dan Anda memiliki kumpulan data untuk setiap lokasi geografis rumah, algoritme tetangga terdekat akan menetapkan rumah-rumah ke kantor pos terdekat berdasarkan kedekatannya.

Naive Baye

Algoritma Naive Baye memprediksi output dari suatu identitas berdasarkan data dari pengamatan yang diketahui. Misalnya, jika seseorang memiliki tinggi 6 kaki 6 inci (1, 97 m) dan memakai sepatu ukuran 14, algoritma Naive Baye dapat memprediksi dengan probabilitas tertentu bahwa orang tersebut adalah seorang pria.

Algoritma KARTU

"CART" adalah akronim dalam bahasa Inggris yang berarti analisis dan klasifikasi pohon regresi. Seperti analisis pohon keputusan, ia mengatur data sesuai dengan opsi bersaing, seolah-olah seseorang telah selamat dari gempa bumi. Tidak seperti algoritma pohon keputusan, yang hanya dapat mengklasifikasikan output atau output numerik berdasarkan regresi, algoritma CART dapat menggunakan keduanya untuk memprediksi probabilitas suatu peristiwa.