Big Data

Baru-baru ini, istilah Big Data telah diciptakan mengacu pada tantangan dan keuntungan yang diperoleh dari pengumpulan dan pemrosesan sejumlah besar data (V. Marx. Tantangan besar data besar. Nature, 498 (7453): 255-260, 2013). Topik ini telah muncul sejak organisasi harus berurusan dengan pengumpulan data skala petabyte. Faktanya, dalam dua tahun terakhir kami telah menghasilkan 90% dari total data yang dihasilkan dalam sejarah (X. Wu, X. Zhu, G.-Q. Wu, dan W. Ding. Penambangan data dengan data besar. IEEE Trans. Knowl. Data Eng., 26 (1): 97-107, 2014). Sumber informasi dalam jumlah sangat besar adalah aplikasi yang mengumpulkan data dari aliran klik, riwayat transaksi, sensor, dan tempat lain. Namun, masalah pertama untuk definisi yang benar dari "Big Data" adalah nama itu sendiri (T. Kraska. Menemukan jarum dalam tumpukan jerami sistem data besar. IEEE Internet Comput., 17 (1): 84-86, 2013), karena kita mungkin berpikir bahwa itu hanya terkait dengan Volume data.

Struktur heterogen, dimensi yang beragam, dan Variasi dari representasi data, juga memiliki arti penting dalam masalah ini. Coba pikirkan tentang aplikasi-aplikasi terdahulu yang melakukan perekaman data: implementasi perangkat lunak yang berbeda akan mengarah pada skema dan protokol yang berbeda (T. Schlieski dan BD Johnson. Hiburan di zaman data besar. Prosiding IEEE, 100 (Centennial-Issue): 1404-1408, 2012).

Tentu saja itu juga tergantung pada waktu komputasi, yaitu efisiensi dan Kecepatan dalam menerima dan memproses data. Pengguna saat ini menuntut "waktu berlalu yang dapat ditoleransi" untuk menerima jawaban. Kita harus meletakkan istilah ini dalam kaitannya dengan sumber daya komputasi yang tersedia, karena kita tidak dapat membandingkan kekuatan komputer pribadi sehubungan dengan server komputasi perusahaan besar (S. Madden. Dari basis data ke data besar. IEEE Internet Comput., 16 (3): 4-6, 2012 ).

Semua fakta ini dikenal sebagai 3V tentang Big Data (Gambar 1), yang mengarah pada definisi yang diberikan oleh Steve Todd di Berkeley University:

Big data adalah ketika aplikasi normal teknologi saat ini tidak memungkinkan pengguna untuk mendapatkan jawaban yang tepat waktu, hemat biaya, dan berkualitas untuk pertanyaan yang didorong data.

Kita harus menunjukkan bahwa definisi tambahan termasuk hingga 9V dapat ditemukan, menambahkan istilah seperti Veracity, Value, Viability, dan Visualisasi, antara lain ( PC Zikopoulos, C. Eaton, D. deRoos, T. Deutsch, dan G. Lapis Memahami Big Data - Analisis untuk Hadoop dan Streaming Data Kelas Perusahaan. McGraw-Hill Osborne Media, edisi pertama, 2011).

Tantangan utama saat menangani Big Data dikaitkan dengan dua fitur utama (A. Labrinidis dan HV Jagadish. Tantangan dan peluang dengan data besar. PVLDB, 5 (12): 2032-2033, 2012):

Penyimpanan dan pengelolaan informasi dalam volume besar. Masalah ini terkait dengan DBMS, dan model hubungan entitas tradisional. Sistem komersial melaporkan skala yang baik, mampu menangani database multi-petabyte, tetapi selain "biaya" dalam hal harga dan sumber daya perangkat keras, mereka memiliki kendala mengimpor data ke representasi asli. Di sisi lain, sistem open source yang diadopsi secara luas, seperti MySQL, jauh lebih terbatas dalam hal skalabilitas daripada rekan analitik komersial mereka.

Proses untuk melakukan eksplorasi volume data yang besar ini, yang bermaksud untuk menemukan informasi dan pengetahuan yang berguna untuk tindakan di masa depan (X. Wu, X. Zhu, G.-Q. Wu, dan W. Ding. Data mining dengan besar data. IEEE Trans. Knowl. Data Eng., 26 (1): 97-107, 2014). Pemrosesan analitis standar dipandu oleh skema hubungan entitas, dari mana pertanyaan dirumuskan menggunakan bahasa SQL. Halangan pertama dari jenis sistem ini adalah perlunya melakukan prapembuatan data, seperti yang dinyatakan sebelumnya. Selain itu, tidak ada banyak dukungan untuk statistik dan pemodelan di-database, dan banyak programmer DM mungkin tidak nyaman dengan gaya deklaratif SQL. Bahkan dalam hal mesin menyediakan fungsionalitas ini, karena algoritma iteratif tidak mudah diungkapkan sebagai operasi paralel dalam SQL, mereka tidak bekerja dengan baik untuk sejumlah besar data.

Singkatnya, ada beberapa kondisi yang harus dipertimbangkan untuk mempertimbangkan masalah dalam kerangka Big Data. Pertama-tama, dan merujuk pada properti 3V, ambang batas untuk jumlah informasi yang sedang diproses, dan batasan waktu untuk memberikan jawaban, harus ditetapkan. Kedua konsep ini juga terkait erat. Misalnya, jika kita menangani aplikasi pengenalan sidik jari, ada batasan jumlah sidik jari yang dapat kita kelola dalam database untuk memberikan jawaban yang akurat dalam waktu singkat, yaitu sepersepuluh detik atau beberapa detik.

Tetapi, bagaimana kita menetapkan batas ini? Jawabannya tidak jelas seperti apa yang "besar" tahun lalu, sekarang dapat dianggap sebagai "kecil". Oleh karena itu, untuk definisi Big Data yang jelas, kita juga harus memasukkan teknologi mana yang diperlukan untuk menyelesaikan masalah. Misalkan perusahaan penjualan utama, yang bertujuan untuk menyesuaikan harga satuan untuk koleksi barang berdasarkan permintaan dan inventaris. Jelas, perusahaan ini akan membutuhkan teknologi komputasi di luar kelompok mesin standar dengan basis data relasional dan produk analisis bisnis yang umum. Sekarang, jika kami mempertimbangkan proyek ambisi serupa dalam domain perusahaan pengecer, aplikasi dapat dengan mudah diselesaikan menggunakan database yang ada dan alat ETL. Yang terakhir tidak dapat dikategorikan sebagai proyek Big Data, sesuai dengan definisi kami.

Akhirnya, Big Data adalah tentang wawasan yang ingin kami ekstrak dari informasi. Ada banyak aplikasi terkenal yang berbasis Cloud Computing seperti server email (Gmail), media sosial (Twitter), atau berbagi penyimpanan dan cadangan (Dropbox). Semua perangkat lunak ini mengelola volume data yang tinggi, di mana respons cepat sangat penting, dan dengan informasi datang pada tingkat tinggi dengan cara terstruktur atau terstruktur. Mereka juga harus menghadapi kebenaran dalam informasi; namun, mereka tidak dianggap sebagai Big Data.

Kuncinya di sini adalah analisis yang dibuat untuk tujuan pengetahuan dan bisnis, yang dikenal sebagai Ilmu Data (F. Provost dan T. Fawcett. Ilmu Data untuk Bisnis. Apa yang perlu Anda ketahui tentang penambangan data dan pemikiran analitik data. O 'Reilly Media, edisi 1, 2013). Spesialisasi ini mencakup beberapa bidang seperti statistik, pembelajaran mesin, DM, kecerdasan buatan, dan visualisasi, antara lain. Oleh karena itu, Big Data dan Ilmu Data adalah dua istilah dengan sinergi yang tinggi di antara mereka (MA Waller, SE Fawcett. Ilmu data, analisis prediktif, dan data besar: sebuah revolusi yang akan mengubah desain dan manajemen rantai pasokan. J Bus Logistics 2013, 34: 77-84). Beberapa contoh terkenal termasuk e-Sciences dan disiplin ilmu terkait lainnya (fisika partikel, bioinformatika, kedokteran atau genomik) Komputasi Sosial (analisis jejaring sosial, komunitas daring atau sistem pemberi rekomendasi), dan e-commerce skala besar, yang kesemuanya adalah khususnya data-intensif.

Kata "Big data" berlaku pada tahun 2017, dan itu akan tetap berlaku di tahun-tahun berikutnya. Dalam posting kami sebelumnya, saya telah memperkenalkan beberapa konsep tentang big data, pembelajaran mesin, dan penambangan data (lihat posting: Memahami Big data, Penambangan data, dan Pembelajaran Mesin dalam 5 Menit). Sekarang mari kita menggali lebih dalam ke Machine Learning dengan walk-through singkat dari beberapa algoritma ML yang paling umum digunakan, tidak ada kode, tidak ada teori abstrak, hanya gambar dan beberapa contoh bagaimana mereka digunakan.

Daftar algoritma yang dibahas dalam artikel ini meliputi:

· Pohon keputusan
· Hutan acak
· Regresi logistik
· Mesin dukungan vektor
· Bayes Naif
· k-NearestNeighbor
· k-means
· Adaboost
· Jaringan syaraf
· Markov

Pohon Keputusan

Klasifikasi sekumpulan data ke dalam kelompok yang berbeda menggunakan atribut tertentu, jalankan tes di setiap node, melalui penilaian brach, lebih lanjut membagi data menjadi dua kelompok yang berbeda, seterusnya dan seterusnya. Tes dilakukan berdasarkan data yang ada, dan ketika data baru ditambahkan, dapat diklasifikasikan ke grup yang sesuai

Klasifikasi data berdasarkan beberapa fitur, setiap kali proses menuju ke langkah berikutnya, ada cabang penilaian, dan penilaian membagi data menjadi dua, dan proses berlanjut. Ketika tes dilakukan dengan data yang ada, data baru bisa. Pertanyaan ini dipelajari oleh data yang ada, ketika ada data baru yang masuk, komputer dapat mengkategorikan data ke dalam daun kanan.

Hutan Acak

Pilih secara acak dari data asli, dan bentuk ke dalam himpunan bagian yang berbeda.

Matriks S adalah data asli, dan berisi baris data 1-N, sedangkan A, B, C adalah fitur, dan C terakhir merupakan singkatan dari kategori.

Buat himpunan bagian acak dari S, katakanlah kita mendapat himpunan himpunan bagian M.

Dan kami mendapatkan M set pohon keputusan dari himpunan bagian ini:

Melempar data baru ke dalam pohon-pohon ini, kita bisa mendapatkan set hasil M, dan kami menghitung untuk melihat hasil mana yang paling dalam semua set M, kita bisa menganggap itu sebagai hasil akhir.

Regresi Logistik

Ketika probabilitas target prediksi lebih besar dari 0, dan kurang dari atau sama dengan 1, itu tidak dapat dipenuhi oleh model linier sederhana. Karena ketika domain definisi tidak dalam tingkat tertentu, rentang akan melebihi interval yang ditentukan.

Lebih baik kita pakai model dengan jenis ini.

Jadi bagaimana kita bisa mendapatkan model ini?

Model ini perlu memenuhi dua kondisi, "Lebih besar dari atau sama dengan 0", "Kurang dari atau sama dengan 1"

Dan kami mengubah formula, kami bisa mendapatkan model regresi logistik:

Dengan menghitung data asli, kita bisa mendapatkan koefisien yang sesuai.

Dan kami mendapatkan plot model logistik.

Mendukung Mesin Vektor

Untuk memisahkan kedua kelas dari hyperplane, pilihan terbaik adalah hyperplane yang meninggalkan margin maksimum dari kedua kelas. Karena Z2> Z1, jadi yang hijau lebih baik.

Gunakan persamaan linear untuk mengekspresikan hyperplane, kelas di atas garis lebih besar dari atau sama dengan 1, kelas lainnya kurang dari atau sama dengan -1.

Hitung jarak antara titik ke permukaan dengan menggunakan persamaan dalam grafik:

Jadi kita mendapatkan ekspresi margin total seperti di bawah ini, tujuannya adalah untuk memaksimalkan margin, yang perlu kita lakukan adalah untuk meminimalkan penyebut.

Sebagai contoh, kami menggunakan 3 poin untuk menemukan hyperplane optimal, menentukan vektor bobot = (2, 3) - (1, 1)

Dan dapatkan vektor bobot (a, 2a), gantikan kedua titik ini ke dalam persamaan

Ketika a dikonfirmasi, hasil menggunakan (a, 2a) adalah vektor dukungan,

Pengganti persamaan dalam a dan w0 adalah mesin dukungan vektor.

Naif Bayes

Berikut ini contoh NLP:

Memberikan sepotong teks, periksa sikap teks itu positif atau negatif.

Untuk menyelesaikan masalah, kita hanya dapat melihat beberapa kata:

Dan kata-kata ini, hanya akan mewakili beberapa kata dan jumlah mereka.

Dan pertanyaan awal adalah: Memberi Anda hukuman, kategori apa yang termasuk dalam kategori itu?

Dengan menggunakan Aturan Bayes, itu akan menjadi pertanyaan yang mudah.

Pertanyaannya menjadi, di kelas ini, berapa probabilitas terjadinya kalimat ini? Dan ingatlah untuk tidak melupakan dua probabilitas lainnya dalam persamaan.

Contoh: probabilitas kemunculan kata "cinta" adalah 0,1 di kelas positif, dan 0,001 di kelas negatif.

k-Nearest Neighbor

Ketika datang datum baru, kategori mana yang memiliki poin paling dekat dengannya, itu milik kategori mana.

Sebagai contoh: Untuk membedakan "anjing" dan "kucing", kami menilai dari dua fitur, "cakar" dan "suara". Lingkaran dan segitiga adalah kategori yang diketahui, bagaimana dengan "bintang":

Ketika K = 3, ketiga garis ini menghubungkan 3 titik terdekat, dan lingkaran lebih banyak, jadi "bintang" milik "kucing".

k-means

Pisahkan data menjadi 3 kelas, bagian merah muda adalah yang terbesar, sedangkan yang kuning adalah yang terkecil.

Pilih 3, 2, 1 sebagai default, dan hitung jarak antara data lainnya dan default, dan klasifikasikan ke dalam kelas yang memiliki jarak terdekat.

Setelah klasifikasi, hitung rata-rata setiap kelas, dan atur sebagai pusat baru.

Setelah beberapa putaran, kita bisa berhenti ketika kelas tidak lagi berubah.

Adaboost

Adaboost adalah salah satu tolok ukur peningkatan.

Meningkatkan adalah untuk mengumpulkan pengklasifikasi yang tidak memiliki hasil yang memuaskan, dan menghasilkan pengklasifikasi yang mungkin memiliki efek yang lebih baik.

Seperti ditunjukkan di bawah ini, pohon 1 dan pohon 2 tidak memiliki efek yang baik secara individual, tetapi jika kami memasukkan data yang sama, dan merangkum hasilnya, hasil akhir akan lebih meyakinkan.

Contoh untuk adaboost, dalam pengenalan tulisan tangan, panel dapat mengekstraksi banyak fitur, seperti arah awal, jarak antara titik awal dan titik akhir, dan lain-lain.

Saat melatih mesin, ia akan mendapatkan bobot masing-masing fitur, seperti 2 dan 3, awal penulisan mereka sangat mirip, jadi fitur ini tidak banyak melakukan klasifikasi, sehingga bobotnya kecil.

Tetapi sudut alfa ini memiliki kemampuan yang dapat dikenali, sehingga bobot fitur ini akan menjadi besar. Hasil akhir akan menjadi hasil dari mempertimbangkan semua fitur ini.

Jaringan Saraf Tiruan

Di NN, input mungkin berakhir menjadi setidaknya dua kelas.

Jaringan saraf terbentuk dari neure, dan koneksi neure.

Lapisan pertama adalah lapisan masukan, dan lapisan terakhir adalah lapisan keluaran.

Dalam lapisan tersembunyi dan lapisan keluaran, mereka berdua memiliki pengklasifikasi mereka sendiri.

Ketika input masuk dalam jaringan, dan sedang diaktifkan, skor yang dihitung akan diteruskan ke lapisan berikutnya. Skor yang ditunjukkan pada lapisan output adalah skor untuk setiap kelas. Contoh di bawah ini mendapatkan hasil kelas 1;

input yang sama diteruskan ke simpul yang berbeda menghasilkan skor yang berbeda, yang karena di setiap simpul, memiliki bobot dan bias yang berbeda, dan ini adalah propagasi.

Markov

Markov Chain terdiri dari status dan transisi.

Misalnya, dapatkan Rantai Markov berdasarkan "rubah cokelat cepat melompati anjing malas".

Pertama, kita perlu mengatur setiap kata di bawah negara, dan kita perlu menghitung probabilitas transisi negara.

Ini adalah probabilitas yang dihitung oleh satu kalimat tunggal. Saat Anda menggunakan data besar teks untuk melatih komputer, Anda akan mendapatkan matriks transisi status yang lebih besar, seperti kata-kata yang dapat mengikuti "the", dan probabilitasnya yang sesuai.