Baca Informasi Tentang : Profil Kusen Pintu Aluminium
Selama beberapa dekade, perusahaan menggunakan beban kerja pemrosesan analitik online (OLAP) untuk menjawab pertanyaan kompleks tentang bisnis mereka dengan memfilter dan menggabungkan data mereka. Kueri kompleks ini membutuhkan komputasi dan memori yang intensif. Ini membutuhkan tim untuk membangun dan memelihara saluran pipa ekstrak, transformasi, dan pemuatan (ETL) yang kompleks untuk memodelkan dan mengatur data, seringkali dengan alat analitik kelas komersial.
Dalam posting ini, kita membahas membangun OLAP cube dan arsitektur ETL berbasis cloud yang akan menghasilkan hasil yang lebih cepat dengan biaya lebih rendah tanpa mengorbankan kinerja dengan:
- Menghubungkan database lokal Anda ke cloud untuk pembuatan profil, penemuan, dan transformasi data
- Menjalankan beban kerja OLAP tanpa lisensi perangkat lunak pihak ketiga yang mahal, infrastruktur khusus, atau kebutuhan untuk memigrasikan data
- Menggunakan Katalog Data AWS Glue, Amazon Athena, Amazon QuickSight, dan Amazon SageMaker untuk membuat katalog dan memvisualisasikan data dengan pembelajaran mesin (ML)
Pipa analitik data dengan AWS Managed Services
Arsitektur yang diusulkan pada Gambar 1 bergantung pada AWS Managed Services. AWS Glue DataBrew adalah layanan transformasi data tanpa kode yang dapat Anda gunakan untuk membangun tugas transformasi Anda dengan cepat. Crawler AWS Glue mengumpulkan metadata dari data yang diubah dan membuat katalognya untuk analitik dan visualisasi menggunakan Athena dan QuickSight. SageMaker akan membuat, melatih, dan menerapkan model ML.
Arsitektur ini akan membantu Anda mendapatkan jawaban dari data Anda kepada pengguna Anda secepat mungkin tanpa perlu memigrasikan data Anda ke AWS. Tidak diperlukan pengkodean, sehingga Anda dapat memanfaatkan transformasi data, katalogisasi, analitik, dan ML dengan cepat.

Gambar 1. Contoh arsitektur menggunakan AWS Managed Services
Manfaat Layanan Terkelola AWS untuk analitik data
Konektivitas langsung ke database lokal
Contoh arsitektur pada Gambar 1 dimulai dengan database pemrosesan transaksi online (OLTP) yang berjalan di pusat data perusahaan Anda. Gambar 2 menunjukkan bagaimana Anda dapat membuat koneksi konektivitas database Java (JDBC) dari database OLTP ke DataBrew yang berjalan di AWS untuk menjalankan beban kerja OLAP. DataBrew mendukung sumber data menggunakan JDBC untuk penyimpanan data umum seperti Microsoft SQL Server, MySQL, Oracle, dan PostgreSQL.

Gambar 2. DataBrew – koneksi JDBC ke sumber data
Penemuan data otomatis
Gambar 3 sampai 6 menunjukkan bagaimana DataBrew merangkum data Anda untuk penemuan. Anda dapat membuat profil data Anda untuk memahami pola dan mendeteksi anomali. Anda juga dapat menjalankan transformasi yang disebut “pekerjaan” di DataBrew tanpa menulis kode apa pun menggunakan lebih dari 250 transformasi bawaan.

Gambar 3. DataBrew – gambaran umum pembuatan profil kumpulan dataset

Gambar 4. DataBrew – pola korelasi data

Gambar 5. DataBrew – distribusi titik data
Transformasi dan katalogisasi data tanpa kode
Untuk menjalankan transaksi tipe OLAP, Anda dapat membuat pekerjaan berdasarkan langkah-langkah transformasi yang ditunjukkan pada Gambar 6. Langkah-langkah ini secara kolektif disebut sebagai resep DataBrew. Hasil resep ini dapat dijalankan sebagai tugas dan dikeluarkan ke bucket Amazon Simple Storage Service (Amazon S3).

Gambar 6. Tampilan antarmuka pengguna proyek DataBrew dengan data sampel dan fungsi transformasi
Pekerjaan DataBrew terjadwal bertindak serupa dengan pipeline ETL terjadwal di OLAP. Berdasarkan penyegaran data dan persyaratan bisnis, DataBrew dapat menjalankan pekerjaan secara berulang (misalnya, setiap 12 jam). Ini dapat dijalankan pada waktu tertentu dalam sehari, atau seperti yang didefinisikan oleh ekspresi CRON yang valid. Ini membantu Anda mengotomatiskan alur kerja transformasi Anda.
Katalog OLAP adalah kumpulan metadata yang berada di antara data OLAP aktual yang disimpan dan aplikasi. Untuk membuat Katalog Data, Anda dapat menggunakan perayap AWS Glue untuk mengklasifikasikan data secara otomatis guna menentukan format data, skema, dan properti terkait. Gambar 7 menunjukkan hasil crawler yang ditulis ke Data Catalog sebagai metadata untuk membantu pengguna data menemukan data yang mereka butuhkan.

Gambar 7. Output tabel metadata perayap AWS Glue dari nama kolom dan tipe data
Analisis data tanpa lisensi perangkat lunak pihak ketiga
Anda dapat menjalankan analitik pada data Anda dengan merujuk pada definisi metadata di Katalog Data sebagai referensi ke data aktual di Amazon S3 menggunakan Athena. Athena sangat cocok untuk menjalankan kueri satu kali menggunakan SQL standar untuk kueri data yang diubah secara langsung di Amazon S3 tanpa harus memindahkan data. Athena tidak memiliki server, jadi tidak ada infrastruktur untuk dikelola, dan Anda hanya membayar untuk kueri yang Anda jalankan.
Perusahaan sering kali melengkapi beban kerja OLAP mereka dengan alat visualisasi dan intelijen bisnis (BI) terpisah. Alat-alat ini sering kali dilengkapi dengan lisensi, manajemen server, dan pertimbangan keamanan mereka sendiri.
Anda dapat memvisualisasikan data yang dikurasi menggunakan QuickSight, layanan BI yang dapat diskalakan, tanpa server, dapat disematkan, dan didukung ML. QuickSight memungkinkan Anda dengan mudah membuat dan menerbitkan dasbor BI interaktif yang menyertakan wawasan yang didukung ML, seperti yang ditunjukkan pada Gambar 8. Dasbor ini dapat dibagikan dengan pengguna lain dan disematkan dalam aplikasi Anda sendiri.

Gambar 8. Contoh opsi visualisasi data dengan Amazon QuickSight
Terakhir, Anda dapat menggabungkan beban kerja ML ke beban kerja OLAP menggunakan SageMaker. Di masa lalu, beban kerja ML seringkali mahal, padat sumber daya, dan tidak dapat diakses. SageMaker menyediakan layanan ML yang terkelola sepenuhnya untuk membangun dan melatih model ML dengan cepat dan mudah serta menerapkannya secara langsung ke lingkungan yang dihosting untuk produksi.
Kesimpulan
Dalam posting ini, kami menunjukkan cara menghubungkan database lokal Anda menggunakan koneksi JDBC ke DataBrew untuk pembuatan profil, penemuan, dan transformasi data. Kami melihat bagaimana Anda dapat menggunakan resep dan pekerjaan DataBrew untuk menjalankan beban kerja OLAP tanpa lisensi perangkat lunak pihak ketiga yang mahal, infrastruktur khusus, atau kebutuhan untuk memigrasikan data apa pun. Kami juga melihat kemampuan AWS dalam katalogisasi data, visualisasi, dan pembelajaran mesin menggunakan Katalog Data, Athena, QuickSight, dan SageMaker tanpa harus mengelola server apa pun.
Meletakkan dasar untuk memodernisasi alur kerja analitik sangat penting bagi banyak perusahaan yang ingin mengurangi waktu yang diperlukan untuk memahami bisnis mereka. Dengan AWS, Anda dapat melakukan analitik skala perusahaan dengan portofolio layanan analitik kami.
Baca Juga : Kusen Jendela Dan Pintu Aluminium