Membangun Arsitektur OLAP Cube dan ETL berbasis Cloud dengan AWS Managed Services

Membangun Arsitektur OLAP Cube dan ETL berbasis Cloud dengan AWS Managed Services

Baca Informasi Tentang : Profil Kusen Pintu Aluminium

harga pintu aluminium 2 pintu

Selama beberapa dekade, perusahaan menggunakan beban kerja pemrosesan analitik online (OLAP) untuk menjawab pertanyaan kompleks tentang bisnis mereka dengan memfilter dan menggabungkan data mereka. Kueri kompleks ini membutuhkan komputasi dan memori yang intensif. Ini membutuhkan tim untuk membangun dan memelihara saluran pipa ekstrak, transformasi, dan pemuatan (ETL) yang kompleks untuk memodelkan dan mengatur data, seringkali dengan alat analitik kelas komersial.

Dalam posting ini, kita membahas membangun OLAP cube dan arsitektur ETL berbasis cloud yang akan menghasilkan hasil yang lebih cepat dengan biaya lebih rendah tanpa mengorbankan kinerja dengan:

  • Menghubungkan database lokal Anda ke cloud untuk pembuatan profil, penemuan, dan transformasi data
  • Menjalankan beban kerja OLAP tanpa lisensi perangkat lunak pihak ketiga yang mahal, infrastruktur khusus, atau kebutuhan untuk memigrasikan data
  • Menggunakan Katalog Data AWS Glue, Amazon Athena, Amazon QuickSight, dan Amazon SageMaker untuk membuat katalog dan memvisualisasikan data dengan pembelajaran mesin (ML)

Pipa analitik data dengan AWS Managed Services

Arsitektur yang diusulkan pada Gambar 1 bergantung pada AWS Managed Services. AWS Glue DataBrew adalah layanan transformasi data tanpa kode yang dapat Anda gunakan untuk membangun tugas transformasi Anda dengan cepat. Crawler AWS Glue mengumpulkan metadata dari data yang diubah dan membuat katalognya untuk analitik dan visualisasi menggunakan Athena dan QuickSight. SageMaker akan membuat, melatih, dan menerapkan model ML.

Arsitektur ini akan membantu Anda mendapatkan jawaban dari data Anda kepada pengguna Anda secepat mungkin tanpa perlu memigrasikan data Anda ke AWS. Tidak diperlukan pengkodean, sehingga Anda dapat memanfaatkan transformasi data, katalogisasi, analitik, dan ML dengan cepat.

Gambar 1. Contoh arsitektur menggunakan AWS Managed Services

Gambar 1. Contoh arsitektur menggunakan AWS Managed Services

Manfaat Layanan Terkelola AWS untuk analitik data

Konektivitas langsung ke database lokal

Contoh arsitektur pada Gambar 1 dimulai dengan database pemrosesan transaksi online (OLTP) yang berjalan di pusat data perusahaan Anda. Gambar 2 menunjukkan bagaimana Anda dapat membuat koneksi konektivitas database Java (JDBC) dari database OLTP ke DataBrew yang berjalan di AWS untuk menjalankan beban kerja OLAP. DataBrew mendukung sumber data menggunakan JDBC untuk penyimpanan data umum seperti Microsoft SQL Server, MySQL, Oracle, dan PostgreSQL.

DataBrew - koneksi JDBC ke sumber data

Gambar 2. DataBrew – koneksi JDBC ke sumber data

Penemuan data otomatis

Gambar 3 sampai 6 menunjukkan bagaimana DataBrew merangkum data Anda untuk penemuan. Anda dapat membuat profil data Anda untuk memahami pola dan mendeteksi anomali. Anda juga dapat menjalankan transformasi yang disebut “pekerjaan” di DataBrew tanpa menulis kode apa pun menggunakan lebih dari 250 transformasi bawaan.

DataBrew - ikhtisar pembuatan profil kumpulan data

Gambar 3. DataBrew – gambaran umum pembuatan profil kumpulan dataset

DataBrew - pola korelasi data

Gambar 4. DataBrew – pola korelasi data

DataBrew - distribusi titik data

Gambar 5. DataBrew – distribusi titik data

Transformasi dan katalogisasi data tanpa kode

Untuk menjalankan transaksi tipe OLAP, Anda dapat membuat pekerjaan berdasarkan langkah-langkah transformasi yang ditunjukkan pada Gambar 6. Langkah-langkah ini secara kolektif disebut sebagai resep DataBrew. Hasil resep ini dapat dijalankan sebagai tugas dan dikeluarkan ke bucket Amazon Simple Storage Service (Amazon S3).

Tampilan antarmuka pengguna proyek DataBrew dengan data sampel dan fungsi transformasi

Gambar 6. Tampilan antarmuka pengguna proyek DataBrew dengan data sampel dan fungsi transformasi

Pekerjaan DataBrew terjadwal bertindak serupa dengan pipeline ETL terjadwal di OLAP. Berdasarkan penyegaran data dan persyaratan bisnis, DataBrew dapat menjalankan pekerjaan secara berulang (misalnya, setiap 12 jam). Ini dapat dijalankan pada waktu tertentu dalam sehari, atau seperti yang didefinisikan oleh ekspresi CRON yang valid. Ini membantu Anda mengotomatiskan alur kerja transformasi Anda.

Katalog OLAP adalah kumpulan metadata yang berada di antara data OLAP aktual yang disimpan dan aplikasi. Untuk membuat Katalog Data, Anda dapat menggunakan perayap AWS Glue untuk mengklasifikasikan data secara otomatis guna menentukan format data, skema, dan properti terkait. Gambar 7 menunjukkan hasil crawler yang ditulis ke Data Catalog sebagai metadata untuk membantu pengguna data menemukan data yang mereka butuhkan.

Output tabel metadata perayap AWS Glue dari nama kolom dan tipe data

Gambar 7. Output tabel metadata perayap AWS Glue dari nama kolom dan tipe data

Analisis data tanpa lisensi perangkat lunak pihak ketiga

Anda dapat menjalankan analitik pada data Anda dengan merujuk pada definisi metadata di Katalog Data sebagai referensi ke data aktual di Amazon S3 menggunakan Athena. Athena sangat cocok untuk menjalankan kueri satu kali menggunakan SQL standar untuk kueri data yang diubah secara langsung di Amazon S3 tanpa harus memindahkan data. Athena tidak memiliki server, jadi tidak ada infrastruktur untuk dikelola, dan Anda hanya membayar untuk kueri yang Anda jalankan.

Perusahaan sering kali melengkapi beban kerja OLAP mereka dengan alat visualisasi dan intelijen bisnis (BI) terpisah. Alat-alat ini sering kali dilengkapi dengan lisensi, manajemen server, dan pertimbangan keamanan mereka sendiri.

Anda dapat memvisualisasikan data yang dikurasi menggunakan QuickSight, layanan BI yang dapat diskalakan, tanpa server, dapat disematkan, dan didukung ML. QuickSight memungkinkan Anda dengan mudah membuat dan menerbitkan dasbor BI interaktif yang menyertakan wawasan yang didukung ML, seperti yang ditunjukkan pada Gambar 8. Dasbor ini dapat dibagikan dengan pengguna lain dan disematkan dalam aplikasi Anda sendiri.

Contoh opsi visualisasi data dengan Amazon QuickSight

Gambar 8. Contoh opsi visualisasi data dengan Amazon QuickSight

Terakhir, Anda dapat menggabungkan beban kerja ML ke beban kerja OLAP menggunakan SageMaker. Di masa lalu, beban kerja ML seringkali mahal, padat sumber daya, dan tidak dapat diakses. SageMaker menyediakan layanan ML yang terkelola sepenuhnya untuk membangun dan melatih model ML dengan cepat dan mudah serta menerapkannya secara langsung ke lingkungan yang dihosting untuk produksi.

Kesimpulan

Dalam posting ini, kami menunjukkan cara menghubungkan database lokal Anda menggunakan koneksi JDBC ke DataBrew untuk pembuatan profil, penemuan, dan transformasi data. Kami melihat bagaimana Anda dapat menggunakan resep dan pekerjaan DataBrew untuk menjalankan beban kerja OLAP tanpa lisensi perangkat lunak pihak ketiga yang mahal, infrastruktur khusus, atau kebutuhan untuk memigrasikan data apa pun. Kami juga melihat kemampuan AWS dalam katalogisasi data, visualisasi, dan pembelajaran mesin menggunakan Katalog Data, Athena, QuickSight, dan SageMaker tanpa harus mengelola server apa pun.

Meletakkan dasar untuk memodernisasi alur kerja analitik sangat penting bagi banyak perusahaan yang ingin mengurangi waktu yang diperlukan untuk memahami bisnis mereka. Dengan AWS, Anda dapat melakukan analitik skala perusahaan dengan portofolio layanan analitik kami.

harga plafon pvc per dus

Baca Juga : Kusen Jendela Dan Pintu Aluminium