Contact Information

Alamat: Komplek Rumah Susun Petamburan Blok 1 Lantai Dasar, Tanah Abang - Jakpus 10260

We're Available 24/ 7. Call Now.
Startup AI Gladia Membuka Jalan Baru untuk Transkripsi Audio dan Interaksi Data
SHARE:

Technologue.id, Jakarta - Gladia, startup AI asal Prancis, hadir untuk mengubah cara perusahaan berinteraksi dengan data audio.

Mereka telah mengembangkan antarmuka pemrograman aplikasi (API) transkripsi audio yang dapat diintegrasikan dengan produk lain dan menawarkan kinerja yang jauh lebih unggul daripada pesaing lainnya. Dengan dasar teknologi yang kuat, Gladia membuka peluang baru dalam penggunaan data audio.

Kelebihan API Transkripsi Audio Gladia

Jika Anda sudah akrab dengan API transkripsi audio, tentunya Anda tahu bahwa penyedia layanan cloud besar seperti Google dengan speech-to-text API, Amazon Transcribe, Microsoft dengan Speech to Text, dan lainnya, telah memiliki API serupa. Meskipun mereka berfungsi dengan baik, namun API-nya mahal, lambat, dan terbatas fitur.

Jean-Louis Quéguiner, salah satu pendiri dan CEO Gladia yang sebelumnya menjabat sebagai kepala AI di OVHcloud, menjelaskan beberapa keterbatasan dari API yang telah ada.

Baca Juga:
Teknologi AI Tingkatkan Pengalaman Pencarian Google yang Lebih Personal

Menurutnya, terdapat tiga masalah utama yang harus diatasi. Pertama, masalah harga, di mana biaya untuk mentranskripsi satu jam audio biasanya berkisar antara $1,50 hingga $2 per jam.

Kedua, hasil transkripsi yang dihasilkan tidak selalu dapat diandalkan karena beberapa bahasa didukung dengan baik sementara bahasa lainnya hampir tidak didukung.

Sementara untuk fitur lanjutan, jika seseorang berbicara dalam beberapa bahasa, kemungkinan besar API tidak akan dapat mendeteksi perubahan bahasa dan mentranskripsikan audio dalam lebih dari satu bahasa.

Ketiga, masalah kecepatan API transkripsi yang lambat. Dibutuhkan waktu lebih dari 15 menit untuk mentranskripsikan satu jam audio.

Walaupun mungkin tidak masalah jika transkripsi tidak membutuhkan waktu secara mendesak, namun hal ini menjadi hambatan bagi industri yang membutuhkan layanan transkripsi yang cepat.

Baca Juga:
OpenAI Rilis GPT-3.5-turbo dan GPT-4 dengan Pemanggilan Fungsi dan Jendela Konteks Lebih Luas

Meski Whisper merupakan model yang bagus, namun versi standarnya masih cukup lambat. Oleh karena itu, Gladia telah menghabiskan banyak waktu untuk memodifikasi Whisper menjadi model transkripsi yang lebih cepat dan responsif. Namun, bukan hanya itu masalahnya.

Lebih lanjut, Jean-Louis Quéguiner menjelaskan bahwa Whisper telah dilatih menggunakan teks tertutup yang dapat ditemukan di internet, seperti di YouTube. Model OpenAI cenderung mengenali frasa umum yang sering terdengar dalam video online.

Hal ini menghasilkan representasi matematis yang berlebihan dari beberapa kalimat semacam itu, dan Gladia berusaha untuk memperbaiki kekurangan ini.

Selain dari modifikasi dan implementasi model Whisper, Gladia juga memiliki beberapa algoritme pra-pemrosesan dan pasca-pemrosesan yang membantu meningkatkan kualitas hasil akhir transkripsi.

Prev Next Page 1 of 2
SHARE:

Sisi Humoris Jensen Huang saat Ditanya Apakah AI Gantikan Pekerjaan Manusia?

Sederet Fitur Google Gemini Live yang Kini Hadir di iPhone