Contact Information

Alamat: Komplek Rumah Susun Petamburan Blok 1 Lantai Dasar, Tanah Abang - Jakpus 10260

We're Available 24/ 7. Call Now.
Waspada Dokumen Berbahaya Membuat LLM Rentan Terhadap Backdoor
SHARE:

Technologue.id, Jakarta - Perlombaan mengembangkan kecerdasan buatan (AI) tercanggih berlangsung sangat cepat, tetapi perkembangan teknologi ini tidak selalu disertai pemahaman mendalam tentang potensi risikonya. Perusahaan AI Anthropic merilis laporan penting yang mengungkap bagaimana serangan peracunan data (data poisoning) dapat secara diam-diam memengaruhi model bahasa besar (LLM) selama proses pelatihan.

Dalam studi yang dilakukan bersama UK AI Security Institute dan Alan Turing Institute, Anthropic mengangkat ancaman nyata dari serangan peracunan yang disebut “intoxication”, di mana pelaku menyisipkan konten berbahaya ke dalam data pelatihan dengan tujuan menanamkan perilaku merugikan atau tidak diinginkan ke dalam model AI.

Temuan utama dari laporan ini cukup mengejutkan. Para peneliti berhasil melakukan serangan “backdoor” terhadap LLM dengan hanya menggunakan 250 dokumen berbahaya dalam dataset pelatihan. Jumlah ini jauh lebih kecil dari perkiraan sebelumnya, bahkan pada model dengan ukuran besar, antara 600 juta hingga 13 miliar parameter.

Laporan ini juga menyatakan bahwa skala materi berbahaya tidak perlu proporsional dengan ukuran keseluruhan data pelatihan. Artinya, serangan bisa tetap efektif meskipun pelaku tidak menguasai sebagian besar konten dalam dataset. Cukup dengan menyisipkan sejumlah kecil dokumen yang konsisten, pelaku bisa memanipulasi respons model di masa depan.

"Kami membagikan temuan ini untuk menunjukkan bahwa serangan peracunan data mungkin lebih praktis daripada yang diyakini, dan untuk mendorong penelitian lebih lanjut tentang peracunan data dan potensi pertahanan terhadapnya," tulis Anthropic dalam pernyataan resminya.

Laporan ini menjadi peringatan penting bagi komunitas AI. Selama ini, banyak pengembang menganggap data pelatihan dalam jumlah besar secara otomatis akan “menutupi” atau “menetralisir” data buruk yang ada di dalamnya.

Namun temuan Anthropic justru menunjukkan sebaliknya, bahwa kerentanan serius bisa muncul dari penyisipan konten berbahaya dalam jumlah kecil.Implikasinya sangat luas, terutama bagi perusahaan dan lembaga yang melatih model bahasa mereka sendiri, atau menggunakan data open-source yang tidak sepenuhnya terverifikasi.

Dalam konteks ini, ancaman data poisoning bisa digunakan untuk melemahkan model, menyisipkan bias, atau bahkan membuka celah keamanan untuk penyalahgunaan di masa depan.

Dengan dibukanya hasil studi ini ke publik, Anthropic berharap lebih banyak peneliti dan pengembang akan terlibat dalam pencarian strategi pertahanan terhadap serangan serupa. Beberapa pendekatan yang mulai dikembangkan antara lain filter dan pemantauan ketat terhadap dataset pelatihan, terutama yang berasal dari sumber publik, serta teknik pelatihan tahan serangan (robust training) yang bisa mengenali dan menolak data berbahaya.

Pengujian adversarial untuk mengevaluasi seberapa rentan model terhadap manipulasi konten.

SHARE:

Rahasia Rangka Material iPhone Fold Terbongkar

Pre-order iPhone 17 di Digimap dapat Merchandise Eksklusif Karya Didiet Maulana