Sesi 5.6: Temperature dan Output Control

Kursus → Modul 5: Prompt Engineering

Sesi 6 dari 10

Kenop Kontrol Kualitas

Temperature, top-p, dan max tokens bukan parameter teknis abstrak. Mereka kenop kontrol kualitas yang menentukan karakter output AI kamu. Menyetelnya dengan sengaja adalah beda antara alat produksi dan mesin slot.

Kebanyakan orang terima default. Default dipilih oleh provider API supaya aman untuk rentang use case seluas mungkin. Aman untuk semua artinya ga optimal untuk siapa pun. Tipe konten kamu punya kebutuhan spesifik yang default ga bisa penuhi.

Temperature mengontrol risiko yang diambil AI kamu. Di 0, AI selalu memilih kata berikutnya yang paling mungkin. Output-nya bisa diprediksi dan repetitif. Di 1, AI mengambil lebih banyak risiko dengan pilihan kata. Output-nya bervariasi dan berpotensi ga koheren. Tugas kamu menemukan nilai yang menghasilkan output bervariasi tapi andal untuk tipe konten spesifik kamu.

Temperature dalam Praktik

Temperature adalah angka antara 0 dan 2 (meskipun nilai di atas 1 jarang berguna untuk produksi konten). Rentang praktisnya 0 sampai 1.

Temperature	Perilaku	Bagus Untuk	Jelek Untuk
0	Selalu memilih kata yang paling mungkin	Ringkasan faktual, ekstraksi data, kode	Tulisan kreatif, apa pun yang butuh variasi
0.2-0.3	Sedikit variasi, kebanyakan bisa diprediksi	Dokumentasi teknis, laporan	Konten yang butuh voice khas
0.5-0.7	Variasi dan koherensi seimbang	Blog post, artikel, review	Tugas yang sangat faktual atau sangat kreatif
0.8-1.0	Variasi tinggi, sesekali pilihan ga terduga	Brainstorming, fiksi kreatif, ideation	Apa pun yang butuh akurasi atau konsistensi

graph LR subgraph TScale["Skala Temperature"] direction LR T0["0
Deterministik"] --- T3["0.3
Konservatif"] --- T5["0.5
Seimbang"] --- T7["0.7
Kreatif"] --- T10["1.0
Eksperimental"] end T0 --> U1["Ekstraksi fakta
Generasi kode"] T3 --> U2["Dokumen teknis
Laporan"] T5 --> U3["Blog post
Artikel"] T7 --> U4["Copy marketing
Fiksi"] T10 --> U5["Brainstorming
Ideation"] style T0 fill:#222221,stroke:#6b8f71,color:#ede9e3 style T5 fill:#222221,stroke:#c8a882,color:#ede9e3 style T10 fill:#222221,stroke:#c47a5a,color:#ede9e3

Top-p (Nucleus Sampling)

Top-p mengontrol kumpulan kata yang AI pertimbangkan. Di top-p 0.1, AI cuma mempertimbangkan 10% kata yang paling mungkin. Di top-p 0.9, dia mempertimbangkan 90% teratas. Kumpulan lebih kecil artinya output lebih bisa diprediksi. Kumpulan lebih besar artinya kosakata lebih beragam.

Rekomendasi umumnya: sesuaikan temperature atau top-p, jangan keduanya sekaligus. Keduanya mempengaruhi dimensi output yang sama (keacakan vs prediktabilitas). Mengubah keduanya sekaligus bikin susah mengisolasi parameter mana yang menyebabkan perubahan kualitas.

Untuk kebanyakan produksi konten, set top-p ke 1 (default) dan kontrol karakter output sepenuhnya lewat temperature. Ini menyederhanakan parameter space kamu tanpa mengorbankan kontrol.

Max Tokens

Max tokens menetapkan batas atas panjang output. Satu token kira-kira 0.75 kata dalam bahasa Inggris. Artikel 1000 kata butuh sekitar 1300-1500 token. Menyetel max tokens terlalu rendah memotong output kamu di tengah kalimat. Menyetelnya terlalu tinggi membuang budget untuk kapasitas output yang ga kamu butuhkan.

Set max tokens ke sekitar 1.5 kali target jumlah kata kamu (dalam token). Untuk artikel 1000 kata, set max tokens ke 2000. Ini memberi AI ruang menyelesaikan pikirannya tanpa meninggalkan kapasitas berlebih yang ga terpakai.

Menemukan Parameter Kamu

Satu-satunya cara menemukan parameter optimal untuk tipe konten kamu adalah testing. Generate konten yang sama di temperature 0, 0.3, 0.5, 0.7, dan 1.0. Baca kelima output-nya. Identifikasi temperature di mana output jadi ga andal (error faktual, kalimat ga koheren, keluar topik). Identifikasi temperature di mana output jadi terlalu robotik (frasa repetitif, ritme datar, ga ada kepribadian). Temperature produksi kamu ada di antara dua batas itu.

Dokumentasikan temuan kamu. "Blog post: temperature 0.5, top-p 1, max tokens 2000" jadi parameter produksi yang kamu set sekali dan pakai ulang untuk setiap generasi blog post. Tipe konten yang berbeda mungkin punya parameter optimal yang berbeda.

Bacaan Lanjutan

What is LLM Temperature?, IBM
Understanding Temperature, Top P, and Maximum Length in LLMs, Learn Prompting
Temperature, Top-p and Top-k: Best LLM Settings Explained, F22 Labs

Tugas

Generate konten yang sama di temperature 0, 0.3, 0.7, dan 1.0. Semua parameter lain tetap sama. Bandingkan keempat output. Di temperature berapa output mulai ga andal? Di temperature berapa terlalu robotik? Temukan sweet spot kamu untuk tipe konten kamu. Dokumentasikan sebagai: "Tipe konten: [X], temperature optimal: [Y], alasan: [Z]."