Nvidia Tingkatkan Kinerja Kecerdasan Buatan dengan TensorRT

Nvidia terus berinovasi dalam pengembangan alat Kecerdasan Buatan (AI) dan Model Bahasa Besar (LLM) mereka. Salah satu tambahan terbaru adalah TensorRT dan TensorRT-LLM, dirancang untuk mengoptimalkan kinerja GPU konsumen dan kartu grafis terbaik untuk menjalankan tugas seperti Stable Diffusion dan generasi teks Llama 2.

Kami telah menguji beberapa GPU terbaru Nvidia menggunakan TensorRT dan menemukan peningkatan kinerja hingga 70% pada Stable Diffusion. TensorRT sudah tersedia untuk diunduh di halaman Github Nvidia sekarang.

invidia ai generated

Pengoptimalan Kinerja dengan TensorRT

TensorRT adalah langkah maju signifikan dalam dunia AI. Melalui pemanfaatan ONNX, format terbuka untuk model dan operator AI/ML, model dasar Hugging Face Stable Diffusion diubah menjadi format ONNX. Setelah itu, kinerja dapat dioptimalkan lebih lanjut untuk GPU spesifik yang digunakan.

Proses ini membutuhkan beberapa menit, namun setelah selesai, kinerja akan mengalami peningkatan signifikan bersama dengan penggunaan memori yang lebih baik. Hasil pengujian menunjukkan peningkatan kinerja yang mengesankan, terutama pada GPU Nvidia terbaru.

Perbandingan Kinerja GPU Nvidia dalam Stable Diffusion

Kami melakukan uji coba pada serangkaian GPU terbaru Nvidia, mulai dari RTX 20-series hingga RTX 40-series, untuk mengevaluasi pengaruh TensorRT. Hasil menunjukkan bahwa peningkatan kinerja bervariasi tergantung pada format model yang digunakan.

Model dasar cenderung lebih lambat, sementara Xformers memberikan peningkatan kinerja sekitar 30-80% untuk gambar 512×512, dan 40-100% untuk gambar 768×768. TensorRT memberikan peningkatan tambahan sekitar 50-65% untuk gambar 512×512, dan 45-70% untuk gambar 768×768.

Yang menarik adalah RTX 3090 menghasilkan peningkatan kinerja yang lebih kecil dibandingkan GPU lainnya. Meskipun belum jelas faktor pembatasnya, hasil ini akan menjadi fokus pengujian selanjutnya.

Peningkatan Kinerja Tekstual dengan TensorRT

TensorRT tidak hanya berdampak pada Stable Diffusion, tetapi juga meningkatkan kinerja pada alat generasi teks seperti Llama 2. Dengan menggunakan TensorRT, Nvidia mencatat peningkatan yang signifikan pada inferensi int4 Llama 2 7B.

Dengan memperbesar ukuran batch, throughput meningkat secara dramatis, memungkinkan pengguna untuk memilih hasil teks yang diinginkan atau bahkan menggabungkan bagian dari output yang dihasilkan.

Penutup:
TensorRT adalah inovasi yang signifikan dalam mengoptimalkan kinerja GPU untuk tugas AI dan generasi teks. Dengan memanfaatkan ONNX, Nvidia memastikan bahwa model AI dapat dioptimalkan untuk GPU spesifik, membuka jalan untuk kinerja yang lebih tinggi dan penggunaan memori yang lebih efisien. Dengan perkembangan ini, Nvidia kembali memimpin dalam perlombaan kinerja AI.