Google Gemini: Semua yang Perlu Anda Ketahui tentang Aplikasi dan Model Kecerdasan Buatan Generatif

Google sedang berusaha membuat gebrakan dengan Gemini, rangkaian aplikasi dan model kecerdasan buatan generatif andalannya. Tapi, apa itu Gemini? Bagaimana cara menggunakannya? Dan bagaimana perbandingannya dengan alat kecerdasan buatan generatif lain seperti ChatGPT milik OpenAI, Llama milik Meta, dan Copilot milik Microsoft?\n\nUntuk memudahkan dalam mengikuti perkembangan Gemini terbaru, kami telah menyusun panduan lengkap ini, yang akan kami perbarui seiring peluncuran model Gemini baru, fitur, dan berita tentang rencana Google untuk Gemini.\n\n

Apa itu Gemini?

\n\n

Gemini adalah keluarga model kecerdasan buatan generatif next-gen Google. Dikembangkan oleh laboratorium penelitian kecerdasan buatan Google, DeepMind dan Google Research, memiliki beberapa varian:

\n\n
  • Gemini Ultra, model yang sangat besar.
  • \n
  • Gemini Pro, model besar - meskipun lebih kecil dari Ultra. Versi terbaru, Gemini 2.0 Pro, adalah unggulan saat ini.
  • \n
  • Gemini Flash, versi yang lebih cepat dan "di-distil" dari Pro.
  • \n
  • Gemini Flash-Lite, versi sedikit lebih kecil dan lebih cepat dari Gemini Flash.
  • \n
  • Gemini Flash Thinking, model dengan kemampuan "pemikiran".
  • \n
  • Gemini Nano, dua model kecil: Nano-1 dan Nano-2 yang sedikit lebih mampu, dimaksudkan untuk berjalan secara offline.
\n

Semua model Gemini dilatih secara native multimodal - yaitu, mampu bekerja dengan dan menganalisis lebih dari sekadar teks. Google mengatakan bahwa mereka telah dilatih sebelumnya dan disesuaikan di berbagai audio publik, properti, dan lisensi; rangkaian kode; dan teks dalam berbagai bahasa.\n\nIni membedakan Gemini dari model seperti LaMDA buatan Google sendiri, yang dilatih secara eksklusif pada data teks. LaMDA tidak bisa memahami atau menghasilkan apa pun selain teks (misalnya, esai, surel, dan sebagainya), tetapi hal tersebut tidak selalu berlaku untuk model-model Gemini. Misalnya, versi terbaru Gemini Flash dan Gemini Pro dapat menghasilkan gambar dan audio secara native selain teks.\n\nKami mencatat di sini bahwa etika dan legalitas melatih model pada data publik, dalam beberapa kasus tanpa pengetahuan atau persetujuan pemilik data, tidak jelas. Google memiliki kebijakan perlindungan AI untuk melindungi sebagian pelanggan Google Cloud dari gugatan jika mereka menghadapinya, tetapi kebijakan ini berisi pengecualian. Berhati-hatilah - terutama jika Anda bermaksud menggunakan Gemini secara komersial.

\n\n

Apa Perbedaan Antara Aplikasi Gemini dan Model Gemini?

\n\n

Gemini terpisah dan berbeda dari aplikasi Gemini di web dan ponsel (sebelumnya Bard).

\n

Aplikasi Gemini adalah klien yang terhubung ke berbagai model Gemini dan menyajikan antarmuka seperti chatbot di atasnya. Bayangkan mereka sebagai frontend untuk kecerdasan buatan generatif Google, analog dengan ChatGPT dan keluarga aplikasi Claude milik Anthropic.

\n
Credit Gambar: Google

Gemini di web tersedia di sini. Di Android, aplikasi Gemini menggantikan aplikasi Google Assistant yang sudah ada. Dan di iOS, aplikasi Google dan Google Search berfungsi sebagai klien Gemini platform tersebut.

\n

Pada Android, pengguna dapat memunculkan lapisan Gemini untuk bertanya mengenai apa yang ada di layar mereka (misalnya, video YouTube). Menekan dan menahan tombol daya smartphone yang didukung atau mengucapkan "Hei Google" memanggil lapisan tersebut.

\n

Aplikasi Gemini dapat menerima gambar serta perintah suara dan teks - termasuk berkas seperti PDF, baik diunggah maupun diimpor dari Google Drive - dan menghasilkan gambar. Seperti yang bisa Anda harapkan, percakapan dengan aplikasi Gemini di ponsel dapat berlanjut ke Gemini di web dan sebaliknya jika Anda masuk ke Akun Google yang sama di kedua tempat.

\n\n

Gemini Advanced

\n\n

Aplikasi Gemini bukan satu-satunya cara merekrut bantuan model Gemini untuk tugas-tugas Anda. Perlahan namun pasti, fitur yang diimbuhkan Gemini sedang berkembang ke aplikasi dan layanan Google seperti Gmail dan Google Docs.

\n

Untuk memanfaatkan kebanyakan dari ini, Anda akan memerlukan Google One AI Premium Plan. Secara teknis bagian dari Google One, Rencana Premium AI biaya $20 per bulan dan memberikan akses ke Gemini di aplikasi Google Workspace seperti Docs, Maps, Slides, Sheets, Drive, and Meet. Ini juga memungkinkan apa yang disebut Google sebagai Gemini Advanced, yang membawa model-model Gemini yang lebih canggih ke aplikasi Gemini.

\n
Credit Gambar: Google

Pengguna Gemini Advanced mendapatkan ekstra di sana-sini, juga, seperti akses prioritas ke fitur-fitur dan model-model baru; kemampuan untuk menjalankan dan mengedit kode Python langsung di Gemini; dan batasan yang lebih tinggi untuk NotebookLM, alat Google yang mengubah PDF menjadi podcast yang dihasilkan oleh kecerdasan buatan. Baru-baru ini, Gemini Advanced mendapatkan fitur memori yang menyimpan preferensi pengguna dan memungkinkan Gemini merujuk kembali ke percakapan lama sebagai konteks untuk percakapan saat ini.

\n

Salah satu eksklusif Gemini Advanced yang lebih menarik, Deep Research, memanfaatkan model-model Gemini dengan "pemikiran lanjutan" untuk membuat brief terperinci. Menanggapi sebuah masukan (misalnya, "Bagaimana saya harus mendesain ulang dapur saya?"), Deep Research mengembangkan rencana penelitian multi-langkah dan mencari di web untuk membuat jawaban komprehensif.

\n\n

Gemini di Gmail, Docs, Chrome, alat pengembang, dan lainnya

\n\n

Di Gmail, Gemini ada di panel samping yang dapat menulis surel dan merangkum percakapan. Anda akan menemukan panel yang sama di Docs, di mana ia membantu menulis dan menyempurnakan konten dan melakukan brainstorming untuk ide-ide baru. Gemini di Slides menghasilkan slide dan gambar kustom. Dan Gemini di Google Sheets melacak dan mengorganisir data, membuat tabel dan formula.

\n

Gemini ada di Google Maps, di mana ia dapat menggabungkan ulasan tentang bisnis lokal dan menawarkan rekomendasi seperti cara menghabiskan satu hari mengunjungi kota asing. Jangkauan chatbot ini juga meluas ke Drive, di mana ia dapat merangkum berkas dan folder dan memberikan fakta-fakta cepat tentang sebuah proyek.

\n
Credit Gambar: Google

Baru-baru ini, Gemini tiba di browser Chrome milik Google dalam bentuk alat menulis kecerdasan buatan. Anda dapat menggunakannya untuk menulis sesuatu yang benar-benar baru atau mengedit teks yang sudah ada; Google mengatakan akan mempertimbangkan halaman web yang Anda kunjungi untuk memberikan rekomendasi.

\n

Dalam bidang lain, Anda akan menemukan petunjuk Gemini di produk-produk database Google, alat keamanan cloud, dan platform pengembangan aplikasi (termasuk Firebase dan Project IDX), serta di aplikasi seperti Google Photos (di mana Gemini menangani kueri pencarian bahasa alami), YouTube (di mana ia membantu membuat ide-ide video), dan Meet (di mana ia menerjemahkan teks).\n\nCode Assist (dulu Duet AI for Developers), rangkaian alat bantuan yang didukung kecerdasan buatan Google untuk penyelesaian dan generasi kode, memindahkan beban komputasi berat ke Gemini. Demikian pula dengan produk keamanan Google yang didukung oleh Gemini, seperti Gemini in Threat Intelligence, yang dapat menganalisis bagian-bagian besar kode berbahaya dan memungkinkan pengguna melakukan pencarian bahasa alami untuk ancaman yang berlangsung atau indikator kompromi.

\n\n

Ekstensi dan Gems Gemini

\n\n

Pengguna Gemini Advanced dapat membuat Gems, chatbot kustom di desktop dan ponsel yang didukung oleh model Gemini. Gems dapat dihasilkan dari deskripsi bahasa alami - misalnya, “Kamu adalah pelatih lari saya. Berikan saya rencana lari harian” - dan dishare dengan pengguna lain atau disimpan pribadi.

\n
Credit Gambar: Google

Aplikasi Gemini dapat memanfaatkan layanan Google melalui apa yang disebut Google “ekstensi Gemini.” Gemini terintegrasi dengan Drive, Gmail, YouTube, dan lainnya untuk merespons pertanyaan seperti “Bisakah kamu merangkum tiga email terakhir saya?”

\n\n

Percakapan Suara Mendalam Langsung Gemini

\n\n

Pengalaman yang disebut Gemini Live memungkinkan pengguna untuk melakukan percakapan suara “dalam-dalam” dengan Gemini. Tersedia di aplikasi Gemini di ponsel dan Pixel Buds Pro 2, di mana Anda dapat mengaksesnya bahkan jika ponsel Anda terkunci.

\n
Credit Gambar: Google

Dengan Gemini Live aktif, Anda dapat menyela Gemini saat chatbot sedang berbicara untuk bertanya pertanyaan klarifikasi, dan ia akan beradaptasi dengan pola bicara Anda secara real-time. Live juga dirancang untuk berfungsi sebagai pelatih virtual, membantu Anda latihan untuk acara, berpikir ide, dan sebagainya. Misalnya, Live dapat menyarankan keterampilan apa yang harus disorot dalam wawancara kerja mendatang dan memberikan petunjuk berbicara di depan umum.

\n\n

Anda dapat membaca ulasan kami tentang Gemini Live di sini.

\n\n

Gemini untuk remaja

\n\n

Google menawarkan pengalaman Gemini yang difokuskan untuk remaja.

\n\n

Gemini yang difokuskan pada remaja memiliki "kebijakan terkait dan perlindungan tambahan," termasuk proses penyesuaian khusus dan panduan literasi kecerdasan buatan. Sebaliknya, hampir identik dengan pengalaman Gemini standar, hingga fitur "double-check" yang melihat-lihat web untuk melihat apakah respon Gemini akurat.

\n\n

Apa yang dapat dilakukan Model Gemini?

\n\n

Karena model-model Gemini adalah multimodal, mereka dapat melakukan berbagai tugas multimodal, mulai dari transkripsi pidato hingga memberi caption pada gambar dan video secara real-time. Banyak dari kemampuan ini telah mencapai tahap produk, dan Google menawarkan yang jauh lebih banyak di masa mendatang.

\n

Tentu saja, Google tidak menawarkan solusi untuk beberapa masalah mendasar dengan teknologi kecerdasan buatan generatif saat ini, seperti bias yang terenkripsi dan kecenderungan untuk membuat sesuatu yang tidak ada (misalnya, halusinasi). Begitu juga dengan pesaing-pesaingnya, tetapi ini adalah sesuatu yang perlu dipertimbangkan ketika memutuskan menggunakan atau membayar untuk Gemini.

\n\n

Kemampuan Gemini Pro

\n\n

Google mengatakan bahwa model Pro terbarunya, Gemini 2.0 Pro, adalah yang terbaiknya untuk coding dan masukan kompleks. 2.0 Pro lebih unggul dibandingkan pendahulunya, Gemini 1.5 Pro, dalam tes benchmark yang mengukur pemrograman, pemikiran, matematika, dan keakuratan fakta.

\n

Di platform Vertex AI Google, pengembang dapat menyesuaikan Gemini Pro ke konteks dan kasus penggunaan spesifik melalui proses penyesuaian atau "grounding." Misalnya, Pro (bersama dengan model-model Gemini lainnya) dapat diinstruksikan untuk menggunakan data dari penyedia pihak ketiga seperti Moody's, Thomson Reuters, ZoomInfo, dan MSCI, atau mencari informasi dari dataset perusahaan atau Google Search daripada bank pengetahuan yang lebih luas. Gemini Pro juga dapat terhubung ke API eksternal, penyedia pihak ketiga untuk melakukan tindakan tertentu, seperti mengotomatisasi alur kerja back-office.

\n

Platform AI Studio Google menawarkan template untuk membuat masukan percakapan terstruktur dengan Pro. Pengembang dapat mengontrol rentang kreatif model dan memberikan contoh untuk memberikan instruksi nada dan gaya - dan juga menyetel ulang pengaturan keamanan Pro.

\n\n

Gemini Flash ringan, sementara Gemini Flash Thinking menambahkan pemikiran

\n\n

Gemini 2.0 Flash, yang dapat menggunakan alat seperti Google Search dan berinteraksi dengan API eksternal, melampaui beberapa model Gemini 1.5 yang lebih besar dalam tes benchmark yang mengukur pemrograman dan analisis gambar. Keturunan dari Gemini Pro, Flash ringan dan efisien - dibangun untuk beban kerja AI generatif sempit yang tinggi.

\n

Google mengatakan bahwa Flash sangat cocok untuk tugas-tugas seperti ringkasan dan aplikasi obrolan, serta memberikan caption gambar dan video dan pencarian data dari dokumen panjang dan tabel. Sementara itu, Gemini 2.0 Flash-Lite, versi yang lebih kompak dari Flash, mengungguli Gemini 1.5 Flash namun berjalan dengan harga dan kecepatan yang sama, menurut Google.

\n

Desember lalu, Google merilis versi “berpikir” dari Gemini 2.0 Flash yang mampu "berpikir." Model kecerdasan buatan ini membutuhkan beberapa detik untuk memecahkan masalah sebelum memberikan jawaban, yang dapat meningkatkan keandalannya.

\n\n

Gemini Nano bisa berjalan di ponsel Anda

\n\n

Gemini Nano adalah versi kecil dari Gemini yang cukup efisien untuk berjalan langsung di (sebagian) perangkat daripada mengirimkan tugas ke server di suatu tempat. Sejauh ini, Nano menggerakkan beberapa fitur di Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9, dan Samsung Galaxy S24, termasuk Summarize di Recorder dan Smart Reply di Gboard.

\n

Aplikasi Recorder, yang memungkinkan pengguna menekan tombol untuk merekam dan mentranskripsi audio, mencakup ringkasan yang didukung oleh Gemini dari percakapan, wawancara, presentasi, dan cuplikan audio lainnya. Pengguna mendapatkan ringkasan meskipun mereka tidak memiliki sinyal atau koneksi Wi-Fi - dan sebagai penghormatan pada privasi, tidak ada data yang meninggalkan ponsel mereka selama proses tersebut.

\n\n
Credit Gambar: Google

Nano juga ada di Gboard, pengganti papan ketik Google. Di sana, ia menggerakkan Smart Reply, yang membantu memberikan saran untuk apa yang akan Anda katakan selanjutnya saat melakukan percakapan di aplikasi pesan seperti WhatsApp.

\n

Sebuah versi Android yang akan datang akan menggunakan Nano untuk memberitahu pengguna