
Apa itu Gemini?
\n\nGemini adalah keluarga model kecerdasan buatan generatif next-gen Google. Dikembangkan oleh laboratorium penelitian kecerdasan buatan Google, DeepMind dan Google Research, memiliki beberapa varian:
\n\n- Gemini Ultra, model yang sangat besar. \n
- Gemini Pro, model besar - meskipun lebih kecil dari Ultra. Versi terbaru, Gemini 2.0 Pro, adalah unggulan saat ini. \n
- Gemini Flash, versi yang lebih cepat dan "di-distil" dari Pro. \n
- Gemini Flash-Lite, versi sedikit lebih kecil dan lebih cepat dari Gemini Flash. \n
- Gemini Flash Thinking, model dengan kemampuan "pemikiran". \n
- Gemini Nano, dua model kecil: Nano-1 dan Nano-2 yang sedikit lebih mampu, dimaksudkan untuk berjalan secara offline.
Semua model Gemini dilatih secara native multimodal - yaitu, mampu bekerja dengan dan menganalisis lebih dari sekadar teks. Google mengatakan bahwa mereka telah dilatih sebelumnya dan disesuaikan di berbagai audio publik, properti, dan lisensi; rangkaian kode; dan teks dalam berbagai bahasa.\n\nIni membedakan Gemini dari model seperti LaMDA buatan Google sendiri, yang dilatih secara eksklusif pada data teks. LaMDA tidak bisa memahami atau menghasilkan apa pun selain teks (misalnya, esai, surel, dan sebagainya), tetapi hal tersebut tidak selalu berlaku untuk model-model Gemini. Misalnya, versi terbaru Gemini Flash dan Gemini Pro dapat menghasilkan gambar dan audio secara native selain teks.\n\nKami mencatat di sini bahwa etika dan legalitas melatih model pada data publik, dalam beberapa kasus tanpa pengetahuan atau persetujuan pemilik data, tidak jelas. Google memiliki kebijakan perlindungan AI untuk melindungi sebagian pelanggan Google Cloud dari gugatan jika mereka menghadapinya, tetapi kebijakan ini berisi pengecualian. Berhati-hatilah - terutama jika Anda bermaksud menggunakan Gemini secara komersial.
\n\nApa Perbedaan Antara Aplikasi Gemini dan Model Gemini?
\n\nGemini terpisah dan berbeda dari aplikasi Gemini di web dan ponsel (sebelumnya Bard).
\nAplikasi Gemini adalah klien yang terhubung ke berbagai model Gemini dan menyajikan antarmuka seperti chatbot di atasnya. Bayangkan mereka sebagai frontend untuk kecerdasan buatan generatif Google, analog dengan ChatGPT dan keluarga aplikasi Claude milik Anthropic.
\n
Gemini di web tersedia di sini. Di Android, aplikasi Gemini menggantikan aplikasi Google Assistant yang sudah ada. Dan di iOS, aplikasi Google dan Google Search berfungsi sebagai klien Gemini platform tersebut.
\nPada Android, pengguna dapat memunculkan lapisan Gemini untuk bertanya mengenai apa yang ada di layar mereka (misalnya, video YouTube). Menekan dan menahan tombol daya smartphone yang didukung atau mengucapkan "Hei Google" memanggil lapisan tersebut.
\nAplikasi Gemini dapat menerima gambar serta perintah suara dan teks - termasuk berkas seperti PDF, baik diunggah maupun diimpor dari Google Drive - dan menghasilkan gambar. Seperti yang bisa Anda harapkan, percakapan dengan aplikasi Gemini di ponsel dapat berlanjut ke Gemini di web dan sebaliknya jika Anda masuk ke Akun Google yang sama di kedua tempat.
\n\nGemini Advanced
\n\nAplikasi Gemini bukan satu-satunya cara merekrut bantuan model Gemini untuk tugas-tugas Anda. Perlahan namun pasti, fitur yang diimbuhkan Gemini sedang berkembang ke aplikasi dan layanan Google seperti Gmail dan Google Docs.
\nUntuk memanfaatkan kebanyakan dari ini, Anda akan memerlukan Google One AI Premium Plan. Secara teknis bagian dari Google One, Rencana Premium AI biaya $20 per bulan dan memberikan akses ke Gemini di aplikasi Google Workspace seperti Docs, Maps, Slides, Sheets, Drive, and Meet. Ini juga memungkinkan apa yang disebut Google sebagai Gemini Advanced, yang membawa model-model Gemini yang lebih canggih ke aplikasi Gemini.
\n
Pengguna Gemini Advanced mendapatkan ekstra di sana-sini, juga, seperti akses prioritas ke fitur-fitur dan model-model baru; kemampuan untuk menjalankan dan mengedit kode Python langsung di Gemini; dan batasan yang lebih tinggi untuk NotebookLM, alat Google yang mengubah PDF menjadi podcast yang dihasilkan oleh kecerdasan buatan. Baru-baru ini, Gemini Advanced mendapatkan fitur memori yang menyimpan preferensi pengguna dan memungkinkan Gemini merujuk kembali ke percakapan lama sebagai konteks untuk percakapan saat ini.
\nSalah satu eksklusif Gemini Advanced yang lebih menarik, Deep Research, memanfaatkan model-model Gemini dengan "pemikiran lanjutan" untuk membuat brief terperinci. Menanggapi sebuah masukan (misalnya, "Bagaimana saya harus mendesain ulang dapur saya?"), Deep Research mengembangkan rencana penelitian multi-langkah dan mencari di web untuk membuat jawaban komprehensif.
\n\nGemini di Gmail, Docs, Chrome, alat pengembang, dan lainnya
\n\nDi Gmail, Gemini ada di panel samping yang dapat menulis surel dan merangkum percakapan. Anda akan menemukan panel yang sama di Docs, di mana ia membantu menulis dan menyempurnakan konten dan melakukan brainstorming untuk ide-ide baru. Gemini di Slides menghasilkan slide dan gambar kustom. Dan Gemini di Google Sheets melacak dan mengorganisir data, membuat tabel dan formula.
\nGemini ada di Google Maps, di mana ia dapat menggabungkan ulasan tentang bisnis lokal dan menawarkan rekomendasi seperti cara menghabiskan satu hari mengunjungi kota asing. Jangkauan chatbot ini juga meluas ke Drive, di mana ia dapat merangkum berkas dan folder dan memberikan fakta-fakta cepat tentang sebuah proyek.
\n
Baru-baru ini, Gemini tiba di browser Chrome milik Google dalam bentuk alat menulis kecerdasan buatan. Anda dapat menggunakannya untuk menulis sesuatu yang benar-benar baru atau mengedit teks yang sudah ada; Google mengatakan akan mempertimbangkan halaman web yang Anda kunjungi untuk memberikan rekomendasi.
\nDalam bidang lain, Anda akan menemukan petunjuk Gemini di produk-produk database Google, alat keamanan cloud, dan platform pengembangan aplikasi (termasuk Firebase dan Project IDX), serta di aplikasi seperti Google Photos (di mana Gemini menangani kueri pencarian bahasa alami), YouTube (di mana ia membantu membuat ide-ide video), dan Meet (di mana ia menerjemahkan teks).\n\nCode Assist (dulu Duet AI for Developers), rangkaian alat bantuan yang didukung kecerdasan buatan Google untuk penyelesaian dan generasi kode, memindahkan beban komputasi berat ke Gemini. Demikian pula dengan produk keamanan Google yang didukung oleh Gemini, seperti Gemini in Threat Intelligence, yang dapat menganalisis bagian-bagian besar kode berbahaya dan memungkinkan pengguna melakukan pencarian bahasa alami untuk ancaman yang berlangsung atau indikator kompromi.
\n\nEkstensi dan Gems Gemini
\n\nPengguna Gemini Advanced dapat membuat Gems, chatbot kustom di desktop dan ponsel yang didukung oleh model Gemini. Gems dapat dihasilkan dari deskripsi bahasa alami - misalnya, “Kamu adalah pelatih lari saya. Berikan saya rencana lari harian” - dan dishare dengan pengguna lain atau disimpan pribadi.
\n
Aplikasi Gemini dapat memanfaatkan layanan Google melalui apa yang disebut Google “ekstensi Gemini.” Gemini terintegrasi dengan Drive, Gmail, YouTube, dan lainnya untuk merespons pertanyaan seperti “Bisakah kamu merangkum tiga email terakhir saya?”
\n\nPercakapan Suara Mendalam Langsung Gemini
\n\nPengalaman yang disebut Gemini Live memungkinkan pengguna untuk melakukan percakapan suara “dalam-dalam” dengan Gemini. Tersedia di aplikasi Gemini di ponsel dan Pixel Buds Pro 2, di mana Anda dapat mengaksesnya bahkan jika ponsel Anda terkunci.
\n
Dengan Gemini Live aktif, Anda dapat menyela Gemini saat chatbot sedang berbicara untuk bertanya pertanyaan klarifikasi, dan ia akan beradaptasi dengan pola bicara Anda secara real-time. Live juga dirancang untuk berfungsi sebagai pelatih virtual, membantu Anda latihan untuk acara, berpikir ide, dan sebagainya. Misalnya, Live dapat menyarankan keterampilan apa yang harus disorot dalam wawancara kerja mendatang dan memberikan petunjuk berbicara di depan umum.
\n\nAnda dapat membaca ulasan kami tentang Gemini Live di sini.
\n\nGemini untuk remaja
\n\nGoogle menawarkan pengalaman Gemini yang difokuskan untuk remaja.
\n\nGemini yang difokuskan pada remaja memiliki "kebijakan terkait dan perlindungan tambahan," termasuk proses penyesuaian khusus dan panduan literasi kecerdasan buatan. Sebaliknya, hampir identik dengan pengalaman Gemini standar, hingga fitur "double-check" yang melihat-lihat web untuk melihat apakah respon Gemini akurat.
\n\nApa yang dapat dilakukan Model Gemini?
\n\nKarena model-model Gemini adalah multimodal, mereka dapat melakukan berbagai tugas multimodal, mulai dari transkripsi pidato hingga memberi caption pada gambar dan video secara real-time. Banyak dari kemampuan ini telah mencapai tahap produk, dan Google menawarkan yang jauh lebih banyak di masa mendatang.
\nTentu saja, Google tidak menawarkan solusi untuk beberapa masalah mendasar dengan teknologi kecerdasan buatan generatif saat ini, seperti bias yang terenkripsi dan kecenderungan untuk membuat sesuatu yang tidak ada (misalnya, halusinasi). Begitu juga dengan pesaing-pesaingnya, tetapi ini adalah sesuatu yang perlu dipertimbangkan ketika memutuskan menggunakan atau membayar untuk Gemini.
\n\nKemampuan Gemini Pro
\n\nGoogle mengatakan bahwa model Pro terbarunya, Gemini 2.0 Pro, adalah yang terbaiknya untuk coding dan masukan kompleks. 2.0 Pro lebih unggul dibandingkan pendahulunya, Gemini 1.5 Pro, dalam tes benchmark yang mengukur pemrograman, pemikiran, matematika, dan keakuratan fakta.
\nDi platform Vertex AI Google, pengembang dapat menyesuaikan Gemini Pro ke konteks dan kasus penggunaan spesifik melalui proses penyesuaian atau "grounding." Misalnya, Pro (bersama dengan model-model Gemini lainnya) dapat diinstruksikan untuk menggunakan data dari penyedia pihak ketiga seperti Moody's, Thomson Reuters, ZoomInfo, dan MSCI, atau mencari informasi dari dataset perusahaan atau Google Search daripada bank pengetahuan yang lebih luas. Gemini Pro juga dapat terhubung ke API eksternal, penyedia pihak ketiga untuk melakukan tindakan tertentu, seperti mengotomatisasi alur kerja back-office.
\nPlatform AI Studio Google menawarkan template untuk membuat masukan percakapan terstruktur dengan Pro. Pengembang dapat mengontrol rentang kreatif model dan memberikan contoh untuk memberikan instruksi nada dan gaya - dan juga menyetel ulang pengaturan keamanan Pro.
\n\nGemini Flash ringan, sementara Gemini Flash Thinking menambahkan pemikiran
\n\nGemini 2.0 Flash, yang dapat menggunakan alat seperti Google Search dan berinteraksi dengan API eksternal, melampaui beberapa model Gemini 1.5 yang lebih besar dalam tes benchmark yang mengukur pemrograman dan analisis gambar. Keturunan dari Gemini Pro, Flash ringan dan efisien - dibangun untuk beban kerja AI generatif sempit yang tinggi.
\nGoogle mengatakan bahwa Flash sangat cocok untuk tugas-tugas seperti ringkasan dan aplikasi obrolan, serta memberikan caption gambar dan video dan pencarian data dari dokumen panjang dan tabel. Sementara itu, Gemini 2.0 Flash-Lite, versi yang lebih kompak dari Flash, mengungguli Gemini 1.5 Flash namun berjalan dengan harga dan kecepatan yang sama, menurut Google.
\nDesember lalu, Google merilis versi “berpikir” dari Gemini 2.0 Flash yang mampu "berpikir." Model kecerdasan buatan ini membutuhkan beberapa detik untuk memecahkan masalah sebelum memberikan jawaban, yang dapat meningkatkan keandalannya.
\n\nGemini Nano bisa berjalan di ponsel Anda
\n\nGemini Nano adalah versi kecil dari Gemini yang cukup efisien untuk berjalan langsung di (sebagian) perangkat daripada mengirimkan tugas ke server di suatu tempat. Sejauh ini, Nano menggerakkan beberapa fitur di Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9, dan Samsung Galaxy S24, termasuk Summarize di Recorder dan Smart Reply di Gboard.
\nAplikasi Recorder, yang memungkinkan pengguna menekan tombol untuk merekam dan mentranskripsi audio, mencakup ringkasan yang didukung oleh Gemini dari percakapan, wawancara, presentasi, dan cuplikan audio lainnya. Pengguna mendapatkan ringkasan meskipun mereka tidak memiliki sinyal atau koneksi Wi-Fi - dan sebagai penghormatan pada privasi, tidak ada data yang meninggalkan ponsel mereka selama proses tersebut.
\n\n
Nano juga ada di Gboard, pengganti papan ketik Google. Di sana, ia menggerakkan Smart Reply, yang membantu memberikan saran untuk apa yang akan Anda katakan selanjutnya saat melakukan percakapan di aplikasi pesan seperti WhatsApp.
\nSebuah versi Android yang akan datang akan menggunakan Nano untuk memberitahu pengguna