Gemini AI - La IA de Google
Què és Gemini?
Gemini és el model d'intel·ligència artificial multimodal més avançat de Google, dissenyat per entendre i generar text, codi, imatges, àudio i vídeo. Integrat amb tot l'ecosistema de Google (Search, Gmail, Docs, YouTube...).
✨ Característiques Destacades
Multimodal
Text, imatge, àudio, vídeo natiu
Google Search
Integrat amb cerca en temps real
Ecosistema
Gmail, Docs, Drive, YouTube...
Context Llarg
Fins a 2M tokens (Gemini 1.5)
🤖 Models Disponibles
Gemini 2.0 Flash
Última versió: Des 2024
Model més ràpid i eficient de segona generació. Millor raonament i capacitats multimodals natives.
- Multimodal natiu - Entén text, imatge, àudio, vídeo
- Context de 1M tokens
- Velocitat 2x més ràpida que 1.5
- Millor raonament complex
- Generació d'àudio en temps real
- Capacitats d'agent (tool use)
Gemini 1.5 Pro
Estable
Model més potent amb context extremadament llarg i capacitats avançades d'anàlisi.
- 2 milions de tokens de context
- Analitza vídeos complets (fins 11h)
- Processa codebases senceres
- Raonament profund
- Excel·lent per tasques complexes
- Millor precisió en respostes llargues
Gemini 1.5 Flash
Lleuger
Ràpid i econòmic per tasques simples.
- Context 1M tokens
- Molt ràpid
- Econòmic
- Bo per xat general
Gemini Ultra
Gemini Advanced
Versió més potent disponible només amb subscripció.
- Màxima qualitat
- Raonament superior
- Millor en codi complex
- $20/mes (Google One AI Premium)
Gemma (Open)
Open Source
Models open-source per executar localment.
- Gemma 2B, 7B
- CodeGemma 7B
- Apache 2.0
- Ollama compatible
💻 Com Utilitzar Gemini
Accés: gemini.google.com
Versions disponibles:
- Gemini (Gratuït) - Accés a Gemini 1.5 Flash i Pro amb límits
- Gemini Advanced - €21.99/mes - Ultra, 2M tokens, Gmail/Docs integration
Característiques del xat web:
- Xat amb text, imatges, documents
- Integració amb Google Search en temps real
- Carrega PDFs, vídeos, imatges
- Extensions: Gmail, Drive, Maps, YouTube, Google Flights...
- Genera imatges amb Imagen 3
- Xats compartits i exportació
Plataforma: aistudio.google.com
Preus (per 1M tokens):
| Model | Input | Output |
|---|---|---|
| Gemini 2.0 Flash | Gratuït (límits) | Gratuït (límits) |
| Gemini 1.5 Flash | $0.075 | $0.30 |
| Gemini 1.5 Pro | $1.25 | $5.00 |
| Quota gratuïta diària disponible! | ||
Exemple amb Python (SDK oficial):
import google.generativeai as genai
genai.configure(api_key="LA_TEVA_API_KEY")
model = genai.GenerativeModel('gemini-2.0-flash')
response = model.generate_content('Crea una API REST en Laravel')
print(response.text)
Amb imatges (multimodal):
import PIL.Image
img = PIL.Image.open('screenshot.jpg')
model = genai.GenerativeModel('gemini-2.0-flash')
response = model.generate_content([
"Què hi ha en aquesta imatge?",
img
])
print(response.text)
Amb cURL:
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent?key=$API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"contents": [{
"parts": [{
"text": "Explica què és Laravel"
}]
}]
}'
Per privacitat i ús local
Instal·lar amb Ollama:
# Gemma general (7B)
ollama pull gemma:7b
# CodeGemma per programació (7B)
ollama pull codegemma:7b
# Gemma petit (2B) - Requereix menys recursos
ollama pull gemma:2b
Utilitzar:
# Xat interactiu
ollama run codegemma:7b
# Des de Python
import ollama
response = ollama.chat(
model='codegemma:7b',
messages=[{
'role': 'user',
'content': 'Crea una migration de Laravel'
}]
)
print(response['message']['content'])
🔌 Integració amb Visual Studio Code
Continue + Gemini
Recomanat API Gratuïta
Continue suporta Gemini via API de Google amb quota gratuïta diària.
Configuració:
- Instal·la Continue:
Continue.continue - Obté API key de AI Studio
- Edita
~/.continue/config.json:
{
"models": [
{
"title": "Gemini 2.0 Flash",
"provider": "gemini",
"model": "gemini-2.0-flash-exp",
"apiKey": "LA_TEVA_API_KEY"
}
]
}
O amb Gemma (local via Ollama):
{
"models": [
{
"title": "CodeGemma Local",
"provider": "ollama",
"model": "codegemma:7b"
}
]
}
Cline + Gemini
Agent Autònom
Agent de codificació compatible amb Gemini API.
Configuració:
- Instal·la:
saoudrizwan.claude-dev - Selecciona "Google Gemini"
- Introdueix la teva API key
- Tria model:
gemini-2.0-flash-exp
Twinny + CodeGemma
Open Source Local
Autocompletat tipus Copilot amb CodeGemma executant localment.
Configuració:
- Instal·la:
rjmacarthy.twinny - Instal·la Ollama:
ollama pull codegemma:7b - Config Twinny:
- Provider: Ollama
- Model: codegemma:7b
- URL: http://localhost:11434
👨💻 Casos d'Ús Ideals per Gemini
Anàlisi de Documents
Gemini 1.5 Pro amb 2M tokens:
- Analitza PDFs complets (fins 1500 pàgines)
- Codebases senceres (tot el projecte Laravel)
- Contractes legals extensos
- Documentació tècnica completa
- Llibres complets
- Resumeix i extreu insights
Processament de Vídeo
Capacitat única de Gemini:
- Analitza vídeos fins 11 hores
- Transcripció i resum automàtic
- Busca moments específics
- Genera subtítols
- Identifica objectes i persones
- Analitza tutorials i cursos
Recerca amb Context Actualitzat
Integració amb Google Search:
- Informació en temps real del web
- Notícies i actualitzacions recents
- Comparatives de productes actualitzades
- Llibreries i frameworks nous
- Vulnerabilitats de seguretat recents
- Tendències tecnològiques actuals
Integració Ecosistema Google
Extensions de Workspace:
- Cerca emails específics a Gmail
- Analitza documents de Drive
- Resume reunions de Meet/Calendar
- Busca informació a YouTube
- Planifica viatges amb Flights/Hotels
- Troba llocs amb Maps
⚖️ Gemini vs Altres Assistents IA
| Característica | Gemini | ChatGPT | Claude | DeepSeek |
|---|---|---|---|---|
| Context màxim | 2M tokens | 128K tokens | 200K tokens | 128K tokens |
| Multimodal | Natiu | GPT-4V (limitat) | Claude 3.5 | No |
| Processa vídeo | Sí (11h) | No | No | No |
| Integració web | Google Search nativa | Web browsing ($20/mes) | No | No |
| Cost API (Flash) | $0.075 / 1M | $0.15 / 1M | $0.25 / 1M | $0.14 / 1M |
| Quota gratuïta | Sí | Limitada | Limitada | Il·limitada (xat) |
| Ecosistema | Gmail, Drive, Docs, Maps... | N/A | N/A | N/A |
| Open Source | Gemma (2B, 7B) | No | No | DeepSeek (671B) |
📊 Avantatges i Limitacions
Avantatges
- Context enorme - 2M tokens (1.5 Pro)
- Multimodal natiu - Text, imatge, àudio, vídeo
- Processament vídeo - Fins 11 hores
- Google Search - Dades actualitzades
- Ecosistema - Gmail, Drive, Docs, Maps...
- API econòmica - Quota gratuïta diària
- Gemma open-source - CodeGemma per programació
- Gemini 2.0 - Agents i generació d'àudio
Limitacions
- Privacitat - Google recull dades (18 mesos)
- Menys "creatiu" - Més factual que ChatGPT
- Extensions limitades - Només ecosistema Google
- Gemini Ultra - Requereix subscripció ($20/mes)
- Codi - No tan bo com DeepSeek-Coder
- Rate limits - API gratuïta amb límits
- Disponibilitat - Alguns països restringits