Google Gemini AI: Todo lo que sabemos hasta ahora
Gemini redefine la IA multimodal
“Gemini se diseñó desde cero para ser multimodal”.
Esta afirmación clave de Pichai define a Gemini como una tecnología que va más allá de la capacidad de trabajar con diferentes contenidos como imágenes o texto. Para Google, multimodal significa algo mucho más profundo.
Durante las ganancias del tercer trimestre de 2023 de Alphabet el 24 de octubre, Pichai ofreció claras indicaciones sobre el tipo de IA multimodal que estaban desarrollando.
“Estamos estableciendo las bases para lo que considero una serie de modelos de próxima generación que lanzaremos a lo largo de 2024”, dijo Pichai. “El ritmo de innovación es extraordinariamente impresionante”.
[TRADE_PLUGIN]XRPUSDT,XRPUSDT[/TRADE_PLUGIN]
\¡Consigue hasta 10.055 USDT al registrarte, depositar y operar! /
Gemini: IA más cercana a lo humano
Hasta ahora, hemos sido testigos de la IA multimodal. Empresas como OpenAI, responsable de ChatGPT, y Microsoft ofrecen diferentes tecnologías de IA generativa que pueden trabajar con imágenes, texto, datos e incluso código.
Sin embargo, todos estos primeros sistemas de IA apenas rascan la superficie de la tecnología multimodal, ya que la integración de diferentes contenidos y formatos de datos no es eficiente.
El éxito de la IA generativa radica en que, por primera vez, una máquina puede imitar lo que hacen los humanos. Pero, ¿qué pueden hacer exactamente los humanos? No sólo podemos chatear, codificar, escribir informes y crear imágenes, podemos hacer todo eso.
El cerebro humano es sorprendentemente complejo. Puede interpretar y comprender simultáneamente varios formatos de datos, como texto, palabras, sonidos y elementos visuales.
Esto nos permite dar sentido al mundo que nos rodea, responder a estímulos y resolver problemas de manera creativa e innovadora. Y eso es lo que busca Gemini de Google: una IA que se acerque más a las capacidades humanas, una IA multimodal multitarea.
Gemini: Más que un solo modelo de IA
Gemini no se limita a ser un único modelo de IA. Es una combinación de múltiples IA integradas.
Crear una IA multimodal efectiva y sofisticada implica integrar diferentes modelos de IA, como el procesamiento de gráficos, visión por computadora, procesamiento de audio, modelos lingüísticos, codificación y programación, así como modelos 3D. Esta integración orquestada busca lograr sinergias significativas en el desarrollo de capacidades multimodales.
Es una tarea monumental y desafiante que Google está abordando con la intención de llevar este concepto a un nivel sin precedentes.

[TRADE_PLUGIN]XRPUSDT,XRPUSDT[/TRADE_PLUGIN]
\¡Consigue hasta 10.055 USDT al registrarte, depositar y operar! /
Gemini, Tecnología y Datos de Entrenamiento
El concepto detrás de un modelo de IA es fundamentalmente relevante.
Aunque, como se mencionó antes, la capacidad multimodal de ChatGPT sigue siendo limitada —puede manejar lenguaje y código, pero no imágenes—, Gemini integrará todos estos aspectos.
“Google Gemini es multimodal, lo que implica que puede procesar y generar texto, imágenes y otros tipos de datos. Esto lo hace más versátil que ChatGPT, que solo puede procesar texto”, según el informe de SemiAnalysis.
SemiAnalysis destaca que Google “ha invertido una potencia computacional sin precedentes” para entrenar a Gemini, superando a GPT-4. Google utiliza chips de última generación conocidos como TPUv5 para este propósito.
Según los informes, estos chips son la única tecnología en el mundo capaz de orquestar 16.384 unidades de procesamiento tensorial (TPUs) trabajando en conjunto. Estos superchips son esenciales para permitir a Google entrenar un modelo de esta magnitud.
SemiAnalysis afirma:
“Actualmente, ninguna otra entidad en el sector posee la capacidad necesaria para enfrentar tareas de entrenamiento de esta escala”.
Sin embargo, para entrenar un modelo de IA no solo se necesitan chips, sino también datos. En este aspecto, Google es uno de los líderes indiscutibles. “Google posee una vasta colección de datos exclusivamente de código, estimada en unos 40 billones de tokens, un hecho que ha sido verificado”, añade SemiAnalysis.
Cuarenta billones de tokens equivalen a cientos de petabytes o al contenido de millones de libros. Según SemiAnalysis, el conjunto de datos de Google es cuatro veces mayor que todos los datos utilizados para entrenar a ChatGPT 4.0, que incluye datos tanto con como sin código.
[TRADE_PLUGIN]XRPUSDT,XRPUSDT[/TRADE_PLUGIN]
\¡Consigue hasta 10.055 USDT al registrarte, depositar y operar! /
La Visión de Google para Gemini
Al igual que PaLM 2 impulsa todas las marcas de Google, se espera que Gemini haga lo mismo con la IA. Google está potenciando Gemini con la visión de que se convierta en el núcleo de toda la inteligencia artificial incorporada e integrada en sus productos y servicios.
¿Qué productos y servicios finales veremos impulsados por Gemini? Si reemplaza a PaLM 2, Gemini potenciará todo, desde Maps hasta Docs y Translate, todo el entorno y los servicios de Google Workplace y Cloud, así como software y hardware nuevos.
Google está plenamente comprometido con la creación de una IA más potente, versátil y contextualmente consciente, capaz de comprender e interactuar con el mundo de formas nuevas e innovadoras.
Los desarrolladores utilizarán Gemini para codificar, automatizar y mejorar las operaciones en la nube y en dispositivos, impulsar las ventas, e integrarlo en chatbots y asistentes virtuales dentro de los smartphones con tecnología de Google, aplicaciones, APIs y mucho más.
Si 2023 marcó el año de la generalización de la IA, 2024 podría verdaderamente ser el año de Gemini.
