Ollama es una herramienta de código abierto (open source) que ejecuta modelos de lenguaje grandes (LLM) en local. El modelo corre en tu propio ordenador o servidor, sin enviar datos a la nube.

El proyecto se publicó en 2023 (fuente: repositorio oficial github.com/ollama/ollama). Permite correr modelos como Llama, Mistral o Gemma con un solo comando.

Su ventaja clave es la privacidad y el control del dato. Como el modelo se ejecuta dentro de tu infraestructura, ninguna consulta ni documento abandona el equipo. Eso lo hace idóneo para empresas que trabajan con información sensible.

Qué resuelve frente a una API en la nube

Ollama elimina la dependencia de un proveedor externo para la inferencia. Con servicios como OpenAI o Anthropic, cada prompt y cada respuesta viajan a servidores de terceros. Con Ollama, todo el cómputo ocurre en local.

Eso cambia tres cosas de forma directa:

Privacidad total: el dato nunca sale de la empresa.
Sin coste por consulta: solo pagas el hardware que ya tienes.
Funciona sin conexión: no necesita internet para operar.

A cambio, la calidad y la velocidad dependen del modelo elegido y de la GPU disponible. Un modelo pequeño corre en un portátil, mientras que los grandes piden una tarjeta dedicada con suficiente memoria. Como regla práctica, un modelo de 7.000 millones de parámetros (7B) necesita alrededor de 8 GB de memoria para ejecutarse con fluidez.

Para qué empresas tiene sentido

Tiene sentido para cualquier organización que no pueda o no quiera enviar sus datos a la nube. Despachos jurídicos, clínicas, asesorías y administraciones manejan información confidencial. Transferirla a un tercero choca con obligaciones de confidencialidad o de protección de datos.

En esos casos, ejecutar el LLM en local con Ollama permite usar IA generativa sin sacar el dato del perímetro de la empresa. Por ejemplo: resumir expedientes, clasificar documentos o responder consultas internas.

No sustituye a los modelos comerciales más potentes en todas las tareas. Pero para muchos flujos de trabajo internos la diferencia de calidad es asumible, y la garantía de privacidad es innegociable.

Cómo lo usamos en SMedialab

Usamos Ollama para probar LLMs locales con clientes que tienen datos sensibles, cuando enviar información a la nube no es una opción. Antes de proponer una arquitectura, montamos el modelo en local y validamos con datos reales del cliente si la calidad de respuesta es suficiente.

Encaja bien en casos como:

Clasificación de documentos.
Asistentes internos sobre documentación confidencial.
Extracción de datos de archivos que no pueden salir de la empresa.

Cuando el caso encaja, lo integramos como parte de las implementaciones de IA y, en concreto, dentro del subservicio de aplicaciones con IA.

No lo recomendamos en dos situaciones. La primera: tareas que exigen la máxima capacidad de razonamiento de los modelos comerciales de frontera. La segunda: clientes sin hardware suficiente y sin restricción de privacidad, donde una API en la nube sale más a cuenta.

¿Tu caso pide IA pero los datos no pueden salir de la empresa? Lo planteamos como parte de las implementaciones de IA. Cuéntanos tu caso.

Ollama — Ollama: ejecutar modelos de IA (LLM) en local

Qué resuelve frente a una API en la nube

Para qué empresas tiene sentido

Cómo lo usamos en SMedialab

Ollama: ejecutar modelos de IA (LLM) en local en los 31 municipios de Tenerife

Despliegue de LLMs con Ollama en San Cristóbal de La Laguna

Despliegue de LLMs con Ollama en Santa Cruz de Tenerife

Modelos locales con Ollama en Adeje

Despliegue de LLMs con Ollama en La Orotava

¿Necesitas implementar Ollama: ejecutar modelos de IA (LLM) en local?