Middleware Inteligente

Enruta cada prompt al Experto Perfecto.

l3mcore actúa como el cerebro central entre tus usuarios y la Inteligencia Artificial. Analiza lo que necesitas y redirige la conversación al modelo ideal en milisegundos, ya sea en la nube o en tus propios servidores locales.

$ curl -sSL https://raw.githubusercontent.com/lemoelink/l3mcore/refs/heads/master/setup.sh | bash
Ver Documentación Características

Compatible nativamente con

OpenAI API Ollama Groq Open WebUI Modelos Locales (ONNX) AnythingLLM Llama.cpp APIs Personalizadas OpenAI API Ollama Groq Open WebUI Modelos Locales (ONNX) AnythingLLM Llama.cpp APIs Personalizadas
"Traduce esto al japonés..."
Modelo Local (Llama 3)
"Depura este script en Python..."
Experto (Qwen Coder API)

Ahorro brutal de costes

No uses GPT-4 para responder un simple "Hola". l3mcore envía las tareas sencillas a modelos locales gratuitos y reserva las APIs caras exclusivamente para tareas complejas.

Privacidad Total

Enruta automáticamente los prompts con información sensible (datos médicos, código fuente interno) hacia tus modelos locales, garantizando que nunca salgan a la nube.

Integración Drop-in

Compatible al 100% con la API de OpenAI y Ollama. Cambia una sola URL en tu aplicación o cliente actual y tendrás enrutamiento inteligente sin tener que tocar código.

Míralo en acción

Aquí vemos la consola y Open WebUI. Estamos usando 4 expertos: 1 modelo ONNX local (Malbec), 1 en Ollama y 2 llamadas a API con Groq.

¿Por qué l3mcore?

Diseñado para velocidad, privacidad y flexibilidad máxima en producción.

Eficiencia Extrema

El núcleo está tan optimizado que en pruebas de estrés reales con 15 expertos activos consume únicamente 1,5 GB de RAM. Olvídate de cuellos de botella y de la sobrecarga en servidores.

Uso de Memoria (15 Expertos)
1.5 GB

Seguridad Auditada

Al ser de código abierto, garantizamos transparencia. Previene Path Traversal, SSRF y ofusca logs sensibles automáticamente para evitar fugas de datos.

Sistema Multi-Backend

Unifica todas tus fuentes de IA. Conecta modelos locales, inferencia en CPU y las APIs más potentes del mercado en un solo proxy.

  • Ollama (Local GPU/CPU)
  • ONNX (Local CPU RAM)
  • OpenAI / Groq / Anthropic

Sistema de Plugins

Extiende las capacidades de l3mcore a tu medida. Descubre, descarga y crea módulos personalizados en nuestro Directorio de Plugins.

Enrutamiento Semántico

Motor de decisión 100% local. Comprende el contexto real de cada mensaje al instante y selecciona el modelo adecuado usando matemáticas vectoriales.

Integración Drop-in

No tienes que aprender nada nuevo. Sigue usando la SDK de OpenAI.

Antes (Directo a OpenAI)
from openai import OpenAI

# Conectado a la nube comercial
client = OpenAI(
    api_key="sk-proj-...",
    base_url="https://api.openai.com/v1"
)

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Hola"}]
)
Después (Usando l3mcore)
from openai import OpenAI

# Conectado a tu enrutador inteligente local
client = OpenAI(
    api_key="lm-...",
    base_url="http://localhost:11435/v1"
)

response = client.chat.completions.create(
    model="auto", # <-- l3mcore elige el experto ideal
    messages=[{"role": "user", "content": "Hola"}]
)

Preguntas Frecuentes

Resolvemos las dudas típicas antes de que las tengas.

¿Necesito una tarjeta gráfica (GPU) potente para usar ONNX? +
No. El ONNXRunner de l3mcore está diseñado para ejecutar la inferencia de modelos pequeños en CPU cargándolos directamente en la memoria RAM del sistema. De hecho, está tan optimizado que funciona perfectamente en hardware modesto.
¿Puedo conectar a Anthropic o Gemini en lugar de OpenAI? +
l3mcore habla el dialecto universal de OpenAI (/v1/chat/completions). Puedes conectar APIs de terceros sin problema usando proxies que traduzcan la API (como LiteLLM) o usar directamente aquellas que ya son compatibles de forma nativa (como Groq, Together, etc).
¿Cuántos expertos puedo poner de máximo? +
Prácticamente ilimitados. El router compara vectores matemáticos mediante la similitud del coseno de forma ultrarrápida. Tener 50 o 100 expertos solo añadirá unos pocos milisegundos extra a la fase de decisión, siendo imperceptible para el usuario humano.
¿Puedo usar un modelo de routing personalizado? +
Sí. Aunque por defecto l3mcore usa modelos rápidos de HuggingFace como E5-small, puedes configurar tu propio modelo o algoritmo de routing en el backend para adaptar la lógica de decisión a tus necesidades exactas.
¿Qué pasa si mi servidor se queda sin RAM? +
Para los modelos locales (ONNX), l3mcore implementa un sistema de Caché LRU (Least Recently Used). Puedes limitar, por ejemplo, que solo haya 2 modelos cargados a la vez. Cuando se llama al tercero, l3mcore expulsa automáticamente de la memoria al modelo que lleva más tiempo sin usarse.

¿Listo para optimizar tu IA?

Instala l3mcore en menos de 1 minuto y empieza a ahorrar tiempo, dinero y recursos en tu infraestructura de Inteligencia Artificial.

Comenzar Ahora