LM Studio 0.4.0: Νέο UI, Parallel Inference και ισχυρό CLI για τοπικά LLMs

By Στέλιος Θεοδωρίδης

12 Φεβρουαρίου 2026

0

Σύνοψη

Το LM Studio 0.4.0 φέρνει ανασχεδιασμένο UI, Split View για σύγκριση chat και νέο Developer Mode.
Προστίθεται parallel inference μέσω continuous batching (llama.cpp 2.0.0) για ταυτόχρονα αιτήματα με μικρότερο latency.
Με llmster, αναβαθμισμένο CLI, νέες επιλογές export και επεκτάσεις REST API, η ανάπτυξη/διάθεση γίνεται πιο εύκολη.

Πίνακας περιεχομένων

Τι αλλάζει στο LM Studio 0.4.0 και γιατί έχει σημασία

Στον συνεχώς διευρυνόμενο κόσμο της τοπικής ανάπτυξης AI, το LM Studio κυκλοφόρησε την έκδοση 0.4.0, φέρνοντας μια σειρά αναβαθμίσεων που απλοποιούν τα workflows, βελτιώνουν την απόδοση και εξυπηρετούν τόσο τους περιστασιακούς χρήστες όσο και τους «power» developers.

Όπως ανακοινώθηκε μέσω του επίσημου blog, η έκδοση αυτή εστιάζει στη χρηστικότητα, στις επιλογές deployment και σε προηγμένες λειτουργίες που κάνουν την εκτέλεση μεγάλων γλωσσικών μοντέλων (LLMs) στο δικό σας hardware πιο διαισθητική και ισχυρή από ποτέ.

Είτε απλά θέλετε να εκτελέσετε μοντέλα για πειραματισμό είτε χτίζετε εφαρμογές επιπέδου παραγωγής, οι αλλαγές αυτές λύνουν πρακτικά προβλήματα και ανοίγουν νέες δυνατότητες.

Νέο, πιο διαισθητικό interface

Μία από τις πιο εμφανείς αλλαγές στο 0.4.0 είναι ο πλήρης επανασχεδιασμός του user interface, με στόχο τη συνέπεια και την ευκολία χρήσης. Ο νέος σχεδιασμός απλοποιεί την πλοήγηση, με ανανεωμένα styles για τα μηνύματα του chat, τις ρυθμίσεις hardware και τα sidebars.

Split View: σύγκριση δύο chat δίπλα-δίπλα

Κομβική προσθήκη είναι το νέο Split View, που επιτρέπει να χωρίζετε την οθόνη ώστε να τρέχετε και να συγκρίνετε πολλαπλές συνομιλίες παράλληλα — ιδανικό για benchmarking απαντήσεων από διαφορετικά μοντέλα.

Πατήστε το εικονίδιο Split View επάνω δεξιά.
Σύρετε τα chat tabs στη θέση τους.
Η λειτουργία υποστηρίζει έως δύο panes για εύκολο A/B testing.

Παράλληλα, η εργασία με Model Control Protocols (MCPs) απλοποιείται: πλέον τα MCPs φορτώνουν μόνο όταν χρειάζονται και όχι κατά την εκκίνηση, μειώνοντας το overhead.

Πληροφορία:
Η «φόρτωση κατά απαίτηση» για τα MCPs μπορεί να βελτιώσει τον χρόνο εκκίνησης και τη συνολική αίσθηση απόκρισης της εφαρμογής.

Permission keys και Developer Mode

Η εισαγωγή των permission keys δίνει πιο λεπτομερή έλεγχο πρόσβασης πελατών (clients) στον LM Studio server, ενισχύοντας την ασφάλεια σε κοινόχρηστα περιβάλλοντα.

Για προχωρημένους χρήστες, το νέο Developer Mode συγκεντρώνει προηγούμενες ρυθμίσεις σε ένα μόνο toggle: Settings > Developer. Ξεκλειδώνει «κρυφές» επιλογές σε όλη την εφαρμογή, όπως:

in-app τεκμηρίωση για REST API,
CLI commands,
live processing status για φορτωμένα LLMs.

Επιπλέον βελτιώσεις UI περιλαμβάνουν: resizable modal αναζήτησης μοντέλων (με Cmd/Ctrl + Shift + M), μόνιμες προτιμήσεις φίλτρων, νέες ρυθμίσεις (π.χ. επιβολή ενός νέου κενού chat κάθε φορά ή επιλογή τοποθέτησης κύριας πλοήγησης πάνω/αριστερά) και διορθώσεις που λύνουν οπτικά σφάλματα, όπως διπλασιασμό chat και αποτυχίες export.

Parallel inference: πολλαπλά requests χωρίς «ουρά»

Για σενάρια υψηλού φόρτου, καθοριστική προσθήκη είναι το parallel inference, το οποίο βασίζεται στο continuous batching της μηχανής llama.cpp (έκδοση 2.0.0). Αυτό επιτρέπει σε ένα μοντέλο να επεξεργάζεται πολλαπλά αιτήματα ταυτόχρονα χωρίς να σχηματίζεται ουρά, μειώνοντας αισθητά το latency και αυξάνοντας την αποδοτικότητα.

Η ρύθμιση γίνεται από το slider Max Concurrent Predictions στο dialog φόρτωσης μοντέλου. Η προεπιλογή είναι 4 slots, με ενεργοποιημένο Unified KV Cache ώστε να διαχειρίζεται διαφορετικά μεγέθη αιτημάτων χωρίς επιπλέον χρήση μνήμης.

Προειδοποίηση:
Η υποστήριξη της μηχανής MLX σε Mac βρίσκεται ακόμη υπό ανάπτυξη, άρα χρήστες Apple ίσως χρειαστεί να περιμένουν πλήρη συμβατότητα.

Η λειτουργία είναι ιδανική για developers που χτίζουν εφαρμογές με ταυτόχρονες ερωτήσεις, όπως chatbots ή APIs, μετατρέποντας το LM Studio σε πιο ισχυρή εναλλακτική local server.

Πίνακας: Πρακτικές ρυθμίσεις για parallel inference

Ρύθμιση	Πού βρίσκεται	Τι επηρεάζει
Max Concurrent Predictions	Model loader dialog	Πόσα requests εξυπηρετούνται παράλληλα
Unified KV Cache	Ρυθμίσεις φόρτωσης μοντέλου	Καλύτερη διαχείριση διαφορετικών request sizes χωρίς extra μνήμη
llama.cpp engine 2.0.0	Runtime / engine	Υλοποίηση continuous batching

Ευκολότερο deployment με αναβαθμίσεις στο CLI

Το deployment αναβαθμίζεται σημαντικά με το llmster, έναν headless daemon για εκτέλεση του LM Studio χωρίς GUI — ιδανικό για servers, cloud instances ή περιβάλλοντα μόνο με terminal.

Η εγκατάσταση περιγράφεται ως απλή: χρήση curl scripts για Linux/Mac ή PowerShell για Windows. Βασικές εντολές περιλαμβάνουν:

lms daemon up για εκκίνηση του daemon,
lms get <model> για downloads,
lms server start για εκκίνηση local server.

Το νέο lms chat CLI

Το νέο interface lms chat προσφέρει διαδραστικό chat στο terminal, με slash commands όπως:

/model για αλλαγή μοντέλου,
/download για λήψη νέων μοντέλων,
/system-prompt για προσαρμοσμένες οδηγίες.

Υποστηρίζει επικόλληση μεγάλου περιεχομένου, highlights «thinking», και βελτιωμένα help/logging, κάνοντας τα CLI workflows πιο προσιτά.

Η έκδοση (versioning) χρησιμοποιεί πλέον commit hashes για μεγαλύτερη ακρίβεια, ενώ εντολές όπως lms runtime update llama.cpp βοηθούν να κρατάτε το περιβάλλον ενημερωμένο.

Πίνακας: Γρήγορος οδηγός εντολών CLI

Εντολή	Τι κάνει	Πότε τη χρησιμοποιείτε
`lms daemon up`	Εκκινεί headless daemon	Σε server/VM χωρίς GUI
`lms get <model>`	Κατεβάζει μοντέλο	Όταν θέλετε νέο LLM τοπικά
`lms server start`	Σηκώνει local server	Για χρήση μέσω API/clients
`lms runtime update llama.cpp`	Ενημερώνει runtime engine	Για νεότερες βελτιώσεις/διορθώσεις

Εξαγωγή chat και επεκτάσεις στο API

Η κοινοποίηση της δουλειάς σας γίνεται ευκολότερη με νέες επιλογές export chat: αποθήκευση συνομιλιών ως PDF (με εικόνες), Markdown ή plain text μέσω του μενού του chat. Είναι χρήσιμο για τεκμηρίωση, αναφορές ή αρχειοθέτηση πειραμάτων.

Πίνακας: Επιλογές export συνομιλιών

Format	Περιλαμβάνει εικόνες;	Ιδανικό για
PDF	Ναι	Αναφορές, sharing με μη τεχνικούς χρήστες
Markdown	(Σύμφωνα με την επιλογή export)	Τεκμηρίωση, README, γνώση σε wiki
Plain text	Όχι	Γρήγορη αρχειοθέτηση, logs

REST API: stateful chat και νέα endpoints

Στο κομμάτι του API, ένα stateful REST endpoint στο /v1/chat διατηρεί κατάσταση συνομιλίας μέσω response_id, επιτρέποντας multi-step workflows με αναλυτικά στατιστικά όπως token counts και ταχύτητες. Υποστηρίζει local MCPs όταν είναι ενεργοποιημένα τα permission keys.

Επιπλέον, το νέο endpoint /api/v1/models/unload επιτρέπει programmatic αποφόρτωση μοντέλων, ενώ έχει βελτιωθεί και το error formatting.

Προειδοποίηση:
Υπάρχει breaking change: το model_instance_id μετονομάζεται σε instance_id στις απαντήσεις φόρτωσης (load responses).

Πίνακας: Νέα/σημαντικά API σημεία

Διαδρομή (Endpoint)	Τι προσφέρει	Χρήση
`/v1/chat`	Stateful συνομιλία με `response_id` και stats	Workflows πολλών βημάτων, agents, αξιολόγηση
`/api/v1/models/unload`	Αποφόρτωση μοντέλων προγραμματιστικά	Ορθολογική χρήση RAM/VRAM, αυτοματισμοί

Επιπλέον βελτιώσεις «κάτω από το καπό»

Πέρα από τις βασικές αλλαγές, το 0.4.0 προσθέτει υποστήριξη για μοντέλα όπως FunctionGemma, MistralAI Ministral (3B, 8B, 13B) και EssentialAI rnj-1. Υπάρχει επίσης συμβατότητα με LFM2 tool call format, ένας slider n_cpu_moe για CPU offloading σε Mixture of Experts (MoE) μοντέλα, καθώς και ενδείξεις προόδου για την επεξεργασία prompt.

Ο χειρισμός εικόνων στα chats εμπλουτίζεται με κουμπιά για download, copy και reveal.

Οι διορθώσεις σφαλμάτων είναι πολλές: από προβλήματα indexing μοντέλων έως persistence ρυθμίσεων μετά από updates, καθώς και API image validation χωρίς φόρτωση μοντέλων. Προστίθενται επίσης πληροφορίες hardware μέσω lms runtime survey και βελτιώσεις στην υποστήριξη GPU.

Πρακτικές συμβουλές για αναβάθμιση και βελτιστοποίηση στο LM Studio 0.4.0

Αν σκοπεύετε να περάσετε στο LM Studio 0.4.0, αξίζει να αντιμετωπίσετε την αναβάθμιση σαν μικρό «έργο» βελτιστοποίησης και όχι απλώς σαν update.

Πρώτα, κρατήστε ένα σύντομο baseline: επιλέξτε 2–3 τυπικά prompts (ένα σύντομο Q&A, ένα μεγάλο κείμενο για σύνοψη και ένα prompt με tool-like οδηγίες) και σημειώστε χρόνο πρώτου token και συνολικό χρόνο απάντησης. Έτσι θα δείτε άμεσα αν το parallel inference ή οι αλλαγές runtime σας ωφελούν πραγματικά.

Για παραγωγική χρήση ως local server, ρυθμίστε το Max Concurrent Predictions με βάση τη μνήμη σας. Πρακτικά:

Αν έχετε περιορισμένη RAM/VRAM, ξεκινήστε από 2 slots και ανεβάστε σταδιακά.
Αν έχετε πολλούς ταυτόχρονους χρήστες, προτιμήστε περισσότερα slots αλλά με σαφή όρια στο μέγεθος εισόδου (max tokens/prompt size) στο client σας.
Χρησιμοποιήστε το /api/v1/models/unload σε αυτοματισμούς ώστε να αποφεύγετε «κολλήματα» μνήμης όταν αλλάζετε συχνά μοντέλα.

Στο θέμα ασφάλειας, τα permission keys είναι απαραίτητα αν ο server είναι προσβάσιμος από άλλους στο ίδιο δίκτυο. Ορίστε πολιτική: ξεχωριστό key για κάθε εφαρμογή/χρήστη και τακτική αντικατάσταση (rotation). Έτσι, αν «διαρρεύσει» ένα key, δεν χρειάζεται να διακόψετε τα πάντα.

Αν γράφετε κώδικα πάνω στο REST API, ελέγξτε άμεσα για το breaking change (instance_id) και προσθέστε απλό compatibility layer: αν λείπει το νέο πεδίο, κάντε fallback στο παλιό. Θα σας γλιτώσει από σπασίματα σε scripts/clients που τρέχουν σε διαφορετικά machines.

Τέλος, αξιοποιήστε το Split View στρατηγικά: στήστε ένα pane ως «σταθερό κριτή» (ίδιο system prompt, ίδιο temperature) και στο άλλο αλλάζετε μοντέλο/ρυθμίσεις.

Με export σε Markdown, μπορείτε να χτίσετε γρήγορα ένα αρχείο αξιολόγησης (model eval log) για την ομάδα σας, με παραδείγματα, παρατηρήσεις και επαναλήψιμα prompts.

Προηγούμενο άρθρο

Naval Group: Σχέδιο προσφοράς φρεγατών FDI στη Σουηδία με συνεργασία Oresund Drydocks

Επόμενο άρθρο

GitHub Agent HQ: Υποστήριξη για Claude και Codex coding agents σε Copilot Pro+ & Enterprise (Public Preview)

LM Studio 0.4.0: Νέο UI, Parallel Inference και ισχυρό CLI για τοπικά LLMs

Τι αλλάζει στο LM Studio 0.4.0 και γιατί έχει σημασία

Νέο, πιο διαισθητικό interface

Split View: σύγκριση δύο chat δίπλα-δίπλα

Permission keys και Developer Mode

Parallel inference: πολλαπλά requests χωρίς «ουρά»

Πίνακας: Πρακτικές ρυθμίσεις για parallel inference

Ευκολότερο deployment με αναβαθμίσεις στο CLI

Το νέο lms chat CLI

Πίνακας: Γρήγορος οδηγός εντολών CLI

Εξαγωγή chat και επεκτάσεις στο API

Πίνακας: Επιλογές export συνομιλιών

REST API: stateful chat και νέα endpoints

Πίνακας: Νέα/σημαντικά API σημεία

Επιπλέον βελτιώσεις «κάτω από το καπό»

Πρακτικές συμβουλές για αναβάθμιση και βελτιστοποίηση στο LM Studio 0.4.0

Πρόσφατα άρθρα

Tηλέφωνα έκτακτης ανάγκης

Σχετικά με εμάς

Εργαλεία

Αντιγραφή περιεχομένου

Kοινωνικά δίκτυα

Σύνδεσμοι