Différences
Ci-dessous, les différences entre deux révisions de la page.
| Prochaine révision | Révision précédente | ||
| pratique:informatique:ia_ollama [23/09/2024 16:50] – créée Zatalyz | pratique:informatique:ia_ollama [31/08/2025 11:46] (Version actuelle) – retours des modèles Zatalyz | ||
|---|---|---|---|
| Ligne 1: | Ligne 1: | ||
| - | ====== | + | ====== |
| Ouais, c'est mal, ça crame des forêts, etc. J'ai honte. | Ouais, c'est mal, ça crame des forêts, etc. J'ai honte. | ||
| - | Installer localement ce genre d'outile | + | Installer localement ce genre d'outil permet de faire tourner un modèle de langage à la maison. Donc on crame " |
| Il y a plusieurs trucs : | Il y a plusieurs trucs : | ||
| * https:// | * https:// | ||
| + | * Ollama est un peu l' | ||
| * https:// | * https:// | ||
| * Autres ? | * Autres ? | ||
| + | |||
| + | Ma machine, clairement vite limitée pour ces tests : | ||
| + | * 16Go de RAM | ||
| + | * GPU : NVIDIA GeForce GTX 970 | ||
| + | * CPU : AMD Ryzen 5 1600 | ||
| ===== Ollama ===== | ===== Ollama ===== | ||
| Ligne 16: | Ligne 22: | ||
| ollama start | ollama start | ||
| - | On fera un service si on le laisse tourner (cf doc). | + | On peut faire un service si on le laisse tourner (cf doc officielle). |
| - | Ensuite dans un autre terminal on va télécharger un modèle. | + | ==== Télécharger des modèles ==== |
| + | === Liste des modèles (courte) === | ||
| + | La [[https:// | ||
| ^ Modèles ^ Paramètres (en B) ^ Taille^ Commande ^ | ^ Modèles ^ Paramètres (en B) ^ Taille^ Commande ^ | ||
| - | | Moondream 2 | 1,4 | 829MB | ollama run moondream | | + | | Moondream 2 | 1,4 | 829MB | ollama run moondream | |
| - | | Gemma 2 | 2 | 1.6GB | ollama run gemma2:2b | | + | | Gemma 2 | 2 | 1.6GB | ollama run gemma2:2b | |
| - | | Phi 3 Mini | 3,8 | 2.3GB | ollama run phi3 | | + | | Phi 3 Mini | 3,8 | 2.3GB | ollama run phi3 | |
| - | | Mistral | + | | Mistral |
| - | | Neural Chat | 7 | 4.1GB | ollama run neural-chat | | + | | Neural Chat | 7 | 4.1GB | ollama run neural-chat | |
| - | | Starling | + | | Starling |
| - | | Code Llama | 7 | 3.8GB | ollama run codellama | | + | | Code Llama | 7 | 3.8GB | ollama run codellama | |
| - | | Llama 2 Uncensored | + | | Llama 2 Uncensored |
| - | | LLaVA | 7 | 4.5GB | ollama run llava | | + | | LLaVA | 7 | 4.5GB | ollama run llava | |
| - | | Llama 3.1 | 8 | 4.7GB | ollama run llama3.1 | | + | | Llama 3.1 | 8 | 4.7GB | ollama run llama3.1 | |
| - | | Gemma 2 | 9 | 5.5GB | ollama run gemma2 | | + | | Gemma 2 | 9 | 5.5GB | ollama run gemma2 | |
| - | | Solar | 10,7 | 6.1GB | ollama run solar | | + | | Solar | 10,7 | 6.1GB | ollama run solar | |
| - | | Phi 3 Medium | + | | Phi 3 Medium |
| - | | Gemma 2 | 27 | 16GB | ollama run gemma2:27b | | + | | Gemma 2 | 27 | 16GB | ollama run gemma2:27b | |
| - | | Llama 3.1 | 70 | 40GB | ollama run llama3.1: | + | | Llama 3.1 | 70 | 40GB | ollama run llama3.1: |
| - | | Llama 3.1 | 405 | 231GB | ollama run llama3.1: | + | | Llama 3.1 | 405 | 231GB | ollama run llama3.1: |
| Parce que "Vous devez disposer d'au moins 8 Go de RAM disponible pour exécuter les modèles 7B, 16 Go pour exécuter les modèles 13B et 32 Go pour exécuter les modèles 33B.". Donc suivant la machine, faut éviter de voir trop gros... | Parce que "Vous devez disposer d'au moins 8 Go de RAM disponible pour exécuter les modèles 7B, 16 Go pour exécuter les modèles 13B et 32 Go pour exécuter les modèles 33B.". Donc suivant la machine, faut éviter de voir trop gros... | ||
| + | |||
| + | Il y a aussi moyen de récupérer des modèles ailleurs, mais il faut alors savoir ce qu'on cherche. | ||
| + | |||
| + | Pour les aspects "chat créatif", | ||
| + | |||
| + | CodeLlama est plus spécifiquement orienté assistance au code. | ||
| + | |||
| + | Il y a aussi les modèles Deepseek. J'ai testé le 1.5B et il est très inventif en langue française, dans le genre absurde... | ||
| + | |||
| + | Un peu de vocabulaire : | ||
| + | * Uncensored désigne les modèles où il n'y a pas de filtres sur la violence et le porn. Et sans doute des sujets creepy. | ||
| + | * Sur certains modèles, on a des terminaisons comme « Q6_K_L », « Q6_K_S », etc. | ||
| + | * Q + chiffre indique le nombre de bits utilisés pour la quantification (Q6 = 6 bits par poids). Plus le chiffre est élevé, plus la précision est grande, mais cela demande aussi plus de ressources pour le faire tourner. | ||
| + | * K pour le mode de quantification « K » qui permet différentes granularités à l’intérieur du modèle, améliorant le rapport taille/ | ||
| + | * S(mall) : compresse davantage le modèle (plus rapide, prend moins de place, mais un peu moins précis). | ||
| + | * M(edium) : équilibre taille et qualité. | ||
| + | * L(arge) : plus de précision pour de meilleurs résultats, mais plus lourd. | ||
| + | * Dans mon cas, Q4_K_M semblerait pertinent (à tester). | ||
| + | |||
| + | |||
| + | === En direct === | ||
| + | Dans un autre terminal, on peut donner des commandes à Ollama, dont celle permettant de télécharger des modèles depuis leur plateforme. | ||
| + | |||
| + | va télécharger un modèle. | ||
| Donc c'est parti pour | Donc c'est parti pour | ||
| ollama run codellama | ollama run codellama | ||
| + | <WRAP center round info 60%> | ||
| + | Ça ne charge pas toujours derrière une ligne adsl... Avec la fibre par contre ça va bien. | ||
| + | </ | ||
| + | |||
| + | === Téléchargé ailleurs === | ||
| + | Si on ne veut pas installer Ollama " | ||
| + | |||
| + | On copie les GGUF dans '' | ||
| + | <code txt ~/ | ||
| + | FROM ~/ | ||
| + | PARAMETER temperature 0.7 | ||
| + | PARAMETER num_ctx 2048 | ||
| + | </ | ||
| + | |||
| + | On ajoute ensuite le modèle dans Ollama : | ||
| + | ollama create phi3 -f phi3-modelfile | ||
| + | |||
| + | Si on utilise le même nom de modèle (phi3 ici), cela le met à jour. | ||
| + | ==== Dossiers d' | ||
| + | < | ||
| + | / | ||
| + | / | ||
| + | / | ||
| + | |||
| + | Les modèles sont stockés dans ''/ | ||
| + | |||
| + | ==== Commandes de base ==== | ||
| + | |||
| + | Lance le serveur manuellement : | ||
| + | ollama serve | ||
| + | |||
| + | Lister le modèles chargés localement : | ||
| + | ollama list | ||
| + | |||
| + | Supprimer un modèle (les sha du blob) : | ||
| + | ollama rm nom_du_modele | ||
| + | |||
| + | ===== Retour sur les modèles ===== | ||
| + | Étant donné mon ordi, je suis limitée aux modèles 7B, ce qui est " | ||
| + | * C'est lent. | ||
| + | * Plusieurs modèles baragouinent un français très inventif. Les résultats sont sans doute meilleurs en anglais, mais en français, c'est pas français justement. | ||
| + | * La qualité des réponses n'est pas si mauvaise en agent conversationnel, | ||
| + | |||
| + | '' | ||
| + | |||
| + | Pour le code, je n'ai pas encore testé, mais vu le niveau sur des demandes de recettes de cuisine ou de chansons (potables mais pas au top), je crains un peu ce que ça donnerait sur l' | ||
| {{tag> | {{tag> | ||