Les 7 meilleurs LLM locaux/hors ligne que vous pouvez essayer dès maintenant

Les utilisateurs accèdent généralement aux grands modèles linguistiques (LLM) par l’intermédiaire d’une interface utilisateur via une API. Bien qu’offrant plusieurs avantages, l’utilisation des API présente également des limites, telles que la nécessité d’une connexion Internet permanente, des personnalisations limitées, d’éventuels problèmes de sécurité et des entreprises qui limitent les capacités des modèles par le biais d’un paywall.

Les LLM quantifiés étant désormais disponibles sur HuggingFace et les écosystèmes d’IA tels que H20, Text Gen et GPT4All vous permettant de charger les poids LLM sur votre ordinateur, vous disposez désormais d’une option pour une IA libre, flexible et sûre.

Pour commencer, voici sept des meilleurs LLM locaux/hors ligne que vous pouvez utiliser dès maintenant !

1. Hermes GPTQ

Un modèle de langage de pointe affiné à l’aide d’un ensemble de données de 300 000 instructions par Nous Research. Hermes est basé sur le LLM LlaMA2 de Meta et a été affiné en utilisant principalement des sorties synthétiques GPT-4.

Modèle

Hermes 13b GPTQ

Modèle Taille

7.26 GB

Paramètres

13 milliards

Quantification

4 bits

Type

LlaMA2

Licence

GPL 3

L’utilisation de LlaMA2 comme modèle de base permet à Hermes de doubler la taille du contexte ou d’atteindre une taille maximale de 4 096 jetons. En associant la longue taille du contexte et une architecture d’encodage, Hermes est connu pour donner de longues réponses et de faibles taux d’hallucination. Cela fait d’Hermes un excellent modèle pour diverses tâches de traitement du langage naturel (NLP), telles que l’écriture de code, la création de contenu et la création d’un chatbot.

Il existe plusieurs quantifications et versions du nouveau GPTQ Hermes. Nous vous recommandons d’essayer d’abord le modèle Hermes-Llama2 13B-GPTQ, car il s’agit de la version la plus facile à déployer tout en offrant d’excellentes performances.

2. Falcon Instruct GPTQ

Crédit photo : John Schnobrich/Unsplash

Cette version quantifiée de Falcon est basée sur l’architecture du décodeur uniquement, affinée à partir du modèle Flacon-7b brut de TII. Le modèle Falcon de base a été entraîné à l’aide d’un nombre exceptionnel de 1,5 trillion de jetons provenant de l’internet public. En tant que modèle de décodage basé sur des instructions et sous licence Apache 2, Falcon Instruct est parfait pour les petites entreprises à la recherche d’un modèle à utiliser pour la traduction de langues et la saisie de données.

Voir aussi :  Apple Vision Pro vs. Meta Quest 3 : Quelle est la différence et laquelle acheter ?

Modèle

Falcon-7B-Instruct

Taille du modèle

7.58 GB

Paramètres

7 milliards

Quantification

4 bits

Type

Faucon

Licence

Apache 2.0

Cependant, cette version de Falcon n’est pas idéale pour un réglage fin et ne sert qu’à l’inférence. Si vous souhaitez affiner Falcon, vous devrez utiliser le modèle brut, ce qui peut nécessiter l’accès à du matériel de formation de niveau entreprise tel que les accélérateurs NVIDIA DGX ou AMD Instinct AI Accelerators.

3.GPT4ALL-J Groovy

Crédit image : Nubelson Fernandes/Unplash

GPT4All-J Groovy est un modèle de décodeur uniquement affiné par Nomic AI et sous licence Apache 2.0. GPT4ALL-J Groovy est basé sur le modèle original GPT-J, connu pour son excellente capacité à générer du texte à partir d’invites. GPT4ALL -J Groovy a été affiné en tant que modèle de chat, ce qui est idéal pour les applications de génération de texte rapides et créatives. GPT4All-J Groovy est donc idéal pour les créateurs de contenu, car il les aide à rédiger des œuvres créatives, qu’il s’agisse de poésie, de musique ou d’histoires.

Modèle

GPT4ALL-J Groovy

Modèle Taille

3.53 GB

Paramètres

7 milliards

Quantification

4 bits

Type

GPT-J

Licence

Apache 2.0

Malheureusement, le modèle GPT-J de base a été entraîné sur un ensemble de données uniquement en anglais, ce qui signifie que même ce modèle GPT4ALL-J affiné ne peut dialoguer et effectuer des applications de génération de texte qu’en anglais.

4.WizardCoder-15B-GPTQ

Crédit photo : James Harrison/Unsplash

Vous recherchez un modèle spécialement conçu pour le codage ? Malgré sa taille sensiblement plus petite, WizardCoder est connu pour être l’un des meilleurs modèles de codage, surpassant d’autres modèles tels que LlaMA-65B, InstructCodeT5+ et CodeGeeX. Ce modèle a été entraîné à l’aide d’une méthode Evol-Instruct spécifique au codage, qui modifie automatiquement vos messages-guides pour en faire des messages-guides de codage plus efficaces que le modèle peut mieux comprendre.

Modèle

WizardCoder-15B-GPTQ

Taille du modèle

7.58 GB

Paramètres

15 milliards

Quantification

4 bits

Type

LlaMA

Licence

bigcode-openrail-m

Voir aussi :  Que sont les mauvais secteurs et comment les réparer ?

Étant quantifié dans un modèle 4 bits, WizardCoder peut maintenant être utilisé sur des PC ordinaires, où les particuliers peuvent l’utiliser pour l’expérimentation et comme assistant de codage pour des programmes et des scripts plus simples.

5. Wizard Vicuna non censuré-GPTQ

Wizard-Vicuna GPTQ est une version quantifiée de Wizard Vicuna basée sur le modèle LlaMA. Contrairement à la plupart des LLM mis à la disposition du public, Wizard-Vicuna est un modèle non censuré dont l’alignement a été supprimé. Cela signifie que le modèle n’a pas les mêmes normes de sécurité et de moralité que la plupart des modèles.

Modèle

Wizard-Vicuna-30B-Uncensuré-GPTQ

Taille du modèle

16,94 GO

Paramètres

30 milliards

Quantification

4 bits

Type

LlaMA

Licence

GPL 3

Bien qu’il puisse poser un problème de contrôle de l’alignement de l’IA, le fait d’avoir un LLM non censuré permet également de faire ressortir le meilleur du modèle en étant autorisé à répondre sans aucune contrainte. Cela permet également aux utilisateurs d’ajouter leur alignement personnalisé sur la façon dont l’IA devrait agir ou répondre en fonction d’une invite donnée.

6. Orca Mini-GPTQ

Crédit photo : Alex Kondratiev/Unsplash

Vous souhaitez expérimenter un modèle formé à partir d’une méthode d’apprentissage unique ? Orca Mini est une mise en œuvre non officielle du modèle des documents de recherche Orca de Microsoft. Il a été formé à l’aide de la méthode d’apprentissage enseignant-étudiant, où l’ensemble de données était rempli d’explications au lieu de simples invites et réponses. En théorie, cela devrait permettre d’obtenir un étudiant plus intelligent, car le modèle peut comprendre le problème au lieu de simplement rechercher des paires d’entrées et de sorties comme le font les LLM typiques.

Modèle

Orca Mini-GPTQ

Modèle Taille

8,11 GO

Paramètres

3 milliards

Quantification

4 bits

Type

LlaMA

Licence

MIT

Avec seulement trois milliards de paramètres, Orca Mini GPTQ est facile à utiliser, même sur des systèmes moins puissants. Toutefois, ce modèle ne doit pas être utilisé à des fins professionnelles, car il génère de fausses informations, des réponses biaisées et offensantes. Ce modèle doit être utilisé pour apprendre et expérimenter Orca et ses méthodes.

7.LlaMA 2 Chat GPTQ

LlaMA 2 est le successeur du modèle original LlaMA LLM, qui a donné naissance à la plupart des modèles de cette liste. LlaMA 2 est une collection de plusieurs LLM, chacun entraîné en utilisant 7 à 70 milliards de paramètres. Dans l’ensemble, LlaMA 2 a été pré-entraîné à l’aide de 2 billions de tokens de données provenant d’ensembles de données d’instruction accessibles au public.

Voir aussi :  Quels sont les ports ouverts par défaut ? Faut-il les modifier ?

Modèle

Falcon-40B-Instruct-GPTQ

Modèle Taille

7.26 GB

Paramètres

3 milliards

Quantification

4 bits

Type

OpenLlaMA

Licence

CLUF (Meta Licence)

Le LlaMA 2 est destiné à être utilisé à des fins commerciales et de recherche. Il est donc préférable d’utiliser ce modèle après l’avoir affiné pour obtenir de meilleures performances dans des tâches spécifiques. Ce modèle spécifique de chat GPTQ de LlaMA 2 a été affiné et optimisé pour le dialogue en anglais, ce qui en fait le modèle parfait pour les entreprises et les organisations qui souhaitent utiliser un chatbot avec peu ou pas de formation supplémentaire. Selon les conditions, les entreprises ayant moins de 700 millions d’utilisateurs peuvent utiliser LlaMA 2 sans payer de frais de licence à Meta ou à Microsoft.

Essayez les modèles linguistiques locaux à grande échelle dès aujourd’hui

Certains des modèles énumérés ci-dessus ont plusieurs versions en termes de paramètres. En général, les versions à paramètres élevés donnent de meilleurs résultats mais nécessitent un matériel plus puissant, tandis que les versions à paramètres plus faibles produiront des résultats de moindre qualité mais pourront fonctionner sur du matériel bas de gamme. Si vous n’êtes pas certain que votre PC peut faire fonctionner le modèle, essayez d’abord la version avec les paramètres les plus bas, puis continuez jusqu’à ce que vous sentiez que la baisse de performance n’est plus acceptable.

Étant donné que les modèles quantifiés de cette liste n’occupent que quelques gigaoctets d’espace et que les plateformes de déploiement de modèles telles que GPT4All et Text-Generation-WebUI peuvent être facilement installées grâce à leurs programmes d’installation en un clic, l’essai de plusieurs modèles et versions de modèles ne devrait pas prendre beaucoup de temps et d’efforts.

Alors, qu’attendez-vous ? Essayez un modèle local dès aujourd’hui !

Cliquez pour évaluer cet article !
[Total: Moyenne : ]

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *