Hvordan laste ned og installere Llama 2 lokalt - |Teknologi forklart|Gjør selv|

Lesere som deg er med på å støtte MUO. Når du foretar et kjøp ved å bruke lenker på nettstedet vårt, kan vi tjene en tilknyttet provisjon. Les mer.

Meta slapp Llama 2 sommeren 2023. Den nye versjonen av Llama er finjustert med 40 % flere tokens enn den originale Llama-modellen, og dobler dens kontekstlengde og overgår betydelig andre tilgjengelige modeller med åpen kildekode. Den raskeste og enkleste måten å få tilgang til Llama 2 på er via en API gjennom en nettplattform. Men hvis du vil ha den beste opplevelsen, er det best å installere og laste Llama 2 direkte på datamaskinen.

Med det i tankene har vi laget en trinn-for-trinn-guide for hvordan du bruker Text-Generation-WebUI for å laste en kvantisert Llama 2 LLM lokalt på datamaskinen din.

Hvorfor installere Llama 2 lokalt

Det er mange grunner til at folk velger å kjøre Llama 2 direkte. Noen gjør det for personvernhensyn, noen for tilpasning og andre for offline-funksjoner. Hvis du undersøker, finjusterer eller integrerer Llama 2 for prosjektene dine, er det kanskje ikke noe for deg å få tilgang til Llama 2 via API. Poenget med å kjøre en LLM lokalt på PC-en din er å redusere avhengigheten av tredjeparts AI-verktøy og bruk AI når som helst, hvor som helst, uten å bekymre deg for å lekke potensielt sensitive data til selskaper og andre organisasjoner.

Med det sagt, la oss begynne med trinn-for-trinn-guiden for å installere Llama 2 lokalt.

Trinn 1: Installer Visual Studio 2019 Build Tool

For å forenkle ting, vil vi bruke et ett-klikks installasjonsprogram for Text-Generation-WebUI (programmet som brukes til å laste Llama 2 med GUI). For at dette installasjonsprogrammet skal fungere, må du imidlertid laste ned Visual Studio 2019 Build Tool og installere de nødvendige ressursene.

Nedlasting: Visual Studio 2019 (Gratis)

Gå videre og last ned fellesskapsutgaven av programvaren.
Installer nå Visual Studio 2019, og åpne deretter programvaren. Når den er åpnet, kryss av i boksen Desktop utvikling med C++ og trykk installer.

Nå som du har skrivebordsutvikling med C++ installert, er det på tide å laste ned Text-Generation-WebUI ett-klikks installasjonsprogrammet.

Trinn 2: Installer Text-Generation-WebUI

Text-Generation-WebUI-installasjonsprogrammet med ett klikk er et skript som automatisk oppretter de nødvendige mappene og setter opp Conda-miljøet og alle nødvendige krav for å kjøre en AI-modell.

Selve smerten er et produkt av kjærlighet, hovedlagringsplassen, men jeg gir den tid til å falle inn i den

For å installere skriptet, last ned ett-klikks installasjonsprogrammet ved å klikke på Kode > Last ned ZIP.

Nedlasting: Text-Generation-WebUI Installer (Gratis)

Når den er lastet ned, pakk ut ZIP-filen til ønsket plassering, og åpne deretter den utpakkede mappen.
Rull ned i mappen og se etter det riktige startprogrammet for operativsystemet ditt. Kjør programmene ved å dobbeltklikke på riktig skript.
- Hvis du bruker Windows, velg start_windows batch-fil
- for MacOS, velg start_macos shell scrip
- for Linux, start_linux shell script.
Antiviruset ditt kan lage et varsel; Dette er greit. Spørsmålet er bare en antivirus falsk positiv for å kjøre en batchfil eller skript. Klikk på Løp uansett .
En terminal åpnes og starter oppsettet. Tidlig vil oppsettet settes på pause og spørre deg hvilken GPU du bruker. Velg riktig type GPU installert på datamaskinen din og trykk enter. For de uten et dedikert grafikkort, velg Ingen (jeg vil kjøre modeller i CPU-modus) . Husk at å kjøre på CPU-modus er mye tregere sammenlignet med å kjøre modellen med en dedikert GPU.
Når oppsettet er fullført, kan du nå starte Text-Generation-WebUI lokalt. Du kan gjøre det ved å åpne din foretrukne nettleser og skrive inn den angitte IP-adressen på URL-en.
WebUI er nå klar til bruk.

Programmet er imidlertid bare en modelllaster. La oss laste ned Llama 2 for å starte modelllasteren.

Trinn 3: Last ned Llama 2-modellen

Det er ganske mange ting å vurdere når du skal bestemme hvilken iterasjon av Llama 2 du trenger. Disse inkluderer parametere, kvantisering, maskinvareoptimalisering, størrelse og bruk. All denne informasjonen vil bli funnet angitt i modellens navn.

Parametere: Antall parametere som brukes for å trene modellen. Større parametere gir mer dyktige modeller, men på bekostning av ytelse.
Bruk: Kan enten være standard eller chat. En chat-modell er optimalisert for å brukes som en chatbot som ChatGPT, mens standarden er standardmodellen.
Maskinvareoptimalisering: Refererer til hvilken maskinvare som best kjører modellen. GPTQ betyr at modellen er optimalisert for å kjøre på en dedikert GPU, mens GGML er optimalisert for å kjøre på en CPU.
Kvantisering: Angir presisjonen til vekter og aktiveringer i en modell. For inferencing er en presisjon på q4 optimal.
Størrelse: Refererer til størrelsen på den spesifikke modellen.

Vær oppmerksom på at noen modeller kan være arrangert annerledes og kanskje ikke engang ha den samme typen informasjon vist. Imidlertid er denne typen navnekonvensjon ganske vanlig i HuggingFace Modellbibliotek, så det er fortsatt verdt å forstå.

I dette eksemplet kan modellen identifiseres som en mellomstor Llama 2-modell trent på 13 milliarder parametere optimert for chat-inferencing ved hjelp av en dedikert CPU.

For de som kjører på en dedikert GPU, velg en GPTQ modell, mens for de som bruker en CPU, velg GGML . Hvis du vil chatte med modellen som du ville gjort med ChatGPT, velg chatte , men hvis du vil eksperimentere med modellen med dens fulle muligheter, bruk standard modell. Når det gjelder parametere, vet at bruk av større modeller vil gi bedre resultater på bekostning av ytelse. Jeg vil personlig anbefale deg å starte med en 7B-modell. Når det gjelder kvantisering, bruk q4, da det kun er for å konkludere.

Nedlasting: GGML (Gratis)

Nedlasting: GPTQ (Gratis)

Nå som du vet hvilken iterasjon av Llama 2 du trenger, fortsett og last ned modellen du vil ha.

I mitt tilfelle, siden jeg kjører dette på en ultrabook, vil jeg bruke en GGML-modell finjustert for chat, call-2-7b-chat-ggmlv3.q4_K_S.bin.

Etter at nedlastingen er fullført, plasser modellen inn tekst-generasjon-webui-main > modeller .

Nå som du har lastet ned modellen og plassert i modellmappen, er det på tide å konfigurere modelllasteren.

Trinn 4: Konfigurer Text-Generation-WebUI

La oss nå begynne konfigurasjonsfasen.

Igjen, åpne Text-Generation-WebUI ved å kjøre start_(ditt operativsystem) fil (se de forrige trinnene ovenfor).
Klikk på fanene over GUI Modell. Klikk på oppdateringsknappen i rullegardinmenyen for modell og velg din modell.
Klikk nå på rullegardinmenyen til Modelllaster og velg AutoGPTQ for de som bruker en GTPQ-modell og ctransformatorer for de som bruker en GGML-modell. Klikk til slutt på Laste for å laste modellen din.
For å bruke modellen, åpne Chat-fanen og begynn å teste modellen.

Gratulerer, du har lastet Llama2 på din lokale datamaskin!

Prøv andre LLM-er

Nå som du vet hvordan du kjører Llama 2 direkte på datamaskinen din ved å bruke Text-Generation-WebUI, bør du også kunne kjøre andre LLM-er i tillegg til Llama. Bare husk navnekonvensjonene til modeller og at bare kvantiserte versjoner av modeller (vanligvis q4 presisjon) kan lastes inn på vanlige PC-er. Mange kvantiserte LLM-er er tilgjengelige på HuggingFace. Hvis du vil utforske andre modeller, søk etter TheBloke i HuggingFace sitt modellbibliotek, og du bør finne mange tilgjengelige modeller.