Hvordan blokkere OpenAIs crawlere fra å skrape nettstedet ditt

Hvordan blokkere OpenAIs crawlere fra å skrape nettstedet ditt
Lesere som deg er med på å støtte MUO. Når du foretar et kjøp ved å bruke lenker på nettstedet vårt, kan vi tjene en tilknyttet provisjon. Les mer.

Mens brukere elsker ChatGPT for den store mengden informasjon den har for øyeblikket, kan det samme ikke sies om nettstedeiere.





MUO Video av dagen RULL FOR Å FORTSETTE MED INNHOLD

OpenAIs ChatGPT bruker crawlere til å skrape nettsteder, men hvis du er en nettstedseier, og du ikke vil at OpenAIs crawler skal få tilgang til nettstedet ditt, er det noen ting du kan gjøre for å forhindre det.





hvordan slette en tilknyttet konto

Hvordan fungerer OpenAI Crawling?

EN webcrawler (også kjent som en edderkopp eller en søkemotorbot) er et automatisert program som skanner internett for informasjon. Den samler deretter informasjonen på en måte som er lett for søkemotoren å få tilgang til den.





Webcrawlere indekserer hver side av hver relevante URL, og fokuserer vanligvis på nettsteder som er mer relevante for søkene dine. La oss for eksempel anta at du googler en bestemt Windows-feil. Webcrawleren i søkemotoren din vil skanne alle nettadressene fra nettsteder som den anser som mer autoritative når det gjelder Windows-feil.

OpenAIs webcrawler heter GPTBot, og iht OpenAIs dokumentasjon , å gi GPTBot-tilgang til nettstedet ditt kan bidra til å trene opp AI-modellen til å bli tryggere og mer nøyaktig, og det kan til og med bidra til å utvide AI-modellens muligheter.



Hvordan forhindre at OpenAI gjennomsøker nettstedet ditt

Som de fleste andre webcrawlere, kan GPTBot blokkeres fra å få tilgang til nettstedet ditt ved å endre nettstedets robots.txt protokoll (også kjent som robotekskluderingsprotokollen). Denne .txt-filen ligger på nettstedets server, og den kontrollerer hvordan webcrawlere og andre automatiserte programmer oppfører seg på nettstedet ditt.

kan du bruke et bluetooth -headset på xbox one

Her er en kort liste over hva robot.txt fil kan gjøre:





  • Det kan fullstendig blokkere GPTBot fra å få tilgang til nettstedet.
  • Den kan blokkere bare visse sider fra en URL fra å bli åpnet av GPTBot.
  • Den kan fortelle GPTBot hvilke koblinger den kan følge, og hvilke den ikke kan.

Slik kontrollerer du hva GPTBot kan gjøre på nettstedet ditt:

Blokker GPTBot fullstendig fra å få tilgang til nettstedet ditt

  1. Sett opp robot.txt-filen , og rediger den med et hvilket som helst tekstredigeringsverktøy.
  2. Legg til GPTBot til nettstedet ditt robots.txt følgende:
 User-agent: GPTBot 
Disallow: /

Blokker bare enkelte sider fra å bli åpnet av GPTBot

  1. Sett opp robot.txt fil, og rediger den deretter med ditt foretrukne tekstredigeringsverktøy.
  2. Legg til GPTBot til nettstedet ditt robots.txt følgende:
 User-agent: GPTBot 
Allow: /directory-1/
Disallow: /directory-2/

Men husk at å endre robot.txt fil er ikke en tilbakevirkende løsning, og all informasjon som GPTBot allerede har samlet inn fra nettstedet ditt vil ikke kunne gjenopprettes.





OpenAI lar nettstedeiere velge bort crawling

Helt siden crawlere har blitt brukt til å trene AI-modeller, har nettstedeiere lett etter måter å holde dataene sine private.

hente trådløs kamerasignalapp

Noen frykter at AI-modeller i bunn og grunn stjeler arbeidet deres, og tilskriver til og med færre nettstedbesøk det faktum at nå brukere får informasjonen deres uten å måtte besøke nettsidene deres.

Alt i alt, om du vil blokkere AI chatbots fra å skanne nettsidene dine, er helt ditt valg.