OpenAI gir ChatGPT en stemme for å svare på meldinger og kommandoer

Lesere som deg er med på å støtte MUO. Når du foretar et kjøp ved å bruke lenker på nettstedet vårt, kan vi tjene en tilknyttet provisjon. Les mer.

ChatGPT er satt til å bli en interaktiv generativ AI-opplevelse. OpenAI avslørte at verdens ledende AI-chatbot vil kunne snakke og svare på brukerforespørsler ved å bruke en syntetisert, antagelig AI-generert, stemme.

Sammen med sin nyvunne stemme, vil ChatGPT også kunne svare på og diskutere spesifikke bilder lastet opp til den eller knipset mens du bruker ChatGPT Android- eller iOS-appen. Bildegjenkjenningsfunksjonen høres ut som Google Lens og andre apper som bruker nevrale nettverk for å oppdage data og informasjon nøyaktig.

OpenAI gir ChatGPT en stemme

25. september 2023, ChatGPT-utvikler OpenAI avslørt det ville gi sin verdensledende generative AI-chatbot en stemme. ChatGPT-brukere kan snakke direkte til chatboten og be om at den snakkes tilbake, slik at ChatGPT effektivt kan snakke direkte med stemmen for første gang.

OpenAIs eksempelklipp viser en kvinne som ber ChatGPT om å lage en unik sengetidshistorie, som ChatGPT behørig svarer på med en kvinnelig syntetisert stemme.

hvor mye data bruker streamingvideo

I følge Kablet , ble den nye tekst-til-tale-modellen utviklet internt. Den kan generere 'menneskelignende' lyd fra tekst og noen sekunder med eksempeltale ( ved hjelp av OpenAI Whisper-modellen ) og snakke i forskjellige toner og stiler. Du kan finne en rekke stemmeprøver på OpenAI sin blogg .

Noen selskaper tar allerede OpenAIs nye stemmemodell i bruk. For eksempel bruker Spotify OpenAIs tekst-til-tale-modell for å oversette podcaster til forskjellige språk, og kombinerer ChatGPTs språkoversettelsesevne med dens nye taleevne.

ChatGPTs nye tekst-til-tale-modell er kun tilgjengelig for Plus- og Enterprise-abonnenter som bruker de offisielle Android- og iOS-appene og forventes å rulle ut i løpet av de neste to ukene (fra og med 25. september 2023). Videre er den nye stemmefunksjonen begrenset til engelsk til å begynne med, selv om vi forventer at dette vil endre seg raskt.

ChatGPT kan gjenkjenne og og fotografier

Den andre delen av OpenAIs ChatGPT-oppdatering er muligheten til å analysere og snakke om bilder lastet opp til verktøyet. Alternativet for visuell bildeanalyse ble omtalt i GPT-4-oppdateringsvideoene, men har ikke blitt diskutert mye siden den gang ( ChatGPT-kodetolk til side ).

Nå får ChatGPT funksjonalitet som ligner på Google Lens. Du kan laste opp et bilde til ChatGPT eller ta et bilde med smarttelefonkameraet i ChatGPT-appen, og det vil detaljere bildet og legge til mer kontekst der det er nødvendig.

Å kalle det 'ligner på Google Lens' gjør det en urettferdighet. Muligheten til å chatte frem og tilbake om bildet for å få mer informasjon og kontekst gjør det ekstremt nyttig for et bredt spekter av innstillinger. Det er imidlertid viktig å merke seg det som står med liten skrift, med OpenAI som gjør det klart at det har begrenset ChatGPTs 'evne til å analysere og komme med direkte uttalelser om mennesker' av hensyn til personvern og nøyaktighet. Likevel, kan et OpenAI-drevet 'Who Is This'-verktøy være i arbeid for fremtiden? (La oss håpe ikke!)

hvordan du får fart på den bærbare datamaskinen for spill

I likhet med den nye tekst-til-tale-modellen, vil OpenAI rulle ut bildegjenkjenning i løpet av de neste to ukene, selv om den vil være tilgjengelig på alle plattformer, ikke bare ChatGPT-appen.

Personvern, sikkerhet og andre problemer

Implikasjonene av en stemmedrevet ChatGPT er sterke. Jada, det er spennende. Evnen til å lage en unik syntetisert stemme ved å bruke bare en kort snutt som eksempel har betydelige personvern- og sikkerhetsproblemer. Potensialet for ondsinnede aktører til å utnytte disse verktøyene er enormt, og som med ethvert generativt AI-verktøy, når anden er ute av flasken, vil den absolutt ikke gå inn igjen. Ingen mengde AI-regulering fra regjeringer eller tankeledere kan slå tilbake tidevannet.

Til og med OpenAIs advarsel om emnet ser ut til å skjøre rundt det åpenbare til tross for at de nevner problemene:

Disse egenskapene utgjør imidlertid også nye risikoer, for eksempel potensialet for ondsinnede aktører til å utgi seg for offentlige personer eller begå svindel. Dette er grunnen til at vi bruker denne teknologien til å drive en spesifikk brukssak – talechat.

Gitt at dette er toppen av isfjellet, forvent tilbakeslag mot ChatGPTs nyfunne stemme, spesielt når det er en forutsigbar økning i ubehagelige overskrifter som hevder ChatGPT blir brukt til å begå svindel og så videre.

OpenAI gjør ChatGPT til Go-To AI-appen

Jo mer OpenAI legger til brukervennlige funksjoner i ChatGPT, desto mer blir det den generative AI-appen. Som den første til å nå utbredt berømmelse under den første generative AI-boomen, leder ChatGPT fortsatt an og er den eneste appen noen bruker, til tross for konkurranse fra slike som Google Bard (og potensielt Google Gemini) og Anthropics Claude.

Så lenge OpenAI kan fortsette å legge til funksjoner som gjør ChatGPT enklere å bruke, vil det holde folk hekta og presse stadig nærmere målet om et virkelig multimodalt AI-verktøy.