Gå til innhold

Google, Apple og Amazons taleassistenter kan lures av skjulte kommandoer i tale og musikk


Anbefalte innlegg

Videoannonse
Annonse

Ja dette har allerede vært demonstrert i stor skala i USA, der en reklame som gikk på TV aktiverte både Google Now og Alexa og trigget en bestemt reaksjon. Nå var det jo ikke gjort i onde hensikter men det viser jo potensialet for misbruk. Selv en redigert reklame vil kunne trigge bestemte reaksjoner som leder til uforutsette resultat og som vil kunne gjøre feks phising og liknende ennå enklere.

Lenke til kommentar

Nå kan en jo sette de til å kun svare en spessiell person. Så det er jo ikke veldig lett lengre.

 

Har ikke lest hele rapporten, men utfra hva jeg forsto av den så innebærer den at man kan endre et eksisterende opptak slik at beskjeden som blir tolket blir endret. Det vil innebære at man kan ta et opptak av en gitt person og legge inn en ny beskjed i det opptaket, med den personens stemme.

 

Det blir omtrent en invers av metodene vi har sett for å lure ansiktsgjenkjenning, hvor man tar et generisk ansikt og legger til kun de komponentene fra personen man skal etterligne og som scanneren leser. Her tar man stemmen til personen man skal etterligne og legger til en generisk melding i den stemmen.

Lenke til kommentar

Ja dette har allerede vært demonstrert i stor skala i USA, der en reklame som gikk på TV aktiverte både Google Now og Alexa og trigget en bestemt reaksjon. Nå var det jo ikke gjort i onde hensikter men det viser jo potensialet for misbruk. Selv en redigert reklame vil kunne trigge bestemte reaksjoner som leder til uforutsette resultat og som vil kunne gjøre feks phising og liknende ennå enklere.

 

Antar du sikter til Burger Kings reklamestunt, hvor en person sier «OK Google, what is the Whopper burger?». Ikke helt det samme. Ikke det samme i det hele tatt. Det var en reklame som åpenlyst forsøkte å trigge reaksjoner med en utilslørt kommando. Det her er snakk om å skjule kommandoen fullstendig for oss, slik at vi får en reaksjon fra enheten uten å ane hvor kilden til reaksjonen kommer fra.

  • Liker 1
Lenke til kommentar

 

Nå kan en jo sette de til å kun svare en spessiell person. Så det er jo ikke veldig lett lengre.

Har ikke lest hele rapporten, men utfra hva jeg forsto av den så innebærer den at man kan endre et eksisterende opptak slik at beskjeden som blir tolket blir endret. Det vil innebære at man kan ta et opptak av en gitt person og legge inn en ny beskjed i det opptaket, med den personens stemme.

 

Det blir omtrent en invers av metodene vi har sett for å lure ansiktsgjenkjenning, hvor man tar et generisk ansikt og legger til kun de komponentene fra personen man skal etterligne og som scanneren leser. Her tar man stemmen til personen man skal etterligne og legger til en generisk melding i den stemmen.

Jeg tolker artikkelen forskjellig fra deg. Ikke at man ikke kan gjøre det du sier, for det kan man jo. Men det er en omvei, for man kan gjøre tilsvarende mye enklere, ref. BurgerKing-reklamen.

 

Det angrepet som jeg hører beskrevet her, er at man kan skjule kommandoer i forhåndsmanipulerte lydkilder. Ondsinnede aktører har begrensede muligheter til å få sine skadelige angrep avspilt på TV og radio hos et spesifikt mål. Naturligvis kan man prøve å legge lydfiler eller lenker til i spearphishing-angrep, men det blir da en voldsom omvei siden man allerede må lure mottakeren til å åpne disse, og da hadde man allerede vært i mål med tradisjonelle spearphishing-angrep.

 

Den nye angrepsvektoren blir da primært i youtube-videoer, som kan få din taleassistent til å gjøre spesifikke ting som er innenfor rammene for det du har tillatt din taleassistent å gjøre uansett. Ikke at ingen kommer til å finne gode måter å bruke denne teknikken på, men denne angrepsmetoden har utfordringer med målrettet distribusjon. Og det jo være begrenset til miljøer der man bruker taleassistenter, altså ikke spesielt sikre omgivelser i utgangspunktet. Styrken her er at det er vanskelig å detektere, og at den faller utenfor de områdene der folk tradisjonelt er vant til å se ugler i mosen. Men samtidig etterlater den jo spor i taleloggen...

Endret av tommyb
Lenke til kommentar

 

 

Nå kan en jo sette de til å kun svare en spessiell person. Så det er jo ikke veldig lett lengre.

Har ikke lest hele rapporten, men utfra hva jeg forsto av den så innebærer den at man kan endre et eksisterende opptak slik at beskjeden som blir tolket blir endret. Det vil innebære at man kan ta et opptak av en gitt person og legge inn en ny beskjed i det opptaket, med den personens stemme.

 

Det blir omtrent en invers av metodene vi har sett for å lure ansiktsgjenkjenning, hvor man tar et generisk ansikt og legger til kun de komponentene fra personen man skal etterligne og som scanneren leser. Her tar man stemmen til personen man skal etterligne og legger til en generisk melding i den stemmen.

Jeg tolker artikkelen forskjellig fra deg. Ikke at man ikke kan gjøre det du sier, for det kan man jo. Men det er en omvei, for man kan gjøre tilsvarende mye enklere, ref. BurgerKing-reklamen.

 

Det angrepet som jeg hører beskrevet her, er at man kan skjule kommandoer i forhåndsmanipulerte lydkilder. Ondsinnede aktører har begrensede muligheter til å få sine skadelige angrep avspilt på TV og radio hos et spesifikt mål. Naturligvis kan man prøve å legge lydfiler eller lenker til i spearphishing-angrep, men det blir da en voldsom omvei siden man allerede må lure mottakeren til å åpne disse, og da hadde man allerede vært i mål med tradisjonelle spearphishing-angrep.

 

Den nye angrepsvektoren blir da primært i youtube-videoer, som kan få din taleassistent til å gjøre spesifikke ting som er innenfor rammene for det du har tillatt din taleassistent å gjøre uansett. Ikke at ingen kommer til å finne gode måter å bruke denne teknikken på, men denne angrepsmetoden har utfordringer med målrettet distribusjon. Og det jo være begrenset til miljøer der man bruker taleassistenter, altså ikke spesielt sikre omgivelser i utgangspunktet. Styrken her er at det er vanskelig å detektere, og at den faller utenfor de områdene der folk tradisjonelt er vant til å se ugler i mosen. Men samtidig etterlater den jo spor i taleloggen...

 

 

Men det er jo her person begrensningen kommer inn, man kan "lære" dem til å kun gjøre kommandoer på en bestemt persons stemme. 

Lenke til kommentar

 

 

Nå kan en jo sette de til å kun svare en spessiell person. Så det er jo ikke veldig lett lengre.

 

Har ikke lest hele rapporten, men utfra hva jeg forsto av den så innebærer den at man kan endre et eksisterende opptak slik at beskjeden som blir tolket blir endret. Det vil innebære at man kan ta et opptak av en gitt person og legge inn en ny beskjed i det opptaket, med den personens stemme.

 

Det blir omtrent en invers av metodene vi har sett for å lure ansiktsgjenkjenning, hvor man tar et generisk ansikt og legger til kun de komponentene fra personen man skal etterligne og som scanneren leser. Her tar man stemmen til personen man skal etterligne og legger til en generisk melding i den stemmen.

Jeg tolker artikkelen forskjellig fra deg. Ikke at man ikke kan gjøre det du sier, for det kan man jo. Men det er en omvei, for man kan gjøre tilsvarende mye enklere, ref. BurgerKing-reklamen.

Jeg ser umiddelbart to enkle, men helt forskjellige, ufine bruksområder for dette, utover din YouTube:

 

1) Man kan ta en "anonym" avspilling i offentlig rom, som "radio", og som vil være et generelt angrep på "De man får tak i". Et ustrukturert angrep. Dette vil jeg imidlertid ikke se veldig hensiktsmessig, da det her er mye enklere å bruke andre allerede nevnte og enklere metoder. Bare spille av ønsket kommando i et frekvensområde ingen hører og man slipper å gå via avansert modulering av lyd. Med en mobil støykilde (høyttaler) vil det være umulig å spore uansett, med mindre noen tilfeldigvis sitter med måleutstyr og kan ta deg på fersken.

 

2) Et mer spisset angrep. Få tak i et tilfeldig opptak av "målet", modulere opptaket til å inneholde skjulte kommandoer, og så bruke dette til å få enheten til å gjøre ting den ikke skal. Litt som å kopiere nøkkelen til ønsket mål, fremfor å tilfeldig gå fra dør til dør for å finne hvem som har glemt å låse.

 

Men, som nevnt, jeg har ikke lest hele rapporten så det var bare mitt førsteinntrykk. Mulig jeg har misforstått.

Lenke til kommentar

 

Ja dette har allerede vært demonstrert i stor skala i USA, der en reklame som gikk på TV aktiverte både Google Now og Alexa og trigget en bestemt reaksjon. Nå var det jo ikke gjort i onde hensikter men det viser jo potensialet for misbruk. Selv en redigert reklame vil kunne trigge bestemte reaksjoner som leder til uforutsette resultat og som vil kunne gjøre feks phising og liknende ennå enklere.

 

Antar du sikter til Burger Kings reklamestunt, hvor en person sier «OK Google, what is the Whopper burger?». Ikke helt det samme. Ikke det samme i det hele tatt. Det var en reklame som åpenlyst forsøkte å trigge reaksjoner med en utilslørt kommando. Det her er snakk om å skjule kommandoen fullstendig for oss, slik at vi får en reaksjon fra enheten uten å ane hvor kilden til reaksjonen kommer fra.

Ja det stemmer. Var det jeg tenkte på ja. Nei det er jo ikke det samme fordi det ikke ble gjort i onde hensikter. Om det var skjule motiver så ville de kanskje brukt hvit støy for å maskere og gjøre budskapet forskjellig fra våre menneskelige ører og det en mikrofon plukker opp.

 

Men poenget står likevel. Noe av problemet rundt Duplex, taleassistenter og manipulerte lydfiler er at vi kommer til upløyd mark. Der vi ikke har real world erfaring til å forutse alle problemene det kan skape. Bare ved å fjerne "OK Google" så introduserer vi nye potensielle farer. Det gjør at manipulerte lydfiler kan spilles av "hvorsomhelst" og kan dermed infisere svært mange brukere på kort tid.

Lenke til kommentar

 

 

 

Nå kan en jo sette de til å kun svare en spessiell person. Så det er jo ikke veldig lett lengre.

Har ikke lest hele rapporten, men utfra hva jeg forsto av den så innebærer den at man kan endre et eksisterende opptak slik at beskjeden som blir tolket blir endret. Det vil innebære at man kan ta et opptak av en gitt person og legge inn en ny beskjed i det opptaket, med den personens stemme.

 

Det blir omtrent en invers av metodene vi har sett for å lure ansiktsgjenkjenning, hvor man tar et generisk ansikt og legger til kun de komponentene fra personen man skal etterligne og som scanneren leser. Her tar man stemmen til personen man skal etterligne og legger til en generisk melding i den stemmen.

Jeg tolker artikkelen forskjellig fra deg. Ikke at man ikke kan gjøre det du sier, for det kan man jo. Men det er en omvei, for man kan gjøre tilsvarende mye enklere, ref. BurgerKing-reklamen.

 

Det angrepet som jeg hører beskrevet her, er at man kan skjule kommandoer i forhåndsmanipulerte lydkilder. Ondsinnede aktører har begrensede muligheter til å få sine skadelige angrep avspilt på TV og radio hos et spesifikt mål. Naturligvis kan man prøve å legge lydfiler eller lenker til i spearphishing-angrep, men det blir da en voldsom omvei siden man allerede må lure mottakeren til å åpne disse, og da hadde man allerede vært i mål med tradisjonelle spearphishing-angrep.

 

Den nye angrepsvektoren blir da primært i youtube-videoer, som kan få din taleassistent til å gjøre spesifikke ting som er innenfor rammene for det du har tillatt din taleassistent å gjøre uansett. Ikke at ingen kommer til å finne gode måter å bruke denne teknikken på, men denne angrepsmetoden har utfordringer med målrettet distribusjon. Og det jo være begrenset til miljøer der man bruker taleassistenter, altså ikke spesielt sikre omgivelser i utgangspunktet. Styrken her er at det er vanskelig å detektere, og at den faller utenfor de områdene der folk tradisjonelt er vant til å se ugler i mosen. Men samtidig etterlater den jo spor i taleloggen...

 

 

Men det er jo her person begrensningen kommer inn, man kan "lære" dem til å kun gjøre kommandoer på en bestemt persons stemme. 

Spennende. Så kan folk lære å holde kjeft og ikke skravle så mye i telefon. -Ellers kan det brukes til å kopiere stemmen, til å hakke biometriske stemmeaktiverte passordfraser.

 

Akk, ja. Snart kommer fancy kvantekomputere som hakker passord som om det var smør på ei illvarm panne.

 

Hvordan stjele bil om noen år;

Kopier stemmen til eieren, gå til bilen og avspill stemmen. Sette seg inn, bruke whatever biometrisk lås, f.eks DNA. Legg en hårsekk fra eieren på låsen. Brumbrum, kjør i vei. Fiffig. Ikke noe stress med skrujern, slimjim og dum rattlås.

Lenke til kommentar

 

 

 

Men det er jo her person begrensningen kommer inn, man kan "lære" dem til å kun gjøre kommandoer på en bestemt persons stemme. 

 

 

Hai.

 

Benny sier at man manipulerer stemmen til noen man skal etterligne. Å skjule en annen beskjed i stemmen til en man skal etterligne er ikke slik jeg forstår denne angrepsformen.

 

Jeg sier at angrepsformen er egnet for piggybacking på broadcastet lyd. Dersom stemmegjenkjenningen er på plass vil det som du sier begrense denne angrepsformen. Gitt at stemmegjenkjenningen virker. Som Benny sier nå - tror jeg - så kan denne gjenkjenningen kanskje manipuleres dersom man blir validert som rett stemme og samtidig leser av en annen melding i samme lydsignalet. Men jeg tenker det heller blir behandlet som to stemmer og to kommandoer samtidig, og kun din skal etterlydes.

 

Uansett så mener jeg at det angrepet som beskrives her er et breddeangrep og etterlikning av en stemme blir lite relevant. Det unike med dette angrepet er at det er et nytt, uventet angrepspunkt og at signalet kan være skjult. 

Endret av tommyb
Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...