torsdag, juni 28, 2007

slappande och spamscript...

Blir inte allt för mycket gjort när man är ledig.. Har dock börjat sätta upp kabelrännor och förbereda kabeldragande i lägenheten, saknar dock ett par 15m tp-kablar för att få det färdigt.

Sysselsatte mig själv härom dagen med att knåpa ihop ett snabbt fulscript som harvestar email adresser från google. På jobb har vi nämligen en person som underhåller hemsidan och bland annat kontaktinformationen.. Jag och Christian har gång på gång påpekat att det inte är speciellt bra att lägga ut emailadresser i klartext på nätet av uppenbara anledningar..(har fått henne att exkludera våra adresser iallafall!). Får se om meddelandet går fram när jag gör en demonstration av det efter semestern...
Eftersom jag inte vill bli anklagad för att ha hjälpt sprida spam här i världen kommer jag inte klistra in mitt script här utan endast gå igenom min tankegång..alla siter och adresser har ändrats för att skydda dom inblandade..bla bla allt ni gör med denna informationen är på eget bevåg osv... ;)

Tillvägagångssätt:
Google är som bekant ett ganska behändigt verktyg när man söker allehanda information.
Med hjälp av diverse parametrar kan man bland annat enkelt söka på specifika hemsidor:

site:example.com sökord

I detta fallet kommer google ge oss alla förekomster av 'sökord' den kan hitta på siten example.com.
För att utnyttja detta lite ondskefullt skulle man kunna göra en sökning på:

site:example.com @example.com

Vilket skulle ge oss sökresultat med emailadresser.
(man skulle även med wget kunna crawla en hel site och söka efter '@', vilket även skulle kunna visa sig i loggarna..)

jag gjorde en sökning i firefox och klippte ut adressen;

http://www.google.se/search?q=site:example.com+%40example.com&start=10&sa=N

lägg märke till "start=10", det är där man ser var i sökresultatet man är.. Beroende på hur många träffar man får kan man skriva ett shellscript som med hjälp av exempelvis lynx loopar igenom alla resultat-url:arna och dumpar output:en till en fil. Denna filen kommer innehålla en massa skräp eftersom sidorna kommer stackas i en fil men den kommer även innehålla emailadresser..
För att sedan få fram endast emailadresserna kan man använda grep:

grep -o [a-z]*.[a-z].[a-z]*@example.com dump.txt

Som jag skrev innan skulle man även kunna crawl:a hela siten med hjälp av olika verktyg...Detta skulle troligtvis även ge ännu fler resultat än dom som bara google "ser".