Open Source Zoekmachine

Door AirX op vrijdag 2 april 2010 15:18 - Reacties (17)
Categorie: Techniek, Views: 6.302

Van vele kanten wordt er kritiek geuit op de steeds sterker wordende positie van zoekmachines op het web. Veel gebruikers kunnen zonder Bing, Google of Yahoo niet meer goed functioneren op het web.
Doordat zoekmachines een steeds belangrijkere positie innemen zijn er ook steeds meer gevaren die op kunnen treden. Voorbeelden hiervan zijn censuur, het opslaan van alle zoekwoorden en andere vormen van profiling.

Technologische innovatie heeft webpartijen groot gemaakt je ziet steeds meer een trend om alles op een centrale plek op het internet op te slaan. Dit gaat in tegen de decentrale filosofie en opzet van het internet. Sinds enige tijd is er een stabiel alternatief dat mijn aandacht heeft getrokken en waarmee ik eens aan het prutsen ben geslagen: Yacy.

Yacy is een op Distributed Hash Tables (DHT; wel bekend van Emule en Bittorrent) gebaseerde open source zoekmachine die door een slimme en efficiënte uitwisseling van informatie tussen nodes een behoorlijk competente zoekmachine geworden is. Het mooie is dat iedereen op zijn eigen server de software (draait op java en alle platformen) kan draaien en zo zijn aandeel kan leveren aan het indexeren van het web. De informatie wordt uiteraard over meerdere nodes verspreid, zodat de informatie altijd vindbaar is, ook al heeft iemand toevallig zijn node uit te staan.

Wikipedia zegt er het volgende over:
YaCy (read "ya see") is a free distributed search engine, built on principles of peer-to-peer (P2P) networks. Its core is a computer program written in Java distributed on several hundred computers, as of September 2006[update], so-called YaCy-peers. Each YaCy-peer independently crawls through the Internet, analyzes and indexes found web pages, and stores indexing results in a common database (so called index) which is shared with other YaCy-peers using principles of P2P networks.

Compared to semi-distributed search engines, the YaCy-network has a decentralised architecture. All YaCy-peers are equal and no central server exists. It can be run either in a crawling mode or as a local proxy server, indexing web pages visited by the person running YaCy on his or her computer. (Several mechanisms are provided to protect the user's privacy.)

Access to the search functions is made by a locally running web server which provides a search box to enter the query and returns results of the search in form of a web page as usual on other search portals and engines


In het kort hebben we dus nu een open source zoekmachine die volledig decentraal opgezet is, waardoor censuur niet mogelijk is en waardoor het niet voor één partij mogelijk is om complete profielen van internetgebruikers op te stellen. Volgens mij is dit dé ultieme vorm die past binnen de originele opzet van het internet.

Het leuke is dat je zelf je eigen zoekportal kunt optuigen. Zelf draai ik sinds kort een node: http://zoeken.mine.nu:8080
Je kunt ook via http://yacyweb.de/peer.htm met een willekeurige portal connecten.

Ik zou jullie willen vragen om het eens een testrun te geven. Als je zelf ook een installatie wilt proberen kun je terecht op http://www.yacy.net waar nog meer informatie en een paar demofilmpjes staan.

Uiteraard is het nog een stuk software dat in ontwikkeling is en als er meer nodes komen kan er ook een groter stuk van het web gecoverd worden. Overigens is www.ixquick.com als meta-search engine ook wel de moeite waard. (Die is gewoon gebaseerd op de standaard zoekmachines)

Reacties


Door Tweakers user ACM, vrijdag 2 april 2010 15:21

Gelijk een punt van aandacht: Yacy negeert onze robots.txt of begrijpt hem niet altijd goed.

Dus als je Tweakers.net gaat indexeren is de kans groot dat dat je een ipban oplevert omdat je bijvoorbeeld privacy-gevoelige onderdelen van de site crawled...

Door Tweakers user Tharulerz, vrijdag 2 april 2010 15:23

Even wat opgezocht, resultaten zijn nu niet echt fantastisch te noemen (gezocht op mijn eigen bedrijf, kwam niets relevants tegen.)

Daarbij komt nog is dat het veel trager is als google en de support waarschijnlijk ook minder uitgebreid is.

Leuk initatief, maar ik zie het geen topper worden.

Door Tweakers user himlims_, vrijdag 2 april 2010 15:23

iiiiiiiiiiiiiiiiiiii da's java :X (dat draai ik niet nog een keer op mijn server)

maar qua techniek en filosofie erg leuk project

Door Tweakers user Phyxion, vrijdag 2 april 2010 15:31

Snel is anders en vind bedroevend weinig.
Google *o*

[Reactie gewijzigd op vrijdag 2 april 2010 15:32]


Door Tweakers user Cybje, vrijdag 2 april 2010 15:34

Wat een baggerproject. Het is echt extreem traag en zelfs als je letterlijk ergens op zoekt, krijg je nog geen zinnig resultaat. Daarbij lag het ding er ook nog 1 keer uit, toen ik wilde zoeken, wat ook vrij irritant is.

Maar zoek voor de lol maar eens op Microsoft. De site van Microsoft is gewoon pas de 4e hit. Dat is echt extreem slecht.

Door Tweakers user Swelson, vrijdag 2 april 2010 15:43

Het concept is in ieder geval veelbelovend. Nu hopen dat het een succes wordt en het een mooi alternatief wordt voor Google.

Door Tweakers user YopY, vrijdag 2 april 2010 16:31

Leuk. Ik maak m'n eigen versie hiervan en verspreid die over allerlei computers door middel van een virus. Al deze geinfecteerde computers doen zich dan voor als node, die de mensen die gewone zoekopdrachten uitvoeren gebruiken.

De eigen versie versies laat ik de logs van elke client naar mij sturen (inclusief de gegevens die het programma via de webbrowser van de gebruiker kan ophalen, de websites die hij bezoekt, cookies / session IDs, etcetera). Die koppel ik aan elkaar dmv IP adres, zodat ik volledige profielen krijg van alle gebruikers hiervan (of een groot deel).

Die gebruik ik vervolgens om adware naar diezelfde personen te sturen.

Idee is leuk, maar dat is al één manier waarop het (lijkt mij) te misbruiken valt. Of zit er echt zware controle op zodat je niet met een 'besmette' node kunt verbinden?

[Reactie gewijzigd op vrijdag 2 april 2010 16:33]


Door Tweakers user AW_Bos, vrijdag 2 april 2010 16:59

Het leuke is dat je zelf je eigen zoekportal kunt optuigen. Zelf draai ik sinds kort een node: http://zoeken.mine.nu:8080
Zeg, slinger hem eens aan :P? Hij lijkt niks te doen hierzo.

Door Tweakers user JUDGExKTF, vrijdag 2 april 2010 20:19

iiiiiiiiiiiiiiiiiiii da's java :X (dat draai ik niet nog een keer op mijn server)

maar qua techniek en filosofie erg leuk project
Je schrijft een mooi initiatief als dit af omdat het gemaakt is in Java ? Iets meer onderbouwing is wellicht op ze plaats ?

Door Tweakers user pasz, vrijdag 2 april 2010 20:32

Gehoord op de DevDays "Google maar eens op met Bing"

Door Tweakers user jessewillem, vrijdag 2 april 2010 20:33

Het is wel zo sllim om de admin af te schermen ;)

Door Tweakers user AirX, vrijdag 2 april 2010 20:56

@YopY: Je zult echt controle over iedere node moeten krijgen om de keywords te krijgen. Als je eigen node namelijk het antwoord niet heeft, vraagt hij een andere node, maar alleen met een hash van het trefwoord. Andere nodes (dus degene waar je niet het trefwoord intypt) zullen nooit kunnen zien waar je op zoekt. Het enige zwaktepunt is dus de portal waar je de zoekterm invult, wat logisch is, want je moet toch op een of andere manier je trefwoord aan het systeem 'voeren'.

@jessewillem: de admin is afgeschermd. Wat je via 'Peer Administration' ziet zijn alleen wat interessante stats... de meer interessante pagina's zijn afgeschermd.

Door Tweakers user Silent7, vrijdag 2 april 2010 21:17

Voor google (ok yahoo en voorgangers deden het ook ok) konden de meeste mensen ook weinig met internet, elk bezoek begon toen met linkpagina's, zoals startpagina of de site van je provider, dus ook per definitie gekleurd.

ik vind het mooie van google juist de relevantie en snelheid, de cleane pagina, zo zijn ze ook groot geworden, man man man wat een ellende was de yahoo-site, onordelijk.
De gein is dat ik google meer vertrouw als het om privacy misbruik aankomt, ze moeten het juist hebben van geen misbruik dan een andere commerciele partij of overheid. Google is en blijft een keuze, als ze het verprutsen zijn er heel makkelijk alternatieven te gebruiken dus kunnen en voorlopig zullen ze het niet verprutsen.


Ik heb jouw zoekmachine niet bekeken wegens de reacties onder de blog, maar als die reacties hout snijden, of beter, snijden ze hout? Is het veilig, houd t zich aan de nettiquette, komt er wat uit aan resultaat?
Bij een eerste nee, doe er wat aan, en bij een tweede nee, doe er wat aan, en bij het dertde nee, je raadt het al doe er wat aan en het heeft een toekomst. Zolang dit soort dingen zich kunnen ontwikkelen is er nog redelijk wat vrijheid op t net.

Door Tweakers user Phyxion, vrijdag 2 april 2010 22:43

Google en privacy zou ik niet eens in één zin willen nemen. Google geeft echt niks om privacy.

Door Tweakers user afraca, vrijdag 2 april 2010 23:40

Een interessant concept. Inderdaad krijgen zoekmachines steeds meer macht, en het is van groot belang dat dan goed op privacy gelet word onder andere. Daarbij komt dat de decentrale structuur van YaSee ook interessant te noemen is. M'n eerste vraagtekens waren dan ook bij de performance.

Ik heb ook even wat lopen zoeken, maar hoewel het dus erg leuk lijkt, en is, zijn de resultaten nog bedroevend te noemen. Wellicht komt dit omdat héél veel nog níet gecrawld is, dat kan verbeteren over de tijd. Maar daarnaast is relevante resultaten geven ook bijzonder belangrijk, én bijzonder ingewikkeld. Het algoritme van Google is dan ook insanely waardevol. Ik zie het nog niet gebeuren dat YaSee een dergelijk iets neerzet. Ook Bing is hierin niet zo goed, al heb ik daar nog niet erg veel ervaring mee. Het waren destijds bij Bing prima resultaten, maar Google blijft wat betreft zoekmachine de king. (Echter, ook ik ben niet zo'n fan van het "imperium".)

Door Tweakers user EdwinG, zaterdag 3 april 2010 13:02

Je zult echt controle over iedere node moeten krijgen om de keywords te krijgen. Als je eigen node namelijk het antwoord niet heeft, vraagt hij een andere node, maar alleen met een hash van het trefwoord. Andere nodes (dus degene waar je niet het trefwoord intypt) zullen nooit kunnen zien waar je op zoekt.
Klopt niet helemaal. Om te zorgen dat de hashes werken, zal elke node op dezelfde manier de hashes moeten maken. Het is dus mogelijk om een rainbowtable aan te leggen, en daarmee de hashes weer terug te 'vertalen' naar de zoekwoorden.

Door Tweakers user Ventieldopje, dinsdag 6 april 2010 16:18

Maar zoek voor de lol maar eens op Microsoft. De site van Microsoft is gewoon pas de 4e hit. Dat is echt extreem slecht.
Haha, het is een open-source zoekmachine, denk je nou echt dat die microsoft bovenaan gaat zetten? :+

Reageren is niet meer mogelijk