Das Wort "Indexierung"

Bearbeiten

Heißt es nicht korrekterweise "Indizierung"? Will aber nichts ändern, weil es verlinkt ist.

~~__Würde dem zustimmen.

Es gibt Indexierung und Indizierung. In diesem Fall ist mMn Indexierung gemeint. --Doc ζ 08:49, 24. Jun. 2008 (CEST)Beantworten
Das ist nicht ganz richtig. In dem Fall ist das computergestützte Indexierung, und das ist dann wiederumg Indizierung. --Mullinger 07:30, 21. Jan. 2009 (CET)Beantworten

Crawl-Abstände

Bearbeiten

Was ist mit Werten für die Abstände in denen Crawler über Seiten laufen? Es gibt leider keinen Standard, aber viele Schätzungen, die der gleichen Meinung sind.

Die Abstände mit der Webseiten gecrawlt werden sind sehr unterschiedlich und von vielen Parametern abhängig, wie z.B. dem jeweiligen Crawler (Google, Yahoo etc.) der Frequenz mit der die Seite geändert wird, die Anzahl der Backlinks u.s.w. Eine Angabe wird deshalb schwierig werden. --Doc ζ 08:49, 24. Jun. 2008 (CEST)Beantworten

Ergänzung wünschenswert: Crawler-Liste

Bearbeiten

Was ich in diesem Artikel vermisse ist eine Liste der bekannten Crawler, idealerweise mit Erkenntnissen zu deren Absichten. Das wäre eine ganz große Entscheidungshilfe für das Aussperren bestimmter Crawler! (Der vorstehende, nicht signierte Beitrag – siehe dazu Hilfe:Signatur – stammt von 92.204.26.188 (DiskussionBeiträge) 12:09, 20. Jan. 2009)

Das sehe ich nicht so - dafür gibt es einschlägige Webseiten, die Wikipedia sollte hier keine detaillierte Liste aufführen. --91.2.40.224 06:56, 21. Jan. 2009 (CET) der IP-Beitrag stammt von --Mullinger 06:57, 21. Jan. 2009 (CET)Beantworten
Bedauerlich. Wikipedia sollte doch den Menschen durch möglichst umfassende Information weiterhelfen, die gerne auch einen praktischen Nutzen haben darf. 30. Januar 2009, 22:14 Uhr 92.204.113.126
"dafür gibt es einschlägige Webseiten" ist in keiner Weise ein Argument gegen die Aufnahme von Informationen in die Wikipedia. Das ist kein Relevanzkriterium. Im Gegenteil: Wenn eine Webseite "einschlägig" ist, dann wäre das ein gutes Argument sie als Quelle heranzuziehen, angefangen damit, dass man sie als weblink am Ende des Artikels aufführt. Die pure Behauptung von "einschlägigen" Seiten ohne eine konkrete Angabe zu machen, ist nichts als heiße Luft. Das hilft niemandem. Wir haben in der Wikipedia eine sehr große Zahl von Artikeln, die einfach nur Listen sind und die als hilfreich und relevant gelten. Es gibt sogar eine Kategorie für Listen von Listen ;-) --Manorainjan (Diskussion) 21:09, 29. Jun. 2016 (CEST)Beantworten
Diese Liste darf gerne hinzugefügt werden! --Soluvo (Diskussion) 09:02, 8. Jul. 2016 (CEST)Beantworten

Google Sitemap Generator

Bearbeiten

ist damit der Webcrawler obsolet? [1] [2] Mit der Software sendet der Webserver Änderungen und neue Seiten an Suchmaschinen. -- Cherubino 03:05, 26. Jan. 2009 (CET)Beantworten

Nein, es hilft den Suchmaschinen (und damit dem Webcrawler) nur die vorhandenen Seiten besser zu finden und zu aktualisieren. --Doc ζ 08:35, 26. Jan. 2009 (CET)Beantworten

Verallgemeinerung

Bearbeiten

Wir haben noch keinen Artikel zum übergeordneten Lemma Crawler und ich denke es wird hier nicht sehr viel wichtiges spezifisch zu Webcrawlern gesagt, was nicht unter dem Lemma Crawler gut aufgehoben wäre, hingegen gibt es durchaus erwähnenswertes über Crawler-Bots zu sagen, die nicht unbedingt im Web unterwegs sind.
Daher würde ich diesen Artikel gerne erstmal nach Crawler verschieben und dazu leicht anpassen.--Wondigoma 10:00, 8. Okt. 2009 (CEST)Beantworten

Wenn es etwas zu sagen gibt, dass nicht in Webcrawler oder Bot enthalten ist, dann kann man einen entsprechenden Artikel Crawler neu anlegen. Verschieben sollte man diesen Artikel jedenfalls nicht. --79.222.129.109 10:32, 8. Okt. 2009 (CEST)Beantworten

Auffinden von Stadtplänen

Bearbeiten

Ein weiterer Verwendungszweck von Webcrawlern ist das Auffinden von urheberrechtlich geschützten Stadtplänen im Internet.

Das scheint mir eine eher seltene Spezialanwendung von Crawlern zu sein. Ist das wirklich relevant für das Thema Webcrawler? Wenn ja, dann sollte das zumindest irgendwie belegt werden. --Johannes Koch 22:18, 13. Mai 2010 (CEST)Beantworten

Referenz 1 404

Bearbeiten

die pdf datei auf der in referenz 1 (webcrawler 40% des traffics) gewiesen wird, gibt es nicht mehr. Ich hab auch auf google auf den ersten blick nichts neues passendes gefunden, es wird oft angemerkt, dass der verursachte traffic (zu) hoch ist. -- 84.139.114.144 19:19, 30. Jul. 2011 (CEST)Beantworten

Bearbeiten

GiftBot (Diskussion) 21:20, 8. Okt. 2012 (CEST)Beantworten

Hier wiedergefunden. -- IvlaDisk. 13:26, 19. Nov. 2012 (CET)Beantworten

Das ganze WWW?

Bearbeiten

"Auf diese Weise können theoretisch alle erreichbaren Seiten des WWW gefunden werden". Eigentlich doch nur verlinkte Seiten, oder? Also besser "Auf diese Weise können theoretisch alle verlinkten Seiten des WWW gefunden werden" ? --85.181.21.81 14:07, 30. Mai 2013 (CEST)Beantworten

Danke, ich hab's mal geändert. --Doc ζ 16:50, 30. Mai 2013 (CEST)Beantworten