Hilfe zur HTML-Dokumentensuche

Grundlagen

Das Suchscript basiert auf dem fehlertoleranten Suchwerkzeug agrep und dessen Indizierungsprogramm glimpse und wendet diese auf beliebige HTML-Dateib�ume an. Die meisten Schalter lassen sich direkt in die verschiedenen Optionen von agrep �bersetzen und die internen Beschr�nkungen von agrep lassen sich nat�rlich auch durch das Suchscript nicht umgehen.

Die Textsuche unterst�tzt glimpse-Indizes, setzt deren Verwendung aber nicht voraus. Mit glimpse-Index wird die Suche erheblich beschleunigt, der Index selbst ben�tigt aber zus�tzlichen Platz auf der Festplatte.

Suchworte

Suchworte sollten normalerweise aus alphanumerischen Zeichen bestehen. Sonderzeichen werden mit einem vorangestellten \ korrekt behandelt.
Umlaute und � k�nnen direkt eingegeben werden.
Mehrere Suchworte sind durch Leerzeichen zu trennen.
Wenn man auf Boolsche Verkn�pfungen und fehlertolerantes Suchen verzichtet, l��t sich auch mit einfachen Regul�ren Ausdr�cken (siehe grep) arbeiten.

Suchergebnis

F�r jede Fundstelle wird der Name und Titel der HTML-Datei und die Fundstelle im Text angezeigt. Per Hyperlink ist ein direkter Zugriff auf den Text der Datei m�glich.

Als Textstelle wird die HTML-Einheit, in der die �bereinstimmung gefunden wurde, ausgegeben. Einheiten werden durch HTML-Kommandos voneinander getrennt. Typischerweise umfa�t eine Einheit einen Absatz, bei herausgehobenen Worten oder Verweisen kann eine Einheit aber auch nur aus einem Wort bestehen. Bei Dokumenten, die nur aus vorformatiertem Text bestehen, also nahezu keine HTML-Kommandos enthalten, kann eine Einheit aber auch den gr��ten Teil der Datei umfassen.

Da in der Ausgabe grunds�tzlich keine HTML-Kommandos des Originaldokumentes mit ausgegeben werden, ist es in seltenen F�llen m�glich, da� die angezeigte Textstelle das Suchwort gar nicht enth�lt, falls dieses n�mlich im dazugeh�rigen HTML-Kommando gefunden wurde.

Optionen

Gro�-/Kleinschreibung

Normalerweise werden Gro�- und Kleinbuchstaben bei der Suche unterschieden. Falls ein Substantiv z.B. aber auch als Bestandteil eines zusammengesetzten Wortes gefunden werden soll, empfiehlt es sich, diese Unterscheidung abzuschalten.

Wortgrenzenerkennung

Standardm��ig wird ein Suchmuster immer erkannt, falls es irgendwo im Text auftritt. Bei eingeschalteter Worterkennung mu� die Fundstelle im Text dieselben Wortgrenzen besitzen wie das Suchwort. Bei �bereinstimmung: Teilstring w�rde das Suchwort sync also auch synchronize finden, bei �bereinstimmung: ganze Worte nicht.

Fehlertoleranz

agrep erlaubt es, Worte auch dann zu erkennen, wenn sie erst durch Vertauschen, Weglassen oder Hinzuf�gen einzelner Buchstaben mit dem Suchmuster �bereinstimmen. Die maximale Anzahl solcher Operationen kann unter �bereinstimmung spezifiziert werden. Die Vorgabeeinstellung erlaubt nur das Erkennen bei exakter �bereinstimmung.

Arbeiten Sie vorsichtig mit hohen Toleranzwerten! Sie k�nnten wesentlich mehr Textstellen finden, als Sie beabsichtigen.

Der Toleranzwert mu� grunds�tzlich kleiner als die L�nge aller verwendeten Suchworte sein.

Leider arbeitet in der Kombination von fehlertoleranter Suche, Wortgrenzenerkennung und Boolschen Ausdr�cken die Wortgrenzenerkennung nicht mehr korrekt.

Logische Verkn�pfung mehrerer Worte

Normalerweise werden mehrere Worte im Suchmuster als feste Formulierung interpretiert, also als String behandelt. Der Test des Auftretens verschiedener Worte kann aber auch durch logisches AND bzw. OR verkn�pft werden.

Eine AND-Verkn�pfung bezieht sich dabei stets auf eine HTML-Einheit innerhalb einer Datei, d.h. Textstellen, die nicht durch ein HTML-Kommando voneinander getrennt sind. Alle Worte m�ssen so z.B. in einem Absatz vorkommen.

Fundstellenausgabe

Bei h�ufig auftretenden Suchworten empfiehlt es sich die Anzahl der maximalen R�ckgabestellen zu begrenzen, um Datenoverload zu vermeiden.

Zur�ck zur HTML-Dokumentensuche

V. Ossenkopf, 30.12.1995