Institut für Theoretische Physik
Start / htmlsuch

Hilfe zur HTML-Dokumentensuche


Grundlagen

Das Suchscript basiert auf dem fehlertoleranten Suchwerkzeug agrep und dessen Indizierungsprogramm glimpse und wendet diese auf beliebige HTML-Dateibäume an. Die meisten Schalter lassen sich direkt in die verschiedenen Optionen von agrep übersetzen und die internen Beschränkungen von agrep lassen sich natürlich auch durch das Suchscript nicht umgehen.

Die Textsuche unterstützt glimpse-Indizes, setzt deren Verwendung aber nicht voraus. Mit glimpse-Index wird die Suche erheblich beschleunigt, der Index selbst benötigt aber zusätzlichen Platz auf der Festplatte.


Suchworte


Suchergebnis

Für jede Fundstelle wird der Name und Titel der HTML-Datei und die Fundstelle im Text angezeigt. Per Hyperlink ist ein direkter Zugriff auf den Text der Datei möglich.

Als Textstelle wird die HTML-Einheit, in der die Übereinstimmung gefunden wurde, ausgegeben. Einheiten werden durch HTML-Kommandos voneinander getrennt. Typischerweise umfaßt eine Einheit einen Absatz, bei herausgehobenen Worten oder Verweisen kann eine Einheit aber auch nur aus einem Wort bestehen. Bei Dokumenten, die nur aus vorformatiertem Text bestehen, also nahezu keine HTML-Kommandos enthalten, kann eine Einheit aber auch den größten Teil der Datei umfassen.

Da in der Ausgabe grundsätzlich keine HTML-Kommandos des Originaldokumentes mit ausgegeben werden, ist es in seltenen Fällen möglich, daß die angezeigte Textstelle das Suchwort gar nicht enthält, falls dieses nämlich im dazugehörigen HTML-Kommando gefunden wurde.


Optionen

Groß-/Kleinschreibung
Normalerweise werden Groß- und Kleinbuchstaben bei der Suche unterschieden. Falls ein Substantiv z.B. aber auch als Bestandteil eines zusammengesetzten Wortes gefunden werden soll, empfiehlt es sich, diese Unterscheidung abzuschalten.

Wortgrenzenerkennung
Standardmäßig wird ein Suchmuster immer erkannt, falls es irgendwo im Text auftritt. Bei eingeschalteter Worterkennung muß die Fundstelle im Text dieselben Wortgrenzen besitzen wie das Suchwort. Bei Übereinstimmung: Teilstring würde das Suchwort sync also auch synchronize finden, bei Übereinstimmung: ganze Worte nicht.

Fehlertoleranz
agrep erlaubt es, Worte auch dann zu erkennen, wenn sie erst durch Vertauschen, Weglassen oder Hinzufügen einzelner Buchstaben mit dem Suchmuster übereinstimmen. Die maximale Anzahl solcher Operationen kann unter Übereinstimmung spezifiziert werden. Die Vorgabeeinstellung erlaubt nur das Erkennen bei exakter Übereinstimmung.

Arbeiten Sie vorsichtig mit hohen Toleranzwerten! Sie könnten wesentlich mehr Textstellen finden, als Sie beabsichtigen.

Der Toleranzwert muß grundsätzlich kleiner als die Länge aller verwendeten Suchworte sein.

Leider arbeitet in der Kombination von fehlertoleranter Suche, Wortgrenzenerkennung und Boolschen Ausdrücken die Wortgrenzenerkennung nicht mehr korrekt.

Logische Verknüpfung mehrerer Worte
Normalerweise werden mehrere Worte im Suchmuster als feste Formulierung interpretiert, also als String behandelt. Der Test des Auftretens verschiedener Worte kann aber auch durch logisches AND bzw. OR verknüpft werden.

Eine AND-Verknüpfung bezieht sich dabei stets auf eine HTML-Einheit innerhalb einer Datei, d.h. Textstellen, die nicht durch ein HTML-Kommando voneinander getrennt sind. Alle Worte müssen so z.B. in einem Absatz vorkommen.

Fundstellenausgabe
Bei häufig auftretenden Suchworten empfiehlt es sich die Anzahl der maximalen Rückgabestellen zu begrenzen, um Datenoverload zu vermeiden.


Zurück zur HTML-Dokumentensuche


V. Ossenkopf, 30.12.1995