Hilfe zur HTML-Dokumentensuche
Grundlagen
Das Suchscript basiert auf dem fehlertoleranten
Suchwerkzeug
agrep und dessen Indizierungsprogramm
glimpse und wendet diese auf beliebige HTML-Dateibäume an.
Die meisten Schalter lassen sich direkt in die
verschiedenen Optionen von
agrep übersetzen und die internen
Beschränkungen von
agrep lassen sich natürlich auch durch
das Suchscript nicht umgehen.
Die Textsuche unterstützt glimpse-Indizes, setzt deren
Verwendung aber nicht voraus. Mit glimpse-Index wird die Suche
erheblich beschleunigt, der Index selbst benötigt aber zusätzlichen
Platz auf der Festplatte.
Suchworte
- Suchworte sollten normalerweise aus alphanumerischen Zeichen bestehen.
Sonderzeichen werden mit einem vorangestellten \ korrekt behandelt.
- Umlaute und ß können direkt eingegeben werden.
- Mehrere Suchworte sind durch Leerzeichen zu trennen.
- Wenn man auf Boolsche Verknüpfungen und fehlertolerantes Suchen verzichtet,
läßt sich auch mit einfachen Regulären Ausdrücken (siehe grep)
arbeiten.
Suchergebnis
Für jede Fundstelle wird der Name und Titel der HTML-Datei
und die Fundstelle im Text angezeigt.
Per Hyperlink ist ein direkter Zugriff auf den
Text der Datei möglich.
Als Textstelle wird die HTML-Einheit, in der die
Übereinstimmung gefunden wurde, ausgegeben. Einheiten werden durch HTML-Kommandos voneinander getrennt. Typischerweise umfaßt eine
Einheit einen Absatz, bei herausgehobenen Worten oder Verweisen
kann eine Einheit aber auch nur aus einem Wort bestehen. Bei Dokumenten,
die nur aus vorformatiertem Text bestehen, also nahezu keine HTML-Kommandos
enthalten, kann eine Einheit aber auch den größten Teil der Datei
umfassen.
Da in der Ausgabe grundsätzlich keine HTML-Kommandos des
Originaldokumentes mit ausgegeben werden, ist es in seltenen Fällen
möglich, daß die angezeigte Textstelle das Suchwort gar nicht
enthält, falls dieses nämlich im dazugehörigen HTML-Kommando gefunden wurde.
Optionen
- Groß-/Kleinschreibung
- Normalerweise werden Groß- und Kleinbuchstaben bei der Suche unterschieden.
Falls ein Substantiv z.B. aber auch als Bestandteil eines zusammengesetzten
Wortes gefunden werden soll, empfiehlt es sich, diese Unterscheidung
abzuschalten.
- Wortgrenzenerkennung
- Standardmäßig wird ein Suchmuster immer erkannt, falls es irgendwo
im Text auftritt. Bei eingeschalteter
Worterkennung muß die Fundstelle im Text dieselben Wortgrenzen
besitzen wie das Suchwort. Bei
Übereinstimmung: Teilstring würde das Suchwort sync also
auch synchronize finden, bei Übereinstimmung: ganze Worte
nicht.
- Fehlertoleranz
-
agrep erlaubt es, Worte auch dann zu erkennen, wenn sie
erst durch Vertauschen, Weglassen oder Hinzufügen einzelner
Buchstaben mit dem Suchmuster übereinstimmen. Die maximale Anzahl
solcher Operationen kann unter Übereinstimmung spezifiziert
werden. Die Vorgabeeinstellung erlaubt nur das Erkennen bei exakter
Übereinstimmung.
Arbeiten Sie vorsichtig mit hohen Toleranzwerten! Sie
könnten wesentlich mehr Textstellen finden, als Sie beabsichtigen.
Der Toleranzwert muß grundsätzlich kleiner als die Länge aller
verwendeten Suchworte sein.
Leider arbeitet in der Kombination von fehlertoleranter Suche,
Wortgrenzenerkennung und Boolschen Ausdrücken die Wortgrenzenerkennung
nicht mehr korrekt.
- Logische Verknüpfung mehrerer Worte
- Normalerweise werden mehrere Worte im Suchmuster als
feste Formulierung interpretiert, also als String behandelt.
Der Test des Auftretens verschiedener Worte kann aber auch
durch logisches AND bzw. OR verknüpft werden.
Eine AND-Verknüpfung bezieht sich dabei stets auf eine HTML-Einheit innerhalb
einer Datei, d.h. Textstellen, die nicht durch ein HTML-Kommando
voneinander getrennt sind. Alle Worte müssen so z.B. in einem Absatz
vorkommen.
- Fundstellenausgabe
- Bei häufig auftretenden Suchworten empfiehlt es sich die Anzahl
der maximalen Rückgabestellen zu begrenzen, um Datenoverload zu
vermeiden.
Zurück zur HTML-Dokumentensuche
V. Ossenkopf,
30.12.1995