Tipps zu Sawmill 6.x

Anworten auf häufig gestellte Fragen zur Loganalyse mit Sawmill Analytics.
Antworten
Benutzeravatar
Support
Site Admin
Beiträge: 3102
Registriert: 5. Apr 2003 14:21
Betriebssystem: Windows 7 & 10
Produkt: DOpus 11/12, R-Studio 8, Sawmill 8, RDI 6, MindGenius 6
Version DOpus: Pro
Wohnort: Frankfurt
Kontaktdaten:

Tipps zu Sawmill 6.x

Beitrag von Support » 20. Jun 2005 13:42

Wie erhält man die Verweise von ungültigen Links (404)?
Unter dem Punkt "Ungültige Links" finden Sie Aufrufe von Seiten, die in der Webpäsenz nicht oder nicht mehr verfügbar sind. Um die Fehlerquellen zu beheben ist es hilfreich zu wissen, woher diese Zugriffe stammen. Klicken Sie dazu in der Ansicht auf den entsprechenden fehlerhaften Link und dann auf "Verweise".

Hinweise: In der Standardkonfiguration ist diese Verknüpfung nicht enthalten, damit die Datenbank nicht zu groß wird. Doch bietet Sawmill sofort an, diese Verknüpfung zu erstellen. Dazu muss jedoch die Datenbank gelöscht und neu aufgebaut werden. Wenn Sie nicht mehr alle Logdaten zur Verfügung haben wird dies zu Datenverlusten führen!


Wie kann man die Hits von Suchmachinen ausklammern?
Erstellen Sie einen neuen Log-Filter, um alle Hits von bekannten Suchmaschinen (Spider) und Würmern auszuschließen:

Öffnen Sie in den "Konfigurationsoptionen" das Register "Log-Filter", um einen Log-Filter zu erstellen. Kopieren Sie mit dem Kopieren-Symbol den ersten Log-Filter in der Liste. Die Anzeige wird neu aufgebaut. Klappen Sie dann mit dem Ausklapp-Symbol den ersten nun doppelt vorhandenen Log-Filter aus.

Die Anzeige wird neu aufgebaut und Sie erhalten ein Eingabe-Formular, um den Filter näher zu definieren. Wählen Sie "Wenn A wahr ist, dann führe B aus; andernfalls führe C aus". Setzen Sie unter "A" "Operation" auf "Wert1 = Wert2" und "Wert1" auf "Spider". "Wert2" setzen Sie auf "Dieser Wert:" und tragen "(keine Spider)" in das Eingabefeld daneben ein.

Wählen Sie unter "B" für "Aktion" die Aktion "gehe zum nächsten Filter". Unter "C" setzen Sie Aktion auf "lehne ab". Allen anderen Felder sind nicht von Belang und können leer bleiben. Der fertige Filter wird von Sawmill eingeklappt wie folgt angezeigt:


wenn das Feld Spider = "(keine Spider)"

dann gehe zu nächsten Filter

andernfalls lehne diesen Log-Eintrag ab (und gehe zum nächsten Log-Eintrag)


Um Würmer ebenfalls auszuschließen, gehen Sie analog vor.

(siehe auch "Excluding Spiders": http://www.sawmill.net/cgi-bin/sawmilld ... udespiders


Die optimale Einstellung
Wie so oft im Leben, gibt es auch bei Sawmill keine optimale Einstellung für eine Konfiguration, da man immer zwischen Informationsmenge und Geschwindigkeit/Datenbankgröße abwägen muss. Wir haben ein paar Tests durchgeführt, die die Zusammenhänge verdeutlichen.

Alle Felder Tag-für-Tag aufnehmen
Wenn diese Option aktiv ist, dann erhalten Sie einen Kalender in dem Sie bequem Tage, Wochen, Monate und Jahre auswählen können. Wenn Sie diese Option nicht wählen, dann können Sie den Zeitraum nur über die Datumseingabe bestimmen. Diese Option kostet viel Speicherplatz und kann die Berechnungszeit um bis zu 50% erhöhen.

Nehme Hosts/IPs individuell auf
Mit dieser Information kann die Herkunft der Besucher feiner aufgelöst werden. Diese Option kostet viel Zeit und erhöht den Speicherbedarf. Meistens kann man darauf verzichten.

Berücksichtige defekte Verweise (404) in der Statistik
Eine wichtige Option, denn gerade die defekten Verweise auf einer Webseite sollte man genau analysieren und entfernen, damit die Kunden nicht ins Leere tappen. Wirkt sich kaum auf Rechenzeit und Speicherbedarf aus.

Trage Session-Informationen in Datenbank ein
Nur mit diesen Informationen können Sie einen Kunden direkt verfolgen (Pfade durch die Site, Einstiegsseiten, Verweildauer etc.). Die Auswirkungen sind vergleichsweise gering.

Trage PageView-Informationen in die Datenbank ein
Dieser Wert ist recht interessant, denn hier werden die Seitenaufrufe verwaltet. Dies ist neben der Besucher-Information der wichtigste Wert bei der Bewertung einer Website, weil man sieht, wie oft eine Seite aufgerufen wurde.

Hit-Informationen in Datenbank aufnehmen
Nur interessant, wenn Sie die Hits kontrollieren wollen. Ein Hit ist ein Zugriff auf eine Datei. Der Aufruf einer einzigen HTML-Seite ergibt daher mehrere Hits, da sich auch Bilder und Animationen etc. darauf befinden können. Daher ist der Wert nur bedingt interessant.

Trage Informationen zur Bandbreite in Datenbank ein
Nur interessant, wenn Sie die Bandbreite kontrollieren wollen, die die Nutzung bestimmter Seiten bzw. Dateien hervorruft.

Besucher-Informationen in Datenbank aufnehmen
Die wichtigste Information des Logs, denn hier wird die Anzahl der Besucher der Site verwaltet.

1. Die schnellste Statistik erhalten Sie, wenn Sie nur die Besucher-Informationen einbinden. Demgegenüber verdreifacht sich die Berechnungszeit und der Speicherbedarf, wenn Sie alle Optionen einstellen.

2. Viel Speicher wird durch die erste Option (Kalender) verwendet.

3. Viel Zeit kostet die zweite Option (individuelle IPs).

4. Ein guter Kompromiss für die Analyse einer Website ist die Einstellung: Kalender (1) + Defekte Links (3) + Sessions (4) + PageViews (5) + Besucher (8)


Neues Lizenzmodell
Ab der Version 6.4.8 gilt das neue Lizenzmodell, bei dem nicht mehr die Anzahl der Benutzer, sondern die Anzahl der Konfigurationen relevant ist. Mit der Version 6.4.7 können Sie weiterhin das alte Lizenzmodell nutzen.


Logdateien bei 1und1 und Puretec
Bei der Einrichtung der Konfiguration kann Sawmill das Format nicht eindeutig bestimmen. Bitte wählen Sie daher:

* Apache/NCSA Combined Format With Server Domain After Size

Allgemein gilt: Wenn Sawmill das Format nicht eindeutig erkennt, dann kann man sich die Logdatei ansehen und sieht dann in der Regel, welche Variante es ist oder man probiert einfach die angebotenen Varianten aus oder man fragt beim Provider nach.


Wichtiger Tipp
Um jederzeit flexibel zu sein, sollten Sie alle Logdateien aufbewahren. Die Datenbank von Sawmill speichert nur die Daten, die Sie bei der Konfiguration angegeben haben. Wenn Sie zu einem späteren Zeitpunkt feststellen, dass Sie andere Daten (für bestimmte Ansichten oder Querverknüpfungen) benötigen, dann sind diese nicht in der Sawmill-Datenbank vorhanden und folglich kann diese Ansicht nicht erstellt werden. Wenn Sie aber die Daten aufbewahren, dann können Sie jederzeit neue Datenverbindungen einrichten und mit einem "Neuaufbau" die komplette Datenbank an die neuen Gegebenheiten anpassen.


Obwohl die deutschen Sprachdateien installiert sind, erscheint Sawmill nur in Englisch.
Bitte kontrollieren Sie, ob Sie die Sprachdateien im Verzeichnis "LogAnalysisInfo/Languages" installiert haben. Das Verzeichnis "Extras/Languages" ist nicht der richtige Ort!


Sawmill läuft bei mir unter Windows und startet mit der IP-Adresse 127.0.0.1 und Port 8987. Wie kann ich das ändern?
Sie können Sawmill von der Befehlszeile mit den Argumenten ?-ws t -wsp PORT -sh IP? starten, wobei ?IP? für zu verwendende IP-Adresse steht und ?PORT? für den zu verwendenden Port.

Um IP-Adresse und Port permanent zu ändern, wählen Sie im Web-Interface ?Einstellungen bearbeiten? aus dem ?Administrationsmenü?. Unter Server können Sie dann IP-Adresse und Port des Sawmill eigenen Webservers eintragen. Beim nächsten Start wird Sawmill dann die neue IP-Adresse und den neuen Port verwenden.

HINWEIS: Bitte geben Sie unbedingt eine IP-Adresse an, die vom Computer, auf dem Sawmill läuft, aus zugänglich ist. Ansonsten kann Sawmill den Webserver nicht starten. Starten Sie Sawmill in diesem Fall manuell (siehe oben) oder editieren Sie wie folgt die Konfigurationsdatei.

Sawmill speichert die zu verwendende IP-Adresse und den zu verwendenden Port in der Datei ?DefaultConfig? im Verzeichnis ?LogAnalysisInfo?. Dieses befindet sich gewöhnlich im Sawmill-Programmverzeichnis. Tragen Sie unter ?web_server_port? den Webserver-Port ein und unter ?server_hostname? die IP-Adresse. Beim nächsten Start wird Sawmill dann die neue IP-Adresse und den neuen Port verwenden.

(siehe auch 'Running on a Different IP': http://www.sawmill.net/cgi-bin/sawmilld ... ifferentip)


In der Ansicht ?Domains/Host? sehe ich nur IP-Adressen. Wie bekomme ich die dazugehörigen Domainnamen?
Dies geschieht, wenn Ihr Webserver nur die IP-Adressen der Besucher aufzeichnet, nicht aber deren Hostnamen oder Domains ermittelt. Wenn Sie die Domain-Informationen benötigen, müssen Sie Sawmill (oder Ihrem Webserver) mitteilen, diese zu ermitteln.

Sie können Ihren Webserver konfigurieren, IP-Adressen in Hostnamen aufzulösen. Das verlangsamt den Server etwas, doch wird Sawmill dann Hostnamen und Domains anzeigen, ohne dass die Log-Daten-Verarbeitung langsamer wird.

Wenn Sie nicht möchten, dass Ihr Webserver langsamer wird, oder Sie bereits erstellte Log-Daten analysieren möchten, die keine Domain-Informationen beeinhalten, können Sie Sawmill anweisen, Hostnamen via zu ermitteln. Die entsprechende Option ?Ermittle Hostnamen von IP-Adresse via DNS? finden Sie in den ?Konfigurationsoptionen? unter ?Netzwerk?. Aktivieren Sie diese Option und geben Sie unter ?DNS-Server? einen DNS-Server und unter ?Sekundärer DNS-Server? falls vorhanden einen zweiten DNS-Server an. Gehen Sie dann zurück in das ?Konfigurationsmenü? und wählen Sie ?Datenbank aus Log-Daten neu erstellen?, damit die Statistik-Datenbank mit Domain-Informationen neu erstellt wird. Das Verarbeiten von Log-Daten wird durch die DNS-Anfragen nun langsamer werden, doch Sie erhalten vollständige Hostnamen und Domain-Informationen.

(siehe auch ?Resolving IP Numbers?: http://www.sawmill.net/cgi-bin/sawmilld ... -dnslookup)


Wie kann ich mit Sawmill die GeoIP-Datenbank verwenden, um IP-Adressen in Log-Daten nach Staaten, Regionen und Städten zu differenzieren?
Stellen Sie sicher, dass in den ?Konfigurationsoptionen? unter 'Log-Info' die Option 'Ort mit GeoIP nachschlagen' eingeschaltet ist.

HINWEIS: Die GeoIP-Unterstützung funktioniert nur mit Log-Daten, die IP-Adressen enthalten. Deshalb funktioniert die GeoIP-Unterstützung nicht mit Webservern, die so konfiguriert sind, dass Sie IP-Adressen in Hostnamen auflösen. Sie können dieses Feature vom Webserver ausschalten und stattdessen Sawmill anweisen, IP-Adressen in Hostnamen aufzulösen, um die GeoIP-Unterstützung dennoch zu nutzen (siehe Frage 2).

Wenn Sie die Datenbank aus den Log-Daten neu erstellen, sollte Sawmill die GeoIP-Datenbank (eine zur Zeit etwa 14 MB große Datei) aus dem Internet laden, falls dies nicht bereits geschehen ist.

Sie können die Datenbank auch selbst aus dem Internet laden:
GeoIPCity-532.dat (unkomprimiert, 14 MB)
GeoIPCity-532.zip (ZIP-komprimiert, 9MB)
GeoIPCity-532.dat.gz (GZIP-komprimiert, 9MB)

Laden Sie eine dieser Dateien, entpacken Sie sie falls erforderlich, und kopieren Sie sie in das Verzeichnis ?LogAnalysisInfo?.

(siehe auch 'Using GeoIP to compute countries, regions, and cities': http://192.168.1.176/sawmill/sawmill.cgi?ho+docs-geoip)

In der Statistik-Ansicht sollte nun die Ansicht 'Ort' verfügbar sein, die den Traffic nach Staaten, Regionen und Ländern anzeigt.


Wie zeige ich nur die Statistiken eines Unterverzeichnisses an (direkter Link oder eigene Konfig)?
Dies geht sehr leicht über die Ansicht ?Seiten/Verzeichnisse?. Diese Ansicht zeigt den Traffic in Bezug auf einzelne Verzeichnisse und Dateien. Einen interaktiven Filter erstellen Sie, indem Sie auf ein Verzeichnis oder eine Datei klicken.

Nun zeigt Sawmill nur noch die Hits auf das Verzeichnis und die darin enthaltenen Dateien und Unterverzeichnisse. Mit dem grauen senkrechten Balken 'Filter aktiv' zeigt Sawmill an, dass der Filter aktiv ist. Ganz oben zeigt Sawmill in einer Statuszeile, welcher Filter gerade angewendet wird. Sie können den Filter bearbeiten oder entfernen, indem Sie auf den entsprechenden Verweis klicken. Der Filter bleibt so lange aktiv, bis Sie ihn wieder entfernen oder die aktuelle Sawmill-Sitzung beenden.

Eine andere, permanente Möglichkeit ist es, einen Log-Filter zu definieren. Log-Filter wendet Sawmill bereits an, wenn die Log-Daten verarbeitet werden. Sie können damit also auch die Größe der Statistik-Datenbank reduzieren. Allerdings muss die Statistik-Datenbank neu aufgebaut werden, damit der neue Log-Filter berücksichtigt wird.

Öffnen Sie in den 'Konfigurationsoptionen' das Register 'Log-Filter', um einen Log-Filter zu erstellen. Kopieren Sie mit dem Kopieren-Symbol den ersten Log-Filter in der Liste. Die Anzeige wird neu aufgebaut. Klappen Sie dann mit dem Ausklapp-Symbol den ersten nun doppelt vorhandenen Log-Filter aus.

Die Anzeige wird neu aufgebaut und Sie erhalten ein Eingabe-Formular, um den Filter näher zu definieren. Wählen Sie 'Wenn A wahr ist, dann führe B aus; andernfalls führe C aus'. Setzen Sie unter 'A' 'Operation' auf 'Wert1 startet mit Wert2' und 'Wert1' auf 'Seite'. Für ?Wert2? setzen Sie ?Dieser Wert:? und geben Sie dann den Pfadnamen des Verzeichnisses an, auf das Sie die Statistik beschränken wollen, zum Beispiel ?/shop/?.

Wählen Sie unter 'B' für 'Aktion' die Aktion 'gehe zum nächsten Filter'. Unter 'C' setzen Sie Aktion auf 'lehne ab'. Allen anderen Felder sind nicht von Belang und können leer bleiben. Der fertige Filter wird von Sawmill eingeklappt dann zum Beispiel wie folgt angezeigt:

* wenn das Feld Seite startet mit "/shop/"
* dann gehe zu nächsten Filter
* andernfalls lehne diesen Log-Eintrag ab (und gehe zum nächsten Log-Eintrag)

Wenn Sie nun die Statistik-Datenbank neu aufbauen, wird nur noch das entsprechende Verzeichnis berücksichtigt.


Wie klammere ich ein Verzeichnis oder eine Datei von der Statistik aus?
Öffnen Sie in den 'Konfigurationsoptionen' das Register 'Log-Filter', um einen Log-Filter zu erstellen. Kopieren Sie mit dem Kopieren-Symbol den ersten Log-Filter in der Liste. Die Anzeige wird neu aufgebaut. Klappen Sie dann mit dem Ausklapp-Symbol den ersten nun doppelt vorhandenen Log-Filter aus.

Die Anzeige wird neu aufgebaut und Sie erhalten ein Eingabe-Formular, um den Filter näher zu definieren. Wählen Sie 'Wenn A wahr ist, dann führe B aus; andernfalls führe C aus'. Setzen Sie unter 'A' 'Operation' auf 'Wert1 startet mit Wert2' und 'Wert1' auf 'Seite'. Für 'Wert2' setzen Sie ?Dieser Wert:' und geben Sie dann den Pfadnamen der Datei oder des Verzeichnisses an, das Sie ausfiltern wollen, zum Beispiel '/bilder/' oder '/robots.txt'.

Wählen Sie unter 'B' für 'Aktion' die Aktion 'lehne ab'. Unter 'C' setzen Sie Aktion auf 'gehe zum nächsten Filter'. Allen anderen Felder sind nicht von Belang und können leer bleiben. Der fertige Filter wird von Sawmill eingeklappt dann zum Beispiel wie folgt angezeigt:

[1]wenn das Feld Seite startet mit "/bilder/"

dann lehne diesen Log-Eintrag ab (und gehe zum nächsten Log-Eintrag)

andernfalls gehe zu nächsten Filter

Wenn Sie nun die Statistik-Datenbank erneut erstellen lassen, sollte das entsprechende Verzeichnis oder die entsprechende Datei nicht mehr berücksichtigt werden. Sie können weitere Dateien oder Verzeichnisse ausfiltern, indem Sie den so eben erstellten Log-Filter kopieren und einen neuen Pfad eintragen.

(siehe auch 'Excluding a File or Directory': http://www.sawmill.net/cgi-bin/sawmilld ... gdirectory


Wo finde ich weitere Antworten auf meine Fragen?
Wir haben zu Sawmill eine deutsche Kurzanleitung (PDF) erstellt, die die Punkte Einführung, Installation, Konfiguration und Analyse behandelt. Im Anhang ist zudem eine Liste der unterstützten Plattformen und Logformate enthalten.
Deutsche Anleitung zu Sawmill (PDF)

Diese Anleitung entspricht der untenstehenden Online-Anleitung. Sie wird immer auf dem aktuellen Stand gehalten. Diese Anleitung ist immer auf dem neuesten Stand und daher nur Online verfügbar. http://www.sawmill.net/manual.html

Die FAQs beantworten fast alle Fragen, die sich auf Features und die Lösung für verschiedenste Situationen beziehen. Es ist daher auf jeden Fall empfehlenswert hier einmal das Inhaltsverzeichnis durchzugehen, denn dann klären sich die meisten Fragen.
FAQs zu Sawmill (engl.) http://www.sawmill.net/faq.html

Auch im Support-Forum findet man viele Lösungen zu bekannten Problemen und Situationen. Support-Forum (engl.) http://www.sawmill.net/cgi-bin/dcforum/dcboard.cgi

Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste