Beautiful Soup 4

Eine Bibliothek um Daten aus HTML und auch XML abzufragen.

Das Object macht aus einem String eine Struktur, die abgefragt werden kann.

Es wird der Standard HTML Parser unterstützt und weitere die aber zusätzlich installiert werden müssen. Hier wird der lxml Parser verwendet.

Die Struktur kann auf verschiedene Arten abgefragt werden.

Es gibt auch eine Menge an Methoden und Attributen sowie Keywords.

Die findAll Methode versteht auch Funktionen als Argument.

Die offizielle Dokumentation ist hier zu finden: Beautiful Soup

Beispiele
Eine Funktion um Links die mit http:// beginnen von einer Seite zu sammeln.

Zwei Funktionen um Bilder auf einer Seite zu finden und dann herunterzuladen.