Wildcards in Notepad++ – effizient suchen und ersetzen

Notepad++ ist ein kostenloser Texteditor. Er unterstützt verschiedene Programmiersprachen, um Quelltext einfach zu bearbeiten. Ähnlich wie in Entwicklungsumgebungen erfolgt der Einsatz von typografischen Mitteln. Dies bedeutet, dass der Text in seinem Aussehen formatiert wird. Die Formatierung ist abhängig von der Syntax und der Struktur der Programmiersprache. Notepad++ kann reguläre Ausdrücke (sogenannte RegExp) in der „Suchen und Ersetzen“ Funktion verarbeiten. Ein Anwendungsfall regulärer Ausdrücke können Wildcards sein, auf die wir gleich zu sprechen kommen.

Übersicht

Der Artikel ist aufgrund der Beispiele etwas länger geworden. Mithilfe der Links gelangen Sie zu den einzelnen Punkten.

Suchen und ersetzen

Die „Suchen und Ersetzen“ Funktion kann in Notepad++ über zwei Wege erreicht werden:

  1. Möglichkeit:
    Unter dem Punkt „Suchen“ in der Menüleiste, kann der Listeneintrag „Ersetzen …“ ausgewählt werden. Anschließend öffnet sich das gewünschte Fenster.
  2. Möglichkeit:
    Die einfachere Möglichkeit besteht darin, gleichzeitig STRG+H zu drücken. Anschließend öffnet sich auch hier das gewünschte Fenster.

Wildcards

Wildcards bezeichnen Platzhalter für andere Zeichen. In der „Suchen und Ersetzen“ Funktion in Notepad++ ist es möglich, diese zu verwenden. Im Folgenden werden die wichtigsten Wildcards aufgelistet und deren Einsatz beschrieben. Die Tabelle zeigt die Schreibweise in Notepad++. Hier werden häufig vor Verwendung einer Wildcards ein „.“ benötigt.

Wildcard Beschreibung
.? oder . Ein Fragezeichen sucht nach genau einem Zeichen (Character).
.* Ein Sternchen sucht nach einer beliebigen Anzahl an Zeichen (auch null).
[] Es wird nur nach Zeichen gesucht, die in den eckigen Klammern stehen. Die alleinige Verwendung der eckigen Klammern entspricht keinem gültigen Ausdruck.

Zeichen:
Die Suche nach „A[bc]d“ entspricht folglich: „Abd“ und „Acd“. Es können auch Bereich angegeben werden. Sucht man beispielsweise nach B[a-c]A erhält man: BaA, BbA und BcA.

Zahlen:
Die Suche nach „[0-8]“ entspricht allen Zahlen von 0 bis 8 ohne der 9. Es kann auch nach einzelnen Zahl gesucht werden [2].

Beliebige lateinische Buchstaben oder beliebige Ziffern:
Die Suche nach „[A-Za-z0-9]“ entspricht allen lateinischen Buchstaben und Ziffern.

Zeichen ausschließen:
Mit dem „^“-Zeichen können bestimmt Zeichen ausgeschlossen werden. „[^1]“ es wird nach allen Zeichen und Ziffern gesucht ohne der „1“.

Quantoren

Der Verwendung von Quantoren ist optional. Sie erweitern Wildcards und erlauben es, Wiederholungen in Zeichenketten zu finden. Die Syntax lautet:
<Wildcard><Quantor>

Quantor Beschreibung
? Erweitert man eine Wildcard um ein Fragezeichen, muss dieser Ausdruck nicht vorkommen, er kann aber.
+ Das Pluszeichen bedeutet, dass der voranstehende Ausdruck mindestens einmal vorkommen muss, aber beliebig oft wiederholt werden darf.
* Der voranstehende Ausdruck darf beliebig oft vorkommen. Anders als das Pluszeichen darf der Ausdruck auch keinmal vorkommen.
{n} Der voranstehende Ausdruck muss exakt n-mal vorkommen.
{n,} Der voranstehende Ausdruck muss mindestens n-mal vorkommen.
{n,m} Der voranstehende Ausdruck muss zwischen n-mal und m-mal vorkommen.
{0,m} Der voranstehende Ausdruck darf maximal m-mal vorkommen.

Sucht man beispielsweise nach [ab]{2}_ erhält man: „aa“, „bb“, „ab“ und „ba“. Wildcards und Quantoren können beliebig kombiniert werden.

Metazeichen

Metazeichen haben in einem bestimmten Kontext eine besondere Bedeutung für die Verarbeitung von Zeichenketten. Bei der Verwendung von regulären Ausdrücken, wie es bei der „Suchen und Ersetzen“ Funktion von Notepad++ der Fall ist, haben folgende Metazeichen eine besondere Bedeutung:

Metazeichen Beschreibung
^ Dieses Metazeichen steht für einen Zeilen- oder String-Anfang
$ Ein Dollar-Zeichen steht für ein Zeilen- oder String-Ende
? + * { } Finden bei Wildcards und Quantoren Verwendung
\ Wandeln ein Metazeichen in ein „normales“ Zeichen um, um danach suchen zu können.
( ) Gruppierungen, um komplexes „Suchen und Ersetzen“ zu ermöglichen. Möchte man zwischen zwei Zeichen z. B. „<“ und „>“ einen beliebig langen Text finden und die zwei Zeichen anschließend entfernen, eignet sich die Verwendung von runden Klammern. Diese werden auch Tagged Expressions genannt.  Innerhalb einer Suche können mehrere Tagged Expressions verwendet werden. Im Ersetzen-Teil wird mit den Tags \1_, \2_, usw. darauf zugegriffen. Auf erste Klammer kann dann z. B. mit dem Tag \1_ aufgerufen werden.

Der Suchausdruck könnte dann wie folgt aussehen: <(.*)>_. Es wird also nach beliebig vielen Zeichen zwischen dem Größer- und Kleiner-Zeichen gesucht. Im Ersetzen-Teil wird dann geschrieben \1_. Die Suche wird dadurch durch den Inhalt der Klammern ersetzt, also den beliebigen Zeichen.

| Alternativen oder auch logisches „ODER“
\n Neue Zeile „line feed“
\r Neue Zeile „carriage return“
\t Tabulator
\d Ein beliebiges Digit
\w Ein beliebiger Buchstabe
\s Ein Leerzeichen (Whitespace)
\b Leere Zeichenkette am Wortanfang oder am Wortende
\B Leere Zeichenkette, die nicht den Anfang oder das Ende eiens Wortes bildet

Beispiel: Payload aus einem Daten-Stream erhalten

Die Suche von Notepad++ ist sehr effizient. Zeichnet man Log-Dateien einer seriellen Datenübertragung auf und sucht nach speziellen Paketen, kann diese perfekt eingesetzt werden. Nachrichtenpakete bestehen oft aus einem Start-Byte, einem Befehl, der Payload, einer Checksumme und einem Stopp-Byte.

Start-Byte Befehl Paketzähler Payload Checksumme Stopp-Byte
0x01 0x12 1 Byte 3 Byte 2 Byte 0x04

In diesem Beispiel möchten wir aus einem seriellen Daten-Stream die Payload erhalten. Jede Payload soll in einer neuen Zeile ausgegeben werden, um die Daten einfacher lesen zu können. Die Aufzeichnung schaut zunächst so aus:

Die gesamte Aufzeichnung wird nur in einer Zeile dargestellt, was sehr unleserlich ist. Wir wissen aber, dass jedes Paket mit dem Stopp-Byte 0x04 endet. Wir können deshalb das Zeichen 0x04 mit 0x04\n ersetzen. \n ist ein Line-Feed, also ein Zeilenumbruch. Notepad++ nimmt diese Sonderzeichen im erweiterten Suchmodus an. Das Ersetzen schaut wie folgt aus:

Jedes Nachrichtenpaket erscheint nun in einer neuen Zeile.

Im nächsten Schritt entfernen wir das Start-Byte, den Befehl und den Paketzähler von der Payload. Das Start-Byte und der Befehl variieren in diesem Beispiel nicht, der Paketzähler wird in jeder Zeile inkrementiert. Die Suche muss deshalb lauten 01 12 .?.?_.

Der Nachrichtenanfang wurde nun erfolgreich entfernt:

Nun wird nur noch das Nachrichtenende entfernt. Dieses besteht aus einer 2-Byte langen Checksumme und dem Stopp-Byte. Die Suche lautet deshalb .?.? .?.? 04_. Nach diesem Schritt bleibt nur noch die Payload übrig und das gewünschte Ergebnis wurde erzielt.

Und das Ergebnis:

Beispiel: Text innerhalb eines <div>-Tags ersetzen

In diesem Beispiel soll gezeigt werden, wie zum Beispiel der Text von HTML-Buttons einfach geändert werden kann. Auf einer Webseite sind mehrere Buttons mit der ID „test“ eingebunden. Die Texte sind unterschiedlich, sollen aber auf „mehr erfahren“ umgestellt werden. Der Code sieht wie folgt aus:

Auch wenn Zeile 2 und 3 auf den ersten Blick gleich aussehen, erkennt man, dass in Zeile 3 ein zusätzliches Leerzeichen vorhanden ist und der Text zwischen den Divs länger ist. Der Suchausdruck muss deshalb so aussehen:

Das Resultat:

 

Beispiel: Unterseiten von URLs entfernen

In diesem Beispiel werden die Unterseiten von URLs entfernt. Die vorhandene Liste sieht so aus:

medtech-ingenieur.de/index.php
medtech-ingenieur.de/?p=3133&preview=true
medtech-ingenieur.de/blog/
medtech-ingenieur.de/dependability-in-der-medizintechnik/

Jede Unterseite kann mit dem Befehl „de/.*“ gefunden werden. Diese ersetzt man dann durch „de/“ oder „de“. Achten Sie darauf, dass der Haken bei „findet \r und \n“ nicht gesetzt ist.

Das Ergebnis ist dann:

medtech-ingenieur.de
medtech-ingenieur.de
medtech-ingenieur.de
medtech-ingenieur.de

Beispiel: Werte aus Klammern parsen

Beim Debuggen kommt es schonmal vor, lange Arrays genauer zu betrachten. Kopiert man die Werte direkt aus der Entwicklungsumgebung, werden oft die Zeilenangaben und weitere Informationen mit übertragen. Die Kopie könnte für einen Ringpuffer so aussehen (kopiert aus Android Studio):

Interessant für den Entwickler sind in diesem Fall nur die Hexadezimal-Werte. Außerdem möchte er sehen, welche Nachrichten in diesem Ringpuffer gespeichert sind. Mit nur einem Befehl schafft man es, alle Werte in einer Zeile darzustellen. Die Verwendung der runden Klammern wird auch Tagged Expression oder Gruppierung genannt. Mithilfe des Tags \1 kann auf den Inhalt der ersten Klammer in der Suche zugegriffen werden. Die Abfrage sieht wie folgt aus:

Hier ist das Ergebnis zu sehen:

Der Entwickler weiß, dass jedes Nachrichtenpaket mit 0xFD endet. Im nächsten Schritt können wir deshalb eine neue Zeile (\n) nach jedem 0xFD einfügen. Zu sehen sind dann alle Nachrichtenpakete im Ringpuffer.

Beispiel: Datum einheitlich formatieren

Eine Liste mit mehreren Daten ist unterschiedlich formatiert. Mit der „Suchen und Ersetzen“ Funktion von Notepad++ sollen alle Daten in das Format „##-##-####“ umgewandelt werden. Die Liste sieht wie folgt aus:
Im ersten Schritt ersetzen wir alle Zeichen zwischen den Zeilen durch das Zeichen „-„. Die Verwendung von Tagged Expressions kann innerhalb der Suche mehrmals erfolgen. Auf die einzelnen Klammern kann dann durch die Tags \1, \2, usw. zugegriffen werden. Die Zahl spiegelt die Reihenfolge der Klammern wieder.

Das Ergebnis des ersten Durchlaufs sieht wie folgt aus:

Leider haben nun noch nicht alle Daten das gewünschte Format „##-##-####“. Deshalb muss ein zweiter Durchlauf mit der folgenden Suche durchlaufen werden:

Anschließend erhält man das gewünschte Format.


Haben Sie noch Fragen oder wünschen Sie sich weitere Beispiele? Dann hinterlassen Sie doch ein Kommentar. Wir helfen Ihnen gerne weiter.

Viele Grüße
Daniel Saffer

Kontaktieren Sie uns!

Autor

  • Daniel Saffer

    Daniel Saffer war als Firmwareentwickler für die MEDtech Ingenieur GmbH tätig. Zu seinen Aufgabengebieten gehörte die Entwicklung der Embedded Software eines Nervenstimulationsgeräts, sowie eines Systems zur drahtlosen Steuerung eines C-Bogens. Eine weitere Aufgabe war die Erstellung von Risikobetrachtungen und Assessments aus Cybersecurity-Sicht für verschiedene Medizinprodukte.

Auch interessant:

User Interface of unknown Provenance UOUP nach IEC62366-1

Medizinprodukte haben besondere Anforderungen an die Gebrauchstauglichkeit. Denn Benutzungsfehler können bei Medizinprodukten dazu führen, dass Patienten oder Bediener einen Schaden erleiden. Um das zu vermeiden, definiert die IEC62366-1 klare Prozesse für die Gebrauchstauglichkeit von Medizinprodukten. Die Norm findet sowohl für die EU, als auch die USA Anwendung. In diesem Artikel…
Getagged mit: , , , , , , ,