Düzenli ifadeler (regexp)

Düzenli ifadeler, Sayfa ziyaretleri ve Toplam hedef türündeki hedeflerin belirlenmesinde ve ayrıca gelen trafik kaynakları gibi URL adreslerini ilgilendiren koşullara göre segmentasyon işlemlerinde kullanılabilir.

İfadeler RE2 söz dizimine ve aşağıdaki kurallara göre işlenir:

  • Normal ifade, protokol ve alan adı dahil tam sayfa URL'sine uygulanır. Örneğin normal bir ifade olan ^http:// ifadesini kullanabilirsiniz.
  • Normal ifade, orijinal URL'ye ve www ön takısı eklenmiş ya da kaldırılmış URL'ye olmak üzere iki kez uygulanır. Böylelikle alan adında www ifadesinin kullanılması ya da kullanılmaması ifadenin doğruluk kontrolünün sonuçlarını etkilemez.
  • Düzenli ifade, URL kodlarının (% dizisi) yerini kodu çözülmüş karakterlerin aldığı kodu çözülmüş URL'ye uygulanır (istisnalar: /, &, =, ?, # işaretlerinin kodları değişmez; örneğin, %2F kodu / yerine gelmez). Kod çözülürken + yerine boşluk geldiği unutulmamalıdır. Örneğin, text=слон düzenli ifadesi işlenirken text=%D1%81%D0%BB%D0%BE%D0%BD ve text=%\w\w ifadeleri işlenmez.
  • Latin alfabesi temelli olmayan URL'lere punycode uygulanmaz. Örneğin Kiril alfabesi kullanılan ^http://ввв\.сайт\.рф/ şeklindeki normal ifade işlenme girerken ^http://xn--b1aaa\.xn--80aswg\.xn--p1ai/ şeklindeki normal ifade işleme girmez.
  • Düzenli ifadelerin kontrolü yapılırken URL sonundaki ?, #, & ve nokta (.) simgeleri yok sayılır. Örneğin http://example.com/?, http://example.com/#, http://example.com/?var=1& URL'leri için karşılaştırma sırayla http://example.com/, http://example.com/, http://example.com/?var=1 URL'leriyle yapılır. Böylelikle kullanıcı URL'yi http://example.com./ olarak girdiyse \./$ düzenli ifadesi işleme girmez.
  • Normal ifade kontrolü işleminde mümkün olduğunca en uzun satır nicelik belirteçlerinin karşılığı sayılır.
  • URL kontrolü büyük ve küçük harfe duyarlıdır.

Normal ifadeler kılavuzu

Aşağıdaki tabloda a, b, c, d, e herhangi birer karakter ve n, m de pozitif tamsayılardır.

İzin verilen alternatifler
abc|de Alternatiflerden birine karşılık gelir: abc veya de.
Karakter sınıfları
[abc] veya [a-c] Listelenenler (veya aralık) içinde herhangi bir (tek) karaktere karşılık gelir.
[^abc] veya [^a-c] Listelenenler dışında (veya aralığa dahil olmayan) herhangi bir (tek) karaktere karşılık gelir.
\d Sayısal bir karaktere karşılık gelir. [0-9] eşdeğeridir.
\D Sayı olmayan bir karaktere karşılık gelir. [^0-9] eşdeğeridir.
\s Boşluğa karşılık gelir. [\t\n\f\r ] eşdeğeridir.
\S Boşluk olmayan bir karaktere karşılık gelir. [^\t\n\f\r ] eşdeğeridir.
\pL Herhangi bir Unicode simgesine karşılık gelir.
\w

Büyük veya küçük bir Latin harfine, bir sayıya veya alt çizgi simgesine karşılık gelir.

Unicode simgeleriyle çalışırken \w yerine \pL sınıfı kullanılmalıdır.

\W

Bir sayı, alt çizgi simgesi ya da büyük veya küçük bir Latin harfi olmayan herhangi bir simgeye karşılık gelir.

Unicode simgeleriyle çalışırken \w yerine \pL sınıfı kullanılmalıdır.

Giriş sayısı (nicelik belirteçleri)
a* 0 veya daha çok kez yinelenen a karakterine karşılık gelir (olasılıklar içinden en uzun dizi seçilir).
a+ 1 veya daha çok kez yinelenen a karakterine karşılık gelir (olasılıklar içinden en uzun dizi seçilir).
a? 0 veya 1 kez yinelenen a karakterine karşılık gelir (karakterin bulunması önceliği).
a{n,m} En az n kez ve en çok m kez yinelenen a karakterine karşılık gelir (olasılıklar içinde en uzun dizi seçilir).
a{n,} En az n kez yinelenen a karakterine karşılık gelir (olasılıklar içinde en uzun dizi seçilir).
a{n} Tam olarak n kez yinelenen a karakterine karşılık gelir.
a*? 0 veya daha çok kez yinelenen a karakterine karşılık gelir (olasılıklar içinden en kısa dizi seçilir).
a+? 1 veya daha çok kez yinelenen a karakterine karşılık gelir (olasılıklar içinden en kısa dizi seçilir).
a?? 0 veya 1 kez yinelenen a karakterine karşılık gelir (karakterin bulunmaması önceliği).
a{n,m}? En az n kez ve en çok m kez yinelenen a karakterine karşılık gelir (olasılıklar içinde en kısa dizi seçilir).
a{n,}? En az n kez yinelenen a karakterine karşılık gelir (olasılıklar içinde en kısa dizi seçilir).
Satır içindeki konum
^ Satır başına karşılık gelir.
$ Satır sonuna karşılık gelir.
\b

Sözcüğün sınırına karşılık gelir; alfanümerik karakter (\w) ile alfasayısal olmayan karakter (\W) arasındaki pozisyondur.

\B

Sözcük sınırı bulunmamasına karşılık gelir. \w ve \W satırları aracılığıyla belirlenir.

Eleme
\

Özel karakterden önce ters eğik çizgi [ ] \ ^ $ . | ? * + ( ) { } bu karakterin özel olmadığı ve kelimenin tam anlamıyla yorumlanması gerektiği anlamına gelir.

Örnek: \$ Dolar işaretine karşılık gelir.

\ Q...\E \Q ile \E aralığındaki tüm özel karakterler normal karakterler olarak yorumlanır.