marktvogt.de/backend/internal/pkg/scrape/scrape_test.go

package scrape

import (
	"strings"
	"testing"
)

func TestExtractText_StripsNoise(t *testing.T) {
	html := []byte(`<html>
<head><style>.foo{color:red}</style><script>var x = 1;</script></head>
<body>
  <nav>HOME | ABOUT | CONTACT</nav>
  <main>
    <h1>Mittelaltermarkt Dresden</h1>
    <p>Samstag und Sonntag von 10:00 bis 18:00 Uhr.</p>
  </main>
  <footer>Copyright 2026</footer>
</body>
</html>`)
	got, err := extractText(html, 1000)
	if err != nil {
		t.Fatalf("extractText: %v", err)
	}
	// The content we care about is present.
	if !strings.Contains(got, "Mittelaltermarkt Dresden") {
		t.Errorf("missing h1: %q", got)
	}
	if !strings.Contains(got, "10:00 bis 18:00") {
		t.Errorf("missing opening hours: %q", got)
	}
	// Noise is gone.
	if strings.Contains(got, "color:red") || strings.Contains(got, "var x = 1") {
		t.Errorf("style/script leaked: %q", got)
	}
	if strings.Contains(got, "Copyright") || strings.Contains(got, "HOME | ABOUT") {
		t.Errorf("nav/footer leaked: %q", got)
	}
}

func TestExtractText_CollapsesWhitespace(t *testing.T) {
	html := []byte(`<html><body><p>foo    bar

	baz</p></body></html>`)
	got, err := extractText(html, 1000)
	if err != nil {
		t.Fatalf("extractText: %v", err)
	}
	if got != "foo bar baz" {
		t.Errorf("whitespace not collapsed: %q", got)
	}
}

func TestExtractText_Truncates(t *testing.T) {
	// Build a long body.
	body := strings.Repeat("a b c ", 2000) // ~12000 chars after collapse
	html := []byte("<html><body><p>" + body + "</p></body></html>")
	got, err := extractText(html, 100)
	if err != nil {
		t.Fatalf("extractText: %v", err)
	}
	if len(got) != 100 {
		t.Errorf("len(got) = %d; want 100", len(got))
	}
}

func TestExtractText_FallsBackToDocumentWhenNoBody(t *testing.T) {
	// Document fragment without <html>/<body> tags. goquery still parses this
	// but .Find("body") returns nothing; we fall back to doc-level text.
	html := []byte(`<div><p>Direktes Fragment.</p></div>`)
	got, err := extractText(html, 1000)
	if err != nil {
		t.Fatalf("extractText: %v", err)
	}
	if !strings.Contains(got, "Direktes Fragment") {
		t.Errorf("fallback failed: %q", got)
	}
}