Weboldal

Az Echo Weboldal integrációja teljes-site crawler. Megadsz egy domaint vagy lokalizált URL-t; az Echo a sitemap alapján felfedezi az oldalakat, Cloudflare headless böngészővel renderel mindent, kivonja a fő tartalmat, és az egészet indexeli az asszisztensbe. Sztatikus oldalakon, JS-nehéz SPA-kon, e-commerce platformokon és több-nyelvű shopokon is működik.

Ezen az oldalon

Miért válaszd

  • Publikus weboldalad van sok oldallal, és mindet az asszisztens tudásbázisába akarod tenni.
  • Nem WordPressen vagy Frameren fut — azokhoz külön integráció tartozik.
  • A JS-nehéz oldalakat (SPA-k, React-storefrontok, dinamikus katalógusok) rendesen renderelve akarod indexelni, nem nyers HTML-ként.
  • Több-nyelvű shop (PrestaShop, Magento, Shopify locale-ok), és csak egy nyelvet akarsz importálni.

Hogyan működik

Három szakasz: felfedezés, validálás, crawl.

  1. Felfedezés. Az Echo a sitemap-et ebben a sorrendben keresi: robots.txt Sitemap: direktívája → /sitemap.xml/sitemap-index.xml/sitemap_index.xml. Mind a sima urlset-eket, mind a sitemap-indexeket (beágyazott sitemap-eket) támogatja. A CDATA-csomagolt URL-eket (PrestaShop, Magento gyakorisága) helyesen parsolja.
  2. Validálás. Az Echo összeszámolja a felfedezett oldalakat, és ellenőrzi a csomag tartalmi limitjét. Ha az import túllépné a limitet, már a crawl előtt hibát ad — nincs felesleges munka.
  3. Crawl. Az URL-listát átadja a Cloudflare Browser Renderingnek, ami valódi headless böngészővel kéri le az oldalakat, kivonja a fő markdown tartalmat metaadatokkal (cím, OG kép, leírás), és visszaadja az Echónak. Minden oldalból egy tartalom-elem lesz az asszisztensben.

A crawl aszinkron módon, a háttérben fut. Az integráció kártyája mutatja az állapotot (crawlingactive vagy error), és a dashboard tetején értesítő sáv jelzi a folyamatot. Átlagos site 1–10 perc; nagyon nagy katalógus hosszabb lehet.

Eltérés a hasonló opcióktól

  • vs. URL kézi feltöltés — az URL egy oldalt indexel; a Weboldal az összeset bejárja sitemap alapján. Az URL egyszerűbb AI-kinyerést használ; a Weboldal a Cloudflare headless böngészőjét, ami a JS-nehéz oldalakat jobban kezeli. 1–5 oldalhoz URL, egész site-hoz Weboldal.
  • vs. WordPress — a WordPress a REST API-t és webhookokat használ valós idejű szinkronra. A Weboldal pollozás/újra-crawl modell. Ha WordPress van, használj WordPress integrációt.
  • vs. Framer — az Echo automatikusan felismeri a Framer-oldalakat, akkor is, ha általános Weboldalként küldöd be, és csendben átvált a Framer pipeline-ra. Nem kell külön választanod.

Beállítás lépésről lépésre

  1. Nyisd meg az Integrációk oldalt a dashboard Szinkronizált források szekciójából.
  2. Kattints a Forrás hozzáadása gombra, válaszd a Weboldal típust.
  3. Add meg a weboldal URL-jét. Teljes site-hoz a főoldal (pl. https://example.com), egy locale-ra szűkítéshez path-prefixes URL (pl. https://example.com/hu).
  4. Válaszd ki, melyik asszisztens kapja a tartalmat.
  5. Küldd el. Az Echo validálja a sitemap-et, ellenőrzi a limitet, és a háttérben elindítja a crawl-t.

Az integráció kártyáján követheted az állapotot. Később újra-szinkronnal frissítheted a tartalmat.

Több-nyelvű és nagy katalógusok

Ha a site-od több-nyelvű sitemap-indexet használ (locale-onként egy beágyazott sitemap), az Echo egy locale-ra szűkítheti a crawl-t.

  • Path-prefixes URL-t adj meg — például https://shop.example.com/hu a csupasz domain helyett. Az Echo kinyeri a path-prefixet, és a sitemap-et csak a /hu-val kezdő URL-ekre szűri.
  • Szegmens-érzékeny szűrés — a szűrő figyel a path-szegmensekre: /hu illeszkedik a /hu-ra és /hu/bármi-ra, de a /hungarian-re sosem.
  • Cloudflare oldali szűrés — ugyanaz a prefix átadódik a Cloudflare includePatterns-nek, így a headless böngésző sem pazarol időt kidobott URL-ekre.
  • Crawl-budget — az Echo automatikusan kicsit magasabb Cloudflare limittel indít, hogy elférjenek a böngésző által jogosan kihagyott URL-ek (404, redirect, deduplikálás). Ezt nem konfigurálod; automatikus.
  • Crawl-ellenőrzés — a crawl végén az Echo ellenőrzi, hogy a bejárt oldalszám a sitemap-számhoz képest tűréshatáron belül van-e (15%, 10-oldalas minimummal). Jelentős eltérésnél hibát dob, hogy meg tudd nézni.
Fallback viselkedés
Ha a path-prefix szűrő teljesen kiürítené a sitemap-et, az Echo inkább visszaesik a szűretlen listára, mintsem hogy „nincs oldal" hibát adjon. Inkább több, mint félrevezetően üres eredmény.

Gyakori hibák és megoldások

  • „Nem található sitemap" — az Echo egyik standard helyen sem talált sitemap-et. A legtöbb CMS és e-commerce alapból szállít sitemap-et; ellenőrizd, hogy be van-e kapcsolva és publikusan olvasható-e.
  • „A sitemap megvan, de nincs benne oldal" — a sitemap fájl parsolódott, de nulla <loc> bejegyzést tartalmazott. Nyisd meg a sitemap-et böngészőben és ellenőrizd.
  • „Túl sok oldal a csomaghoz" — a sitemap több oldalt tartalmaz, mint amennyit a csomagod megenged. Szűkíts path-prefixszel, vagy bővíts.
  • „Nem sikerült validálni a weboldalt" — a főoldal vagy a sitemap timeout-olt (10 másodperc per kérés). Próbáld újra, vagy ellenőrizd, hogy az origin nem tiltja-e az EchoPlatform/1.0 user-agent-et.
  • „A bejárt oldalak száma a vártnál kevesebb" — jelentős eltérés a sitemap és a crawl száma között, túl a 15%-os tűrésen (10-oldalas minimum). Egyes oldalak nem renderelődtek — nézd meg azokat egyenként böngészőben.
  • „A crawl cancelled_due_to_timeout státusszal ért véget" — a Cloudflare crawler kifutott az időkereten egy nagyon nagy site-on. Szűkíts locale-ra, vagy bontsd több integrációra.
  • „A crawl cancelled_due_to_limits státusszal ért véget" — az oldalszám meghaladta a Cloudflare kemény felső limitjét. Szűkíts path-prefixszel.