Weboldal
Az Echo Weboldal integrációja teljes-site crawler. Megadsz egy domaint vagy lokalizált URL-t; az Echo a sitemap alapján felfedezi az oldalakat, Cloudflare headless böngészővel renderel mindent, kivonja a fő tartalmat, és az egészet indexeli az asszisztensbe. Sztatikus oldalakon, JS-nehéz SPA-kon, e-commerce platformokon és több-nyelvű shopokon is működik.
Ezen az oldalon
Miért válaszd
- Publikus weboldalad van sok oldallal, és mindet az asszisztens tudásbázisába akarod tenni.
- Nem WordPressen vagy Frameren fut — azokhoz külön integráció tartozik.
- A JS-nehéz oldalakat (SPA-k, React-storefrontok, dinamikus katalógusok) rendesen renderelve akarod indexelni, nem nyers HTML-ként.
- Több-nyelvű shop (PrestaShop, Magento, Shopify locale-ok), és csak egy nyelvet akarsz importálni.
Hogyan működik
Három szakasz: felfedezés, validálás, crawl.
- Felfedezés. Az Echo a sitemap-et ebben a sorrendben keresi:
robots.txtSitemap:direktívája →/sitemap.xml→/sitemap-index.xml→/sitemap_index.xml. Mind a sima urlset-eket, mind a sitemap-indexeket (beágyazott sitemap-eket) támogatja. A CDATA-csomagolt URL-eket (PrestaShop, Magento gyakorisága) helyesen parsolja. - Validálás. Az Echo összeszámolja a felfedezett oldalakat, és ellenőrzi a csomag tartalmi limitjét. Ha az import túllépné a limitet, már a crawl előtt hibát ad — nincs felesleges munka.
- Crawl. Az URL-listát átadja a Cloudflare Browser Renderingnek, ami valódi headless böngészővel kéri le az oldalakat, kivonja a fő markdown tartalmat metaadatokkal (cím, OG kép, leírás), és visszaadja az Echónak. Minden oldalból egy tartalom-elem lesz az asszisztensben.
A crawl aszinkron módon, a háttérben fut. Az integráció kártyája mutatja az állapotot (crawling → active vagy error), és a dashboard tetején értesítő sáv jelzi a folyamatot. Átlagos site 1–10 perc; nagyon nagy katalógus hosszabb lehet.
Eltérés a hasonló opcióktól
- vs. URL kézi feltöltés — az URL egy oldalt indexel; a Weboldal az összeset bejárja sitemap alapján. Az URL egyszerűbb AI-kinyerést használ; a Weboldal a Cloudflare headless böngészőjét, ami a JS-nehéz oldalakat jobban kezeli. 1–5 oldalhoz URL, egész site-hoz Weboldal.
- vs. WordPress — a WordPress a REST API-t és webhookokat használ valós idejű szinkronra. A Weboldal pollozás/újra-crawl modell. Ha WordPress van, használj WordPress integrációt.
- vs. Framer — az Echo automatikusan felismeri a Framer-oldalakat, akkor is, ha általános Weboldalként küldöd be, és csendben átvált a Framer pipeline-ra. Nem kell külön választanod.
Beállítás lépésről lépésre
- Nyisd meg az Integrációk oldalt a dashboard Szinkronizált források szekciójából.
- Kattints a Forrás hozzáadása gombra, válaszd a Weboldal típust.
- Add meg a weboldal URL-jét. Teljes site-hoz a főoldal (pl.
https://example.com), egy locale-ra szűkítéshez path-prefixes URL (pl.https://example.com/hu). - Válaszd ki, melyik asszisztens kapja a tartalmat.
- Küldd el. Az Echo validálja a sitemap-et, ellenőrzi a limitet, és a háttérben elindítja a crawl-t.
Az integráció kártyáján követheted az állapotot. Később újra-szinkronnal frissítheted a tartalmat.
Több-nyelvű és nagy katalógusok
Ha a site-od több-nyelvű sitemap-indexet használ (locale-onként egy beágyazott sitemap), az Echo egy locale-ra szűkítheti a crawl-t.
- Path-prefixes URL-t adj meg — például
https://shop.example.com/hua csupasz domain helyett. Az Echo kinyeri a path-prefixet, és a sitemap-et csak a/hu-val kezdő URL-ekre szűri. - Szegmens-érzékeny szűrés — a szűrő figyel a path-szegmensekre:
/huilleszkedik a/hu-ra és/hu/bármi-ra, de a/hungarian-re sosem. - Cloudflare oldali szűrés — ugyanaz a prefix átadódik a Cloudflare
includePatterns-nek, így a headless böngésző sem pazarol időt kidobott URL-ekre. - Crawl-budget — az Echo automatikusan kicsit magasabb Cloudflare limittel indít, hogy elférjenek a böngésző által jogosan kihagyott URL-ek (404, redirect, deduplikálás). Ezt nem konfigurálod; automatikus.
- Crawl-ellenőrzés — a crawl végén az Echo ellenőrzi, hogy a bejárt oldalszám a sitemap-számhoz képest tűréshatáron belül van-e (15%, 10-oldalas minimummal). Jelentős eltérésnél hibát dob, hogy meg tudd nézni.
Gyakori hibák és megoldások
- „Nem található sitemap" — az Echo egyik standard helyen sem talált sitemap-et. A legtöbb CMS és e-commerce alapból szállít sitemap-et; ellenőrizd, hogy be van-e kapcsolva és publikusan olvasható-e.
- „A sitemap megvan, de nincs benne oldal" — a sitemap fájl parsolódott, de nulla
<loc>bejegyzést tartalmazott. Nyisd meg a sitemap-et böngészőben és ellenőrizd. - „Túl sok oldal a csomaghoz" — a sitemap több oldalt tartalmaz, mint amennyit a csomagod megenged. Szűkíts path-prefixszel, vagy bővíts.
- „Nem sikerült validálni a weboldalt" — a főoldal vagy a sitemap timeout-olt (10 másodperc per kérés). Próbáld újra, vagy ellenőrizd, hogy az origin nem tiltja-e az
EchoPlatform/1.0user-agent-et. - „A bejárt oldalak száma a vártnál kevesebb" — jelentős eltérés a sitemap és a crawl száma között, túl a 15%-os tűrésen (10-oldalas minimum). Egyes oldalak nem renderelődtek — nézd meg azokat egyenként böngészőben.
- „A crawl cancelled_due_to_timeout státusszal ért véget" — a Cloudflare crawler kifutott az időkereten egy nagyon nagy site-on. Szűkíts locale-ra, vagy bontsd több integrációra.
- „A crawl cancelled_due_to_limits státusszal ért véget" — az oldalszám meghaladta a Cloudflare kemény felső limitjét. Szűkíts path-prefixszel.