Weboldal

A Weboldal tartalomforrás egy teljes oldalt beolvasó integráció. Megadsz egy domaint vagy egy nyelvre szűkített URL-t, az EchoAI pedig a sitemap alapján felfedezi az aloldalakat, valódi böngészőben betölti mindet, kivonja a fő tartalmat, és beépíti az asszisztensed tudásbázisába. Működik egyszerű oldalakon, dinamikus (JavaScript-tel épülő) oldalakon, webshop-platformokon és többnyelvű boltokon is.

Mikor ezt válaszd

Publikus weboldalad van sok aloldallal, és mindet be akarod tenni az asszisztensed tudásbázisába.
Az oldal nem WordPressen vagy Frameren fut — azokhoz külön integráció tartozik.
Olyan modern, dinamikus oldalad van, ahol a tartalom csak a böngészőben jelenik meg — az EchoAI valódi böngészőben tölti be, így ezt is helyesen beolvassa.
Többnyelvű webshopod van (PrestaShop, Magento, Shopify nyelvi változatok), és csak az egyik nyelvet akarod beolvasni.

Hogyan működik

Három szakaszból áll: felfedezés, ellenőrzés, beolvasás.

Felfedezés. Az EchoAI megkeresi az oldalad sitemapjét (az oldaltérképet, amely felsorolja az aloldalakat), és összegyűjti belőle az összes aloldalt. A különböző webshop- és CMS-rendszerek eltérő sitemap-formátumait is kezeli.
Ellenőrzés. Az EchoAI megszámolja a felfedezett aloldalakat, és összeveti azzal, hogy mennyi fér bele a csomagod tartalomkeretébe. Ha a beolvasás túllépné a keretet, már a beolvasás előtt szól — így nincs felesleges munka.
Beolvasás. Az EchoAI valódi böngészőben tölti be az oldalakat, kivonja a fő szöveget a hozzá tartozó adatokkal (cím, borítókép, leírás), és beépíti a tudásbázisba. Minden aloldalból egy tartalom lesz az asszisztensben.

A beolvasás a háttérben fut, neked nem kell várnod rá. Az integráció kártyája mutatja, hogy éppen tart-e, elkészült-e, vagy hibára futott, a vezérlőpult tetején pedig értesítő sáv jelzi, amíg dolgozik. Egy átlagos oldal 1–10 perc alatt elkészül; egy nagyon nagy katalógus tovább tarthat.

Haladó: hol keresi a sitemapet

Technikai részlet, ha érdekel: az EchoAI ebben a sorrendben keresi a sitemapet — a robots.txt Sitemap: sora → /sitemap.xml → /sitemap-index.xml → /sitemap_index.xml. Az egyszerű listákat és a több sitemapre mutató indexeket egyaránt kezeli, a speciálisan csomagolt (CDATA) URL-eket is.

Az oldalakra linkelt PDF-ek

A beolvasott oldalakon talált PDF-linkeket az EchoAI automatikusan beolvassa — külön nem kell feltöltened őket. A beolvasó a betöltött oldalakon megkeresi a .pdf-re mutató hivatkozásokat, letölti a dokumentumokat (biztonsági ellenőrzéssel), kinyeri belőlük a szöveget, és külön tartalomként veszi fel őket a tudásbázisba.

PDF típusa	OCR (képből szöveg)	Mi történik
Szövegréteggel rendelkező (legtöbb) PDF	Nem kell	A szöveget közvetlenül kinyerjük a fájlból.
Beszkennelt / csak képet tartalmazó PDF	Automatikus	Mivel nincs szövegréteg, OCR-rel olvassuk ki a szöveget, majd egy javító lépéssel rendbe tesszük a tulajdonneveket.

A linkelt PDF-ek ugyanúgy beleszámítanak a csomagod tartalomkeretébe, mint az aloldalak. Ha kézzel kikapcsolsz egy beolvasott PDF-et a könyvtárban, az újraszinkronizálás nem kapcsolja vissza. Egy menetben legfeljebb 100 linkelt PDF kerül be; a túl nagy (10 MB feletti) vagy 50 oldalnál hosszabb fájlokat kihagyjuk.

És a kézi PDF-feltöltés?

Az OCR csak ezen a beolvasási úton fut — a kézi PDF-feltöltés nem futtat OCR-t, ott a fájlnak kell szövegréteget tartalmaznia.

Miben tér el a hasonló forrásoktól

vs. URL kézi feltöltés — az URL egyetlen oldalt olvas be; a Weboldal a sitemap alapján az összes aloldalt. A Weboldal forrás valódi böngészőben tölti be az oldalakat, így a dinamikus, JavaScript-tel épülő oldalakat is jól kezeli. 1–5 oldalhoz válaszd az URL-t, egész weboldalhoz a Weboldal forrást.
vs. WordPress — a WordPress a REST API-t és webhookokat használ a valós idejű szinkronizáláshoz. A Weboldal forrás újrabeolvasással frissít. Ha WordPress-oldalad van, használd a WordPress integrációt.
vs. Framer — az EchoAI automatikusan felismeri a Framer-oldalakat akkor is, ha Weboldalként adod meg, és csendben átvált a Framer feldolgozásra. Nem kell külön kiválasztanod.

Beállítás lépésről lépésre

Nyisd meg a Tartalomforrások oldalt a vezérlőpult szinkronizált források szekciójából.
Kattints a Forrás hozzáadása gombra, és válaszd a Weboldal típust.
Add meg a weboldal URL-jét. Egész oldalhoz a főoldalt használd (pl. https://example.com), egy nyelvre szűkítéshez pedig egy útvonal-előtaggal ellátott URL-t (pl. https://example.com/hu).
Válaszd ki, melyik asszisztens kapja a beolvasott tartalmat.
Küldd el. Az EchoAI ellenőrzi a sitemapet, összeveti a tartalomkereteddel, és a háttérben elindítja a beolvasást.

Az integráció kártyáján követheted az állapotot. Később az újraszinkronizálással frissítheted a tartalmat.

Többnyelvű és nagy katalógusok

Ha az oldalad többnyelvű sitemap-indexet használ (nyelvenként egy beágyazott sitemap), az EchoAI egyetlen nyelvre szűkítheti a beolvasást.

Adj meg útvonal-előtagot — például https://shop.example.com/hu a csupasz domain helyett. Az EchoAI kinyeri az útvonal-előtagot, és a sitemapet csak a /hu-val kezdődő URL-ekre szűri.
Pontos illesztés — a szűrő egész útvonalszakaszokra illeszt: a /hu beengedi a /hu és a /hu/bármi címeket, de a /hungarian-t soha.
A böngésző is csak ezt tölti be — ugyanez a szűrő érvényes a beolvasásra is, így a rendszer nem pazarol időt a kihagyandó címekre.
Automatikus ráhagyás — az EchoAI kicsivel nagyobb kerettel indít, hogy beleférjenek azok a címek, amelyeket a böngésző menet közben jogosan kihagy (megszűnt oldalak, átirányítások, ismétlődések). Ezzel neked nincs dolgod.
Beolvasás ellenőrzése — a végén az EchoAI összeveti, hány oldalt olvasott be ténylegesen, és mennyi szerepel a sitemapben. Ha túl nagy a különbség, szól, hogy utánanézhess (néhány oldal kimaradása normális, csak a jelentős eltérés érdekes).

Tartalék viselkedés

Ha az útvonal-előtagos szűrő minden URL-t kizárna a sitemapből, az EchoAI inkább a szűretlen listát olvassa be, mintsem hogy „nincs oldal" hibát adjon. Jobb a bővebb találat, mint a félrevezetően üres eredmény.

Gyakori hibák és megoldások

Hibaüzenet	Állapot	Megoldás
„Nem található sitemap"	Sikertelen	Az EchoAI egyik szokásos helyen sem talált sitemapet. A legtöbb CMS és webshop alapból készít sitemapet; ellenőrizd, hogy be van-e kapcsolva, és nyilvánosan elérhető-e.
„A sitemap megvan, de nincs benne oldal"	Sikertelen	A sitemap fájl beolvasódott, de egyetlen `<loc>` bejegyzés sincs benne. Nyisd meg a sitemapet a böngésződben, és ellenőrizd a tartalmát.
„Megtelt a tartalomkereted"	Sikertelen	A sitemap több oldalt tartalmaz, mint amennyit a csomagod tartalomkerete megenged. Szűkíts egy nyelvre az útvonal-előtaggal, törölj tartalmat a felszabadításhoz, vagy válts nagyobb csomagra. A tartalomkeret nem havi: nem nullázódik, csak tartalom törlésével szabadul fel hely.
„Nem sikerült ellenőrizni a weboldalt"	Sikertelen	A főoldal vagy a sitemap nem válaszolt elég gyorsan. Próbáld újra, vagy ellenőrizd, hogy a szervered nem tiltja-e az EchoAI beolvasójának kéréseit.
„A beolvasott oldalak száma a vártnál kevesebb"	Részleges	A sitemapben szereplőnél érezhetően kevesebb oldal jött be. Néhány oldal nem töltődött be rendesen — nyisd meg azokat egyenként a böngésződben, és ha kell, szinkronizálj újra.
„A beolvasás időtúllépés miatt megszakadt"	Sikertelen	A beolvasó kifutott az időkeretből egy nagyon nagy oldalon. Szűkíts egy nyelvre, vagy bontsd több integrációra.
„A beolvasás a túl sok oldal miatt megszakadt"	Sikertelen	Az oldalszám meghaladta a beolvasó felső határát. Szűkíts az útvonal-előtaggal.