Microsoft: algoritmus a blogok felismerésére
December közepén hozták nyilvánosságra a Microsoft szabadalmát, melynek címe: Identifying a web page as belonging to a blog. A szabadalmazási kérelmet 2006 júliusában nyújtották be. A szövegből kiderül, hogy a Microsoft meg akarja különböztetni a blogokat a más jellegű weboldalaktól, és a találati listákban limitálni akarja a blogok számát. Ezt írja a Microsoft a szabadalom hátteréről:
“Blogging has grown rapidly on the internet over the last few years. Weblogs, referred to as blogs, span a wide range, from personal journals read by a few people, to niche sites for small communities, to widely popular blogs frequented by millions of visitors, for example. Collectively, these blogs form a distinct subset of the internet known as blogspace, which is increasingly valuable as a source of information for everyday users.
Search engines are increasingly implementing features that restrict the results for queries to be from blog pages. The website www.blogcensus.net gives information on an effort to index blogs, though this was apparently discontinued in late 2003. At that time, the site stated that it had indexed 2.8 million blogs. Currently, Technorati claims to be tracking 43.2 million blog sites. It is currently difficult for search engines to identify blog pages, regardless of the source of the content in a blog page.”
Leginkább az a kijelentés érdekes, hogy korlátozni akarják a blogok számát a találati listákban. Nem igazán érthető az oka, miért kellene mesterségesen beavatkozni az eredményekbe. Sokkal jobb lenne ezt a technológiát arra használni, hogy végre egy igazán jó blogkeresőt csináljon valaki!
Persze az, hogy a szabadalmat megadták, még nem jelenti azt, hogy a Microsoft a közeljövőben valóban használni is fogja ezt a megoldást. Ismeretes, hogy rengeteg olyan ötletet szabadalmaztatnak, amelyet végül nem használnak fel semmire.
Miről lehet felismerni egy blogot?
A következőkben néhány ismertetőjegy a szabadalom 16-20. bekezdéséből. Minél több feltételnek felel meg egy weboldal, annál biztosabb, hogy blogról van szó.
Domain/host: egy egyszerű felismerési lehetőség a blog hostneve. Ha az oldal egy ismert blogszolgáltató neve alatt működik, akkor szinte egészen biztos, hogy blogról van szó. Ilyenek például: MSN Spaces, Blogspot, Yahoo 360, LiveJournal, Typepad, Xanga, MySpace, Multiply, Wunderblogs.
Blog-nyelvezet: Az oldal tartalmában bizonyos szavak, kifejezések fordulnak elő. A szabadalomban az szerepel, hogy ha például az oldal tartalmazza a “Blogroll” vagy a “Metaphilter” kifejezéseket, akkor valószínűleg blogról van szó. Ezen kívül vannak további szavak, amelyek blogra utalnak. Minél többször fordulnak elő ezek a szavak, annál biztosabbak lehetünk a dolgunkban. Ezek a szavak például: blog, permalink, trackback, comment(s). Természetesen nem csak angolul, hanem minden nyelven figyelni kell a hasonló jelentésű szavakat.
Kimenő linkek: Az oldalon megjelenő kifelé mutató linkeket is elemzik. A movabletype.com, wordpress.org, illetve hasonló blogmotorokat kínáló oldalakra mutató linkek is bizonyítékként szolgálnak.
URL: Ha a “blog” szó az url-ben, illetve annak meghatározott részén szerepel, valószínűleg egy blog bújik meg az adott címen. Ez a bizonyos hely lehet pl. közvetlenül a domain mögött: pixelfolk.net/blog de akárhol az oldal címében nem: pixelfolk.net/artikel/123/blog-bekannt-machen
Feedek: Minden bloghoz tartozik rss- vagy atom-feed. Persze fordítva nem igaz, hiszen híroldalak, fórumok is nyomon követhetők rss segítségével, de ez is egy fontos szempont.
A kérdés persze az, hogy előnyös-e vagy hátrányos egy blog számára, ha blogként azonosítják, akár a Live keresőben, akár bármelyik másikban. Valószínűleg nem jelent gondot, de lehet, hogy mégiscsak érdemes tenni valamit annak érdekében, hogy ne lehessen felismerni a blogunkat. Néhány keresőoptimalizáló például azt jósolja, hogy a Google hamarosan leértékeli a WordPress alapú oldalakat, mert ezeket gyakran cikkgyűjteményként működtetik. Vagy egy szép napon arra ébred az ember, hogy egy blogkeresőből rengeteg látogató érkezik az oldalára, szóval mégsem érdemes titkolózni?
Forrás: Microsoft: Algorithmus zur Blog-Erkennung
