راهنمای جامع سئو برای موتورهای جستجو
جستجوی گوگل یک موتور جستجوی کاملاً خودکار است که از نرمافزاری به نام خزندههای وب (web crawlers) استفاده میکند که به طور منظم وب را برای یافتن صفحاتی برای افزودن به فهرست گوگل جستجو میکند. در واقع، اکثر صفحات فهرست شده در نتایج گوگل به صورت دستی برای ایندکس شدن ارسال نمیشوند، بلکه بهطور خودکار زمانی که خزندههای گوگل، وب را کاوش میکنند، پیدا و اضافه میشوند. در این صفحه مراحل عملکرد جستجوی گوگل را در مورد سایت خود میتوانید بخوانید. با دانستن این مراحل میتوانید اگر مشکلی از سمت سایت شما برای دیده شدن توسط گوگل وجود دارد برطرف کنید، صفحات خود را ایندکس کنید، و یاد بگیرید که چگونه سایت خود را در جستجوی گوگل بهینه کنید.
قبل از این که جزئیات عملکرد جستجوی گوگل را توضیح دهیم لازم است یادآور شویم که گوگل هیچ گونه پولی را به ازای خزیدن بیشتر سایت شما یا رتبهدهی بالاتر، از شما قبول نمیکند و اگر کسی خلاف این را به شما گفته است، اشتباه گفته است.
گوگل هیچ تضمینی نمیدهد که سایت یا صفحه شما را بخزد (کراول کند) یا آن را فهرست کند یا حتا به آن خدماتی دهد. حتا اگر سایت شما تمام ضروریات جستجوی گوگل را نیز رعایت کرده باشد.
جستجوی گوگل در سه مرحله کار میکند ولی همه صفحات از هر ۳ مرحله عبور نمیکنند:
اولین مرحله این است که بدانیم چه صفحاتی در وب وجود دارند. به دلیل این که هیچ مرجع برای ثبت تمام صفحات وب وجود ندارد، بنابراین گوگل باید دائماً به دنبال صفحات جدید و به روز شده بگردد و آنها را به لیست صفحات شناخته شده خود اضافه کند. گوگل به این فرآیند "URL discovery" میگوید. برخی از صفحات به این دلیل شناخته شدهاند که گوگل قبلاً از آنها بازدید کرده است. صفحات دیگر زمانی کشف میشوند که گوگل لینکی را از یک صفحه شناخته شده به یک صفحه جدید دنبال میکند: برای مثال، یک صفحه اصلی، مانند صفحه فهرست، به یک پست جدید از یک وبلاگ لینک داده است. همچنین وقتی شما یک نقشه سایت (sitemap) را برای گوگل ارسال کنید، گوگل میتواند صفحات دیگری را نیز کشف کند.
وقتی گوگل URL یک صفحه را کاوش میکند یعنی آن صفحه را میبیند (یا میخزد) تا ببیند داخل آن چیست. گوگل برای این منظور از مجموعه عظیمی از کامپیوترها استفاده میکند تا روزانه بتواند میلیونها صفحه را در وب کاوش کند. نرمافزاری که این کار عظیم را انجام میدهد گوگل بات (Googlebot) یا ربات گوگل نامیده میشود (به نامهای خزنده (crawler)، ربات (robot)، بات (bot)، یا عنکبوت (spider) نیز ممکن است نامیده شود). گوگل بات برای این که بفهمد کدام سایتها را باید بخزد یا این که کدام صفحه را چند وقت یک بار و چند صفحه از هر سایت را باید بررسی کند، از الگوریتم پیچیدهای استفاده میکند. خزندههای گوگل (Google's crawlers) نیز به گونهای برنامهریزی شدهاند که سعی میکنند به هر سایت آنقدر سریع و زیاد مراجعه نکنند که به سرورهای آن فشار زیادی وارد شود. این مکانیزم بر اساس پاسخهایی خواهد بود که از سرور هر سایت دریافت میشود (برای مثال خطای HTTP 500 یعنی یواشتر!)
با تمام این احوال گوگل تمام صفحههایی که پیدا میکند را نمیخزد (کراول نمیکند) چرا که برخی به علت عدم اجازه برای خزیدن و برخی دیگر به علت داشتن صفحه ورود امکان خزیدن توسط گوگل را ندارند.
گوگل در حین خزیدن یک صفحه، با استفاده از آخرین نسخه کروم آن را رندر (renders) میکند تا تمام کدهای جاوااسکریپت آن اجرا شوند، چیزی کاملا شبیه به تجربه کاربر. رندر کردن هر صفحه بسیار مهم است چرا که امروزه اغلب محتوای صفحات اینترنت توسط جاوا اسکریپت لود میشوند و بدون آن ممکن است گوگل نتواند همه محتوا را ببیند.
خزیدن یا کراولینگ هر سایت بستگی به این دارد که آیا خزندههای گوگل میتوانند به آن سایت دسترسی داشته باشند یا خیر. برخی از مشکلات رایج در دسترسی گوگل بات (Googlebot) به یک وبسایت عبارتند از:
گوگل پس از این که یک صفحه را خزید (کراول کرد) سعی می کند بفهمد که آن صفحه در مورد چه چیزی است. این مرحله را
فهرست سازی یا (indexing) میگوییم. ایندکس کردن یک صفحه توسط گوگل شامل پردازش و تجزیه و تحلیل محتوای متنی و تگها
و صفات کلیدی تگها میباشد، مانند
تگ <title>
و صفت alt،
تصاویر،
ویدیوها و غیره.
در طول فرایند فهرست سازی، گوگل تکراری بودن یا کنونیکال (canonical) بودن یک صفحه را مشخص می کند. یک صفحه کنونیکال (canonical) از نظر گوگل صفحهای است که باید در نتایج جستجو نمایش داده شود. گوگل برای انتخاب صفحههای کنونیکال یا اصیل، ابتدا تمام صفحات مشابهی را که پیدا میکند گروهبندی میکند و در یک گروه قرار میدهد، (که به عنوان خوشهبندی نیز شناخته میشود) و سپس از بین هر گروه، صفحهای که بیشتر نماینده آن گروه است را انتخاب میکند. صفحات دیگر هر گروه نسخههای جایگزینی خواهند بود که ممکن است در زمینههای مختلف دیگری ارائه شوند. مثلا وقتی کاربری با موبایل جستجو میکند یا وقتی کاربری دنبال صفحهای بسیار خاص از آن خوشه میگردد.
گوگل همچنین سیگنالهای دیگری را نیز از صفحات کنونیکال جمعآوری میکند که در مراحل بعد، مثلا هنگام ارائه نتایج جستجو، از آنها استفاده میکند. برخی از این سیگنالها شامل زبان صفحه، کشور و موقعیت زمانی، کاربردها و ویژگیهای صفحه و غیره است.
تمام اطلاعات جمعآوری شده توسط گوگل در مورد صفحات کنونیکال و خوشهبندی آنها، ممکن است در دیتابیس عظیم گوگل ذخیره شوند و ممکن است ذخیره نشوند. گوگل هیچ وقت تضمین نمیکند که تمام صفحات وبی را که پردازش میکند ایندکس نماید.
ایندکس شدن هر صفحه به محتوای آن و به ابر داده یا متا دیتا (metadata) آن بستگی دارد. برخی از مشکلات رایج ایندکس نشدن صفحات از این قرارند:
meta
رباتها از ایندکس شدن یک صفحه جلوگیری میکنند
هنگامی که کاربر درخواستی برای یک جستجو را وارد میکند، گوگل در میان فهرست عظیم خود به دنبال صفحات منطبق با آن جستجو میگردد و نتایجی را که بالاترین کیفیت و ارتباط را با درخواست کاربر دارند به او برمیگرداند. این ارتباط بر اساس صدها فاکتور از جمله مکان کاربر، زبان و دستگاه (موبایل یا دسکتاپ) کاربر تعیین میشود. برای مثال، جستجوی «تعمیرگاههای دوچرخه» برای دو کاربر که یکی در پاریس و یکی در هنگکنگ باشند، نتایج متفاوتی در بر خواهد داشت.
بر اساس درخواست کاربر، ویژگیهای جستجو که در صفحه نتایج جستجو ظاهر می شود نیز تغییر میکنند. برای مثال، جستجوی «تعمیرگاههای دوچرخه» احتمالاً نتایج محلی و بدون نتیجه تصویری را نشان میدهد ، اما جستجوی «دوچرخه مدرن» به احتمال زیاد نتایج تصویر را نشان میدهد، اما نتایج محلی را نشان نمیدهد. میتوانید رایجترین عناصر رابط کاربری جستجوی وب گوگل را در مجوعه عناصر بصری گوگل بگردید.
گوگل سرچ کنسول ممکن است به شما بگوید یک صفحه در گوگل ایندکس شده است ولی شما همچنان نتوانید آن را در نتایج جستجوی گوگل ببینید. دلایل ممکن از این قرار است:
meta
رباتها از ارائه آن صفحه جلوگیری میکنند
گوگل همواره در حال تغییر و بهبود الگوریتم جستجوی خود است و آخرین تغییرات این الگوریتم را میتوانید در وبلاگ اصلی گوگل بخوانید.