مهندسی معکوس الگوریتم رتبه بندی موتور جستجو

در سال 1997 من برخی تحقیقات در تلاش برای معکوس-مهندس الگوریتم های مورد استفاده توسط موتورهای جستجو است. در آن سال از آنهایی که بزرگ شامل AltaVista, Webcralwer, Lycos, Infoseek و چند نفر دیگر.

من تا حد زیادی قادر به اعلام تحقیقات من یک موفقیت است. در واقع آن چنان دقیق است که در یک مورد من قادر به نوشتن یک برنامه که تولید مشابه نتایج جستجو به عنوان یکی از موتورهای جستجو. این مقاله توضیح می دهد که چگونه من آن را انجام داد و چگونه از آن است که هنوز هم مفید امروز.

گام 1: تعیین Rankable صفات

اولین چیزی که به انجام این است که یک لیست از آنچه شما می خواهید برای اندازه گیری. من با حدود 15 های مختلف راه های ممکن برای رتبه بندی یک صفحه وب است. آنها شامل چیزهایی مانند:

– کلمات کلیدی در عنوان

– چگالی کلمه کلیدی

– کلید واژه فرکانس

– کلید واژه در هدر

– کلمه کلیدی در تگ ALT

– کلید واژه تاکید بر (ضخیم و قوی کج (ایتالیک))

– کلید واژه ها در بدن

– کلمه کلیدی در url

– کلمه کلیدی در دامنه یا زیر دامنه

– معیار های محل (تراکم در عنوان هدر بدن یا دم) و غیره

مرحله 2: ابداع یک کلمه کلیدی جدید

گام دوم این است که برای تعیین کلمه کلیدی که به آزمون. مهم این است که برای انتخاب یک کلمه که وجود ندارد در هر زبان بر روی زمین است. در غیر این صورت شما نمی خواهد قادر به جداسازی متغیر خود را برای این مطالعه است.

من استفاده می شود به کار در یک شرکت به نام تعاملی تصورات و سایت ما بود Riddler.com و مشترک المنافع شبکه. در آن زمان لغز بزرگترین سرگرمی وب سایت و CWN یکی از برترین سایت های قاچاق در شبکه (در 3 صفحه). من تبدیل به همکار کارول و ذکر من نیاز به یک کلمه جعلی. او به من داد “oofness”. من یک جستجوی سریع و آن را بر روی هر موتور جستجو.

توجه داشته باشید که یک کلمه منحصر به فرد نیز می تواند مورد استفاده قرار گیرد برای دیدن که کپی محتوا از وب سایت خود را بر روی خود را دارند. از آنجا که همه از من تست صفحات از بین رفته اند (برای سال های بسیاری در حال حاضر) یک جستجو در گوگل نشان می دهد برخی از سایت های که کپی صفحات من.

مرحله 3: ایجاد صفحات تست

نکته بعدی این بود که برای ایجاد صفحات را تست کنید. من از صفحه اصلی برای من در حال حاضر از بین رفته آمیگا موتور جستجو “Amicrawler.com” ساخته شده و حدود 75 کپی از آن. سپس شماره هر فایل 1.html, 2.html… 75.html.

برای هر اندازه گیری معیارهای من حداقل 3 فایل های html. به عنوان مثال برای اندازه گیری چگالی کلمه کلیدی در عنوان تغییر html عناوین اول 3 فایل شبیه به این:

1.html:

<title>oofness oofness</title>

2.html:

<title>oofness oofness oofness oofness</title>

3.html:

<title>oofness oofness oofness oofness oofness oofness</title>

فایل های html البته شامل بقیه از صفحه اصلی. من پس از آن به سیستم وارد شده در نوت بوک من که فایل های 1 – 3 بودند چگالی کلمه کلیدی در عنوان فایل های.

من مکرر این نوع از ویرایش html برای حدود 75 یا بیشتر فایل ها تا زمانی که من تا به حال هر معیار پوشش داده شده است. فایل ها پس از آپلود به وب سرور قرار می گیرد و در همان directoty به طوری که موتورهای جستجو می توانید آنها را پیدا کنید.

گام 4: صبر کنید برای موتورهای جستجو را به فهرست صفحات تست

بیش از چند روز آینده برخی از صفحات شروع به ظاهر شدن در موتورهای جستجو است. با این حال یک سایت مانند AltaVista ممکن است تنها نشان می دهد 2 یا 3 صفحه. Infoseek / Ultraseek در زمان انجام زمان واقعی نمایه سازی پس من رفتم برای تست همه چیز را حق دور. در برخی موارد من تا به حال به صبر چند هفته یا چند ماه برای صفحات نمایه گذاری می کنید.

به سادگی با تایپ کردن کلمه “oofness” خواهد آورد تا تمام صفحات ایندکس شده بود که آن کلمه در جهت رتبه بندی توسط موتورهای جستجو است. پس تنها من صفحات موجود است که کلمه من نمی خواهد به رقابت صفحات به اشتباه من.

گام 5: نتایج مطالعه

برای من تعجب اکثر موتورهای جستجو به حال بسیار ضعیف رتبه بندی روش. Webcrawler با استفاده از یک کلمه بسیار ساده تراکم سیستم به ثمر رساند. در واقع من قادر به نوشتن یک برنامه است که به همان نتایج موتور جستجو به عنوان Webcrawler. درست است که فقط آن را به یک لیست از 10 url و آن را به رتبه بندی آنها را در همان جهت به عنوان Webcrawler. با استفاده از این برنامه من را به هر یک از صفحات من رتبه #1 اگر من می خواستم به. مشکل این است که البته که Webcrawler نه تولید هر گونه ترافیک حتی اگر من ذکر شده در شماره 1 تا من را خسته نکنید با آن است.

آلتاویستا پاسخ با بیشترین تعداد کلمات کلیدی در عنوان html. این رتبه بندی یک صفحه چند راه در پایین اما من به یاد نمی آورند که معیار انجام شده بدترین. و بقیه رتبه بندی صفحات در جایی در وسط. همه در همه, AltaVista تنها در مورد مراقبت کلمات کلیدی در عنوان. هر چیز دیگری به نظر نمی رسد به ماده است.

چند سال بعد من تکرار این آزمایش با آلتاویستا و آن را بالا دادن اولویت به نام دامنه. بنابراین من اضافه شده یک wildcard به من DNS و وب سرور و قرار دادن کلمات کلیدی در زیر دامنه. Voila! همه صفحات من تا به حال #1 رتبه بندی برای هر کلمه کلیدی را انتخاب کردم. این البته منجر به یک مشکل… Competiting وب سایت نمی مانند از دست دادن موقعیت خود را بالا و انجام هر کاری برای حفاظت از رتبه بندی خود را هنگامی که آن را هزینه های آنها را در ترافیک.

روش های دیگر از تست موتورهای جستجو

من می خواهم به سرعت لیست برخی از چیزهای دیگر که می تواند انجام شود برای تست الگوریتم های موتورهای جستجو. اما این همه طولانی موضوعات مورد بحث.

من تست برخی از موتورهای جستجو از طریق آپلود بزرگ نسخه از فرهنگ لغت و هدایت هر گونه ترافیک به یک صفحه امن. من هم آنها را آزمایش توسط نمایه سازی مقادیر عظیم از اسناد و مدارک (در میلیون) در زیر صدها تن از نام های دامنه. من در بر داشت به طور کلی وجود دارد که تعداد بسیار کمی از سحر و جادو کلمات کلیدی که در اکثر اسناد و مدارک. این واقعیت باقی می ماند که چند کلمه کلیدی جستجو بار مانند “sex”, “بریتنی اسپیرز” و غیره در آورده ترافیک اما بیشتر نیست. از این رو اکثر صفحات هرگز مردم ترافیک.

اشکالاتی

متاسفانه وجود برخی اشکالاتی به ذکر شدن #1 برای تعداد زیادی از کلمات کلیدی است. من در بر داشت که آن را علامت بسیاری از افرادی که تا به حال رقابت وب سایت. آنها معمولا شروع به کپی کردن من برنده روش (مانند قرار دادن کلمات کلیدی در زیر دامنه) و سپس تکرار این روند خود را و سیل موتورهای جستجو با 100 بار صفحات بیشتر از 1 صفحه من تا به حال ساخته شده است. آن ساخته شده آن را بی ارزش به رقابت برای نخست کلمات کلیدی.

و دوم داده های خاص نمی تواند اندازه گیری شود. شما می توانید با استفاده از ابزار مانند الکسا برای تعیین ترافیک و یا گوگل site:domain.com برای پیدا کردن چگونه بسیاری از لیست دامنه است, اما مگر اینکه شما یک مقدار زیادی از این اطلاعات به اندازه شما نمی توانید هر قابل استفاده خوانش. چه خوب است که آن را برای شما به امتحان کنید و ضرب و شتم یک وب سایت برای یک کلمه کلیدی اصلی اگر آنها در حال حاضر میلیون ها نفر از بازدید کنندگان هر روز شما نیست و این بخش از رتبه بندی موتور جستجو?

پهنای باند و منابع می تواند تبدیل به یک مشکل. من تا به حال وب سایت های که در آن 75 درصد از ترافیک موتور جستجو عنکبوت. و آنها ناودان سایت من در هر ثانیه از هر روز برای ماه می باشد. من به معنای واقعی کلمه می توانید از 30000 بازدید از Google spider هر روز در علاوه بر این به دیگر عنکبوت. و بر خلاف آنچه آنها باور دارند که آنها را به عنوان دوستانه به عنوان آنها ادعا می کنند.

نقطه ضعف دیگر این است که اگر شما در حال انجام این کار برای یک شرکت, وب سایت شرکت, آن ممکن است به نظر نمی آید خیلی خوب است.

برای مثال شما ممکن است به یاد بیاورید چند هفته پیش زمانی که گوگل گرفتار شد با استفاده از سایه صفحات و البته ادعا کرد که آنها تنها “آزمون” صفحات است. راست. آیا گوگل هیچ dev سرور? هیچ مرحله بندی سرور? آنها به اندازه کافی هوشمند به سایه صفحات از کاربران عادی اما نه به اندازه کافی هوشمند برای پنهان کردن dev یا تست صفحات از کاربران عادی? آیا آنها نمیدانند که چگونه یک آدرس IP یا فیلتر کار می کند ؟ این صفحات باید در خدمت یک هدف و آنها نمی خواست اکثر مردم در مورد آن می دانیم. شاید آنها فقط آب و هوا بالون صفحات ؟

من به خاطر کشف برخی از صفحات است که قرار داده شد توسط یک داغ آنلاین & چاپ tech magazine (سیمی که ما را به دنیای دیجیتال) در موتورهای جستجو. آنها تا به حال قرار داده شده متعدد خالی صفحات فرود با استفاده از فونت و رنگ مطابق با پس زمینه که حاوی مقادیر زیادی از کلمات کلیدی خود را برای بزرگترین رقیب. شاید آنها می خواستند به پرداخت دیجیتال ادای احترام به CNET? این بود که احتمالا در سال 1998. در واقع آنها در حال اجرا مقالات در مورد چگونه از آن است که اشتباه را امتحان کنید و ترفند موتورهای جستجو و در عین حال آنها انجام آن را خود.

نتيجه گيری

در حالی که این روش خوبی برای یادگیری چند چیز در مورد موتورهای جستجو در کل من پیشنهاد ساخت این اساس برای وب سایت خود را ترویج. تعداد صفحات به رقابت در برابر کیفیت از بازدید کنندگان خود را شلیک-اولین ذهنیت موتورهای جستجو و بسیاری از عوامل دیگر ثابت خواهد کرد که وجود دارد راه های بهتر برای انجام ارتقاء وب سایت.

این روش را می توان مورد استفاده برای مهندسی معکوس محصولات دیگر. برای مثال زمانی که من مشغول به کار در Agency.com انجام آمار ما با استفاده از یک محصول ساخته شده توسط عمده میکرو نرم افزار شرکت (شما ممکن است با استفاده از یکی از آنها خوب سیستم عامل محصولات در حال حاضر) به تجزیه و تحلیل وب سرور سیاهههای مربوط. مشکل این بود که آن زمان بیش از 24 ساعت به تجزیه و تحلیل 1 روز ارزش سیاهههای مربوط به پس از آن هرگز تا به امروز است. کمی از سحر و جادو و کمی از پرل که قادر به تولید همان گزارش در 45 دقیقه به سادگی با تغذیه همان سیاهههای مربوط به هر دو سیستم تا زمانی که نتایج آمد همان و هر بیماری بود به خود اختصاص داده است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *