U3F1ZWV6ZTM0NDE4MTI4NjQ1MTI3X0ZyZWUyMTcxMzkzMTcxNDU0OQ==

ما هو ملف روبوت Robot.txt ؟ و كيف أقوم بإنشائه ؟

ما هو ملف robots.txt؟

ملف robots.txt هو ملف نصي يستخدم تنسيقًا دقيقًا يسمح لمدير الموقع بالتحكم في أي مناطق في موقعه يُسمح لروبوت الفهرسة بالفحص.
 سيكون هذا الملف النصي متاحًا على عنوان URL محدد لموقع معين ، على سبيل المثال http://www.mysite.com/robots.txt
لفهم ما هو ملف robots.txt تمامًا ، تحتاج إلى فهم كيفية عمل فهرسة محركات البحث (التي تُعرف أيضًا باسم العناكب على الويب أو برامج زحف الويب أو برامج الروبوت) مثل Google أو Yahoo أو Bing. فيما يلي إجراءاتهم عند تحليل موقع مثل www.mysite.com:
يبدأون بتنزيل الملف http://www.mysite.com/robots.txt وتحليله.
يقومون بتحليل قواعد هذا الملف لمعرفة عناوين URL المسموح لهم بتنزيلها
إذا سمح ملف robots.txt بذلك ، فسيقومون بتنزيل جذر الموقع ، أي عنوان URL http://www.mysite.com/
يقومون بتحليل محتوى هذه الصفحة ويستخرجون منها قائمة الروابط الداخلية التي تحتوي عليها.
يتم تنزيل كل هذه الروابط الداخلية بدورها (إذا كانت قواعد ملف robots.txt لا تقوم بترشيحها) ، والروابط الداخلية المستخرجة منها
بشكل متكرر يتم تنزيل كل هذه الروابط وتحليلها (إذا كانت جديدة) ، حتى لا يتمكن الروبوت من العثور على المزيد.
من المهم أن نفهم أن ملف robots.txt ليس وسيلة لتأمين موقعك. سينظر أي روبوت "حسن التصرف" في هذا الملف لعدم قيامه بتنزيل عناوين URL غير المرغوب فيها من قِبل مشرف الموقع. لكن أي روبوت "تم رفعه بشكل سيء" - على سبيل المثال ، المنافس الذي يريد أن يطمح إلى موقعك ، ليس عليه التزام فني في الاعتبار. من الواضح أن جميع الروبوتات في محركات البحث الرئيسية (Google و Yahoo و Vista) مرفوعة بشكل جيد. 

هل أحتاج إلى ملف robots.txt لموقعي؟

ليس من الضروري على الإطلاق أن يكون لدى موقع ويب ملف robots.txt. إذا لم يكن هناك أي شيء ، فسيتم تحليل جميع عناوين URL التي يمكن أن يجدها الروبوت.
لمعرفة ما إذا كنت بحاجة إلى ملف robots.txt على موقعك ، اسأل نفسك هذا السؤال البسيط: هل هناك أي مناطق غير آمنة على موقعك لا ترغب في رؤيتها في نتائج البحث مثل Google و Yahoo و Bing ... إذا كان الجواب نعم ، فأنت بحاجة إلى ملف robots.txt. خلاف ذلك ، أنها ليست مفيدة.

كيفية إنشاء ملف robots.txt؟

لإنشاء ملف robots.txt ، من الأفضل استخدام معالج نص بسيط جدًا مثل Blocnote أو Textedit أو Notepad.
يحتوي ملف robots.txt على مجموعة من القواعد. يتم تعريف القاعدة بثلاثة قيم:
وكيل المستخدم:
 من هو القاعدة؟
(جميع برامج الروبوت ، Google فقط ، Bing فقط ...)
السماح / عدم السماح:

هل هذه قاعدة تسمح أو على عكس ذلك بتصفية بعض عناوين URL؟

التعبير المنتظم لعنوان URL: أي عناوين URL للموقع هي القاعدة؟

لإنشاء ملف robots.txt ، يمكنك إما إنشاء الملف يدويًا أو استخدام أداة لإنشاءه تلقائيًا. إذا كنت بحاجة إلى ملف robots.txt ، فإن Yakaferci تنصح بإنشائه يدويًا.
ما لم يكن لديك مستوى تقني جيد ، لا نوصي بإنشاء ملف robots.txt شديد التطور. سببين لهذا:
كلما كان ملف robots.txt الأكثر تعقيدًا ، كلما زاد احتمال الخطأ. ويمكن أن يكون للخطأ نتيجة كارثية: لن يتم الرجوع إلى صفحاتك العامة بواسطة Google!
إذا كنت تريد استخدام التعبيرات العادية المعقدة لعناوين URL ، فاعلم أن بعض الروبوتات فقط (Googlebot على وجه الخصوص) يمكنها تفسيرها بشكل صحيح. لذا فإنك تخاطر بسوء فهم الآخرين.
مثال ملف robots.txt
فيما يلي مثال لملف robots.txt:
# bloque l'indexation des images pour les robots User-agent: * Disallow: /*.jpg$ Disallow: /*.png$ Disallow: /*.gif$ Disallow: /images/ Allow: /
 يمنع هذا المثال الروبوتات من تنزيل جميع الصور من موقعك (كل مجلد الصور ، كل شيء ينتهي بـ .jpg ، .pgn ، .gif). كل شيء آخر مسموح به.

Google و robots.txt

لا توجد مواصفات رسمية لتنسيق ملف robots.txt. وُلد هذا التنسيق من المناقشات التي دارت بين علماء الكمبيوتر في التسعينيات ولم يتم إضفاء طابع رسمي عليها.
في قواعد المنشأ ، تمت قراءة قواعد Disallow / Allow من أعلى إلى أسفل. تم أخذ القاعدة الأولى المتطابقة في الاعتبار.
ولكن في الممارسة العملية ، كتب العديد من مشرفي المواقع ملف robots.txt بشكل سيئ ، على سبيل المثال بهذه الطريقة:
User-agent: * Allow: / Disallow: /images/
 من الناحية النظرية ، في هذا المثال ، يُسمح بعناوين URL التي تبدأ بـ / image / لأن التوجيه "Allow: /" أعلى من "Disallow: / images /". ومع ذلك ، يمكننا أن نرى أن نية مشرف الموقع كانت منع الفهرسة / الصور /
لهذا السبب قامت Google بتكييف robots.txt في إدارتها لتتصدر أدق القواعد المطابقة لعنوان URL. على سبيل المثال ، عنوان URL /images/logo.png أقرب إلى / images / من /. لذلك ستأخذ Google في الاعتبار قاعدة "Disallow: / images 

فيما يلي مثال لملف robots.txt:

# bloque l'indexation des images pour les robots User-agent: * Disallow: /*.jpg$ Disallow: /*.png$ Disallow: /*.gif$ Disallow: /images/ Allow: /
 يمنع هذا المثال الروبوتات من تنزيل جميع الصور من موقعك (كل مجلد الصور ، كل شيء ينتهي بـ .jpg ، .pgn ، .gif). كل شيء آخر مسموح به.
كان هذا منشورنا  حول شرح ملف robot.txt وذا أعجبك الموضوع للا تنسى  مشاركته مع اصدقائك.
ليست هناك تعليقات
إرسال تعليق

إرسال تعليق

الاسمبريد إلكترونيرسالة