٢٧‏/١٠‏/٢٠٠٩

مجموعة صور ،،،،





















































٢٣‏/٠٤‏/٢٠٠٩

تطورات تقنية في عالم الترجمة


تطورات تقنية في عالم الترجمة



ينوي جوجل كسر حواجز اللغات الأجنبية أمام غير الناطقين بها على الويب خلال عمليات البحث بغرض إتاحة كل معلوم الويب بغض النظر عن اللغة التي تتوفر فيها أصلا. وطرحت غوغل مؤخرا خدمة نظام الترجمة الذي تعمل على تطويره حاليا وقد وصل إلى المرحلة التجريبية بيتا . واعتمد تطوير التقنية على مواد مترجمة ضخمة مع تلك المواد ذاتها باللغة الأصلية في موقع الأمم المتحدة وهي متاحة للجميع (20 مليار كلمة) وقد قام بها مترجمون محترفون على مدى سنوات عديدة. وكان هدف ذلك تجميع كم كبير من النصوص الأصلية وترجمتها للحصول على احتمالات إحصائية لتدريب البرنامج على الترجمة الدقيقة وبناء قواعد الترجمة فيه بين تلك اللغات. وتعتمد عادة إحدى طريقتين في تطوير برامج الترجمة، فهناك الترجمة الإحصائية statistical translation (كما هو الحال مع نظام جوجل، والترجمة وفق القواعد rules-based، أي النحوية التي يتعرف البرنامج فيها على صيغ الفعل والاشتقاقات وزمن الفعل إلخ، كأن يقول المبرمج عند تصميم برنامجه:" عند ورود هذه الكلمة في نص اللغة العربية استبدله بهذه الكلمة باللغة الإنكليزية بهذه الحالة". ورغم فعالية هذه الطريقة إلا أنها تستغرق وقتا طويلا وعملا معقدا في قواعد اللغتين لجعل برنامج الترجمة الآلية يقدم دقة معقولة عند ترجمة النصوص والتي يبقى فيها أخطاء عديدة. بينما تعتمد طريقة التحليل الإحصائي statistical analysis أي الأنماط اللغوية المحتملة للعبارات والكلمات المختلفة. على الموقع:http://translate.google.com/translate_t
يتم تغذية برنامج الترجمة الآلية بهذا الأسلوب بكمية هائلة من المواد المترجمة مع النصوص باللغة الأصلية المترجم عنها لتتم عملية الاكتساب التلقائي للمعرفة automatic knowledge acquisitionووفقا لـ ياروسكي أحد الباحثين في جامعة جون هوبكنز، فلكي يتدرب البرنامج على ترجمة اللغة العربية عليك بتغذيته بحوالي 100 ألف جملة بالإنكليزية مع 100 ألف جملة مقابل لها بالعربية ليتبين البرنامج ترجمة كل كلمة في هذه الجمل، فإذا ترددت كلمة ما لتكن صخرة في2000 جملة عربية، وإذا ترددت كلمة rock في ذات العدد من الجمل الإنكليزية وفي نفس المواضع فسيتعرف البرنامج أن rock هي مقابل لكلمة صخرة.ومن جهة أخرى، عرضت شركة روافد في جناحها في معرض جيتكس السعودية برنامج ترادوس الخاص بذاكرة الترجمة والذي يلاقي إقبالا كبيرا من قبل الجامعات ومراكز الأبحاث وشركات الترجمة والمستشفيات والجهات العسكرية ومدينة الملك عبد العزيز للعلوم والتقنية ، فما هو الأمر المميز في هذا الحل البرمجي؟أولا، لا بد من القول أن تقنية المعلومات هي أسلوب في التفكير يستدعي التخلص من الأعمال الروتينية التي يمكن أن تتولاها أنظمة تقنية المعلومات من كمبيوترات وبرامج. فلا طائل مثلا من ترجمة عبارة معقدة أو اصطلاح ثم العودة إليه والوقوف ثانية أمامه بعد فترة في محاولة لتذكر كيف تمت ترجمته. ولتلبية هذه الحاجة يبرز مفهوم ذاكرة الترجمة.
يقدم برنامج إس دي إل ترادوس SDL Trados أحد أهم حلول الترجمة بالاعتماد على ما يسمى ذاكرة الترجمة Translation Memory التي تخزن حصيلة عمليات الترجمة التي يتم تجميعها لتسهيل تدقيق وتحرير مهام الترجمة الجديدة بالاستناد إلى ما سبق ترجمته. يتميز حل ذاكرة الترجمة في تقديم سوية منتظمة لترجمة الاصطلاحات والعبارات المعقدة لتجاوز متاعب ترجمة نفس العبارة أو المصطلح بطريقة مختلفة من مترجم لآخر أو لدى ذات المترجم بين وقت وآخر، أي توحيد وثبات ترجمة المصطلحات. ويقول هشام موسى مدير قسم التدريب في معهد الروافد: " يقدم البرنامج تلقائيا المصطلحات من وإلى جميع اللغات مع قابلية إضافة مسارد مصطلحات جاهزة في تخصص محدد. وفي حال القيام بعمل ترجمة بصورة مشتركة من قبل عدة مترجمين يمكن تبادل ذاكرة الترجمة فيما بينهم لتسريع وتيرة العمل".ويمكن أن تضيف للبرنامج ما سبق لك ترجمته من نصوص لتجميع أكبر كم ممكن من الخبرات فيه. يقدم معهد الروافد دورات تدريبية على الترجمة باستخدام هذا البرنامج الذي تقدمه الشركة في الرياض في المملكة العربية السعودية بصفة فريدة إذ لا يتوفر في أي دولة عربية أخرى سوى السعودية ومقر الشركة في كندا.
تستخدم أدوات أو برامج ذاكرة الترجمة لتوحيد المصطلحات وزيادة سرعة وسوية الترجمة تتيح تقنية المعلومات تسريع العمل وزيادة الإنتاجية والدقة في مجالات عديدة مثل الترجمة. حيث تتوفر مواقع مثل عجيب وغيره لتقديم ترجمة آلية معقولة. وهناك برامج وأدوات كثيرة تعزز الإنتاجية وتسرع العمل في الترجمة مثل أدوات ذاكرة الترجمة translation memory التي تعتمدها مؤسسات وشركات وأفراد لتسريع ورفع كفاءة الترجمة. وتلبي ذاكرة الترجمة حاجات ملحة في مجال الترجمة، إذ أنها تقدم حلا تلقائيا لأتمتة مهام الترجمة. فبدلا من نسيان عبارات ومصطلحات وجمل سبق للمترجم تعريبها بطريقة معينة، في حال الترجمة للعربية على سبيل المثال، تقدم برامج وأدوات ذاكرة الترجمة حلا تقنيا لاقتراح الترجمة التي سبق اعتمادها. كما يمكن توزيع مدخلات قاعدة بيانات ذاكرة الترجمة لمجموعة من المترجمين، حيث يصبح عملهم منتظما يتم بصورة معيارية ذات سوية عالية وموحدة، بدلا من أن يعتمد كل واحد منهم عبارات مختلفة لترجمة ذات المصطلحات المتكررة لدى كل واحد منهم في عمله. وتشترط شركات وجهات عالمية عديدة وجود أدوات ذاكرة الترجمة لتنفيذ مشاريع الترجمة لديها للوصول إلى انتظام واصطلاحات موحدة للعمل النهائي. وتختلف أدوات ذاكرة الترجمة عن برامج الترجمة الآلية أو ما يدعى الترجمة بمساعدة الكمبيوتر Computer-assisted translation (CAT) . إذ أن ذاكرة الترجمة لا تتولى عملية الترجمة كليا بل تتولى تخزين الترجمة السابقة في قاعدة بيانات، وعند القيام بعمل ترجمة لنص جديد تقدم اقتراحات بالاستناد إلى الترجمة السابقة المخزنة في ذاكرة الترجمة. وهناك بعض المنتجات مثل ديجا فو Déjà Vu ، و ترادوس Trados، والتي تقدم مكونات إضافية إلى جانب أداة ذاكرة الترجمة مثل أدوات صيانة المصطلحات terminology maintenance وهي تطبيقات تساعد على بناء قائمة أو مسرد بالكلمات العسيرة مع شرح لها glossary ، وتتضمن هذه ترجمة ومعلومات أخرى نحوية وشرح يرتبط بالسياق إلخ. كما أن ذاكرة الترجمة تختلف عن أدوات الترجمة الآلية في أنها تساعد المترجم على تذكر ما مر معه (وهي ترجمة أو معنى اسم المنتج ديجا فو،( Déjà Vu التي تعني سبق أن شاهدت هذا) ومشاركة الآخرين فيه. ويساعد الكمبيوتر حينها في اقتراح ما سبق لك ترجمته أو ما سبق تقديمه وتخزينه في ذاكرة الترجمة، بينما يتولى المترجم بنفسه عملية الترجمة مع أو دون ترجمة آلية من الكمبيوتر. أما الترجمة الآلية فهي الاعتماد على برامج وأدوات أو خدمات مواقع الإنترنت لتنفيذ كامل عملية الترجمة. كما أن الترجمة الآلية Machine translation تحاول عمل مطابقة نحوية وأسلوبية وقواعدية للمفردات وترجمتها. وهناك ميزة ذكية في البرنامج وهي الاعتماد على الأمثلة في الترجمة example-based، حيث يزيد ذلك من قدرة مطابقة العبارات المخزنة في الذاكرة مع تلك التي يراد ترجمته بصورة صحيحة، ومثلا رغم وجود اختلاف في تصريف الفعل، يقوم البرنامج بتقديم الخيار الصحيح إن وجد. ويتعامل البرنامج مع أنساق ملفات عديدة حتى تلك من المنتجات المنافسة له مثل ملفات ترادوس Trados Workbench RTF/DOC وملفات Trados BIF و TTX، فضلا عن كل الملفات المتوافقة مع معيار SGML/XML، ويجري تبادل ذاكرة الترجمة بين البرامج المتنافسة من خلال نسق تبادل ذاكرة الترجمة TMX (Translation Memory Exchange)، بما فيها Trados Workbench text. ولا يمكننا القول أن استخدام البرنامج كان سهلا تماما، إلا أن توفر معالجات المساعدة Wizardsجعل من العمل أكثر سهولة أمامنا. ورغم أن البرنامج لا يحتاج إلى برامج أخرى إلا أننا قمنا بتوريد وتصدير ملفات وورد وإكسل وباور بوينت منه وإليه لتعمل في واجهة الاستخدام بكل سهولة. يدعم ديجا فو كل اللغات التي يوجد لها دعم في نظام التشغيل ويندوز إكس بي، سواء كانت لغة مصدر الترجمة أو لغة الترجمة النهائية، حيث أنه يدعم معيار يونيكود وبالتالي اللغة العربية التي تكتب من اليمين إلى اليسار. ويمكن ربط البرنامج بالمدقق الإملائي في مايكروسوفت وورد. وتتوقف قيمة وفائدة برامج ذاكرة الترجمة على ما يتم إدخاله فيها من خلال الترجمة أو توريد مواد جاهزة لذلك الغرض من برامج أخرى أو الاستفادة aligning من أعمال الترجمة الموجودة والتي تم إنجازها. وهناك إصدارات مختلفة من ديجا فو، فمثلا هناك إصدار للمترجم المستقل الذي يعمل بصورة فردية، وإصدار لفريق عمل صغير وإصدار لمجموعة عمل ضخمة في شركة كبيرة مختصة بالترجمة أو لديها قسم لها. ترادوس منتجات ذاكرة الترجمة تقدم بعض المنتجات مثل TRADOS 6 Freelance ، خيارات متقدمة للعمل في الترجمة، حيث يتيح تسريع ةورفع كفاءة العمل لدى المترجمين المستقلين من خلال دعم مزايا متطورة. ومن هذه هناك الفلاتر (لتجهيز الملفات لذاكرة الترجمة) واستخلاص العبارات من تطبيقات خاصة legacy translation mining. أما لتلبية حاجات الشركات الضخمة للترجمة ومتطلبات العولمة فهناك منتج خاص اسمه TRADOS TM أما للشركات المتوسطة فهناك منتج TRADOS TM Server وهو إصدار لبيئة خادم ومستفيد client/server لبناء ذاكرة ترجمة تقبع في خادم بيانات لتزويد قاعدة بيانات للشبكة بغض النظر عن عدد المستخدمين في ذات الوقت. وتتضمن حزمة البرنامج تطبيق يدعى TagEditor لتحرير وترجمة ملفات من نوع HTML/XML/SGML/ASP/JSP و FrameMaker و PageMaker. أما تطبيق WinAlign فهو يتولى توليد ذاكرة ترجمة من الأعمال التي إنجزت ترجمتها سابقا. ويمكن لهذا التطبيق إنجاز العمل في عشرين ملف في ذات الوقت وهناك أدوات فلاتر وتطبيقات تحويل تسمح باستخدام وتحويل ملفات النشر المكتبي مثل كوارك اكسبريس وفريم ميكر وانتر ليف وبيج ميكر وإنديزاين وفنتورا. الحلول الرخيصة هناك طرق سهلة لتلبية حاجات المترجمين المستقلين الذين لا يمكنهم شراء منتجات بأسعار باهظة كهذه الواردة هنا. ويمكن مثلا الاعتماد على مزايا برنامج وورد في مايكروسوفت أوفيس، للوصول إلى حل مماثل لبرامج ذاكرة الترجمة. إذ تتيح ميزة النص التلقائي autocorrect ( ضمن خيار autuotext ( تحت قائمة إدخال INSERT إضافة عبارات واستبدالها بمجرد طباعتها تلقائيا بالترجمة المرغوبة. ومثلا، وبمجرد طباعةUSB يقوم ورد باستبدالها بعبارة (الناقل العام USB ( ويستبدل وورد لدي تلقائيا عبارةFSB ، بـ" ناقل النظام الأمامي FSB " فإذا قام مترجم بعمل مجموعة كبيرة من هذه المدخلات على أنها ذاكرة ترجمة، يمكنه إرسالها بالطريقة التالية، (سبق تقديمها في حلول ويندوز العدد الماضي) لكمبيوترات ومستخدمين آخرين لتوحيد الترجمة. فبعد إدخال الاصطلاحات بالإنكليزية كما هي مع ترجمتها المطلوبة إدخالها، يجب النقر على زر إضافة، لتنضم إلى القائمة، ليستبدلها البرنامج أثناء الكتابة، ويمكن نقلها إلى كمبيوتر آخر بواسطة أداة تقدمها مايكروسوفت اسمها AutoCorrect utility لنسخ هذه البيانات من ملفها إلى مجلد في الكمبيوتر الثاني، ويجب تثبيتها على كمبيوتر المصدر وكمبيوتر المقصد. وهي ماكرو ملحق لورود Word 2000 Supplemental Macros يمكن تنزيلها من الموقع: http://office.microsoft.com/downloads/2000/supmacros.aspx وبعد تنزيل الملف وهو Macros.exe، قم بعملية التثبيت في الكمبيوتر ثم عليك بعمل نسخ احتياطي لمدخلات التصحيح التلقائي في الكمبيوتر الأول، وهي عملية لا تزيل هذه المدخلات من الكمبيوتر، ومن قائمة ملف انقر فتح (Open / File ) وتوجه للدليل C:\Program Files\Microsoft Office\Office\Samples\ واختر Macros9.dotثم انقر لفتحها، وإذا ظهرت رسالة تحذير من الماكرو وأنه ماكرو من مايكروسوفت قم بفتح ماكرو Macros9.dot انقر على شريط أدوات الماكرو فوق Sample Macros ثم انقر AutoCorrect Utility وإذا لم يظهر شريط أدوات الماكرو بعد فتح قالب الماكرو Macros9.dot حدد أشرطة الأدوات Toolbars في قائمة العرض View وانقر ماكرو Macros. وسيظهر الحوار التالي الذي يشرح أنه بصدد القيام بعملية حفظ احتياطي لمدخلات التصحيح التلقائي This program will allow you to back up and restore your AutoCorrect entries فاختر حفظ احتياطي Backup لعمل وثيقة وورد من قائمة التصحيح التلقائي، واختر استرداد لجلب القائمة ذاتها من وثيقة محفوظة جلبتها من كمبيوتر آخر. قم بالنقر على حفظ احتياطي Backup في صندوق حوار الأداة وسيقوم وورد بإضافة المدخلات وينسقها في وثيقة وورد أخرى ويطلب منك حفظها باسم AutoCorrect Backup Document ثم حدد الموضع الذي تريد حفظها فيه. ويضم ماكرو Macros9.dot template نماذج مفيدة هي أداة التصحيح التلقائي المذكورة آنفا، وماكرو أمثلة لأتمتة العمل بين وورد وإكسل وأكسيس، وملف ماكرو Find Symbol للعثور واستبدال الرموز في الوثائق، ومولد نماذج الخطوط Font Sample Generator الذي يولد وثيقة تجمع كل أنواع الخطوط في النظام لديك بقياس 12. وماكرو لإدخال الحواشي Insert Footnote وأدوات أخرى مفيدة. الترجمة والعولمة بعد استعراضنا لبعض المنتجات المميزة في مجال ذاكرة الترجمة واستخداماتها، لا بد أن نذكر بأن جهود التعريب المشتتة والمكررة لن تساعد في دعم انطلاقة العربية في عالم التقنية. ولا بد لمن يدعو لتوحيد المصطلحات التقنية والعلمية في عملية الترجمة من تقديم خيارات ممكنة وعملية في اللغة العربية. وتبرز أهمية ذاكرة الترجمة بسبب الضعف الكبير في ناتج الترجمة من وإلى العربية مقارنة مع لغات وثقافات عديدة. وتتوفر طرق وحلول عديدة لتعريب وتوطين التقنية من خلال تقنيات الترجمة المختلفة. ولا بد من مواجهة مشاكل نقص البحوث في حلول التعريب والترجمة، بالاستثمار في دعم جهود أبحاث الترجمة الآلية للتغلب على مصاعب التعامل بالعربية مع التقنية وغيرها من المجالات. إذ أن اللغة العربية تشكو من إهمال مريع في تطويرها وتطويع التقنية لها وهي أكثر لغات العالم تراجعا بسبب ذلك. ويكفي أن ننظر إلى عدد الشركات التقنية في المنطقة العربية، والتي تفضل نشر مواقعها على الويب ومنشوراتها المطبوعة، باللغة الإنكليزية التي تنال باستمرار نصيبا وافرة من التطوير والدعم لاستيعاب وتقديم أحدث معطيات التقدم العلمي والتقني. وهنا تكمن صعوبة الترجمة من لغة تتطور لاستيعاب المستجدات التقنية والعلمية وغيرها وتقديم مفردات سلسلة لها، إلى لغة متخلفة بفعل جمود تطويرها لمواكبة متطلبات حديثة. وبدلا من مقررات تقليدية في كليات الترجمة لا بد من دراسة مقرر هام هو حلول الترجمة التقنية وأساس عملها إذا أنها لا تستغني عن الجهد البشري بل تبني بالاستناد إلى جهده لتوفر له سرعة ودقة في العمل. يمكننا أن نشير إلى تاريخ تقنية ذاكرة الترجمة، فقد كانت هناك منافسة قوية بين أي بي إم (IBM Translation Manager) وشركة ترادوس في هذه التقنية التي اعتبرت وقتها من أهم المجالات في تقنية المعلومات إلا أن ذلك تراجع بشدة لأسباب عديدة. وكان هناك لاعبون كبار مثل شركة كوريل الكندية ببرنامج كاتاليست CATALYST. ولكن الإضافة الأهم التي يمكنني ذكرها هو أن المشكلة الحقيقية تكمن في أسلوب عملنا كمترجمين عرب. فهناك طريقة سلبية في التفكير وهي تعرف باصطلاح قاتل هو (سر المهنة) فمن منا مستعد للتضحية بعصارة تجاربه وخبراته لأي كان عبر الإنترنت أو حتى ضمن شركة أو مؤسسة؟ وسبب رسوخ هذه العقلية أصلا هو المكافأة المالية المحدودة التي يتلقاه الموظف (المترجم في هذه الحالة) إلى جانب الافتقاد للأمان الوظيفي. فمن يثق بقدراته وإمكانيته للحصول على عمل آخر يمكنه تقديم ما لديه بكل ثقة لأنه يرى أنه أهم من مجموعة ضخمة من المصطلحات وما يملكه من قدرات ومهارات في التفكير والترجمة هي أهم من جزء يسير يقدمه في عمله. ومن جهة أخرى، لا تلتزم حتى الشركات الكبيرة أحيانا في مخزونها المحفوظ في ذاكرة الترجمة لعدة أسباب من تغيرات لغوية وتقنية تستدعي التعديل أو تطورات لصالح مصطلحات أثبتت هيمنتها في الاستخدام العملي. وأرى أن مفهوم ذاكرة الترجمة هو ناحية مذهلة لأنها تمثل حصيلة لا تقدر بثمن من جهود المترجمين لتصبح قريبة من الذكاء الجمعي في بعض المجالات. تخيلوا حصاد تراكم خبرات الآلاف من المترجمين خلال سنوات قليلة. وأعرف من خلال خبرتي المتواضعة في مجال الترجمة التقنية أن ما لدي من خبرات لا يعادل 10% مما كان لدى أستاذي (أحمد كتوب-سوريا) ومترجمين كبار آخرين، وأفكر دوما في الخسارة التي ستحصل لو ذهبت خبرات كل مترجم معه دون مشاركتها مع الزملاء (الأعداء) على قول المثل " ابن كارك عدوك". وحينها يمكن الحديث عن نجاعة الترجمة الآلية. وحينها أيضا يمكن للمترجمين أن ينتقلوا من العمل اليدوي لتقديم ترجمة كلمة بكلمة للدخول في مجال أوسع. ومن المشاكل الهامة التي يجب تلافيها أيضا هو تفضيل الكثيرين الابتعاد عن تقنية المعلومات في مهام وأعمال الترجمة. ومن الضروري أن ينخرط المترجم في برمجة عمل أنظمة الترجمة الآلية ليكون هو اللاعب المتحكم في نتاجها. وحبذا لو يتم التركيز على موضوع أنظمة تقنية المعلومات والبرامج الخاصة بالترجمة في كليات وجامعات تقدم اختصاص الترجمة العربية.
المقالة منقولة ,,,, للفائدة

٢٨‏/١٢‏/٢٠٠٨

مجزرة جديدة في غزة








أخي فى الله أخبرني متى تغضب؟؟؟؟ إذا انتهكت محارمنا
إذا نسفت معالمنا ولم تغضب
إذا قتلت شهامتنا
إذا ديست كرامتنا
إذا قامت قيامتنا ولم تغضب
فأخبرنى متى تغضب ؟
إذا نهبت مواردنا

إذا نكبت معاهدنا
إذا هدمت مساجدنا
وظل المسجد الأقصى وظلت قدسنا تغصب

ولم تغضب
فأخبرنى متى تغضب ؟
إذا لم يحي فيك الثأر ما نلقى

فلاتتعب
فلست لنا
ولا منا
ولست لعالم الإنسان منسوبا!!
ألم يحزنك ما تلقاه أمتنا من الذل؟

ألم يخجلك ما تجنيه من مستنقع الحل؟
وماتلقاه فى دوامة الإرهاب والقتل؟
ألم يغضبك هذا الواقع المعجون بالهول؟!
وتغضب عند نقص الملح فى الأكل !!!
عدوى أو عدوك يهتك الأعراض

يعبث فى دمى لعبا وأنت تراقب الملعب
!إذا لله ،
للحرمات ،
للإسلام
لم تغضب
فأخبرنى متى تغضب ؟
رأيت هناك أهوالا
رأيت الدم شلالا
عجائز شيعت للموت اطفالا
رأيت القعر ألوانا وأشكالا
ولم تغضب
فأخبرني متى تغضب ؟

رأيت الموت فوق رؤوسنا ينصب ولم تغضب
فصارحنى بلا خجل
لأية أمة تنسب ؟!!

٣١‏/١٠‏/٢٠٠٨

تنقيب بيانات(DATA MINING)



هذه المقالة منقولة من موقع :http://www.eco.utexas.edu/~norman/BUS.FOR/course.mat/Alex/#1




DATA MINING



Data mining is a powerful new technology with great potential to help companies
focus on the most important information in the data they have collected about the behavior of their customers and potential customers. It discovers information within the data that queries and reports can't effectively reveal
This paper explores many aspects of data mining in the following areas



Data Rich, Information Poor Data Warehouses
?What is Data Mining


?What Can Data Mining Do


The Evolution of Data Mining


? How Data Mining Works


Data Mining Technologies


Real-World Examples


The Future of Data Mining


Privacy Concerns



The amount of raw data stored in corporate databases is exploding. From trillions of point-of-sale transactions and credit card purchases to pixel-by-pixel images of galaxies, databases are now measured in gigabytes and terabytes. (One terabyte = one trillion bytes. A terabyte is equivalent to about 2 million books!) For instance, every day, Wal-Mart uploads 20 million point-of-sale transactions to an A&T massively parallel system with 483 processors running a centralized database. Raw data by itself, however, does not provide much information. In today's fiercely competitive business environment, companies need to rapidly turn these terabytes of raw data into significant insights into their customers
?and markets to guide their marketing, investment, and management strategies



Data Warehouses



The drop in price of data storage has given companies willing to make the investment a tremendous resource: Data about their customers and potential customers stored in "DATA WAREHOUSE." Data warehouses are becoming part of the technology. Data warehouses are used to consolidate data located in disparate databases. A data warehouse stores large quantities of data by specific categories so it can be more easily retrieved, interpreted, and sorted by users. Warehouses enable executives and managers to work with vast stores of transactional or other data to respond faster to markets and make more informed business decisions. It has been predicted that every business will have a data warehouse within ten years. But merely storing data in a data warehouse does a company little good. Companies will want to learn more about that data to improve knowledge of customers and markets. The company benefits when meaningful trends and patterns are extracted from the data.


?What is Data Mining



Data mining, or knowledge discovery, is the computer-assisted process of digging through and analyzing enormous sets of data and then extracting the meaning of the data. Data mining tools predict behaviors and future trends, allowing businesses to make proactive, knowledge-driven decisions. Data mining tools can answer business questions that traditionally were too time consuming to resolve. They scour databases for hidden patterns, finding predictive information that experts may miss because it lies outside their expectations.Data mining derives its name from the similarities between searching for valuable information in a large database and mining a mountain for a vein of valuable ore. Both processes require either sifting through an immense amount of material, or intelligently probing it to find where the value resides.



?What Can Data Mining Do



Although data mining is still in its infancy, companies in a wide range of industries - including retail, finance, heath care, manufacturing transportation, and aerospace - are already using data mining tools and techniques to take advantage of historical data. By using pattern recognition technologies and statistical and mathematical techniques to sift through warehoused information, data mining helps analysts recognize significant facts, relationships, trends, patterns, exceptions and anomalies that might otherwise go unnoticed.For businesses, data mining is used to discover patterns and relationships in the data in order to help make better business decisions. Data mining can help spot sales trends, develop smarter marketing campaigns, and accurately predict customer loyalty. Specific uses of data mining include:Market segmentation - Identify the common characteristics of customers who buy the same products from your company. Customer churn - Predict which customers are likely to leave your company and go to a competitor.
Fraud detection - Identify which transactions are most likely to be fraudulent .
Direct marketing - Identify which prospects should be included in a mailing list to obtain the highest response rate. Interactive marketing - Predict what each individual accessing a Web site is most likely interested in seeing. Market basket analysis - Understand what products or services are commonly purchased together; e.g., beer and diapers.


Trend analysis - Reveal the difference between a typical customer this month and last.




Data mining technology




can generate new business opportunities by Automated prediction of trends and behaviors: Data mining automates the process of finding predictive information in a large database. Questions that traditionally required extensive hands-on analysis can now be directly answered from the data. A typical example of a predictive problem is targeted marketing. Data mining uses data on past promotional mailings to identify the targets most likely to maximize return on investment in future mailings. Other predictive problems include forecasting bankruptcy and other forms of default, and identifying segments of a population likely to respond similarly to given events.Automated discovery of previously unknown patterns: Data mining tools sweep through databases and identify previously hidden patterns. An example of pattern discovery is the analysis of retail sales data to identify seemingly unrelated products that are often purchased together. Other pattern discovery problems include detecting fraudulent credit card transactions and identifying anomalous data that could represent data entry keying errors.Using massively parallel computers, companies dig through volumes of data to discover patterns about their customers and products. For example, grocery chains have found that when men go to a supermarket to buy diapers, they sometimes walk out with a six-pack of beer as well. Using that information, it's possible to lay out a store so that these items are closer.AT&T, A.C. Nielson, and American Express are among the growing ranks of companies implementing data mining techniques for sales and marketing. These systems are crunching through terabytes of point-of-sale data to aid analysts in understanding consumer behavior and promotional strategies. Why? To gain a competitive advantage and increase profitability!Similarly, financial analysts are plowing through vast sets of financial records, data feeds, and other information sources in order to make investment decisions. Health-care organizations are examining medical records to understand trends of the past so they can reduce costs in the future.


The Evolution of Data Mining



Data mining is a natural development of the increased use of computerized databases to store data and provide answers to business analysts.Evolutionary Step Business Question (Enabling Technology Data Collection (1960s
What was my total revenue in the last five years computers, tapes, disks Data Access (1980s) What were unit sales in New England last March faster and cheaper computers with more storage, relational databases Data Warehousing and Decision Support What were unit sales in New England last March Drill down to Boston faster and cheaper computers with more storage, On-line analytical processing ( OLAP),
multidimensional databases, data warehouses Data Mining What's likely to happen to Boston unit sales next month Why faster and cheaper computers with more storage, advanced computer algorithms Traditional query and report tools have been used to describe and extract what is in a database. The user forms a hypothesis about a relationship and verifies it or discounts it with a series of queries against the data. For example, an analyst might hypothesize that people with low income and high debt are bad credit risks and query the database to verify or disprove this assumption. Data mining can be used to generate an hypothesis. For example, an analyst might use a neural net to discover a pattern that analysts did not think to try - for example, that people over 30 years old with low incomes and high debt but who own their own homes and have children are good credit risks.


How Data Mining Works





How is data mining able to tell you important things that you didn't know or what is going to happen next? That technique that is used to perform these feats is called modeling. Modeling is simply the act of building a model (a set of examples or a mathematical relationship) based on data from situations where the answer is known and then applying the model to other situations where the answers aren't known. Modeling techniques have been around for centuries, of course, but it is only recently that data storage and communication capabilities required to collect and store huge amounts of data, and the computational power to automate modeling techniques to work directly on the data, have been available.As a simple example of building a model, consider the director of marketing for a telecommunications company. He would like to focus his marketing and sales efforts on segments of the population most likely to become big users of long distance services. He knows a lot about his customers, but it is impossible to discern the common characteristics of his best customers because there are so many variables. From his existing database of customers, which contains information such as age, sex, credit history, income, zip code, occupation, etc., he can use data mining tools, such as neural networks, to identify the characteristics of those customers who make lots of long distance calls. For instance, he might learn that his best customers are unmarried females between the age of 34 and 42 who make in excess of $60,000 per year. This, then, is his model for high value customers, and he would budget his marketing efforts to accordingly.Data Mining TechnologiesThe analytical techniques used in data mining are often well-known mathematical algorithms and techniques. What is new is the application of those techniques to general business problems made possible by the increased availability of data and inexpensive storage and processing power. Also, the use of graphical interfaces has led to tools becoming available that business experts can easily use.
Some of the tools used for data mining are:
Artificial neural networks - Non-linear predictive models that learn through training and resemble biological neural networks in structure.Decision trees - Tree-shaped structures that represent sets of decisions. These decisions generate rules for the classification of a dataset.Rule induction - The extraction of useful if-then rules from data based onstatistical significance . Genetic algorithms - Optimization techniques based on the concepts of genetic combination, mutation, and natural selection.Nearest neighbor - A classification technique that classifies each record based on the records most similar to it in an historical database.


Real-World Examples



Details about who calls whom, how long they are on the phone, and whether a line is used for fax as well as voice can be invaluable in targeting sales of services and equipment to specific customers. But these tidbits are buried in masses of numbers in the database. By delving into its extensive customer-call database to manage its communications network, a regional telephone company identified new types of unmet customer needs. Using its data mining system, it discovered how to pinpoint prospects for additional services by measuring daily household usage for selected periods. For example, households that make many lengthy calls between 3 p.m. and 6 p.m. are likely to include teenagers who are prime candidates for their own phones and lines. When the company used target marketing that emphasized convenience and value for adults - "Is the phone always tied up?" - hidden demand surfaced. Extensive telephone use between 9 a.m. and 5 p.m. characterized by patterns related to voice, fax, and modem usage suggests a customer has business activity. Target marketing offering those customers "business communications capabilities for small budgets" resulted in sales of additional lines, functions, and equipment.The ability to accurately gauge customer response to changes in business rules is a powerful competitive advantage. A bank searching for new ways to increase revenues from its credit card operations tested a nonintuitive possibility: Would credit card usage and interest earned increase significantly if the bank halved its minimum required payment? With hundreds of gigabytes of data representing two years of average credit card balances, payment amounts, payment timeliness, credit limit usage, and other key parameters, the bank used a powerful data mining system to model the impact of the proposed policy change on specific customer categories, such as customers consistently near or at their credit limits who make timely minimum or small payments. The bank discovered that cutting minimum payment requirements for small, targeted customer categories could increase average balances and extend indebtedness periods, generating more than $25 million in additional interest earned,Merck-Medco Managed Care is a mail-order business which sells drugs to the country's largest health care providers: Blue Cross and Blue Shield state organizations, large HMOs, U.S. corporations, state governments, etc. Merck-Medco is mining its one terabyte data warehouse to uncover hidden links between illnesses and known drug treatments, and spot trends that help pinpoint which drugs are the most effective for what types of patients. The results are more effective treatments that are also less costly. Merck-Medco's data mining project has helped customers save an average of 10-15% on prescription costs.


The Future of Data Mining



In the short-term, the results of data mining will be in profitable, if mundane, business related areas. Micro-marketing campaigns will explore new niches. Advertising will target potential customers with new precision.In the medium term, data mining may be as common and easy to use as e-mail. We may use these tools to find the best airfare to New York, root out a phone number of a long-lost classmate, or find the best prices on lawn mowers.The long-term prospects are truly exciting. Imagine intelligent agents turned loose on medical research data or on sub-atomic particle data. Computers may reveal new treatments for diseases or new insights into the nature of the universe. There are potential dangers, though, as discussed below.


Privacy Concerns



What if every telephone call you make, every credit card purchase you make, every flight you take, every visit to the doctor you make, every warranty card you send in, every employment application you fill out, every school record you have, your credit record, every web page you visit ... was all collected together? A lot would be known about you! This is an all-too-real possibility. Much of this kind of information is already stored in a database. Remember that phone interview you gave to a marketing company last week? Your replies went into a database. Remember that loan application you filled out? In a database. Too much information about too many people for anybody to make sense of? Not with data mining tools running on massively parallel processing computers! Would you feel comfortable about someone (or lots of someones) having access to all this data about you? And remember, all this data does not have to reside in one physical location; as the net grows, information of this type becomes more available to othere people.

٢٠‏/١٠‏/٢٠٠٨

References For Algorithm Analysis And Design

references for algorithm analysis and design
Here are some web-sites that might be useful
if you'd like extra solved problems to work on.
One is a student-run web-site for the algorithms class
at berkeley that has sample exams from 1993-2000
with solutions for the most recent years.
http://www-hkn.eecs.berkeley.edu/student/online/cs/170/
The second is for an algorithms course at Carnegie Mellon
that has problem sets with solutions and some sample exams.
http://www.cs.cmu.edu/afs/cs/academic/class/15451-f00/www/
And there are a couple of really fun sites
which both have nifty interactive applets
for trees, graphs and sorting.
http://www.seas.gwu.edu/~idsv/
and try visit this Blog: