קורפוס העברית: מאגר חדש של שיחות בעברית דבורה

Authors

  • מיכל מרמורשטיין
  • נדב מטלון

Keywords:

שפה דבורה, בלשנות האינטראקציה, ניתוח השיחה, מאגר שיחות, קורפוס עברית דבורה

Abstract

מאמר זה מדווח על כינונו של קורפוס העברית הדבורה של האוניברסיטה העברית – קורפוס העברית. משאב חדש זה נועד למלא את החסר הבולט במאגר זמין לכול, המתעד נתונים של דיבור טבעי וספונטני בעברית עכשווית. קורפוס העברית כולל שיחות יומיום בעברית בת־ימינו בין סטודנטים באוניברסיטה ובין בני משפחתם וחבריהם, שנערכו בטלפון או פנים אל פנים. חלקו הראשון של הקורפוס, שהועלה למרשתת, כולל את קובצי השמע של שיחות הטלפון ותעתיקים של חלקים נבחרים מתוך השיחות. ההחלטה להתמקד בשיחות טלפון בחלקו הראשון של הקורפוס נעשתה מתוך כוונה להפחית מהמורכבות הסמיוטית ולהתרכז במאפיינים הלשוניים, המילוליים והקוליים של השיחה. ייצוג הנתונים נוהג לפי עקרונות ושיטות של בלשנות האינטראקציה. בהתאם לכך נעשה שימוש בשיטת אָנוטציה פורמלית שלוכדת באופן מדויק את מאפייני הדיבור והאינטראקציה בעברית. חלקו השני של המאגר, הנמצא בפיתוח, כולל קובצי וידאו ותעתיקים של שיחות שהתקיימו פנים אל פנים.

Published

2024-09-16