La correction d’el-Badry

Données disponibles
Méthode
Résultats souhaités

Description de la méthode

La correction d’el Badry consiste à corriger les erreurs dans les données sur les enfants déjà nés dues au fait que les agents recenseurs laissent vide la réponse à la question sur la descendance, quand il faudrait indiquer ‘zéro’. Quand ceci survient, la réponse est codée ‘manquante’ ou ‘inconnue’ lors de l’exploitation des données, même s’il était évident pour l’agent recenseur au moment de la collecte des données que la bonne réponse était ‘zéro’. La méthode répartit le nombre de femmes dont la parité est enregistrée comme ‘manquante’ entre celles dont la parité est considérée comme réellement inconnue, et celles qui auraient dû être enregistrées comme sans enfants mais dont les réponses ont été laissées vides. Cette répartition est faite au niveau agrégé, pas au niveau individuel.

Données nécessaires et hypothèses

La méthode s’appuie sur le nombre d’enfants déjà nés, classé par groupe d’âge de la mère, y compris les femmes dont les données sont manquantes (c’est-à-dire dont la réponse a été laissée vide ou a été codée hors de l’intervalle des possibles ou a été codée ‘non réponse’ ou ‘refus’).

La méthode suppose qu’une proportion constante de femmes à chaque âge n’a effectivement pas répondu à la question sur la parité lors de la collecte des données. Les autres femmes sans réponse sont supposées être à tort considérées comme non répondantes, alors qu’elles sont en fait sans enfants.

Précautions et mises en garde

La méthode repose sur l’existence d’une relation linéaire entre les proportions de femmes dont la parité n’est pas déclarée et celles des femmes déclarées sans enfants. Si on observe une telle relation linéaire, le dénominateur ajusté utilisé dans le calcul des parités moyennes doit exclure les femmes dont la parité (après correction) continue d’être considérée comme inconnue. Ceci reflète l’hypothèse implicite que la distribution de ces femmes par parité ne diffère pas de celle des femmes du même âge dont la parité est connue.

Lorsque les données indiquent la nécessité d’une correction parce que la proportion d’informations manquantes sur la parité est importante, mais que la méthode ne peut pas être appliquée (par exemple parce qu’on n’a pas de données par âge ou parce que l’hypothèse de linéarité n’est pas respectée), les femmes de parité inconnue doivent être incluses dans le dénominateur utilisé pour calculer les parités moyennes. L’hypothèse implicite est alors que la parité de ces femmes est nulle (c’est-à-dire que toutes les femmes de parité inconnue sont sans enfants). Il en résulte évidemment une sous-estimation des parités moyennes, puisque en fait une partie des femmes de parité inconnue ne sont pas sans enfants.

Application de la méthode

Nous définissons N i = N 5 a comme étant le nombre de femmes dans le groupe d’âge i dans la population, pour a = 15, 20, …, 45 et i = a/5-2. Ainsi, N1 représente le nombre de femmes âgées de 15-19 ans dans la population. Nous notons Ni,j le nombre de femmes du groupe d’âge i de parité j et Ni,u le nombre de femmes du groupe d’âge i dont la parité est inconnue.

Etape 1 : Déterminer la proportion de femmes dans chaque groupe d’âge dont la parité est a) non déclarée et b) déclarée nulle

Extraire des données du recensement un tableau du nombre d’enfants déjà nés (j) par groupe d’âge des femmes (i) pour obtenir Ni,j. Pour chaque groupe d’âge, les données où la parité manque (c’est-à-dire les réponses laissées vides et les codes non valables) doivent être combinées aux codes de parité non déclarée pour établir Ni,u. La proportion de femmes du groupe d’âge i dont la parité est inconnue est alors

U i = N i,u N i

La proportion de femmes du groupe d’âge i qui se sont déclarées sans enfants (c’est-à-dire de parité zéro) est donnée par

Z i = N i,0 N i

Si les Ui sont faibles (moins de 2 % dans chaque groupe d’âge), la correction n’en vaut pas la peine. Dans ce cas, les parités moyennes doivent être calculées en supposant que la distribution par parité des femmes dont la parité est inconnue est la même que celle des femmes dont la parité est connue, en omettant les femmes dont la parité est inconnue du dénominateur lors du calcul. Ainsi, si Pi est la parité moyenne des femmes du groupe d’âge i,

P i = j=0 ω j. N i,j j=0 ω N i,j

Si les proportions de femmes dont la parité n’est pas établie dépassent 2 %, il est utile de voir s’il est possible d’appliquer la correction.

Etape 2 : Représenter graphiquement les points (Zi, Ui) et évaluer la qualité des données

Pour que la méthode fonctionne correctement, la série de points (Zi, Ui) doit se situer sur une droite, ou très proche d’une droite. Dans certains cas, une courbure peut être observée aux points correspondant soit aux jeunes âges soit aux âges avancés. Si la courbure affecte seulement les âges avancés, même si elle est forte, on peut exclure de l’ajustement le groupe d’âge le plus élevé, ou les deux plus élevés, et ajuster une droite sur les points restants puisque la méthode a son impact absolu le plus fort sur les proportions non déclarées aux plus jeunes âges. Si la courbure est surtout prononcée chez les jeunes femmes, le recours à la méthode est impossible car une régression excluant les points relatifs aux femmes âgées de 15-24 ans conduirait à une extrapolation hors de l’échantillon, qui pourrait suggérer des ajustements illogiques dans ces groupes d’âge.

Si on ne peut pas identifier clairement une relation, même après avoir exclu un ou deux points relatifs aux femmes âgées, la méthode ne peut pas être appliquée. Dans un tel cas, il est préférable de supposer que toutes les femmes sans parité établie sont sans enfants, et de les inclure dans le dénominateur du calcul de la parité moyenne

P i = j=0 ω j. N i,j N i

Le rapport d’analyse doit indiquer qu’il a été procédé ainsi, et que par conséquent les valeurs des parités moyennes sont susceptibles d’être sous-estimées.

Etape 3 : Déterminer la pente et l’ordonnée à l’origine de la meilleure droite d’ajustement aux données

La pente (γ) et l’ordonnée à l’origine (β) de la droite d’ajustement sont déterminées au moyen d’une régression linéaire de Ui sur Zi appliquée aux points retenus, c’est-à-dire U i =β+γ Z i

L’ordonnée à l’origine (β), qui est indépendante de l’âge (i), est l’estimation de la proportion des femmes dans chaque groupe d’âge de parité inconnue dont la parité est considérée comme réellement inconnue, et non mal déclarée.

Etape 4 : Estimation révisée des nombres de femmes sans enfants, et de femmes dont la parité n’est pas déclarée

La proportion ajustée des femmes du groupe d’âge i qu’on a estimées être vraiment sans enfants est donnée par

Z i * = Z i + U i β

La proportion révisée de femmes de parité zéro est donc égale à la proportion effectivement déclarée de parité zéro, à laquelle s’ajoute la proportion de femmes de ce groupe d’âge de parité non déclarée et se retranche la proportion estimée de femmes dont la parité est considérée comme vraiment inconnue. L’estimation révisée du nombre de femmes sans enfants dans le groupe d’âge i est donnée par

N i,0 * = N i × Z i *

L’estimation de la proportion réelle de femmes de chaque groupe d’âge dont la parité est inconnue est donc donnée par

N i,u * = N i ×β

Les N i,j * pour les autres parités (j > 0) restent inchangées.

Etape 5 : Calcul des parités moyennes

Si une correction d’el Badry a été appliquée aux données, les parités moyennes sont données par :

P i = j=0 ω j. N i,j * (1β) N i

reflétant l’hypothèse selon laquelle les femmes dans le groupe d’âge i qui restent de parité inconnue, βNi – qui sont omises au dénominateur – ont la même parité moyenne que les femmes du groupe d’âge i dont la parité est connue.

Interprétation et contrôles

La valeur de β mesure la proportion estimée de femmes dont la parité n’est réellement pas déclarée. Plus β est élevé, moins bonne est la qualité des données.

La méthode peut parfois avoir un effet contraire, en donnant à penser que le nombre de femmes de parité non déclarée est sous-estimé et que le nombre de femmes ayant déclaré une parité zéro doit être réduit. C’est le cas lorsque β > Ui. La correction ne doit alors pas être appliquée dans ce groupe d’âge.

Exemple

La feuille de calcul jointe met la méthode en application sur les données du recensement du Kenya en 1989, diffusées par IPUMS. Les données originelles sont au tableau 1.

Tableau 1 Enfants déjà nés, par groupe d’âge de la mère à la date de recensement, Kenya, recensement de 1989

 

Groupe d’âge (i)

 

15-19

20-24

25-29

30-34

35-39

40-44

45-49

Parité

1

2

3

4

5

6

7

0

597 560

198 600

59 400

23 120

14 580

11 040

9 560

1

134 700

224 660

83 140

26 140

13 620

9 460

7 740

2

38 120

202 300

120 940

38 340

19 180

13 240

9 280

3

11 120

126 500

150 500

53 880

28 020

17 000

12 440

4

6 820

59 700

146 500

73 280

37 340

21 400

14 800

5

1 740

33 720

102 300

87 720

48 140

28 980

18 560

6

0

12 480

58 980

83 580

56 520

35 260

26 280

7

0

0

57 180

91 800

56 240

41 260

28 640

8

0

0

0

64 740

56 560

42 700

32 920

9

0

0

0

0

40 780

39 480

33 000

10

0

0

0

0

26 840

32 240

27 920

11

0

0

0

0

14 920

22 840

21 920

12

0

0

0

0

8 280

14 660

14 720

13

0

0

0

0

3 740

7 900

8 920

14

0

0

0

0

2 180

4 080

4 900

15

0

0

0

0

1 260

2 100

2 860

16

0

0

0

0

960

1 200

1 540

17

0

0

0

0

520

680

1 000

18

0

0

0

0

420

520

620

19

0

0

0

0

140

340

380

20

0

0

0

0

160

300

280

21

0

0

0

0

240

160

280

22

0

0

0

0

40

100

60

23

0

0

0

0

20

20

80

24

0

0

0

0

60

20

80

25

0

0

0

0

60

40

0

26

0

0

0

0

60

40

80

27

0

0

0

0

80

40

60

28

0

0

0

0

20

40

40

29

0

0

0

0

20

0

40

30

0

0

0

0

340

440

360

Non déclarée

402 780

147 540

61 920

31 580

20 240

15 420

12 960

TOTAL

1 192 840

1 005 500

840 860

574 180

451 580

363 000

292 320

                       

L’examen des données montre qu’elles ont été corrigées pour éliminer les déclarations de parités élevées par les femmes de moins de 35 ans. La règle de correction appliquée lors de la phase préparatoire a été plus stricte que celle que nous avons suggérée à la section sur l’évaluation de la qualité des données sur les descendances. Ainsi les déclarations de femmes âgées de 20-24 ans ont été limitées aux parités 6 ou moins (plutôt que 8), les déclarations des femmes âgées de 25-29 ans ont été tronquées à la parité 7 (au lieu de 12) et celles des femmes âgées de 30-34 ans à la parité 8 (et non 15). En revanche, des parités peu vraisemblables ont été conservées à partir de 35 ans. C’est pourquoi nous pouvons corriger légèrement les données en italiques du tableau 1 en plaçant dans la catégorie Non déclarée les déclarations de parité supérieures à 18 pour le groupe 35-39 ans, supérieures à 22 dans le groupe 40-44 ans, et supérieures à 25 dans le dernier groupe, 45-49 ans.

Vous pouvez sélectionner une option dans le tableau Introduction de la feuille de calcul pour transférer les parités peu vraisemblables dans la catégorie « Non déclarée » avant l’application de la méthode.

Etape 1 : Déterminer la proportion de femmes dans chaque groupe d’âge dont la parité est a) non déclarée et b) déclarée nulle

Le tableau 2 présente les données révisées, en même temps que le calcul de la proportion de femmes de parité zéro, et de parité nulle dans chaque groupe d’âge.

Tableau 2 Correction des données de parité, et calcul de la proportion de femmes de parité zéro et de parité non déclarée, Kenya, recensement de 1989

 

Groupe d’âge (i)

 

15-19

20-24

25-29

30-34

35-39

40-44

45-49

Parité

1

2

3

4

5

6

7

0

597 560

198 600

59 400

23 120

14 580

11 040

9 560

1

134 700

224 660

83 140

26 140

13 620

9 460

7 740

2

38 120

202 300

120 940

38 340

19 180

13 240

9 280

3

11 120

126 500

150 500

53 880

28 020

17 000

12 440

4

6 820

59 700

146 500

73 280

37 340

21 400

14 800

5

1 740

33 720

102 300

87 720

48 140

28 980

18 560

6

0

12 480

58 980

83 580

56 520

35 260

26 280

7

0

0

57 180

91 800

56 240

41 260

28 640

8

0

0

0

64 740

56 560

42 700

32 920

9

0

0

0

0

40 780

39 480

33 000

10

0

0

0

0

26 840

32 240

27 920

11

0

0

0

0

14 920

22 840

21 920

12

0

0

0

0

8 280

14 660

14 720

13

0

0

0

0

3 740

7 900

8 920

14

0

0

0

0

2 180

4 080

4 900

15

0

0

0

0

1 260

2 100

2 860

16

0

0

0

0

960

1 200

1 540

17

0

0

0

0

520

680

1 000

18

0

0

0

0

420

520

620

19

0

0

0

0

0

340

380

20

0

0

0

0

0

300

280

21

0

0

0

0

0

160

280

22

0

0

0

0

0

100

60

23

0

0

0

0

0

0

80

24

0

0

0

0

0

0

80

25

0

0

0

0

0

0

0

U

402 780

147 540

61 920

31 580

21 480

16 060

13 540

TOTAL

1 192 840

1 005 500

840 860

574 180

451 580

363 000

292 320

Ui

0,338

0,147

0,074

0,055

0,048

0,044

0,046

Zi

0,501

0,198

0,071

0,040

0,032

0,030

0,033

Les données incluent des proportions élevées de femmes de parité non déclarée à 15-19 ans ( 402,780 1,192,840 =0.338 ) , à 20-24 ans (0,147) et, dans une moindre mesure, dans les groupes d’âge plus avancé. La proportion de femmes se déclarant sans enfants (Zi) recule rapidement, de 50 % environ dans le premier groupe d’âge à 3 % environ à la fin de la période féconde. Sur cette base, il est utile de voir si une correction d’el Badry peut être appliquée aux données.

Etape 2 : Représenter graphiquement les points (Zi, Ui) et évaluer la qualité des données

Les points correspondant à chaque paire de Zi et Ui sont portés sur la figure 1 (sous forme de losanges bleus). La ligne droite ajustée aux points est représentée en rouge. Si un point est exclu de l’ajustement, il est représenté sur la feuille de calcul par un losange sans couleur.

 

Image
Figure 1 Fitting of el-Badry correction, Kenya 1989 census
Figure 1 Fitting of el-Badry correction, Kenya 1989 census

Etape 3 : Déterminer la pente et l’ordonnée à l’origine de la meilleure droite d’ajustement aux données

La régression linéaire de Ui sur Zi pour les points sélectionnés donne comme valeur de l’ordonnée à l’origine (béta) 0,02745. Ce résultat conduit à penser qu’environ 2,7 % des données sur les parités des femmes peuvent être considérées comme réellement manquantes.

Etape 4 : Estimation révisée des nombres de femmes sans enfants, et femmes dont la parité n’est pas déclarée

Le nombre révisé de femmes de parité zéro est donné par

N i,0 * = N i ( Z i + U i β)

, alors que les nombres révisés des femmes de parité inconnue sont calculés en multipliant le nombre total de femmes dans chaque groupe d’âge par β, comme le montre le tableau 3. Par exemple, le nombre de femmes âgées de 20-24 ans qu’on estime vraiment de parité inconnue est donné par 0,02745*1 005 500=27 603. L’estimation corrigée du nombre de femmes sans enfants âgées de 15-19 ans est donnée par 1 192 840*(0,501+0,338-0,027)=967 594.

Tableau 3 Estimations révisées des nombres de femmes de parité non déclarée et de femmes sans enfants par âge, Kenya, recensement de 1989

 

15-19

20-24

25-29

30-34

35-39

40-44

45-49

Parité non déclarée révisée

  32 746

27 603

23 084

15 763

12 397

9 965

8 025

Parité zéro révisée

967 594

318 537

98 236

38 937

23 663

17 135

15 075

Par exemple, le nombre de femmes âgées de 20-24 ans qu’on estime vraiment de parité inconnue est donné par 0,02745*1 005 500=27 603. L’estimation corrigée du nombre de femmes sans enfants âgées de 15-19 ans est tirée de 1 192 840*(0,501+0,338-0,027)=967 594.

Etape 5 : Calcul des parités moyennes

Puisqu’on a appliqué une correction d’el Badry, l’équation 2 permet d’obtenir les parités moyennes corrigées figurant au tableau 4.

Tableau 4 Parités moyennes corrigées par groupe d’âge, Kenya, recensement de 1989

 

15-19

20-24

25-29

30-34

35-39

40-44

45-49

Parité moyenne

0,242

1,525

3,214

4,760

6,239

7,120

7,510

Par rapport aux parités moyennes obtenues sans application de la correction (en supposant donc que les femmes sans parité déclarée sont de parité zéro), la correction accroit les parités dans chaque groupe d’âge par une constante, 1/(1−β ).

Description détaillée de la méthode

La méthode est décrite entièrement dans el Badry (1961). L’idée fondamentale d’el Badry est que, si on peut supposer que :

1) Il existe une relation linéaire entre les proportions de femmes sans enfants d’un âge donné dans la population et la proportion de femmes dont la parité n’est pas déclarée, et

2) La proportion réelle, inconnue, de femmes dont la parité n’est pas connue est une constante indépendante de l’âge, alors

U i =α Z i * +β

αZ*i est la proportion de femmes réellement sans enfants déclarées de parité inconnue, et β est la proportion réelle, constante, de femmes sans parité déclarée.

Donc, si αZ*i ont été classées par erreur comme non déclarées, alors qu’elles sont vraiment sans enfants, alors

Z i = Z i * α Z i * =(1α) Z i * .

et donc

Z i * = Z i (1α)

et en remplaçant dans l’équation 3,

U i = α 1a Z i +β=γ Z i +β

où gamma peut être considéré comme la probabilité qu’une femme sans enfants soit classée comme étant de parité inconnue.

Donc une régression de Zi sur Ui donnera des estimations de β (ainsi que de γ et α).

De l’équation 3, nous tirons alors

U i β=α Z i * = Z i * Z i

et donc

Z i * = N i,0 * = U i β+ Z i

et

U i * =β N i

Notons que, bien que nous ayons deux identités incluant Zi, elles vont donner une seule et même réponse si l’ajustement est exact. Par convention nous préférons utiliser l’équation 3 plutôt que l’équation 4 parce qu’elle repose sur les valeurs ajustées de β (la proportion estimée des parités vraiment non déclarées), plutôt que sur la valeur de α, qui est difficile à interpréter intuitivement.

Une fois obtenues les valeurs corrigées de Z*i et U*i les parités moyennes peuvent être calculées à partir de l’équation 2.

En appliquant la correction, on doit s’assurer que, dans chaque groupe d’âge, le nombre ajusté de femmes sans enfants (c’est-à-dire de parité zéro) est inférieur au nombre de femmes ne déclarant pas d’enfants au cours de la période de référence, en réponse à la question sur la fécondité récente. Le Z*i révisé peut donc être utilisé pour déterminer le nombre minimum de femmes qui ne pourraient pas avoir eu de naissance dans la période de référence précédant le recensement.

L’annexe II du Manuel X (Division de la population des NU 1984) donne une version de la correction d’el Badry adaptée aux situations (désormais rares) où les questions sur les nombres d’enfants déjà nés ne sont posées qu’aux femmes mariées.

Références

Division de la Population des Nations Unies. 1984. Manuel X. Techniques indirectes d’estimation démographique. New York : Nations Unies, Département des affaires économiques et sociales internationales, ST/ESA/SER.A/81. https://unstats.un.org/unsd/demographic/standmeth/handbooks/Manuel_X-fr.pdf

el-Badry MA. 1961. “Failure of enumerators to make entries of zero: errors in recording childless cases in population censuses”, Journal of the American Statistical Association 56(296):909–924. doi: https://dx.doi.org/10.1080/01621459.1961.10482134

Author
Moultrie TA
Related documents
Suggested citation
Moultrie TA. 2014. La correction d’el-Badry . In Moultrie TA, Dorrington RE, Hill AG, Hill K, Timæus IM and Zaba B (eds). Tools for Demographic Estimation. Paris: International Union for the Scientific Study of Population. https://demographicestimation.iussp.org/fr/content/la-correction-del-badry. Accessed 2025-01-22.